Позиционные дифференциальные игры - Красовский Н.Н., Субботин А.И.

Автор: Красовский Н.Н. Субботин А.И.
Теги: математика математическая физика монография теория игр прикладная математика
Год: 1974
Похожие
Позиционные игры
Игровые задачи о встрече движений
Теория игр
Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации
Текст
                    Н Н Красовский
А.И. Субботин
Позиционные дифференциальные игры
Н. Н. Красовский, А. И. Субботин
Позиционные дифференциальные игры
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
Москва 1974
517.2
К 78
УДК 519.95
Позиционные дифференциальные игры. Н Н. К р а-совский, А. И. Субботин. Главная редакция физико-математической литературы изд-ва «Наука», М., 1974.
В монографии дается описание основных прикладных задач (регулирование с неполной информацией, задачи преследования и убегания), которые вызвали к жизни изучаемый в ней объект прикладной математики — дифференциальную игру.
Затем предлагается строгая математическая модель рассматриваемых позиционных дифференциальных игр. Исследуется общая структура оптимальных решений игровых задач динамики и проводится качественный анализ этих решений (корректность, устойчивость и т. д.). Предлагаются алгоритмы для осуществления позиционных стратегий и приводятся примеры реализации их на ЭВМ для типичных модельных задач.
Книга может представлять интерес для специалистов по прикладной математике и механике, для аспирантов и студентов математических и инженерно-физических специальностей.
Книга содержит 47 рис. Библ, названий 171.
Николай Николаевич Красовский
Андрей Измаилович Субботин
у	ПОЗИЦИОННЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ
М., 1974 г., 456 стр. с илл.
Редактор И. М. Овчинникова
Техн, редакторы ,В. Д. Элъкинд, В. Н. Кондакоза
Корректор М. Л. Медведская
Сдано в набор 5/VI 1974 г, Подписано к печати 25/XI 1974 г. Бумага 60Х90716, тип. № I.
Физ. печ. л. 28,5. Усл. печ. л. 28,5. Уч.-изд. л. 28,88. Тираж 9600 экз. Т-18677.
Цена книги 2 р. 06 к. Заказ № 243
Издательство «Наука»
Главная редакция физико-математической литературы
117071, Москва, В-71, Ленинский проспект, 15
Ордена Трудового Красного Знамени Ленинградская типография № 2 име.ни Евгении Соколовой Союзполиграфпрома при Государственном комитете Совета Министров СССР по делам издательств, полиграфии и книжной торговли
198052, Ленинград, Л-52, Измайловский проспект, 29
К
20204—151
053 (02)-74 52’74
© Главная редакция физико-математической литературы издательства «Наука», 1974.
ОГЛАВЛЕНИЕ
Введение..........................................*.........  •
Глава I. Игровое управление......................................
§ 1.	Классификация...........................................
§	2.	Игровое управление...................................24
§	3.	Конфликтная ситуация .	. . ..........26
§	4.	Регулирование в условиях	неопределенной помехи.28
§	5.	Информационная игровая	задача....................29
Глава II. Дифференциальная игра................................................31
§	6.	Стратегии и движения.......................31
§	7.	Свойства движений...................37
§	8.	Постановка задачи.......................44
Глава III. Игра сближения — уклонения..........................................49
§ 9.	Игра сближения — уклонения.......................	... 49
§	10.	Эвристические соображения....................50
§	11.	Стабильный мост....................... 52
§	12.	Маленькая игра ........................................55
§	13.	Экстремальная стратегия........................57
§	14.	Оценка........................................59
§	15.	Экстремальный барьер....................61
§	16.	Максимальный стабильный мост..............65
§	17.	Альтернатива..............................................68
Глава IV. Игровые задачи динамики..............................................71
§ 18.	Игра с фиксированным временем окончания...............................71
§ 19.	, Игра на минимакс — максимин времени	до встречи......................79
§ 20.	Игра на перехват......................................................86
§ 21.	Примеры ..............................................................88
Глава V. Динамическое программирование.........................................98
§ 22.	Предварительные замечания.............................................98
§ 23.	Динамическое программирование.........................................99
§ 24.	Гладкий потенциал е..................................................108
1*
4
ОГЛАВЛЕНИЕ
§ 25.	Гладкий потенциал в игре с фиксированным моментом окончания ........................................................ Юв
§ 26.	Пример ....................................................108
§ 27.	Усложненная	игра	с	фиксированным моментом окончания . .113
§ 28.	Линейно-квадратичная	игра..................................114
Глава VI. Программные конструкции . , х . *.........................120
§ 29.	Программное поглощение (содержательный аспект).............120
§ 30.	Программные управления и движения..........................123
§ 31.	Пример.....................................................127
§ 32.	Свойства программных движений............................  129
§ 33.	Уравнение в вариациях......................................132
§ 34.	Вспомогательные программные задачи.........................135
§ 35.	Программное поглощение цели в момент '6....................139
§ 36.	Принцип минимума...........................................141
§ 37.	Правило максимина..........................................144
Глава VII. Экстремальное прицеливание............................. . 149
§ 38.	Регулярная игра сближения..................................149
§ 39.	Экстремальное прицеливание...............................  155
§ 40.	Экстремальное прицеливание в линейной системе..............159
§ 41.	Регулярная игра сближения в линейной системе...............167
§ 42.	Регулярная игра сближения к моменту 0....................  171
§ 43.	Условия стабильности в игре сближения к моменту О . . . . 175
§ 44.	Экстремальное прицеливание в задаче об уклонении...........184
§ 45.	Условия стабильности в игре уклонения до момента О . . . .188
§ 46.	Обобщенное экстремальное прицеливание в линейной дифференциальной игре уклонения.......................................191
§ 47.	Примеры ...................................................196
Глава VIII. Априори стабильные мосты.............................207
§ 48.	Стабильная дорожка .'...................................207
§ 49.	Стабильное интегральное многообразие.................. 212
§ 50.	Программные конструкции для априори стабильных	мостов	.	.	218
§ 51.	Априори стабильный мост для линейной системы............222
§ 52.	Стабильные интегральные многообразия для линейных	систем	.	228
§ 53.	Примеры .................................................  231
Глава IX. Корректность решений дифференциальных игр	.....	.	234
§ 54.	Проблема корректности решений...........................234
§ 55.	Непрерывные стратегии и обобщенные движения.............237
§ 56.	Условия устойчивости экстремального управления..........243
§ 57.	Управление с поводырем..................................248
ОГЛАВЛЕНИЕ
5
f л а в а X. Стабилизация решений дифференциальных игр...............255
§ 58.	Устойчивое отслеживание поводыря............................255
§59.	Стабилизация отслеживания поводыря в линейном случае . . . 258
§ 60.	Уклонение на бесконечном интервале времени..................262
§ 61.	Уравнение движения с малым параметром при производной . . 267
§ 62.	Примеры ....................................................270
Глава XI. Смешанные стратегии в дифференциальных играх .... 281
§ 63.	Детерминированные и стохастические управления...............281
§ 64.	Смешанные стратегии, движения.............................. 233
§ 65.	Альтернатива ...............................................286
§ 66.	Построение й-стабильных мостов .............................291
§ 67.	Аппроксимация смешанных стратегий...........................234
Глава XII. Эффективные мосты для смешанных стратегий.................299
§ 68.	Динамическое программирование...............................299
§ 69.	Пример......................................................301
§ 70.	Программные конструкции . .	 305
§ 71.	Регулярная игра сближения в момент О........................309
§ 72.	Собственно линейная система ................................312
§ 73.	Стабильность для игры сближения к моменту	0*................314
§ 74.	Стабильность для задачи об уклонении........................318
§ 75.	Априори стабильные мосты....................................321
§ 76.	Программные конструкции априори стабильных мостов . . . 324
Глава XIII. Стохастическое позиционное управление................329
§ 77.	Стохастическое управление с поводырем................... 329^
§ 78.	Альтернатива для стохастических позиционных управлений .	.	334
§ 79.	Основная оценка.........................................338
§ 80.	Примеры ................................................... 248
Глава XIV. Минимаксная дифференциальная игра.................... «	.	353
§ 81.	Минимаксная игра, стратегии, контрстратегии, движения . .	.	353
§ 82.	Альтернатива для минимаксной игры.......................359
§ 83.	Аппроксимация в классе контрстратегий...................364
§ 84.	Динамическое программирование...........................371
§ 85.	Программные конструкции.................................373
§ 86.	Минимаксное прицеливание в собственно линейной системе .	.	376
§ 87.	Априори стабильные мосты................................382
§ 88.	Примеры .................................................. . 387
Глава XV. Информационная игровая задача..........................406
§89.	Постановка задачи (содержательный аспект)...............406
§ 90.	Постановка задачи (формальный аспект)...................409
§ 91.	Стабильный мост.........................................415
6	ОГЛАВЛЕНИЕ
§ 92.	Экстремальный барьер...................................417
§ 93.	Программное поглощение цели...........................419*
§ 94.	Регулярная информационная задача сближения ...... 420
Глава XVI. Дифференциальные игры с запоминанием информации . . 425
§ 95.	Постановка задачи....................................  425
§ 96.	Альтернатива .......................................  429»
§ 97.	Структура игры....................................... 435-
§ 98.	Пример............................................... 439*
Справочная литература......................................... 446,
Специальная литература.......................................'	. 447
Предметный указатель.......................................... 456,
ВВЕДЕНИЕ
Предмет изучения в данной монографии составляют конфликтные задачи об управлении объектами, которые описываются обыкновенными дифференциальными уравнениями. Такие задачи принято объединять термином дифференциальные игр ы. Книга отражает концепцию позиционной дифференциальной игры двух лиц, предложенную авторами и развитую затем в их работах и в работах других авторов. Разумеется, те или иные конструкции, описываемые в монографии, так или иначе пересекаются с построениями других авторов. Соответствующая библиография приведена в конце книги. Однако авторы отказались от специального исторического обзора и от включения в текст книги сопровождающего библиографического комментария. Это вызвано трудностью объективного учета всех достойных упоминания работ из быстро расширяющегося потока публикаций. Кроме того, рассматриваемые в монографии конструкции объединен^! общей концепцией и приспособлены для работы в ее рамках. Выход за эти рамки для выяснения связей с построениями, которые исходят из других трактовок дифференциальных игр, существенно увеличил бы объем книги и изменил бы весь характер изложения. Поэтому авторы ограничились некоторыми^ совсем беглыми библиографическими замечаниями только во введении. Ссылки же на литературные источники, которые делаются по ходу основного изложения, относятся лишь к известным фактам или терминам общематематического характера.
Дифференциальные игры имеют своим источником практические задачи. Эти задачи укладываются в следующую общую схему. Имеется динамическая система, описываемая дифференциальными уравнениями, которые связывают ее фазовые координаты с управляющими и другими силами. Часть сил нацелена на выполнение какой-то задачи, другие силы могут мешать достижению этой цели. Поэтому процесс трактуется как игра между противоборствующими сторонами, которым приписывается власть над той или иной группой сил. При этом игровой характер таких конфликтных задач управления проявляется
8
ВВЕДЕНИЕ
особенно в том предположении, что тому или иному игроку в каждый момент времени не известен точно будущий образ действий противника (не известно точно, какими будут в будущем управляющие воздействия противника), и при определении своих действий этот игрок может опираться лишь на знание физических возможностей своих и противника. Типичный пример дифференциальной игры доставляет ситуация преследования одного движущегося управляемого объекта другим. При этом преследующий стремится осуществить встречу как можно раньше, а преследуемый стремится оттянуть ее на возможно поздний срок.
Дифференциальная игра двух лиц по сути дела является предельным случаем многошаговой игры этих лиц ([696, 106в> 107а, 127]) при условии, что продолжительность Д/вт/1,— тФ (/=1,2, i = 6, 1,2, ...) каждого дискретного шага во времени в аппроксимирующей конечношаговой игре, которую ведет /-й игрок (/= 1 или / = 2), сремится к нулю, а число шагов п = Т/Д/, в течение которых аппроксимирующая многошаговая игра завершается, неограниченно возрастает. В стандартной многошаговой игре двух лиц с полной информацией /-й игрок (/ = 1 или / = 2) принимает решение о выборе своего управляющего преобразования системы в какой-то текущий момент / = тФ (Z = 0, 1, ...) на основании достаточной информации о реализовавшемся состоянии х[тФ] системы в этот момент времени / = тФ (или на основании информации об истории [х[/], тФ] состояний системы, реализовавшейся к этому моменту времени / = тФ). И этот выбор управляющего преобразования системы вместе с тем или иным действием противника определяет состояние системы в следующий момент £=Т(Д1 = =	+ Д/, когда /-м игроком снова должно приниматься
решение о следующем выборе управляющего преобразования системы опять на основании информации о реализации (или о реализации {x[Z],	Классический пример по-
добной многошаговой игры с полной информацией доставляет» как известно, игра в шахматы, где роль состояния играет позиция, сложившаяся на шахматной доске к i-му ходу /-го игрока, а роль преобразующего управления — i-й ход этого игрока.
В предельном случае многошаговой игры с полной информацией (при Д£->0)г который и формализуется уже как дифференциальная игра с полной информацией, представляется, таким образом, наиболее естественной такая постановка задачи для /-го игрока, когда он должен выбирать и осуществлять свое управляющее воздействие на систему
ВВЕДЕНИЕ
9
в каждый текущий момент времени Z = t
на основании полной информации о реализовавшемся состоянии системы х[т] в тот же момент времени t = x (или на основании информации об истории {х[/], t т} состояний системы, реализовавшейся к этому моменту t = т). И это воздействие будет определять изменение состояний системы в течение ближайшего, уже «бесконечно малого» промежутка времени dt. Такая содержательная картина дифференциальной игры двух лиц с полной информацией, которая представляется авторам основной, типичной трактовкой дифференциальной игры вообще, и составляет основу материала предлагаемой монографии. Данную в этой монографии формализацию указанной содержательной картины дифференциальной игры авторы именуют позиционной дифференциальной игрой, подчеркивая тем самым, что в рассматриваемой игре управляющее воздействие того или иного игрока, определяемое в тот или иной текущий момент времени t = т его стратегией и подаваемое тут же на систему, является функцией (может быть случайной) от позиции {т, х[т]}, реализовавшейся в этот же момент времени t = x (или — в последней главе книги — функцией от истории позиций {/, х[/], /^т}, реализовавшейся к этому моменту времени / = т). Эту основную, как нам представляется, постановку задачи в теории дифференциальных игр, отражающую принцип управления с обратной связью, следует отличать от игровых программных задач управления, в которых управляющие воздействия игроков выбираются априори в виде функций от времени t 2^ /0 + Л и не корректируются в должной степени по ходу игры на основании новой информации о реализующихся состояниях х|7] системы. Если во многих задачах обычного одностороннего управления такое различие может оказаться не очень важным, то в случаях двустороннего конфликтного управления, формализуемого как дифференциальная игра, подмена позиционного способа управления программным, как правило, уже совсем изменяет проблему по существу, и получающееся при этом снижение позиционного управления с обратной связью, гибко реагирующего на изменения реализующихся позиций, до управления по априорной жесткой программе, изображаемой функцией от времени, уже в принципе обедняет игру и существенно изменяет возможности игроков в достижении преследуемых ими результатов. Это наглядно видно хотя бы в любой игре преследования одного движущегося объекта другим уже при довольно бедном наборе маневров преследуемого. В самом деле, например, вряд ли можно указать такую нетривиальную проблему погони до встречи с преследуемым даже при большом перевесе в ресурсах управления преследователя, которая может быть успешно решена
10
ВВЕДЕНИЕ
преследователем за счет выбора им своих управляющих воздействий в начальный момент времени t = tQ сразу на все будущее время / > /0 в виде жесткой априорной программы, описываемой той или иной фиксированной функцией времени. Причиной этого является, очевидно, то, уже упомянутое раньше, обстоятельство, принимаемое как естественный постулат в подобных игро'вых задачах управления, что преследующему неизвестны точно будущие действия преследуемого противника, za лишь известны его физические возможности, определяющие множество будущих возможных, движений убегания. В то же время позиционный способ управления преследователя, реагирующий на поступающую по ходу дела информацию о передвижениях преследуемого объекта и соответствующим образом корректирующий движения преследователя, часто уже позволяет успешно довести процесс погони до встречи. Разумеется, высказанное утверждение по поводу основной исходной проблемы игрового позиционного управления по принципу обратной связи в теории дифференциальных игр в сравнении с программными игровыми задачами управления не означает, что эти задачи вообще не интересны для этой теории. Напротив, они, на наш взгляд, составляют один из важных вспомогательных этапов, связанных с решением основной задачи позиционного игрового управления. Это утверждение подтверждается соответствующими разделами предлагаемой монографии.
Таким образом, мы исходим из того положения, что при наличии полной информации о реализующихся состояниях управляемой системы в игровых задачах управления в конфликтных ситуациях основной математической моделью следует полагать схему позиционной дифференциальной игры. В тех случаях, однако, когда исходные данные соответствующей прикладной проблемы управления в конфликтной ситуации или в-ситуации неопределенности не позволяют рассчитывать на достаточно полную информацию о реализующихся состояниях системы, схема позиционной дифференциальной игры должна расширяться до некоторой более общей схемы игрового управления по принципу обратной связи. В этой схеме выбор управляющего воздействия тем или иным игроком в каждый текущий момент времени t = т, определяемого его стратегией и тотчас подаваемого на систему, является функцией (точнее функционалом) от реализации подходящего математического объекта, характеризующего множество возможных реализаций позиции {т, х[т]} в этот момент t — т, не противоречащих информации, поступившей к данному игроку к рассматриваемому моменту времени t = т. В частности, таким объектом может служить известная данному игроку область G[r] в фазовом простран-
ВВЕДЕНИЕ
1! .
сгве {%}, складывающаяся из всех возможных (и неизвестных этому игроку) фазовых состояний х [т], не противоречащих поступившей к этому игроку к моменту t — т информации. Но и такая обобщенная постановка дифференциальной игры уже с неполной информацией, весьма важная для приложений, сохраняет многие черты и закономерности, присущие позиционной дифференциальной игре с полной информацией. Это опять подчеркивает основное теоретическое значение позиционных дифференциальных игр в общей теории дифференциальных игр. Иллюстрацией высказанных соображений может служить предпоследняя глава предлагаемой монографии.
Перевод задач, описанных выше содержательно, на язык математики должен отвечать стандартам этой науки.
Надлежит напомнить, однако, что имеющаяся уже история развития теории дифференциальных игр показала большие трудности в строгой математической формализации описанной выше содержательной картины позиционной дифференциальной игры. Обход этих трудностей или их преодоление осуществляется одним из следующих известных к настоящему времени путей.
В монографии [1*] рассмотрен круг конкретных игровых задач управления, для которых предложены те или иные явные решения, так или иначе, но в конкретной форме, реализующие схему позиционной дифференциальной игры. По самому характеру этой монографии общая концепция строго формализованной математической схемы позиционной дифференциальной игры в ней не рассматривается.
Большой круг общетеоретических работ (см., например, [696, 1066, 107а, 127.]), трактующих дифференциальные игры как предельный случай многошаговых игр, напротив, делает акцент на предельных теоремах, например, типа теорем о существовании предельной цены игры и т. д. Но при этом вопросы- конструирования разрешающих стратегий, имеющих характер позиционного управления, остаются в тени.
Далее, делались попытки преодоления трудностей за счет •ограничения класса допустимых позиционных стратегий лишь такими, которые можно отождествить с достаточно удобными (непрерывными или даже дифференцируемыми) функциями от позиции {/,%}, определяющими выбор управляющего воздействия в той или иной реализовавшейся позиции {/, х[/]}. Однако этот путь чреват тем неудобством, что, с одной стороны, класс дифференциальных игр, в которых оптимальные по сути дела позиционные стратегии действительно могут быть отождествлены с подобными гладкими функциями, весьма не широк, а с другой стороны, можно указать отнюдь не экзотические примеры дифференциальных игр, где удовлетворительная аппроксимация оптимальных по сути дела позиционных способов управления
12
ВВЕДЕНИЕ
гладкими функциями от позиции {/, х} вообще не может быть осуществлена даже в принципе. Наконец, следует упомянуть и такие немалочисленные попытки преодоления трудностей строгой формализации позиционных дифференциальных игр, когда при постановке задачи требуется найти «способ управления», который гарантирует тому или иному игроку тот или иной «исход», причем слова «способ управления» и «исход» трактуются весьма неопределенно при постановке задачи и смысл их выясняется затем более или менее явно по ходу решения задачи в зависимости от того, как по интуитивным соображениям направляется ход этого решения.
Последовательный способ преодоления трудностей строгой формализации позиционной дифференциальной игры был предложен Л. С. Понтрягиным [746, в]. Его подход, получивший распространение во многих работах (см., например, [58а, 62а, 75а, 76г]), допускает при формировании управляющего воздействия одним из игроков (из интересов которого исходит исследователь) использование в текущий момент времени t = т информации о реализации управления противника в тот же момент времени t = т или на будущем малом отрезке времени
Такой подход позволил построить строгую и весьма содержательную математическую теорию для широкого круга задач конфликтного управления системами, описываемыми обыкновенными дифференциальными уравнениями.
Следует сказать, что используемая при указанном подходе информационная дискриминация игрока-противника вызвала возражения со стороны некоторых специалистов, работающих в области приложений. Эти возражения в значительной степени базировались на том утверждении, что подобную информационную дискриминацию противника в дифференциальной игре трудно оправдать исходными предпосылками прикладных проблем управления в условиях конфликта или неопределенности. Однако, как будет следовать из дальнейшего текста этого введения, на такие возражения могут быть даны достаточно убедительные ответы.
Предлагаемая монография имеет целью изложить концепцию авторов для строго формализованной позиционной дифференциальной игры, которая, как нам представляется, охватывает достаточно широкий круг основных задач игрового управления в системах, описываемых обыкновенными дифференциальными уравнениями, и преодолевает трудности, имевшие место в ряде других подходов. При этом авторы исходили из той точки зрения, что в предлагаемой теории основные понятия должны формализоваться в подходящих математических терминах, а утверждения, имеющие характер теорем, должны высказываться в меру аккуратно и доказываться в меру строго. В то же
ВВЕДЕНИЕ
13
время прикладной характер исходных задач требует сопровождения формализованной теории аппроксимационными утверждениями, которые указывают переход от формальных конструкций к реализуемым на практике процедурам управления. Такой подход к делу авторы старались осуществить на протяжении всей книги. Однако, во избежание перегрузки текста подробностями, акцент.делается лишь на основные моменты доказательства, а те или иные детали в рассуждениях подчас опускаются.
Следует сказать, что предлагаемая концепция в исходной постановке проблем не использует информационную дискриминацию игрока-противника. В то же время на промежуточных этапах исследования и во вспомогательных построениях идея такой информационной дискриминации используется нами достаточно широко. Тем самым предлагаемая теория смыкается весьма тесно с упомянутой выше теорией Л. С. Понтрягина. Представляется, что объединение в единой строго формализованной концепции позиционной дифференциальной игры исходных требований позиционного управления по принципу обратной связи с широким использованием в ходе исследования и решения задач теоретических конструкций, информационно дискриминирующих противника, в значительной степени снимает упомянутые выше возражения против построения, теории дифференциальных игр, включающей элементы отмеченной информационной дискриминации.
Книга начинается классификацией задач управления и предварительной формулировкой проблем, приводящих к дифференциальным играм. Этот материал составляет главу I. Затем в главе II дается формализованная схема дифференциальной игры. Эта схема трактует рассматриваемые задачи управления всякий раз со стороны того или иного игрока-союзника, передавая все неподвластные ему силы игроку-п ротивнику. По смыслу рассматриваемых задач союзник должен вести позиционную игру с полной информацией. Поэтому понятия его стратегий и порождаемых ими движений формализуются так, чтобы отразить построение им управляющих воздействий по принципу обратной связи на основе информации о реализующихся позициях игры {/, х[/]}. Здесь t — время, а х[/] — текущее фазовое состояние системы. Напротив, противнику предоставляется право выбора управляющих воздействий на основе любых разумно формализуемых способов действий, опирающихся на любую мыслимую информацию, в том числе, может быть, и на информацию об управляющих силах, реализуемых союзником. Эта постановка проблемы в предлагаемой концепции позиционной дифференциальной игры отличается от исходных предпосылок в теории дифференциальных игр, развиваемой
14
ВВЕДЕНИЕ
в работах [58а, 746, 76а], где, напротив, дополнительная информация о реализующихся действиях протйвника предоставляется союзнику. Впрочем, по ходу дела мы выясняем, что при дополнительном условии седловой точки так называемой маленькой игры, характеризующем локальные свойства системы, оба подхода смыкаются на некотором промежуточном этапе исследований. Более того, выясняется, что при этом условии дискриминация противника, которая выражается в предоставлении союзнику дополнительной информации о текущих действиях противника, не улучшает окончательный результат игры для союзника, достижимый им, стало быть, уже на основе только информации о реализующихся позициях {/, х[/]}.
В главе III формулируется некоторая стандартная дифференциальная игра сближения — уклонения, которая трактуется как основной элемент рассматриваемой теории. Центральный результат этой главы составляет теорема об альтернативе, которая утверждает, что при выполнении отмеченного выше локального условия седловой точки маленькой игры в стандартной игре сближения — уклонения для всякой начальной позиции {^о, хо} справедливо одно из двух утверждений: либо существует позиционная стратегия первого игрока-союзника, которая обеспечивает встречу движения ;ф] с назначенной целью Л1с, как бы ни действовал второй игрок-противник, либо существует позиционная стратегия второго игрока-союзника, которая обеспечивает уклонение движения х[£] от указанной цели Мс, как бы ни действовал первый игрок-противник. Здесь назван первым игрок, решающий задачу сближения с целью, вторым — игрок, решающий задачу уклонения от цели; тот или другой из этих игроков может ставиться либо на роль союзника, либо на роль противника. При осуществлении того или иного из указанных положений решение задачи получается в принципе построением некоторого стабильного моста W в пространстве позиций {/,%}, который в первом случае связывает начальную позицию {/о, *о} с целью Л4С, а во втором случае проходит через {^о, %о} и минует цель Л1с. В каждом из двух случаев доказывается возможность построения такого моста W, на котором соответствующий игрок-союзник выбором подходящей позиционной стратегии может удержать позицию {/, х[/]} вплоть до разрешения его задачи (сближения или уклонения), как бы ни действовал игрок-противник. Эти стратегии, играющие роль перил, удерживающих движения лф] на стабильном мосту W, строятся весьма простым и единообразным способом, который мы именуем экстремальным управлением.
В четвертой главе формулируются некоторые типичные конфликтные задачи динамики на минимакс или максимин того или иного показателя, которые укладываются в общую схему
ВВЕДЕНИЕ
15
дифференциальной игры из главы II. Параллельно на основе результатов из главы III здесь доказываются теоремы о ситуациях равновесия в дифференциальных играх, складывающихся из этих задач.
В следующих главах V—VIII рассматриваются некоторые, более или менее эффективные способы построения разрешающих стратегий. Собственно говоря, в главе III при доказательстве теоремы об альтернативе уже строится и разрешающая стратегия в форме экстремальной стратегии к некоторому, также конструируемому там, предельно широкому стабильному мосту W. Однако конструкция моста W в главе III не является эффективной, ибо этот мост в пространстве {/, х}, например, для задачи сближения просто составляется из тех позиций, которые остаются после выбрасывания всех тех позиций {/, х}, для которых, как для начальных, разрешима задача об уклонении. Немногим более эффективным оказывается в общем случае и другое построение того же самого моста W, которое определяет его предельным переходом от некоторой дискретной попятной конструкции. Эта универсальная, но трудно реализуемая на практике конструкция максимального стабильного моста W, описанная в главе XI для разбираемого там случая смешанных стратегий, в нашей формализации дифференциальной игры отвечает попятным конструкциям из работ [74г, 76г, 89а, 1066]. Она имеет также общие черты с другими построениями, которые опираются на переход к дифференциальным играм от многошаговых игр [696, 1066, 107а, 127]. Следует, впрочем, подчеркнуть, что в нашей формализации мы не останавливаемся на определении лишь цены игры, как в некоторых из указанных работ, но доводим дело до построения стратегий, порождающих идеальные формализованные движения х[/], скользящие по мосту W к цели или уклоняющиеся по мосту W ют цели, а также обосновываем переход от этих идеальных движений к аппроксимирующим их физически реализуемым движениям хд[/].
В главе V приводятся некоторые достаточные критерии, построенные для рассматриваемой формализации дифференциальных игр по рецептам теории динамического программирования [1*,4*] и опирающиеся на некоторый гладкий потенциал е(/, х). Известно, что прямое интегрирование дифференциальных, уравнений в частных производных для потенциала е(/, х), которые можно составить на базе таких критериев, доставляет задачу, имеющую пока немного конкретных решений. Тем более и существование искомого гладкого потенциала е(/, х) не является фактом универсальным. Поэтому в следующих двух главах выясняется возможность отыскания функций е(/, х), которые могут играть роль этого потенциала или его обобщений на базе подходящих вспомогательных программных конструкций.
16
ВВЕДЕНИЕ
По сути дела, оптимальные программные движения, получающиеся при решении подходящих вспомогательных задач на базе указанных программных конструкций, выполняют роль характеристик для соответствующего уравнения в частных производных из метода динамического программирования, или роль своеобразных обобщений этих характеристик в случаях, когда не существует достаточно гладкого потенциала е(/, х). В главе VI в соответствии с известным математическим аппаратом [39*, 40*, 129а] вводится понятие обобщенных программных управлений, изображаемых условными вероятностными мерами; формулируются вспомогательные программные задачи об оптимальном управлении и доказываются необходимые условия оптимальности, имеющие характер принципа максимума Л. С. Понтрягина [25*], трансформированного в соответствии с максиминным характером рассматриваемых задач. В главе VII выясняются условия регулярности, при выполнении которых решения вспомогательных программных задач могут составить основу для решения исходных позиционных дифференциальных игр. При этом переход от решений программных задач к построению искомых экстремальных стратегий в регулярных случаях трактуется как экстремальное прицеливание, отвечающее способу управления, данному ранее в монографии [11*]. Результаты этой главы можно разбить на две части. Одну из них составляют довольно общие условия и притом для общих нелинейных систем, при которых возможен переход от решений вспомогательных программных задач к построению стратегий, разрешающих исходные позиционные игровые задачи сближения или уклонения. Эти результаты представляют интерес главным образом для выяснения принципиальной связи между исходными позиционными и вспомогательными программными задачами. Осуществление соответствующих способов управления на практике требует, вообще говоря, чрезвычайно громоздких вычислений. Другую часть составляют теоремы о более узких условиях регулярности для нелинейных систем или теоремы о несколько более общих условиях регулярности для линейных систем. Эти результаты уже можно рассматривать как указывающие эффективный способ синтеза искомого позиционного управления, ибо вытекающие отсюда способы экстремального прицеливания можно осуществить в форме алгоритмов, требующих реализуемого объема вычислений.
Возможности метода экстремального прицеливания иллюстрируются в конце главы VII на примерах. Здесь разбирается, в частности, «контрольный пример» из [746], причем из материала §§ 46 и 47 вытекает, что при тех же по сути дела условиях, что и в упомянутой работе, метод экстремального прицеливания дает позиционный способ управления, кото
ВВЕДЕНИЕ z
17
рый обеспечивает фактически такой же результат, как и в [746], но уже без привлечения информационной дискриминации противника, которая предполагается в [746].
Следующая, VIII, глава посвящена построению разрешающих позиционных экстремальных стратегий в форме перил к некоторым априори стабильным мостам W. Эти априори стабильные мосты либо стягиваются до некоторой стабильной дорожки x — w(t) в пространстве {/, х}, определенной решением подходящего дифференциального уравнения в к о н т интенциях, либо развертываются до целых стабильных интегральных многообразий W, также порожденных подходящими дифференциальными уравнениями в контингенциях или конструируемых на основе совокупностей подходящих программных управлений. Материал этой главы в случае линейных систем смыкается с так называемым прямым методом решения линейных дифференциальных игр сближения — уклонения [58а, 74в]. 
Следующие главы — IX и X —посвящены вопросам корректности и устойчивости решений рассматриваемых дифференциальных игр. Предлагаемые формализованные решения игровых задач раскрываются содержательно в реализуемых физически аппроксимационных схемах. Однако при осуществлении на деле таких аппроксимационных процедур управления для реальных систем неизбежны, пусть даже малые, ошибки в измерении реализующегося фазового вектора х[/], запаздывания информации об этих реализациях х[/] и т. д. Поэтому возникает проблема оценки влияния подобных помех на предлагаемые аппроксимационные процедуры управления. Сначала выясняется, что при определенных условиях аппроксимационные решения устойчивы по отношению к малым помехам. Далее при отказе от этих условий показывается на примере, что сколь угодно малые помехи, трактуемые в свою очередь как некоторые дополнительные воздействия игрока-противника на процесс, могут совсем разладить управление игрока-союзника, если он будет слепо придерживаться стратегии, оптимальной в идеализированной схеме, не учитывающей эти помехи. Таким образом, возникает задача о регуляризации подобных некорректных решений. Оказывается, в принципе эту задачу можно решить для любого из рассматриваемых нами классов дифференциальных игр. При этом удается примирить в единой устойчивой схеме два противоречивых обстоятельства: 1) требование приложений, чтобы управляющие воздействия игрока-союзника строились лишь на основании информации о реализующихся позициях {/, %[/]}, к тому же с неизбежными, хотя бы и малыми, ошибками Дх[/]; 2) желание теоретиков вести игру за союзника при условии, что
18
ВВЕДЕНИЕ
он будет знать в каждый текущий момент времени t не только точные значения реализующихся позиций {/,%[/]}, но еще и настоящую, и даже будущую, хотя бы на малое время вперед, реализацию управляющего воздействия противника. Подходящее регуляризованное решение проблемы, которое проявляется в форме управления с поводырем, состоит в следующем. К реальной управляемой системе, характеризуемой фазовым вектором x[t\ и подверженной, вообще говоря, малым силовым или информационным помехам, присоединяется некоторая моделирующая ее прецизионная система, характеризуемая фазовым вектором w [/], изменяющимся во времени в соответствии с дифференциальными уравнениями, повторяющими дифференциальные уравнения движения реальной системы. В этой моделирующей системе, которую, например, можно полагать материализованной в ЭВМ, также ведется игра под действием управляющих сил еще одного «первого» и еще одного» «второго игрбка». Однако выбор управляющих воздействий этих дополнительных «игроков», ведущих вспомогательную игру в моделирующей системе ш[/], также предоставляется игроку-союзнику, ведущему основную игру в реальной системе х[/]. Получается как бы игра на двух досках: в реальной системе игрок-союзник борется с игроком-противником, в системе-модели он играет сам с собой. Оказывается, что тремя имеющимися в распоряжении игрока-союзника управлениями (его управлением в. реальной системе, управлением «первого» и управлением «второго игрока» в модели) можно распорядиться так, чтобы добиться приведения фазового вектора ш[/] модели к цели, если речь идет о задаче сближения, или добиться уклонения оф} от цели, если речь идет о задаче уклонения, и в то же время заставить реальное движение х[/] и движение модели взаимно отслеживать друг друга, т. е. добиться сближения с целью или уклонения от цели также и для реального движения х[/]. При этом движение йу[/] играет роль своеобразного невозмущенного движения, а движение x[f]— роль возмущенного движения в ситуации, аналогичной классической задаче об устойчивости движения по Ляпунову [17*].
В главах III—X изложение ведется в предположении о выполнении локального условия седловой точки маленькой игры. При отказе от этого условия вопрос о дополнительной информированности того или другого игрока о реализующихся управляющих воздействиях оппонента оказывается уже существенным. Гарантированный исход игры для этого игрока может оказаться существенно зависящим от того, может он или нет в процессе управления при формировании своего управляющего воздействия использовать в каждый текущий момент времени t информацию об управляющем воздействии, реализуемом его
ВВЕДЕНИЕ
19
оппонентом в тот же самый момент времени /. В соответствии с этим в книге в дальнейших главах различаются две формализации рассматриваемых дифференциальных игр. Одна из этих формализаций отражает содержательную гипотезу о независимом в вероятностном смысле выборе управляющих воздействий каждым из игроков в пределах каждого элементарного акта управления, отвечающего тому или иному текущему моменту времени t, Тогда смешанные стратегии формализуются так, что в их содержательной интерпретации они проявляются в виде некоторого случайного механизма, который зависит от реализующейся позиции. Этой формализации отвечает следующая содержательная картина игрового управляемого процесса. Игрок, придерживающийся смешанной стратегии, оказавшись в какой-то момент времени t в той или иной позиции {/, х[/]}, выполняет случайное испытание, назначаемое для данной позиции {t, х[/]} избранной смешанной стратегией. Результат этого испытания определяет управляющее воздействие этого игрока в течение ближайшего малого (в формализации — бесконечно малого) полуинтервала времени. Затем этот игрок должен выполнить новое случайное испытание, его результат определит управляющее воздействие на следующем малом полуинтервале времени и т. д. При этом предполагается, что выбор управления каждым игроком на отмеченных малых полуинтервалах времени вероятностно независим или слабо коррелирован с выбором управления его партнером. Обсуждаются физические предпосылки для этой гипотезы.
Эта концепция смешанных стратегий развивается в главах XI, XII и XIII. При этом для позиционных дифференциальных игр в смешанных стратегиях изучаются те же вопросы, которые были рассмотрены в предыдущих главах для позиционных дифференциальных игр в чистых стратегиях (но там при дополнительном локальном условии седловой точки маленькой игры). Основная теорема об альтернативе для стандартной задачи сближения — уклонения справедлива и в классе смешанных стратегий, но теперь уже без каких-либо дополнительных условий: для всякой начальной позиции {/о,*о} либо существует позиционная смешанная стратегия первого игрока, которая обеспечивает сближение движения х[£] с целью Мс, либо существует позиционная стратегия второго игрока, которая обеспечивает уклонение движения х [/] от цели Мс-
Другая формализация дифференциальной игры, рассматриваемая в книге в главе XIV при отказе от условия седловой точки маленькой игры, сначала повторяет для игрока-союзника ту же самую постановку задачи на базе тех же самых чистых позиционных стратегий, которая была изложена в начале
20
ВВЕДЕНИЕ
книги. Однако теперь информация о реализующихся управляющих воздействиях одного из игроков, доставляемая другому игроку, может оказаться существенным фактором. Поэтому вводится еще понятие контрстратегии, которое формализует способ управления по принципу обратной связи, учитывающий и реализующиеся по ходу дела позиции {/, %[/]}, и реализующиеся в тот же момент времени t управляющие воздействия противника. Таким образом, оказывается целесообразным рассмотрение игры, складывающейся из противоположных задач, одна из которых решается одним из игроков на базе позиционных стратегий, а другая — другим игроком на базе контрстратегий. Такую игру мы называем минимаксной, имея в виду прежде всего случаи, когда первый игрок решает свою задачу на базе стратегий и минимизирует, а второй игрок решает свою задачу на базе контрстратегий и максимизирует некоторый показатель, характеризующий исход игры. Таким образом, игровые задачи в классах стратегия — контрстратегия при желании можно трактовать и так, что право строить управляющие воздействия на базе контрстратегий приписывается союзнику, а в распоряжении противника остаются при этом лишь позиционные стратегии. Тогда мы получим как раз постановку задачи для дифференциальной игры с дискриминацией противника, отвечающую подходу из работ [58а, 746, 74г, 76а]. Следует, однако, подчеркнуть, что при невыполнении условия седловой точки маленькой игры изучение игры с дискриминацией того или иного игрока требует конструкций, отличных от тех, которые использованы в работах упомянутого направления. Это проявляется, в частности, в новом, подходящем именно для минимаксной игры определении условий стабильности моста W. Материал главы XIV, посвященной минимаксной игре, обсуждает в краткой форме тот же круг вопросов, что и в предыдущих главах, но теперь уже как без условия седловой точки маленькой игры, так и без перехода к смешанным стратегиям. При этом теорема об альтернативе для стандартной игры сближения — уклонения'формулируется для пары стратегия — контрстратегия.
В XV главе изучается информационная дифференциальноигровая задача управления, когда информация о текущих фазовых состояниях {/, хИ) системы поступает к игроку-союзнику в настолько неопределенной форме, что он может делать лишь заключение о принадлежности точки х[/] к некоторой (вообще говоря, не малой) области G[f] в пространстве {%}, и притом игрок-союзник не может составить удовлетворительного для нужд управления статистического описания случайного положения х[/] в пределах этой информационной области G [£]. В случаях такой игровой задачи, разобранных в главе XV, дело сво
ВВЕДЕНИЕ
21*
дится к «управлению» реализациями информационных областей: G [/], которое включается в схему некоторой обобщенной дифференциальной игры, подобной обыкновенным позиционным: дифференциальным играм, изученным в предыдущих главах. Это включение осуществляется в предположении выпуклости, информационных областей G [/] путем подмены этих областей 6[/] их опорными функциями gt(l), которые трактуются как элементы подходящего обобщенного функционального фазового пространства {g(l)}.
Наконец, XVI глава посвящена теории дифференциальных игр, для которых в качестве информационного пространства выбирается не конечномерное пространство позиций {/, л}, но функциональное пространство историй игры {т, х[т]} (т^/), складывающихся к каждому текущему моменту времени t. Дается краткий очерк этой теории, показывающий, что в ней сохраняются с естественными изменениями все основные положения,, развитые в предыдущих главах для позиционных дифференциальных игр.
Изложение основного материала книги сопровождается примерами. Эти примеры являются модельными и имеют чисто иллюстративное назначение. С одной стороны, это объясняется тем, что именно на модельных примерах, не отягощенных дополнительными сложностями, удобнее всего иллюстрируются общие-теоретические положения. С другой стороны, надлежит признать, что методы теории дифференциальных игр (как, впрочем, и методы ряда других разделов прикладной математики) находятся еще в таком состоянии, что они не позволяют только на их основе решить стандартным путем ту или иную действительно серьезную конкретную прикладную задачу. Для таких задач теория может только либо подсказать идеологию, общее направление и главные этапы вычислительной работы, либо — доставить алгоритмы для вычислений в пределах того или иного элемента решения, а основной груз все равно ложится на поиски специализированных для данной конкретной задачи решений, осуществляемых в пределах навыков опытного вычислителя.
В книге принята сквозная нумерация параграфов. Уравнения, формулы и рисунки нумеруются двумя числами, из которых первое есть номер параграфа, второе — номер объекта внутри параграфа. Основные понятия, вводимые в книге, такие, как стратегия, движение и т. д., выделяются в тексте курсивом. Термины, отвечающие используемым в книге математическим понятиям, выделяются набором в разрядку и сопровождаются ссылкой на литературные источники. Кроме того, набором в разрядку выделяются некоторые слова, на которые желательно обратить специальное внимание читателя.
1>2	ВВЕДЕНИЕ
Математический аппарат, используемый в книге, по сути дела не выходит за рамки математического образования студентов старших курсов механико-математических факультетов университетов или физико-технических факультетов втузов. При этом во всяком случае все термины, отвечающие понятиям, выходящим за рамки стандартного образования инженера, как отмечено выше, выделены в тексте набором в разрядку и снабжены ссылкой на подходящую учебную литературу, где можно найти определение этих понятий и описание их свойств.
Авторы считают своим приятным долгом сердечно поблагодарить товарищей по работе за большую помощь при написании этой книги. Особенно много помогли авторам А. Ф. Клейменов, А. Г. Ченцов и Г. С. Шелементьев.
Г л а в a I
ИГРОВОЕ УПРАВЛЕНИЕ
§ 1. Классификация. Будем различать два аспекта управле* ния: программный и позиционный. Программным будем называть такое управление, когда заранее намечается программа, которая задает управляющие воздействия как функцию от времени. При позиционном управлении формирование управляющих воздействий в каждый момент времени может использовать накапливаемую по ходу дела информацию о текущих состояниях системы. Позиционное управление называют еще управлением по принципу обратной связи. Построение законов позиционного управления называют часто^ синтезом регулируемой системы, иногда — аналитическим конструированием регулятора.
Будем различать также следующие три типа задач управления: детерминированные, стохастические и игровые задачи.
В условиях детерминированной задачи выбор того или иного способа управления U определяет однозначно исход у процесса. Иначе говоря, в детерминированной задаче результат управления у есть функция у ((7).
В условиях стохастической задачи результат управления определяется выбранным способом управления U и некоторым случайным событием со, для которого известно подходящее статистическое описание.
В условиях игровой задачи исход управления у определяется выбором способа управления U и некоторым неопределенным фактором и, для которого нет подходящего вероятностного описания.
Данная классификация опирается на приблизительные термины и носит условный характер. На практике трудно встретить детерминированную задачу управления в чистом виде, а случайные события со и неопределенные факторы v в реальных задачах обычно переплетаются. Тем не менее, указанное грубое различение задач оказывается полезным, помогая выделить ведущие особенности проблемы.
Предмет настоящей монографии составляют позиционные дифференциальные игры, т. е. игровые задачи позиционного управления объектами, движение которых описывается обыкновенными дифференциальными уравнениями. Этиг
24
ИГРОВОЕ УПРАВЛЕНИЕ
[ГЛ. I
задачи составляют математический образ ^проблем управления, которые возникают в технике, когда процесс осуществляется в ситуациях конфликта или неопределенности.
Источником дифференциальных игр служат, главным образом, следующие прикладные задачи.
(1)	Конфликтные проблемы управления объектами, которые подчинены противоборствующим сторонам, в частности — двум противоборствующим сторонам. Одну из этих сторон можно трактовать как нашего союзника, выбирающего вместе с нами способ управления — стратегию U. Другую сторону удобно трактовать как нашего противника, вырабатывающего неподвластное нам управление а.
(2)	Проблемы регулирования с неопределенной помехой, когда на систему, помимо разумно организуемого управления U, действуют силы vy которые заранее можно лишь грубо оценить.
(3)	Проблемы управления с неполной информацией, когда доступные сведения о системе позволяют только заключить, что текущее состояние ее содержится в пределах той или иной области фазового пространства, но эти сведения недостаточны для вычисления вероятностного распределения этого состояния.
В первом случае в исходной прикладной проблеме управления уже присутствует противоборствующий фактор и, т. е. имеется явная игра между соревнующимися сторонами. Во втором и третьем случаях в исходной прикладной проблеме управ-.ления намеренного противоборства, вообще говоря, нет/ Однако и в таких задачах часто полагают, что неопределенные ©акторы могут проявляться самым неблагоприятным образом. Тогда и здесь удобно принять, что формирование этих факторов определяется неким противником, замыслы которого, может быть, нацелены во вред делу. Таким образом, и здесь складывается игра между игроком-союзником, который распоряжается выбором способа управления (7, и игроком-противником, который распоряжается управлением а.
§ 2. Игровое управление. Математическая модель задач, которые будут рассмотрены в этой книге, в общих чертах такова. Будем рассматривать управляемую систему 2, текущие состояния которой описываются ее фазовым вектором х = х|7] = «=	..., ХпИ}, изменяющимся во времени t в соответствии
с дифференциальным уравнением движения
х = f (t, х, и, v).	(2.1)
Здесь f(t,x,u,v) — заданная функция, отражающая динамические свойства системы 2; и = {ul9 ... 9 иг}и	..., vj
ИГРОВОЕ УПРАВЛЕНИЕ
2!>
§ 2J
суть векторы управляющих воздействий (короче — управления). подчиненные противоборствующим сторонам — первому и второму игрокам соответственно. Допустимые значения х, и или v могут быть стеснены какими-нибудь дополнительными ограничениями, отражающими кинематику и динамику управляемых объектов и возможности игроков. По условиям задачи в пространстве позиций {/, х} задается множество М, которое составляет цель для первого игрока. Кроме того, в том же пространстве позиций {/, х} задается множество Af, которое составляет жизненное пространство для первого игрока. Наконец, задается функционал
у = <р (х [/], и [/], v [/], /0 t < т),	(2.2}
который оценивает исход игры. Он определен для всех возможных реализаций {%[/], -«[/], v [/]} (/0 i т) процесса, конечные позиции которых {т, х [т]} лежат на М. а текущие позиции {/, %[/]} при всех значениях	содержатся в N. Здесь, ста-
ло быть, /о — момент начала процесса, т — момент, который определяется из условия первого попадания позиции {/, х[/]} на множество М. т. е. из условия
{т, х[т])<=А1,	{t, х[/]}^Л1 при	(2.3}
При этом необходимым условием успешного завершения игры для первого игрока наряду с (2.3) является сохранение позиции {/, х [/]} в области N вплоть до момента, т, т. е. условие
{/, %[/]} е ДГ при	(2.4}
В тех задачах, которые будут рассмотрены в этой книге, для тех реализаций {*[/], u[t], у[/]} (/о^О, для которых не осуществляется значение т, удовлетворяющее условиям (2.3) г (2.4), часто удобно полагать у = оо.
В соответствии со сказанным в конце § 1 ситуация полагается конфликтной. Игра складывается из двух задач, отражающих противоположные интересы игроков. В первой задаче первый игрок будет играть активную, а второй игрок — пассивную роль. Напротив, во второй задаче активная роль отводится второму игроку, а пассивная — первому. Активный игрок-союзник будет выбирать позиционный способ управления, указывающий для всякой реализующей позиции {/,%[/]} управляющую силу, которая должна прилагаться к системе, оказавшейся в этой позиции. Принцип выбора управляющей силы пассивным игроком-противником не оговаривается. Он может быть любым в пределах возможно более широких предположений, не противоречащих здравому смыслу. Задачи игроков предварительно можно сформулировать следующим образом.
26
ИГРОВОЕ УПРАВЛЕНИЕ
(ГЛ. Г
Задача первого игрока — выбрать такой позиционный способ управления U, который при любых возможных действиях второго игрока, во-первых, обеспечит встречу (2.3) позиции {/, х [/]} с множеством М, сохраняя эту позицию в области N, т. е. гарантируя наряду с (2.3) также выполнение условия (2.4), и, во-вторых, обеспечит возможно меньшее значение у.
Задача второго игрока — выбрать такой позиционный способ управления V, который при любых возможных действиях первого игрока или воспрепятствует встрече (2.3), (2.4), или, если эта задача неразрешима, обеспечит хотя бы возможно большее значение у.
Таково содержание наших игровых задач. Их дальнейшее рассмотрение требует более строгой математической формализации, которая должна включать в меру аккуратные определения движения х[/], позиционных способов управления U и V и т. д. Эта формализация дается во второй главе, а в следующих параграфах этой главы рассматриваются некоторые примеры, обсуждаемые в пределах той предварительной картины дифференциальной игры, которая предложена в этом параграфе.
§ 3. Конфликтная ситуация. В этом параграфе мы рассмотрим пример конфликтной ситуации, которая приводится к модели дифференциальной игры, описанной в § 2.
Пусть конфликтно управляемая система S складывается из двух объектов, текущие состояния которых описываются их фазовыми векторами y = y[t] и z — z[t]f подчиненными уравнениям движения
y^f^ (А У, «). 2 == f(2> (А Z, v).	(3.1)
•Объект z имеет целью приблизиться к некоторому замкнутому множеству L в пространстве {z}, объект у имеет целью воспрепятствовать этому приближению z к L, и он преследует объект г, стремясь захватить его в некоторую свою замкнутую область захвата S(z/), после чего объект z прекращает функционировать. При этом предполагается, что оговорена некоторая непрерывная функция р(г, L), характеризующая расстояние от 2 до и оговорена открытая область G в фазовом пространстве {4, которую объект не должен покидать во все время его движения. Кроме того, предполагается, что ни в коем случае объект z не может функционировать дольше некоторого, зара-т нее указанного момента времени t = ft. Стало быть, момент т окончания процесса определяется здесь условиями
z[t]gS(//[t]) или	(/о<^<^)>	(3-2)
или т = 'О'.
КОНФЛИКТНАЯ СИТУАЦИЯ
27
§ 3)
Таким образом, при заданных начальных состояниях {to, Уо} и {/о, 2о} объект г имеет целью, оставаясь в пределах области G, т. е. удовлетворяя условию
z[t](=G	(/0<0,	(3.3)
и избегая попадания в область захвата S(y), добиться в какой-то момент времени t е [£>, т] возможно меньшего значения величины р (2 [/],£); в то же время объект у имеет целью приблизиться к объекту z так, чтобы осуществить выполнение условия (3.2) и помешать объекту г добиться слишком малого значения величины р(2 [£], £) при t0 t х.
Для того чтобы ввести эту конкретную игровую ситуацию перехвата — уклонения в общую схему дифференциальной игры, описанную в § 2, достаточно принять, что система 2 описывается фазовым вектором x = {y,z}, подчиненным дифференциальному уравнению движения
* = [*]-fV. X. «,»)-[	' “’] •	(3.4)
L z J	L v } (t, z, v) J
Эта система S управляется двумя конфликтующими игроками, первый из которых распоряжается управлением и, воздействующим на объект у, а второй — управлением V, воздействующим на объект z. При этом множество N будет совпадать со всем пространством {/,%}, а множество М следует определить соотношением
М = [{/, х): (/ = #) V (/0</ < #, [ге $ (у) V * G])]. (3.5>
Здесь и ниже при описании тех или иных множеств слева от двоеточия указывается, из каких элементов построено множество. Справа от двоеточия указываются условия, определяющие множество. Знак V указывает на то, что должно выполняться по крайней мере одно из соединяемых им условий, а точка с запятой или запятая между условиями будет означать, что эти условия должны выполняться одновременно.
Функционал у == ф (2.2), который в схеме из §2 минимизируется первым игроком и максимизируется вторым, можно здесь определить равенством
у = — min р (z [/], L).	(3.6)
Напомним еще, что в соответствии с нашей общей концепцией позиционной дифференциальной игры надлежит полагать, что в каждый текущий момент времени t >• to каждому и» Игроков по условиям его задачи становятся известными
58
ИГРОВОЕ УПРАВЛЕНИЕ
[ГЛ. г
реализующиеся позиции {^, х[/]}, т. е. каждому из них становятся известными реализующиеся фазовые состояния обоих объектов
и z\t\. И способы управления U и V, выбираемые соответственно первым игроком при решении его задачи, или — вторым игроком при решении его задачи (см. § 2), должны формировать управления и и v на основе этой текущей информации о реализующихся позициях.
§ 4.	Регулирование в условиях неопределенной помехи. Пусть имеется регулируемый объект S, который характеризуется фазовым вектором х = лф], подчиненным уравнению движения (2.1). Управляющее воздействие и должно вырабатываться регулятором в соответствии с искомым законом регулирования U по принципу обратной связи на основании полной информации о реализующихся состояниях {/, х[/]}. При этом величина и может принимать значения в пределах заданного ограничения и Р, характеризующего возможности регулирующих органов, л значения х [/] фазового вектора х должны удовлетворять ограничению x[/]eG, характеризующему условия нормального функционирования объекта. Воздействие v является возмущающей силой, о которой известно только, что ее значения будут лежать в пределах некоторого ограничения v е Q, характеризующего интенсивность помехи. Относительно принципов формирования v{7] (t /о) нет какой-либо специальной информации; известно только, что в процессе управления мы можем столкнуться с любой возможной кусочно непрерывной реализацией	Цель управления может состоять, например,
в том, чтобы к заданному моменту времени О добиться наименьшего возможного значения заданной функции о(х[Ф]), которая характеризует отклонение фазового состояния х = хр&] от его желаемого значения. При этом мы будем ориентироваться на наиболее неблагоприятные случаи реализации помехи v [/].
Для того-чтобы ввести эту задачу в схему дифференциальной игры из § 2, надлежит определить множества М и N соотношениями
JV=[(t х}:	xeG],	1 '
а функционал у = Ф (2.2) определить равенствами
Y = q)(x[f],	= <*(*№])»	(4-2)
если {t,	при	и
y = <p(x[f],	=	(4.3)
если x[t]^G по крайней мере при одном значении Jefo,0].
3 5]	ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА	29
При этом, формулируя задачу регулирования, мы ставим себя в положение первого игрока-союзника, решающего его задачу из § 2 (см. стр. 26) о выборе позиционного способа управления U, а формирование возмущения и[/] приписывается тогда фиктивному второму игроку-противнику. Искомый оптимальный закон регулирования 17° должен обеспечить наименьшее значение функционала у (4.2) в самых неблагоприятных случаях помехи v [/], to t -0.
§ 5.	Информационная игровая задача. В этом параграфе мы рассмотрим информационную игровую задачу управления. Эта задача, в отличие от проблем, рассмотренных в двух предыдущих параграфах, уже не приводится столь же прямым путем сразу за счет только подходящих обозначений к модели дифференциальной игры из § 2. Однако по своему характеру эта информационная задача управления весьма близка к игровым задачам из §§ 3 и 4, и ее математическая модель при подходящей интерпретации оказывается подобной той общей модели дифференциальной игры, которая предложена в § 2. Поэтому и методы решения рассматриваемой информационной задачи управления оказываются во многом подобными методам решения задач из §§ 3 и 4. Итак, охарактеризуем в общих чертах один пример информационной игровой задачи управления.
Пусть снова имеется управляемый объект S, описываемый уравнением (2.1) и регулируемый с той же целью, что и в § 4 и при тех же предположениях, которые указаны в § 4, за единственным исключением: будем предполагать теперь, что в текущие моменты времени t tQ в регулятор не поставляется точная информация о реализующихся позициях {/, системы 2. Примем, что поступающая информация позволяет лишь делать заключение о том, что реализующийся фазовый вектор х = = х|7] содержится в какой-то области G[f] пространства {%}. Тогда удобно наделить фиктивного второго игрока — нашего противника правом помещать точку х[/] в любое положение из области G[/]. Рассуждая так, мы придем к задаче о выборе оптимального закона регулирования G0, который формирует управление и на основании текущей информации о реализующихся областях G[/],	и обеспечивает наименьшее зна-
чение функционала у (4.2) в самых неблагоприятных случаях реализации областей G[t] (t0 t *&) и при самом неблаго* приятном осуществлении вектора % [ft] в пределах заключительной области Gf'ft].
Включение этой задачи в схему дифференциальной игры, подобную рассмотренной в § 2, можно осуществить одним из следующих двух путей.
30
ИГРОВОЕ УПРАВЛЕНИЕ
[ГЛ. Г
Во-первых, не выходя за рамки исходного фазового пространства {х}, можно принять, что мы получаем информацию* о некоторых фиктивных реализациях х* [/] G [/], но при этом второй игрок, наряду с возможностью выбора действительной возмущающей силы и[/], в каждый момент t = t*^to наделяется также правом выбора фиктивного импульсного управления v* = q8(t— /*) ((# + ** G [/*]), которое при подходящем выборе вектора q может мгновенно перебросить точку х* [/J в любое положение из области G [/*]. Здесь символ 8(t— t*) обозначает импульсную дельта-функцию ([9*], стр. 205,. [11*], стр. 408). Для фиктивного фазового состояния х* [/] можно* использовать тогда дифференциальное уравнение
х* — f (/, х*, u, v) + u*.	(5.1)
Другой путь включения данной информационной задачи в схему дифференциальной игры, подобной игре из § 2, состоит в переходе от исходного конечномерного фазового пространства {х} к новому функциональному пространству {G}, элементами которого являются области G. При этом вместо движений х[/] (t^ t0) используются тогда движения G[Z] /0), а вместо позиций {/, х[£]} — позиции {/, G[/]}. Кроме того, и уравнения движения, и функционал у, и множества М и N в условиях задач из § 2 должны трансформироваться тогда в такие их модификации, которые при сохранении смысла исходной задачи имеют форму, отвечающую новому выбору фазового пространства {G}.
Глава II
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
§ 6.	Стратегии и движения. В этой главе будет дана более строгая формализация позиционной дифференциальной игры, которая описана в §2 только в приблизительных терминах. Прежде всего следует определить понятия позиционных способов управления U или V, которые мы будем именовать стратегиями, и понятие движения х[/], порождаемого той или иной стратегией. Эти определения и составляют содержание данного параграфа.
Будем рассматривать наши игровые проблемы управления всякий раз со стороны того или иного игрока. Этого игрока, сторону которого мы будем принимать, назовем союзником, трактуя другого игрока как противника. Для определенности в этом параграфе сначала будем считать союзником первого игрока, который распоряжается управляющим воздействием и. При другом распределении ролей в следующих рассуждениях достаточно поменять местами буквы и и v.
По смыслу задач, которые мы собираемся рассматривать, союзник должен вести позиционную игру. Примем, в соответствии со сказанным в § 2, что данные, на основе которых союзник может формировать свои управляющие воздействия и в каждый текущий момент времени t, доставляются информацией о текущей позиции {/, х [/]}, складывающейся в тот же момент времени t. Поэтому понятия стратегий U и порождаемых ими движений х [ZJ следует формализовать так, чтобы отразить построение управления и по принципу обратной связи, исходя из реализующихся позиций {/, х[/]}. Кроме того, желательно формализовать эти понятия так, чтобы явцо был виден переход от них к осуществимым на практике законам управления, которые базировались бы на такой же информации о реализующихся позициях {/, х[/]}. Сделаем это следующим'образом.
Функцию f(t,x,u,v) в z правой части уравнения движения (2.1), т. е. уравнения
X = f (t, х, и, v),	(6.1)
будем полагать непрерывной при всех тех значениях ее аргументов, которые только могут встретиться. Кроме того, примем, что допустимые значения и и v в (6.1) стеснены условиями
ueP, ueQ,	(6.2)
32
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. II
где Р и Q суть замкнутые множества в пространствах {&} и {у}, характеризующие возможности игроков. Рассматриваемые ниже векторы будем обозначать, как правило, малыми латинскими буквами. При этом, если не будет специальных оговорок, эти векторы следует трактовать как вектор-столбцы.
Будем отождествлять стратегии U первого игрока с функциями u(t> х), стесненными в соответствии с условиями (6.2) только включением u(t, х)(=Р при всех возможных значениях аргументов. Соотношение между стратегией U и ее функцией u(t, х) будем изображать символом U + u(t, х). Пусть дана начальная позиция {/*, х*} и выбрана стратегия	х).
Покроем полуось t < оо системой Д полуинтервалов xt
t < (i = 0, 1, ..., то =/*). Пусть далее
(t to) — какая-то интегрируемая по Лебегу ([9*], стр. 290) реализация управления у, развертывающаяся во времени t на основании тех или иных соображений, которыми захочет воспользоваться противник. Условие интегрируемости реализаций по Лебегу может быть заменено без особенного влияния на существо дела предположением, что реализация [/] является кусочно непрерывной функцией и|7], допускающей только разрывы первого рода ([9*], стр. 318), или даже предположением, что v [/] есть кусочно постоянная функция времени t. Назовем ломаной Эйлера хд|7]== = хд [/, /*, х*, U, и [•]] абсолютно непрерывное ([9*], стр. 335) решение дифференциального уравнения
[Л = f (t, Хд И, и (т., хд [тг]), V [(])
< Ti+1, z = 0, 1, ...)»
удовлетворяющее начальному условию хд [/J = х*. Существование такого решения Хд [/], для которого равенство (6.3) выполняется при почти всех значениях ([9*], стр. 283) t из интервала существования, устанавливается известными теоремами из математического анализа ([29й], стр. 120). Далее, если при всех возможных значениях аргументов t, х, и и v выполняется неравенство
||/(t, х, и, о)||<х(1+||х||),	(6.4)
х = const,
то при любом выборе {/», х*}, I/, А и п[(] существует решение хд [(, /*, х*, U, v [•]], п р о д о л ж и м ое ([2*], стр. 149) на всю полуось [/», оо). Символ 11x11 здесь и ниже обозначает евклидову норму вектора х, т. е. || х || = (х* + ... + х*)1/2. Всюду в дальнейшем в этой книге, если не будет оговорено противное, будем предполагать условие (6.4) выполненным.
СТРАТЕГИИ И ДВИЖЕНИЯ
33
$ 6]
Читатель, которому не хотелось бы работать с интегрируемыми по Лебегу функциями гф] и соответственно с абсолютно непрерывными функциями Хд [Z] из (6.3), может без искажения существа дела определять ломаную Эйлера хд[£] = = Хд[^, t*, U, v[>]], как непрерывную кусочно дифференцируемую функцию хд И, которая удовлетворяет условию Хд [/*] = х* и равенству (6.3) при всех тех значениях t т«, при которых непрерывна кусочно непрерывная функция и [<]. И здесь при выполнении неравенства (6.4) при любом выборе {/», х*}, 1Д А и ф] согласно известным теоремам из анализа ([24*], стр. 22—23, [30*], стр. 55) существует решение хд [/, /*, х*, U, »[•]], продолжимое на всю полуось [£», оо). Поясним, пользуясь случаем, что точка на месте аргумента в символе »[•] говорит о том, что речь идет не о значении функции гф] при том или ином значении аргумента t, а обо всей этой функции, как едином целом (см., например, [16*], стр. 13).
Движением х [£] = х [/,	х*, 17], порожденным стратегией
U-i-u(t, х) из позиции {7„xJ, будем называть всякую функцию х [/], для которой на всяком отрезке t & найдется последовательность ломаных хд(й) р, ф x(ft), U, ц(А) [ • ]], равномерно ([16*], стр. 20, [9*], стр. 48) сходящаяся к х[/] на отрезке t * t О ПРИ условии lim supz ( — т(*’) — 0, когда k —> оо.
Надлежит заметить, что стратегия U при фиксированной начальной позиции {/,, х*} порождает, вообще говоря, не одно движение х[/, /», х*, 17], а целое множество таких движений в соответствии с многообразием последовательностей реализаций сАф], Д(Ч х<4 которые могут случиться при построении лома» ных Эйлера хд(й> [/, f , x(ft), U, о(А)[ • ]], определяющих х[/].
Следует обратить внимание и на то, что от движения х [/] не требуется, чтобы оно было решением дифференциального уравнения х = f (t, х, u(t, х), ф]), которое можно получить из уравнения (6.1), подставляя вместо и функцию u(t,x), а вместо v — какую-либо подходящую функцию и [7]. Движение х[7] просто определяется как предельная функция для какой-нибудь подходящей последовательности ломаных Эйлера хд(« [7]. Такое определение движений х[7] как некоторых идеальных предельных элементов можно объяснить следующими обстоятельствами. Полезные законы управления u(t, х) в игровых задачах динамики часто носят разрывный характер. Данное выше определение движения х[7] описывает его в меру строго, как математический объект. В то же время оно не требует заботы о функциональных свойствах (непрерывность, дифференцируемость и т. д.) функций u(t, х), отождествляемых со стратегиями U. Существование движений x\t, t*, х», U] и их удобные матема-
2 Н. Н. Красовский, А. И. Субботин
34
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. 1Г
тические свойства проверяются без большого труда при весьма общих предположениях. В самом деле, при условии. (6.4) любая последовательность {х^р [/,	x(/\ U, и<й[ • ]]} (/= 1, 2, ...),
где limsupz(T^.—тФ) = 0, limx(/) = x* ПрИ /->оо, образует на всяком конечном отрезке [/*, Ф] множество равномерно
ограниченных и равностепенно непрерывных ([9*], стр. 106) функций. Отсюда, на основании известных тео-
рем математического анализа ([9*], стр. 106) вытекает возможность выбора из последовательности (хд(/) [/]} подпоследовательности |хд^ [/]| (k = 1, 2, ...), которая будет сходиться равно-
мерно на каждом конечном отрезке [/*, ft] к некоторой функции х [/]. Эта функция х[/] и явится движением x[t, t*, х*, U], Таким образом, мы видим, что при всяком выборе {£*, х*} и U-±u(t,x) будет существовать по крайней мере одно движение x[t, t*, х*, U], продолжимое на всю полуось t* t < оо. В то же время данное абстрактное определение стратегии U и движения х[/] допускает разумный переход к реализуемым на практике процедурам управления. Этот переход осуществляется обращением к ломаным Эйлера хд[/] (6.3), ибо, как оказывается, эти ломаные хорошо аппроксимируют движения х[/]. В самом
деле, справедливо следующее утверждение, доказательство ко-
торого мы опустим.
Лемма 6.1. Выберем какую-нибудь стратегию U 4- u(t,x). Зафиксируем какую-либо ограниченную область G в пространстве {/, х} и число Ф. Тогда для любого числа 8 > 0 найдется число б > 0, такое, что при всяком выборе позиции {/*, х*} е G, б*, для всякой ломаной Эйлера Хд[/] = хд[7, /*, х*, U, у[-]] (6.3), удовлетворяющей условию t?+i — тг б (f = 0, 1, ...), ||х*—х*|| ^б, найдется по крайней мере одно движение х[/] = = х[/, 4, х*, G], такое, что
||х[/]-хд[/]||<е при	(6.5)
Из этого утверждения, как мы увидим ниже, для многих из рассматриваемых нами игр будет вытекать такой вывод.
(А) Пусть некоторая стратегия U обеспечивает первому игроку на идеальных движениях x[t\ некоторый исход игры у. Если на деле этот игрок выберет эту же стратегию U и будет реализовать ломаные Эйлера Хд|7] с достаточно малым шагом 6 = sup; (Тг-н — тг), то ему будет гарантирован исход игры уд, отличающийся от идеального не более чем на сколь угодно малую, наперед выбранную положительную величину 8.
Это несколько расплывчатое общее утверждение (А) будет конкретизировано в дальнейшем в более строгой форме в соответствии с содержанием тех задач, которые будут рассматриваться.
§ б]
СТРАТЕГИИ И ДВИЖЕНИЯ
35
Итак, мы определили класс стратегий Uu(t, х) первого игрока-союзника и порождаемые этими стратегиями движения x[t, t*, ^Zl- Аналогичным образом с понятной перестановкой букв и и v определяется класс стратегий V+v(t,x) второго игрока-союзника и порождаемые этими стратегиями движения Ж V].
Как мы видели, эти абстрактные определения имеют довольно удобный выход к процедурам управления, осуществимым на практике в виде ломаных Эйлера хд [/] = = хд[/, /*, х*, (7, у[-]] для первого игрока-союзника или в виде ломаных Эйлера хд[/] = хд[/,	х*, V, и [•]] для второго игрока-
союзника. Не будем обсуждать сейчас те законы управления, которыми может руководствоваться второй игрок-противник при реализации его управляющих воздействий v[t] в случае ломаных Эйлера Хд [/, /*, х*, t7, v[*]], или первый игрок-противник при реализации его управляющих воздействий и[/] в случае ломаных Эйлера хд|7, /*, х#, V, //[•]]. Это нам просто не надо, так как речь идет о противнике. Мы можем ограничиться предположением, что при построении своих управляющих воздействий противник может остановиться на любом не лишенном смысла способе формирования его управляющих сил, базирующемся на любой мыслимой информации. Все такие способы формирования управления противником должны лишь укладываться в описанную выше схему построения движений хИ, которые замыкают, как пределы, множество ломаных Эйлера хд [/]. Важно, однако, отметить следующее обстоятельство, которое в пределах избранной формализации стратегий V и V и движений x[f] позволяет объединять задачу первого игрока-союзника и задачу второго игрока-союзника (см. § 2) в одну, складывающуюся из этих задач дифференциальную игру (там, где это будет интересно).
Пусть выбрана пара стратегий U~u(t,x) и 1/~-и(/, х), и реализации управления и[фв уравнении (6.3) строятся по закону гф] = v [т^] = v (тр хд [tJ] ), где (т*) — какое-либо разбиение полуоси t < оо, избранное вторым игроком. Тогда уравнение (6.3) будет определять также и ломаные Эйлера хд»[/] = = хдф, х», V, и[ • ]] для второго игрока, для которых первый игрок выбирает реализации своего управления и по закону u[t] = u[xi] = ХД [Тг]). Обозначим символом х[/, /*, X*, [/, V] любую непрерывную функцию х[/] (4^^<°°), которая на всяком конечном отрезке Ф] является равномерным пределом Для некоторой подходящей последовательности таких ломаных Эйлера хд(4)Ш = *д*(*> [fl ПРИ условиях Hm зирДт^— ?<*)) = О, Нт8ирДт*Ю — т*<*)) = 0 при &->оо. Справедливо следующее утверждение, которое снова приведем без доказательства.
2*
36
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
(ГЛ. II
Лемма 6.2. Каковы бы ни были позиция {/*, хJ и пара стратегий {U, V}, множество движений x[t, t*, х#, С/] содержит все движения x[t, t*, х*, U, V], и множество движений x[t, t*> *♦, И также содержит все движения х [/, £*, х*, U, V].
Мы уклоняемся пока за ненадобностью от более подробного обсуждения принципов, определяющих реализации управлений противника. Однако в дальнейшем мы все-таки вернемся. к этому вопросу в главах XI, XIII и XIV, когда это потребуется более настоятельно.
В заключение приведем примеры осуществляемых в двумерной системе
движений х[/, /0, Xq, £7],
Xj = х2, х2 = « + у, | и К 2, |у|<1	(6.6)
при выборе стратегии £7 4-и(/, х), которая отождествляется со скалярной функцией u(t, х) = и(х) = и(хь х2), задаваемой условиями
х2 < — V 2xi
ы(хь х2)=*
2 при или
Xi >0,
< 0,
— 2 при или
Х(
Xi < 0,
х2 > —	2х(
(6.7)
х2 < ]/— 2х],
х2^ V— 2xi.
На рис. 6.1 изображено движение х[/] = х[/, 0, {—1,0}, С/], которое получается как предельный элемент для ломаных Эй-
«л
СВОЙСТВА ДВИЖЕНИЙ
37
лера (6.3) вида
Хд(А)И = Хд(А)[Л 0, (— l,0j, U, и[ •]]	(£->оо),
где у[ •] = {»[/]^0, 0< / < оо}.
На рис. 6.2 изображено движение х[/] = х[/, 0, {—1,0}, СТ], которое получается как предельный элемент для ломаных Эйлера (6.3) вида Хд(Л>[/] = хд(Л) [/, 0, (— 1, 0), С/, v<*>[-]](&—► оо), где реализации о(А)[• ] = {uW[f], 0 О t < оо} (fe=l, 2, ...) в свою очередь формируются позиционным способом по правилу
v™	= v [Т* (*)] = v (Хд [х* (Л)j)	(6,8)
при
(tJW =»(),/“0, 1,2, ..
причем для разбиений и Д*(*> выполняются предельные соотношения
lim S(W = 0, lim d*(ft) = 0,	(6.9)
&->oo	fe->oo
где d,ft’= sup,	и d‘(ft) = sup,	Здесь ска-
лярная функция v (x) — v (xlt x2) определена равенством
при или
при
или
х2 < — V 2х{
х2 < V— 2xIt
х2 > — / 2х,
х2> /— 2х,.
(6.10)
Полезно заметить, что, начиная с некоторого момента времени (б(1) = /Зв первом случае и О® = 2 во втором случае), каждое из рассматриваемых движений x[t, 0, {—1,0}, I/] удовлетворяет тождеству х И = 0.
§ 7. Свойства движений. В этом параграфе мы обсудим некоторые свойства движений x[t, to, хо, СТ] и x[t, to, хо, V], определенных в предыдущем параграфе. Обсудим свойства движений х [/, to, Хо, СТ]- Аналогичные свойства движений х [/, to, х0, V] получаются простой заменой буквы U на букву V. Зафиксируем начальную позицию {/о, х0} и остановимся на какой-то стратегии U. Тогда можно построить пучок всех возможных движений x\t, to, Хо, U] (to^t<Zoo), которые получаются как пределы при переборе всех возможных сходящихся последовательностей 1хд(Ь)ш) ломаных Эйлера хд<&)[/, /0, х<4 U,	причем перебор всевозможных реализаций	to t < °°}
отражает всевозможные действия противника. Таким образом,
38
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. 1Г
множество всех движений x[t, х0, U] при данных {/0, *о} и (Л отражает в нашей формализации всевозможные реализации х [/] процесса, отвечающие всем возможным действиям противника, стесненным только условием v Q.
Справедливо следующее утверждение.
Лемма 7.1. Пусть G — некоторая ограниченная область & пространстве {/, х} и зафиксировано число
Тогда множество всех движений х[/, /0, х0, [7], отвечающих всем возможным стратегиям U и начальным позициям {tn, х0} е G, /0 образует совокупность равномерно ограниченных и равностепенно непрерывных функций х [/].
Лемма 7.1 доказывается при условии (6.4) стандартными, в теории обыкновенных дифференциальных уравнений рассуждениями (см., например, [2*], стр. 147—154). Поэтому доказательство ее* мы здесь опустим.
Под расстоянием р (х[ • ], у[ • ])[fo>0] между двумя непрерывными вектор-функциями х[/] и у [/], определенными на отрезке? [/о, О’], будем понимать их расстояние в метрике пространства C[/0.oj ([9*], стр. 48), т. е. величину
Р(*[  1, Я •])[,„. 01= max II х [/] — #[/] ||.	(7.1>
Справедливо следующее утверждение.
Лемма 7.2. На всяком отрезке [г"0, й] пучок всех движений х[^, t0, хо, £7] при всяком выборе {/0, хо} и U образует замкнутое-, множество в метрике пространства
Справедливость леммы 7.2 вытекает из того замечания, что» пучок всех движений x[t, to, Хо, U] (t0 t й) по определению» движения х [£, to, х0, £7] складывается из всех предельных элементов (в метрике £(<„,#]) для множества всех возможных сходящихся последовательностей ломаных Эйлера хд(й)[Л tQ, х0,,и„ (k = 1, 2, ...). Но известно ([9*], стр. 55), что множество всех таких предельных элементов замкнуто (в той же метрике С^, oj).
Из лемм 7.1 и 7.2 вытекает, что пучок всех движений х[/, t0, хо, U] (to^t^ty образует в пространстве С[<<,,#) компактное в себе множество ([16*], стр. 222), т. е. из любой последовательности xW[/] (й=1, 2, ...) движений из этого-пучка можно выбрать подпоследовательность х^[7{ (/ = 1, 2, ...), сходящуюся на отрезке to t й равномерно, к движению х[/] из того же пучка.
Следуя общепринятой терминологии ([11*], стр. 63, [32*]),. будем говорить, что некоторая функция Зв = ^?(z) параметра z„ значения которой суть множества Зв (z) = {p}z, состоящие из элементов р метрического пространства X полунепрерывна сверху
7]	СВОЙСТВА ДВИЖЕНИЙ	39
по включению в точке z = z* (в метрике ^), если для всякой последовательности {z(fe>}, сходящейся в метрике пространства {z} к точке z„ и любой сходящейся в метрике & последовательности
P{k)^{p}zW (6=1,2,...)
предельная точка р, = lim p(k) будет удовлетворять условию &->оо
р*^ {p)v (Для краткости будем именовать в таких ситуациях полунепрерывными сами множества <^. Если, помимо интерес сующего нас аргумента (здесь z), множества S3 будут зависеть от других параметров, то там, где это потребуется, будем указывать, относительно какого аргумента имеет место полунепрерывность.)
Обозначим пучок всех движений х[/, /0, х0,	(/о^^^*&),
отвечающих выбранной стратегии U и некоторой начальной позиции {/о, *о}> символом ^(х0), так как будем менять далее только параметр х0. Справедливо следующее утверждение.
Лемма 7.3. При всяком выборе ft tQ и U пучки ^(х0) полунепрерывны сверху по включению в каждой точке х0 = х* (относительно параметра хо и в метрике С\^. О]). При этом для любого е > О можно указать S > 0, такое, что при условии^
llxo-xJ|<S	(7.2)
для всякого движения х[-]е^(х0) найдется по крайней мере одно движение х* [•] <= <^(х*), удовлетворяющее условию
р (х [ • ], х* [ • ] <С 8.	(7.3)
Справедливость леммы 7.3 можно проверить от противного.
В самом деле, предположим, что лемма 7.3 неверна. Тогда при каком-то выборе /0, $ и U найдутся число 8 > 0 и последовательность движений х<*>[/]	k=A, 2, ...) та-
кие, что lim xW[/0] = х* при &->оо, но в пучке <^(х*) всякое движение х [7] = х [t, to, х#, U] будет удовлетворять условию
Р(Х[ • ], х<‘>[ • ])1<л(М>8	•	(7.4)
при всяком значении k. В то же время множество {x<fe>[-]} (k= 1, 2, ...), согласно лемме 7.1, состоит из равномерно ограниченных и равностепенно непрерывных функций x(ft)[/] = = to, x<ft)[/о], U] (to^t^'d), поэтому ([9*], стр. 106, [16*], стр. 236) из последовательности {x<ft>[-]| можно выбрать подпоследовательность {х(М[ • ]] (/ = 1,2,...), равномерно сходящуюся к некоторой функции х*[-], так, что
р(х‘[], x<fe/)[ - ]) <е	(7.5)
40
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. П
при всех достаточно больших значениях /. Однако, опираясь на определение движений а/М [ • ], теперь нетрудно построить последовательность ломаных Эйлера хд(/) [t] (tQ t 0), которая также будет сходиться равномерно к функции х* [/] Go^C^'O'). Стало быть, опять по определению движения х[/, *о, х*, U] функция х* [/] будет таким движением на отрезке [/о, '&]. Но в таком случае, условия (7.4) и (7.5) оказываются противоречивыми. Полученное противоречие доказывает лемму 7.3.
Итак, лемма 7.3 утверждает, что при приближении точки к точке х* все движения из пучка 3?(хо) равномерно приближаются к совокупности движений, составляющих пучок Ж(х#).
Наряду с теми конструктивными идеальными движениями х [t, 6), х0, U], которые были определены в § 6 предельным переходом от ломаных Эйлера хд[/, /0, Xq, U, v [•]] (6.3), нам часто будет удобно рассматривать во вспомогательных построениях некоторые обобщенные идеальные движения х(£, ^о> Хо, I/), которые мы определим следующим образом (см. аналогичные построения в [И*, 33*, 38*, 41*]).
(Читатель, которому применение определяемых ниже обобщенных движений x(t) представляется нежелательным, может в дальнейшем в тех вспомогательных построениях, где эти движения будут использоваться, подменять их движениями х.[/]> определенными в § 6. Изменения, которые при этом потребуются на том или ином промежуточном этапе или в окончательных выводах, не носят принципиального характера. В некоторых наиболее существенных пунктах эти изменения будут оговариваться по ходу дела. Следует, однако, сказать, что использование во вспомогательных построениях обобщенных движений x(t) позволяет вести изложение более компактно.)
Зафиксируем некоторую позицию {/*,'%*} и выберем какую-то стратегию U ~ u(t,x). Выберем число 6>0 и построим множество (/*> х*, U), которое является выпуклой замкнутой оболочкой ([8*], стр. 782) совокупности всех векторов f вида
f = f(t,x,u9v)9 u = u(t,x), v^Q,	(7.6)
/ п	\v2
НИ-К. х.)|| = 2(х<-хи)г + (/-О2 <6- С7-7) \г=1	/
Такие выпуклые замкнутые оболочки ST какого-либо множе-. ства векторов {/} мы будем обозначать в дальнейшем символом ST = со {/}. Итак,
Х„ U) = со [f: f = f (t, х, и, v),u = u (t, x), о e Q,
ll{M-K,x.lll<6]-	(7-8)
СВОЙСТВА ДВИЖЕНИЙ
41
§ 71
При всяком выборе позиции {/, х}, стратегии U и числа б > О множество (/, х, U) оказывается ограниченным. Кроме того, очевидно, справедливо вложение
х,	X, U)
при б] 62. Далее мы можем построить множества
(t, х, U) = fj {t, х, U),	(7.9)
в>о
являющиеся, стало быть, пересечениями- множеств £Грв) (6 > 0). Из построения множеств вытекает, что множества 3rv(t, х, U) ограничены, выпуклы, замкнуты и содержат в себе выпуклую оболочку множества всех векторов f=f(t,x,u(t,x),v), v^Q. Более того, можно проверить, что множества &~v(t,x, и), отвечающие одной и той же стратегии U-i-u(t, х), оказываются полунепрерывными сверху по включению (см. выше, стр. 38, 39) в каждой позиции {t*, хД (относительно позиции {/, х} и в евклидовой метрике пространства {/}. Именно, какой бы ни была стратегия U и какой бы ни была позиция {£*, х*}, для всякого •е > 0 можно указать 6 > 0 такое, что при выполнении условия (7.7) множество ^v(t,x, U) будет содержаться в евклидовой «-окрестности множества &~v(t*, х», U).
Теперь мы можем рассмотреть дифференциальное уравнение в контингенциях (см., например, [11*, 33*, 38*, 41*])
xe=^"0(/,x, t/).	(7.10)
Напомним, что решением x(t) = x(t, to, Хо, U) дифференциального уравнения в контингенциях (7.10) называется всякая абсолютно непрерывная функция x(f), которая удовлетворяет начальному условию x(to) = xo и производная которой при почти всех значениях t to удовлетворяет вложению
x(/)e=#-v(f,x(/), {/).	(7.11)
Так как наши множества STv{t, х, U) при всяком выборе стратегии U во всякой возможной позиции {t, х} ограничены, выпуклы и замкнуты, при изменении позиции меняются полунепрерывно сверху по включению и, кроме того, согласно (6.4) удовлетворяют условию
Ш<н(1+11х||) при /е^Д/.х, U),	(7.12)
то, согласно известным результатам из теории дифференциальных уравнений [33*], уравнение (7.10) при всяком выборе стратегии U и начальной позиции {^о, х0] имеет решения x(t,to,Xo,U) V to), продолжимые для всех значений t to. Эти решения
42
' ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. и
*(Мо, *0, £7) мы и будем называть идеальными обобщенными-движениями x(t) системы (6.1).
Аналогичным образом с переменой ролями букв и и v определяются идеальные обобщенные движения х(/) = x(t,х0, VK которые являются решениями дифференциального уравнения в контингенциях
хен^ы(/, х, V),	(7.13>
аналогичного уравнению (7.10).
Обсудим связь между идеальными конструктивными движениями х[/, tQ, xQ, £7], которые получаются предельным переходом от ломаных Эйлера (6.3), и идеальными обобщенными движениями х(/,/о, *о, £7), которые определены как решения дифференциального уравнения в контингенциях (7.10). Оказывается^ что при всяком выборе стратегии U и начальной позиции {/0, *о} всякое конструктивное движение х [/, /0, xQi U]	является
одновременно обобщенным движением х(/, /0, *о, £7) (t М-Иначе говоря, пучок всех конструктивных движений $х(/о, хо, Ф, £7) =[%[•]: х [/] = х [/,/0, *о, £7], /о С t -0] обязательно содержится в соответствующем пучке всех обобщенных движений хо, Ф, £7) = [х( •): х(/) = x(t, t0, х0, £7), tG
О’]. Таким образом, имеем
х^ О, U) с (/0, х0, О, £7).	(7Л 4>
Мы не будем доказывать здесь , это утверждение, так как. для его проверки стандартными в теории дифференциальных, уравнений рассуждениями (см., например, [12*]) доказывается^ что всякая сходящаяся равномерно последовательность" ломаных Эйлера хд(й)[/]	6=1, 2, ...) сходится к реше-
нию х(/) уравнения (7.10). Аналогичным образом справедлива включение
(*о, х^ У) cz (/0, хе, О, 7).	(7.15>
Обратим внимание на одну особенность в обозначениях рассматриваемых нами функций от времени в данном и предыдущем параграфах и в дальнейшем тексте книги. Дело в том,, что нам нужно различать два сорта функций от времени. Во-первых, это функции от времени, которые описывают значения соответствующих переменных, реализующиеся в процессе той или иной позиционной игры (в идеальной модели или в аппроксимирующей ее схеме). В обозначениях таких функций аргумент t или какую-либо другую букву, заменяющую /, мы будем заключать в квадратные скобки. Например, конструктивное движение или ломаную Эйлера мы обозначаем соответственно символами x\t\ = х[/, t0) х0, U] или хд[/] = хд[/, xQ, U, ^[-]ф
СВОЙСТВА ДВИЖЕНИЙ
43
$ 7]
Во-вторых, нам потребуются функции времени, которые будут использоваться во вспомогательных построениях, причем аргумент t или какую-либо другую заменяющую t букву нам часто будет удобно рассматривать в этих вспомогательных построениях как некоторое воображаемое время. В таких случаях аргумент, обозначающий время, будем заключать в круглые скобки. Например, обобщенное движение мы обозначаем символом x(t) = x(t, t0,X0, U).
В связи с включениями (7.14) и (7.15) возникает вопрос о том, являются ли верными также и обратные включения? Иначе говоря, возникает вопрос о том, является ли всякое обобщенное движение x(t) также и некоторым конструктивным движением %[/]. Вообще говоря, ответ на этот вопрос получается отрицательным. Именно, можно привести пример системы (6.1), (6.2), удовлетворяющей условию (6.4) и такой, что для нее найдется стратегия U, начальная позиция {/о, *о} и обобщенное движение x(t, to, xOf U), которое не является конструктивным движением х [/,	*о, ^].
Простой пример подобной ситуации доставляет скалярное уравнение
х = и, |и|<1	(7.16)
при выборе стратегии V 4- u(t> х) = а(х), функцией
которая
[	1 при х>0,
'	( — 1 при х < 0.
задается
(7Л7)
Нетрудно проверить, что при выборе начальной позиции {0,0} система (7.16) имеет только два конструктивных движения х(»И = t и х<2ф] = — t.
В то же время, дифференциальное уравнение в континген-циях (7.10) имеет здесь вид
х = 1 при
х= — 1 при
|	1 при
х > 0, х < 0, х —0,
(7.18)
откуда вытекает, что наряду с обобщенными движениями хО)(/)= t, х<2>(/)== —t, система (7.16) имеет также еще по крайней мере одно обобщенное движение x^(t) = O.
Отмеченное сейчас обстоятельство сыграет в дальнейшем свою роль при обосновании выбора в качестве основы для построения нашей математической модели дифференциальной игры именно совокупностей конструктивных движений x\t, to, Хо, £7] и х[/, tg, Хо, V], а не совокупностей обобщенных
44	ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. If
движений x(f,totxOt U) и х(/,/о, х0, Ю- В самом деле, окажется,, что в рассматриваемых нами классах дифференциальных игр удается подбирать (хотя бы в принципе) оптимальные в том или ином смысле стратегии UQ и V0, которые обеспечат нужный исход игры для всех порождаемых ими конструктивных движений х [/, /о, *о, U°] или х[/,/о,хо, Г0], однако во многих случаях дифференциальных игр не удается подобрать стратегии U и V (и даже в принципе нельзя это сделать), которые справлялись бы аналогичным образом со всем множеством порождаемых ими обобщенных движений x(t,tQ,xotU) или x(tt tOf xQt V) coot-ветственно. Впрочем, как мы увидим ниже, за эту привлекательную особенность конструктивных движений приходится платить: решения, получаемые на основе класса конструктивных движений, могут оказаться неустойчивыми. Однако, благодаря возможности регуляризации этих решений (см. ниже, главы IX, X), указанная неустойчивость может быть исправлена и нужные решения стабилизированы.
§ 8.	Постановка задачи. После того как было дано определение стратегий и движений, мы можем перейти к формализованной постановке игровых задач из § 2. В соответствии с материалом из указанного параграфа будем предполагать, что в пространстве позиций {/, х} заданы множества М и N и задан функционал
у = ф(х[/],	(8.1)
который должен минимизироваться первым игроком и максими-зироваться вторым. Ограничимся сначала функционалом <р (8.1) несколько более частного вида, чем функционал (2.2). К более общему случаю (2.2) обратимся позднее. Начальную позицию {/о, Хо} будем полагать выбранной произвольно в пределах ее допустимых значений, но будем полагать ее затем зафиксированной. К обсуждению этого обстоятельства, на которое следует сейчас только обратить внимание, мы вернемся в конце данного параграфа. Множество М удобно предполагать замкнутым, а функционал ср — имеющим смысл на непрерывных функциях x\t\. Будем сначала считать союзником первого игрока и сформулируем задачу для него.
Задача 8.1. Требуется найти стратегию ц°(/, х), которая, во-первых, обеспечивает встречу (2.3), (2.4) для всякого движения х [/] = х [/,/0, х0, £/°] и, во-вторых, среди всех стратегий	х), удовлетворяющих этому условию, отличается
тем, что удовлетворяет условию минимакса:
supф(х[t, /0, х0, £7°], t^^t^x) —
= min sup ф (x [/, /0, x$t U], /о < T) — Y°* (8-2) и «н
§ 8]
ПОСТАНОВКА ЗАДАЧИ
45
Обратим внимание на то, что момент т, фигурирующий в условиях задачи, не является, вообще говоря, заданным априори, но получает для всякого движения х[/] свое значение (2.3).
Стратегию UQ 4- uQ(t, х), разрешающую задачу 8.1, будем называть оптимальной минимаксной стратегией.
Будем считать союзником второго игрока и сформулируем задачу для него.
Задача 8.2. Требуется найти стратегию 17° 4- vQ(ty х)у которая исключает встречу (2.3) для всякого движения x[f] = = х [t,to, Хо, V0]. Если такой стратегии не существует, то требуется найти хотя бы стратегию 1/°~-у°(/, х), которая удовлетворяет условию максимина
inf Ф (х [t /о, *о, ^°L h < t < т) = х 1-1
= max inf ф (х [/, /0, х0, V], /0 < £ < т) = у0. (8.3) V хН
В левой и правой частях (8.3) нижняя грань infx[.] вычисляется по всем тем движениям x[t\, для которых время до момента окончания игры является конечным.
Стратегию V°4-v°(/, х), разрешающую задачу 8.2, будем называть оптимальной максиминной стратегией.
Совокупность двух задач 8.1 и 8.2 будем именовать игрой. Полезно обратить внимание на следующее обстоятельство. Игра в нашей формализации складывается из двух задач. При этом выбор образа действий игрока-противника в той или иной задаче, в соответствии с постановкой этой задачи и благодаря лемме 6.2, оказывается никак не менее узким (а вообще говоря— даже более широким), чем выбор действий того же самого (по номеру) игрока, когда в противоположной задаче из той же игры он оказывается уже в роли игрока-союзника.
В случае, если величины у0 и у0, фигурирующие в условиях (8.2) и (8.3), совпадают, будем говорить, что игра имеет седловую точку {17°, V0}. Значение у0 = Y0 будем тогда именовать ценой игры.
Обратимся теперь к более общему, чем (8.1), случаю функционала ф, т. е. к случаю (2.2), когда величина у = ф зависит явно и от реализаций управляющих воздействий и [/] и и [/]. Здесь нам придется преодолеть одно неудобство, связанное с тем обстоятельством, что движения х|7] были определены нами в § 6 только как пределы для ломаных Эйлера хд [/] и эти пределы не обязаны удовлетворять дифференциальному уравнению (6.1) при каких бы то ни было допустимых функциях u\t\ и Ц[/]. Однако от этого неудобства можно избавиться следующим образом. Сопоставим стратегии U (или V) предельное множество {у}ц (или {у}у), которое складывается из всех тех
46
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. II
значений у, которые могут служить пределами для всевозможных последовательностей
[/],	(й=1,2, ...), (8.4)
где xA(fe)[d — ломаные Эйлера хд(^р, /0, x{k}, U, р(й)[ • ]] (или *д(&)[Л t0, x{k}, V, и^[ • ]]), определяющие движения x\t, tQ, х0, U] (или x[t, xQ, V]). При этом значение т в (8.4) определяется как момент встречи (2.3) как раз для того движения x[f], которое служит пределом для данной последовательности хАщИ-Тогда условия (8.2) и (8.3) в задачах 8.1 и 8.2 можно заменить соответственно условиями:
sup y = min sup у,	(8.5)
№{7}ьго	U Ye-Mtf
inf y = max inf y.	(8.6)
Y^{Y}yo	V Y^{Y}y
Во всем остальном формулировки задач 8.1 и 8.2 остаются без изменения.
Следует отметить, что приведенные сейчас обобщения (8.5) и (8.6) условий (8.2) и (8.3), равно как и сами эти условия, оказываются полезными только при определенных свойствах рассматриваемых функционалов <р, которые позволяют сделать подходящие аппроксимационные заключения (см. выше (А), стр. 34) при переходе от идеальных предельных движений или значений у к аппроксимирующим их ломаным Эйлера и величинам yW (8.4), которые уже можно реализовать на деле.
В связи со сделанными выше замечаниями о переходе от функционалов ср (8.1) к функционалам ср более общего вида (2.2) остановимся еще на одном вопросе, который мы оставили в тени в § 6 при определении стратегий U и V. Там предполагалось, что допустимые управления и и v стеснены только условиями (6.2), которые налагают ограничения и^Р и v^Q лишь на значения и = и [/], v = v [/] в каждый текущий момент t. В соответствии с этим стратегии U и V отождествлялись там с функциями u(t,x) и v(t, х), удовлетворяющими условиям u(t, х)^Р и и(/, x)gQ при всех значениях аргументов t и х, без каких-либо дополнительных оговорок. Но возможны случаи, когда допустимые реализации управлений u[t] и и И стесняются еще дополнительными ограничениями более общего функционального характера: ”
Цы[/],	(8.7)
§ 8] •
ПОСТАНОВКА ЗАДАЧИ
47
.Пример такого ограничения доставляют условия
т	т
/ IIU [/] IP dt < ц2, J IIV ИII2 dt < v\	(8.8)
В таких случаях понятие допустимых стратегий U и V, если их по-прежнему отождествлять с функциями u(t,x) и v(t,x) только от t и х, требует уточнения. Выполним его, полагая для определенности союзником первого игрока и определяя, стало быть, допустимые стратегии	х). Определим предельное
множество {£}(/, складывающееся из всех тех значений которые могут служить пределами для всевозможных последовательностей
(£ = 1,2,...),	(8.9)
где «<*’[/] = u(x<ft>, XawIH) при	и хд(й)[/] =
==хд(й)|7, t0, U, v(k> [ • J] — ломаные Эйлера, определяющие движения x[t, t0, х0, t/]. При этом допускаются только такие реализации управления которые удовлетворяют условию lim supr](n(ft>[/],	(8.10)
£-> оо
вытекающему из второго ограничения (8.7). При этом, как и в (4.4), значение т в (8.9), (8.10) определяется из условия встречи (2.3) для того движения х[/], которое служит пределом для соответствующей последовательности хд(^ [/]. Теперь стратегию U~u(t9 х) будем называть допустимой (при дополнительных ограничениях (8.7)), если будет выполнено условие
(8.11) при всех I (= {5}^.
Аналогичным образом с понятной переменой местами между буквами и и v определяются допустимые стратегии	х)
для второго игрока.
Следует заметить, что эффективная проверка допустимости той или иной стратегии U + u(t, х) или V + v(t, х) при дополнительных условиях (8.7) может оказаться затруднительной. Кроме того, надлежит иметь в виду, что полезность введенного сейчас определения допустимой стратегии U + х) (или — V+v(t, х)) также обосновывается только при определенных свойствах функционалов ф, и q, допускающих содержательную аппроксимационную трактовку тех идеальных соотношений, которые вытекают из данных выше предельных условий.
В заключение этого параграфа остановимся еще на одном вопросе, о котором было упомянуто выше. При постановке
48
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. И
задач 8.1 и 8.2 мы предполагали начальную позицию {/о, х0} зафиксированной. Это означает, что оптимальная минимаксная стратегия (7° 4- uQ(t,x) (/ из задачи 8.1 (или оптимальная максиминная стратегия V°4-a°(/, х) (/	/0) из задачи 8.2)
является наилучшей для союзника (в смысле условий соответствующей задачи) именно для этой начальной позиции. Однако, если в ходе управления в течение какого-то времени <t*<x противник будет действовать не наилучшим для него образом, то в момент t* может сложиться такая позиция {/*,х*}, для которой, уже снова как для начальной, может найтись стратегия (7*4-ц*(/, х) (£>/*) для задачи 8.1 (или стратегия V* 4- г>*(£, х) (t t*) для задачи 8.2), которая при t будет лучше, чем UQ (или V0) для союзника (в смысле условий соответствующей задачи). Это снижает ценность принятой постановки задач 8.1 и 8.2 по сравнению с другой возможной постановкой подобных игровых задач, где можно было бы потребовать, чтобы искомые стратегии £7°-г«°(/, х) и 1704-у°(/, х) оставались наилучшими и для всякой промежуточной позиции {/*, х*}, принимаемой с момента t* снова за начальную. Однако практически отмеченное снижение теоретической ценности постановки задачи, пожалуй, не играет особенно существенной роли, так как если бы мы умели на практике хорошо и быстро решать хотя бы задачи 8.1 и 8.2 в нашей постановке, то мы всегда сумели бы (если этого захочется) использовать и упомянутые выше промахи противника. В самом деле, мы могли бы тогда в удобные для нас моменты времени tj (j = 0, 1, 2, ...) корректировать наши стратегии	х) или	х)
(tj < A;+i) так, чтобы начиная с момента tj стратегия C/W или становилась на будущее t tj оптимально?! (для союзника в смысле условий соответствующей задачи 8.1 или 8.2) для сложившейся в этот момент tj позиции {tj, х [/>]}, рассматриваемой с этого момента tj как начальная. В то же время, принятая нами постановка задач 8.1 и 8.2 с фиксированной начальной позицией {/о, Хо} (в разъясненном сейчас смысле) освобождает от необходимости преодолевать некоторые дополнительные теоретические трудности. К тому же эта постановка задачи, очевидно, не запрещает искать и такие решения [7° 4- uQ(t, х) и V°4-v°(/, х) задач 8.1 и 8.2, которые являются наилучшими стратегиями и в обсуждавшемся сейчас усиленном смысле.
Глава III
ИГРА СБЛИЖЕНИЯ — УКЛОНЕНИЯ
§ 9.	Игра сближения — уклонения. Изучение задач 8.1 и 8.2, поставленных в предыдущем параграфе, мы начнем с одного частного случая, который будем именовать в дальнейшем игрой сближения — уклонения. Эта игра будет складываться из следующих двух задач 9.1 и 9.2.
Л4ножество N, фигурирующее в задаче 8.1, равно как и множество М из этой задачи, будем полагать замкнутыми множествами в пространстве {/,*}, и в случае рассматриваемой теперь игры сближения — уклонения будем обозначать их символами Nc и Мс. Множества Р и Q, фигурирующие в условиях (6.2), будем полагать отграниченными и замкнутыми. Кроме того, никакого функционала ф (8.1), который должен минимизироваться первым игроком и максимизироваться вторым, в игре сближения— уклонения не будет. Задачи 9.1 и 9.2 из этого параграфа формально оказываются задачами 8.1 и 8.2 из § 8, где фигурирует функционал ф, если положить там <р(х(£], s const. Таким образом, получаем следующие задачи.
Задача 9.1. Требуется найти стратегию Uc 4- uc(t, х), которая обеспечивает встречу
[т, х[т]} еМг,	{t, x[t]}e=Nr (9.1)
(to < t < т)
для всякого движения х И = х [/, /0, *о, £4].
Будем обозначать символами H(NC) и G(MC) некоторые окрестности замкнутых множеств Nc и Мс в пространстве {t,x}. Иначе говоря, H(NC) и G(MC) суть некоторые открытые множества в пространстве {/,%}, содержащие Nc и Мс соответственно.
Задача 9.2. Требуется найти окрестности Н(Nc) и G(MC) и стратегию Vc4- vc(t,x)t которая исключает встречу
{т, х[т]} e=G(M<), {t, x[t]}^H(Nc),	(9.2)
Для всякого движения х И = х[/,	*о, KJ.
В частности, нас будут особенно интересовать случаи задач 9.1 и 9.2, когда множество Мс будет обрываться на некоторой гиперплоскости t = 6*, т. е. когда это множество Мс будет
50
ИГРА СБЛИЖЕНИЯ — УКЛОНЕНИЯ
(ГЛ. III
лежать целиком в области t О. В таких случаях мы будем говорить о задаче 9.1 сближения к моменту Ф и о задаче 9.2 уклонения вплоть до момента th О стратегии Uc, разрешающей тогда задачу 9.1, будем говорить, что она гарантирует сближение позиции {/, х[/]} с Мс внутри Nc к моменту th а о стратегии Vc, разрешающей задачу 9.2, будем говорить, что она гарантирует уклонение позиции {/, х[/]} от G(MC) внутри H(NC) вплоть до момента th
Игра сближения — уклонения, складывающаяся из задач 9.1 и 9.2, интересна и сама по себе. Важно, однако, что она также определяет основу для исследования многих дифференциальных игр, где уже фигурируют нетривиальные функционалы. Это обстоятельство выяснится в главе IV. А следующие ниже параграфы этой главы будут посвящены изучению игры сближения — уклонения.
§ 10.	Эвристические соображения. Наш подход к исследованию дифференциальной игры сближения — уклонения можно истолковать наглядно следующим образом.
Начнем с задачи 9.1 о сближении, согласно* которой первому позицию {/, х[/]} на множество Мс, не выпуская ее до встречи с Мс из замкнутой области Nc. Естественно попытаться построить в пространстве {/,х} некоторое /множество Wu, которое может играть роль моста, соединяющего начальную позицию {/о, Хо} с целью Ме и лежащего * целиком в Nc (рис. 10.1).
Если такой мост Wu окажется настолько хорошим, что можно будет
выбором управления и все время при t tQ удерживать позицию {/, х [/]} на нем до встречи с 7ИС, как бы ни действовал второй игрок, то цель первого игрока будет достигнута. Итак, для решения задачи 9.1 о сближении достаточно построить мост Wu> который обладал бы следующими свойствами:
(1)и Мост 1FW содержит начальную позицию {tQ, х0}
(2) и В какой-то момент t> tQ мост Wu обрывается на МСг т. е. сечение	моста Wu гиперплоскостью t = $ содер-
жится в Мс.
(3)w Мост Wu содержится целиком в Nc.
3 Ю]	ЭВРИСТИЧЕСКИЕ СООБРАЖЕНИЯ	51
(4)« Существует стратегия Uc 4- uc(t, х), которая удерживает всякое движение х [Z] = х х*, Ue]	при любом
выборе начальных условий С sC 'О', {(», xj е Wu на мосту Wu вплоть до встречи с Мс.
Стратегию (7, удовлетворяющую условию (4)и, мы обозна* чили символом (7С, так как она разрешает задачу 9.1 и гарантирует сближение позиции {/, х [/]} с Мс, притом — к моменту О.
Обратимся теперь к задаче 9.2 об уклонении, согласно которой второму игроку-союзнику надлежит перемещать позицию {/, х[(]} так, чтобы исключить ее встречу с некоторой окрестностью G(MC) множества Л4С до выхода этой позиции {t, х [£]} из некоторой окрестности H(NC) множества Ne. Для решения этой задачи опять естественно попытаться построить в пространстве {Z, х] некоторое множество Wv, играющее роль моста, проходящего через начальную позицию {/о, х0} и минующего множество 6(Л1С) (рис. 10.2)
Если такой мост окажется настолько хорошим, что можно будет выбором управления v все время при t (0 удерживать позицию {/, х [/]} на нем вплоть до выхода из области
Д(Л/С), как бы ни действовал первый игрок, то цель второго игрока будет достигнута. Итак, для решения задачи 9.2 об уклонении достаточно построить мост Wv, который обладал бы следующими свойствами:
(1)„ Мост Wv содержит начальную позицию {/о,Хо}-
(2)0 Мост Wv не пересекается с О(МС).
(3)„ Существует стратегия Ус4- vc(t, х), которая удерживает всякое движение х[/] = x[t, t*, х*, Vc] при {/*, х*} е на мосту Wv вплоть до выхода позиции {t, х[/]} из области H(NC).
Стратегию V, удовлетворяющую условию (3)„, мы обозначили символом Vc, так как она разрешает задачу 9.2.
&2
ИГРА СБЛИЖЕНИЯ - УКЛОНЕНИЯ
(ГЛ. Ill
Таким путем каждая из задач 9.1 и 9.2 сводится к проектированию подходящего моста W вместе с тем способом управления, который, как перила, удерживает позицию {/, х[/]} на этом мосту, как бы ни действовал противник.
Для оценки этого подхода к нашим задачам прежде всего надлежит ответить на вопрос о существовании моста W с нужными свойствами (и в том числе — с подходящими «перилами» Uс или К), если для данной начальной позиции {/о, х0} соответствующая задача вообще разрешима. Затем, в случае положительного ответа, следует перейти к вопросу об эффективных способах построения моста IFU (или 1ГГ) и ограждающих его перил Uс (или Vc).
На первый вопрос ответ получается вполне удовлетворительным, как мы это увидим в следующих параграфах. Однако реализуемые на деле решения второго вопроса будут предложены в главах V—VIII лишь для отдельных частных случаев.
§ 11.	Стабильный мост. Прежде чем идти дальше, удобно определить одно свойство искомых мостов Wu и 1ГИ, которое окажется важным для дальнейшего изложения. Это свойство, которое мы будем_ именовать стабильностью, и составляет предмет данного параграфа.
Всюду в дальнейшем в этой книге будем предполагать, что функция f(t,x,u,v) в правой части уравнения движения (6.1) в каждой ограниченной области G пространства {t, х} удовлетворяет условию Липшица по х, т. е.
||f(t, х<», и, —	х<2), и, и)||<Мх(1) — х<2>||	(11.1)
при всех {t, хО)} и {/, х<2)} из G и при всех и е Р, v е Q.
Обратимся сначала к задаче 9.1 о сближении. Пусть W —. некоторое множество в пространстве {t,x}. Выберем какую-нибудь позицию {/*, х») е W. Предположим на время, что второй игрок на некоторый будущий полуинтервал времени выбрал некоторое управление V -^v(t)= v*, характеризуемое постоянным вектором v* <= Q. Рассмотрим обобщенные движения x(t), x(Z«) = x», которые, согласно материалу из § 7, являются решениями х(/) = x(t, t*, х*, V) следующего дифференциального уравнения в контингенциях:
х (0 е (/, х (0, v,),	(Н >2)
где
^"„(f, х, o.) = co[f: f = х, и, и,), и^Р].
Скажем, что множество IF является и-стабильным, если при всяком выборе позиции {/«,, х*} <= W, значения t* > t* и вектора i',eQ среди решений х(/) уравнения (11.2) найдется по край
§ П]
СТАБИЛЬНЫЙ МОСТ
5S
ней мере одно решение, удовлетворяющее условию
(Г, x(f)} или (т*, х(т*)) Мс (11.3> при каком-то значении т* е [/*, /*].
Это определение из-за использования уравнения (11.2) выглядит довольно формальным. Однако, именно с формальной точки зрения оно является весьма удобным, как выяснится ниже, ибо решения x(t) уравнения (11.2), представляющие, согласно § 7, обобщенные идеальные движения, обладают хорошими математическими свойствами.
Читатель, который не хотел бы работать с решениями x(t) уравнения (11.2), может подменить здесь и ниже обобщенные движения x(t, t*, х*, У—и#) конструктивными движениями х \ty х*, У -г- v*].
Содержательный смысл, зашифрованный в данном формальном определении //-стабильности, таков. Пусть позиция x.J лежит на //-стабильном множестве W. Если второй игрок выбирает на ближайший полуинтервал времени [t*, t*) управление Уч-v(0 = v* = const и объявляет его наперед первому игроку,, то этот игрок может так распорядиться своим «управлением», чтобы породить обобщенное движение х (/,/*, х#, V), вдоль которого он или удержит позицию {/,x(t)} на W вплоть до момента t — t*> или выведет ее на Мс не позже, чем к моменту i = t*. Отсюда вытекает, между прочим, что на мосту W, который не является //-стабильным, нельзя какой-либо стратегией t/4-//(f, х) удержать вплоть до встречи с Мс все движения х [/,/*,%*, U], начинающиеся из всех возможных позиций {t^x^^W. В самом деле, на этом мосту W найдется такая позиция {£*, х*}, что на W в течение некоторого отрезка времени t < t* не удержится даже хотя бы одно обобщенное идеальное движение х(/,/*, х*, V) (11.2) при	вплоть до
встречи с Мс при т* /*. Но все конструктивные движения x[t,t*,x^ U], которые являются пределами ломаных Эйлера x&[t> t*, х<4 U, и[-]] при и[«] = {ф] = v*, t* t < Ц при всяком выборе стратегии С7, согласно материалу из § 7, содержатся во множестве всех обобщенных идеальных движений х(/, 4,х*, У) (11.2) при V-4-v*. Но это и доказывает, что множество W, не являющееся //-стабильным, не годится в качестве моста Wu для решения задачи 9.1 по рецепту предыдущего параграфа, ибо к такому множеству Wu нельзя пристроить хорошие перила U~u(t, х), удерживающие вплоть до встречи с Мс все начинающиеся на нем движения х[/,	х*, U]. Важно, однако,,
что при одном дополнительном предположении, которое мы введем в следующем параграфе и которого будем затем придерживаться все время в главах IV—X, для всякого //-стабильного множества W всегда можно построить стратегию (7, играющую»
54
ИГРА СБЛИЖЕНИЯ —УКЛОНЕНИЯ
[ГЛ. III •
роль перил, удерживающих всякое начинающееся на нем движение x\t, х*, U] вплоть до встречи с Ме. Этот основной для всей теории факт будет доказан в § J5.
Следует заметить, что свойство //-стабильности множества W определяется по отношению к некоторому заданному множеству Мс. Поэтому, строго говоря, в данное выше определение //-стабильности должны были бы входить слова «относительно множества Мс». Однако эту оговорку о множестве Мс здесь и в дальнейшем будем, как правило, опускать, если из контекста будет ясно, по отношению к какому множеству Afc определяется свойство //-стабильности.
Обратимся теперь к задаче 9.2 об уклонении. Пусть опять W — некоторое множество в пространстве {/, х} и {/*, хД— какая-то позиция, лежащая в W. Пусть первый игрок выбрал на некоторый будущий полуинтервал времени Z* < /* некоторое управление U 4- u(t) = //*, характеризуемое постоянным вектором	Рассмотрим обобщенные движения х (/,/*, х#, (7),
т. е. решения х(/) (х(/Д —хД следующего дифференциального уравнения в контингенциях:
х(0, иХ	(11.4)
где
v (/, х, и Д = со [f: f = f (/, X, ил9 о), v (= Q],
Скажем, что множество W является v-стабильным, если при всяком выборе позиции {/*, хД W, t* > t* и и*^Р среди pej-шений х(0 уравнения (11.4) найдется по крайней мере одно решение, удовлетворяющее условию
{Г,	или {< х(т*)}	(11.5)
при каком-то т* е [/*, /*].
И здесь читатель, который не хотел бы работать с решениями х(/) уравнения (11.4), может подменять по ходу дела обобщенные движения t*, х#, U 4-//*) конструктивными движениями хр, /*, х*, U -т- и*].
Содержательный смысл этого формального определения таков. Пусть позиция {/*, хД лежит на у-стабильном множестве W. Если первый игрок выбирает на ближайший полуинтервал времени [/*,/*) управление u[t]—u* и объявляет его наперед второму игроку, то этот игрок может так распорядиться своим «управлением», чтобы или удержать позицию {/, х[/]} на W вплоть до момента t — /*, или вывести ее из области H(NC) не позже, чем к моменту t = /*. Отсюда опять вытекает, что на мосту W, который не является v-стабильным, нельзя ка« кой-либо стратегией	х) удержать вплоть до выхода из
Ji(Nc) все движения x[Z, Z*, х#, V], начинающиеся из всех воз
МАЛЕНЬКАЯ ИГРА
55
§ 12]
можных позиций {/*, х J Gf W. В самом деле, все конструктивные движения x[t,t*, х*, V], которые являются пределами ломаных Эйлера хд[/, V, п[-]] при u[-]={uli] = и*, содержатся во множестве обобщенных движений x(t, t*, х#, U) при U -г- и*. Но на мосту W, который не является и-стабильным, найдется по крайней мере одна такая позиция {/*, хД, что на W в течение некоторого отрезка времени t /* не удержится вплоть до выхода из H(NC) даже хотя бы одно обобщенное движение х(/, /*, х*, (/)((/ 4- и*) (11.4). Итак, множество ]F, которое не является ^-стабильным, не годится в качестве моста Wv для решения задачи 9.2 по рецепту предыдущего параграфа. Однако, заметим снова, что при дополнительном предположении, которое мы введем в следующем параграфе, для всякого v-стабильного множества W всегда можно построить стратегию V, играющую роль перил, удерживающих всякое начинающееся на нем движение x[t, /*, х*, V] вплоть до выхода из H(NC). Этот факт будет доказан в § 15.
Заметим опять, что свойство ^-стабильности множества W определяется по отношению к некоторому заданному множеству Nc ‘(точнее даже —к некоторой окрестности H(NC) этого множества). Поэтому, строго говоря, в определение у-стабиль-ности, данное выше, должны были бы входить слова «относительно области H(NC)». Однако эту оговорку об окрестности H(NC) и здесь, и в дальнейшем будем, как правило, опускать, если в контексте будет ясно, по отношению к какому множеству Nc определено свойство ^-стабильности, а выбор той или иной окрестности H(NC) для множества Nc особенной роли играть не будет.
В заключение этого параграфа отметим еще одно обстоятельство, связанное с понятием стабильности множества W.
Условие замкнутости множества W не входит в определение свойства ^-стабильности или ^’-стабильности. Однако оказывается справедливым следующее утверждение, которое позволит нам в дальнейшем работать только с замкнутыми стабильными множествами.
Лемма 11.1. Если некоторое множество W является и-стабильным (или v-стабильным), то и его замыкание в пространстве {/, х} также является и-стабильным (или v-стабильным).
Лемму 11.1 примем без доказательства.
В соответствии с этой леммой всюду в дальнейшем все рассматриваемые стабильные множества W будем полагать замкнутыми, если не будет сделано специальных оговорок.
§ 12.	Маленькая игра. Для того чтобы сформулировать условие, о котором шла речь в предыдущем параграфе, рассмотрим Две вспомогательные задачи.
56	ИГРА СБЛИЖЕНИЯ-УКЛОНЕНИЯ	[ГЛ. III
Зафиксируем какую-нибудь позицию {/*, х*} и вектор з,. Составим скалярное произведение s'Jtt*, х», и, и) = g. (Здесь и ниже верхний индекс штрих означает транспонирование.)
Задача 12.1. Требуется найти вектор	который удо-
влетворяет условию
max s'f (£„, х„ о) = min max s'J (t„, x,, и, t») = g°. (12.1) oeQ	ueP os Q
Задача 12.2. Требуется найти вектор и* Q, который удовлетворяет условию
mins'f(/„, х„ и, t»‘) = max mins'f(i,, х„ и, v) = g0. (12.2) usP	v^Q и&Р
Эти две задачи и составят то, что мы будем именовать маленькой игрой в позиции {/*, х*} по вектору $*.
Вектор а*, разрешающий задачу 12.1, будем называть минимаксным вектором маленькой игры (в позиции {/*, х*} по вектору •$*), вектор и*, разрешающий задачу 12.2, будем называть лаксиминным вектором маленькой игры (в позиции {/*, х*} по вектору s#).
Если окажется, что в некоторой позиции {t, х} при некотором выборе вектора s для маленькой игры выполняется равенство = g0) т. е. равенство
min max s'f (^, и> v) = max min s'f (f, x, u, v),	(12.3)
u<=P v^Q	ugQ ueP
то, следуя обычной терминологии, будем говорить, что эта игра имеет седловую точку (см., например, [18*], стр. 24) {«*, и*}, для которой, стало быть, справедливы неравенства
s'f (t, х, и', v)^.s'f(t, х, и",	х, и, у*).	(12.4)
Данное условие седловой точки для маленькой игры (12.1), {12.2) будет играть существенную роль в дальнейшем изложении в главах III—X. От этого условия мы откажемся только начиная с главы XI.
Таким образом, всюду ниже в главах III—X, если не оговорено противное, надлежит помнить, что для всякой возможной позиции {t, х} при всяком выборе вектора з предполагается в ы-полненным условием (12.4).
Заметим, что условие (12.4) обязательно выполняется во всякой позиции {/, х} и при всяком выборе s, если функция f(t, х, и, v) в правой части уравнения (6.1) имеет вид суммы f(t, х, и, и) = /<»(/, х, u) + f®(t, х, v).	(12.5)
Условие (12.4) имеет следующий геометрический смысл. Скалярное произведение хш, и, v) в позиции {/*, х*} при
s 13)
ЭКСТРЕМАЛЬНАЯ СТРАТЕГИЯ
67
выбранном векторе s* и при фиксированных постоянных значениях иное точностью до членов высшего порядка малости по Д/ характеризует сдвиг Д/<«, который достигается вдоль решения уравнения (6.1) в направлении вектора s. за время Ы, ибо Д/ = s'J М/\\ s', || + о (Д/) (рис. 12.1).
Таким образом, условие (12.4) означает, что в позиции {/*, х*} при данном выборе вектора s* игра на минимакс — максимин понеРиуе^ для сдвига Д/(П, в направлении вектора за время А/ вдоль решений уравнения (6.1) с точностью
Рис. 12.2.
до членов высшего порядка малости относительно А/ имеет седловую точку {u*, г»*}, и при отклонении значения и от и* при сохранении v = у* этот сдвиг в линейном приближении по Д£ может только увеличиться, а при отклонении значения и от v* при сохранении и = и* этот сдвиг в линейном приближении по А/ может только уменьшиться (рис. 12.2).
§ 13.	Экстремальная стратегия. Пусть W — какое-нибудь замкнутое множество в пространстве {/, х}. Построим стратегию Vе 4- ue(t, х), которую будем называть экстремальной к этому множеству. Функция ие(/, х), определяющая эту стратегию, задается следующим образом. Пусть {/*, х#} — какая-то позиция. Если гиперплоскость Г/* = [{/,х}: t = /*] не пересекается с множеством 1Г, то в качестве х*) можно выбрать любой вектор и^Р. Если же гиперплоскость пересекается с W, то надлежит выбрать позицию {/*, w*} <= W, ближайшую в евклидовой метрике к позиции K,xJ. (Таких ближайших позиций v*> w*} может быть не одна; тогда выбираем любую из них.) Теперь в качестве ue(t*, х*) следует выбрать любой из минимаксных векторов и* для маленькой игры (12.1) в позиции
58
ИГРА СБЛИЖЕНИЯ-УКЛОНЕНИЯ
[ГЛ. Ш
{t*,x*} по вектору s* == %* — w*. Иначе говоря, в качестве **) следует выбрать вектор ие, удовлетворяющий условию минимакса
шах(хж— W*)'	ие, y) = min тах(хш— w*)'	x*, uy v).
v eQ	«£? oeQ
(13.1)
Геометрический смысл условия (13.1) таков. Будем обозначать символом W(t*) сечение множества W гиперплоскостью Г<,, т. е.
О.)“[{Л х): / = /., {#., х} е W].	(13.2)
При. построении отрезка т,- t ri+i ломаной Эйлера хд [/] = хд [/, t0, х0, Ue, V [ • ]] (6.3) от некоторой реализовавшейся позиции хд ртг]} = Ц*, ха), которая не лежит на IF, условие (13.1) направляет скорость хд[/»] =	х*, ые(/», х*),
y|7J) фазового вектора хд[/] в этой позиции {/*, х») так, чтобы обеспечить предельно большой возможный сдвиг вдоль ломаной хдИ в направлении к сечению 1Г(/*) множества W при самом упорном сопротивлении v = v[t*]^Q этому со стороны противника— второго игрока.
Аналогичным образом определяется стратегия Vе Ч- vc{t, х), экстремальная к множеству W. При этом условие (13.1) заменяется на условие максимина min (оу. — x,)'f(£„, ха, и, ve) = пер
= max min (да,— x,)'f(f,, х„ и, у), (13.3) osQ иер
которое, стало быть, назначает в качестве Vе (I*, х») макси-минный вектор у* для маленькой игры (12.2) в позиции [t*, х*} по вектору з» == да»— х».
. Следует обратить внимание на то обстоятельство, что в (13.1) величина ие определяется из условия минимакса скалярного произведения $'f(G х.> и> °)> а в условии (13.2) величина Vе определяется из условия максимина скалярного произведения х9, и, у). Однако вектор з» = х»— да*, фигурирующий в маленькой игре (13.1), противоположен вектору з* = да* — х», который фигурирует в маленькой игре (13.3). Поэтому получается, что оба условия (13.1) и (13.3) имеют один и тот же геометрический смысл. И в случае стратегии Уе4-уе(/, х) при построений отрезка т< t xi+i ломаной Эйлера хд[(] = хд[£, to, Хо, Vе, и[-]] от некоторой реализовавшейся позиции {xt, хд[т<|} = {/», х»), которая не лежит на W, условие (13.3) направляет скорость хд[Ц = f(/*, х*, m[Z»], ve(t*, х»)) фазового вектора хдИ в этой позиции {/», х»} так, чтобы обеспе
§ 14]
ОЦЕНКА
59
чить предельно большой возможный сдвиг вдоль ломаной Эйлера ХдШ снова в направлении к сечению W(t*) множества W при самом упорном сопротивлении и — u[t*]^ Р этому со стороны противника — первого игрока.
§ 14.	Оценка. В этом параграфе будет выведена одна оценка, которая будет использована в следующем параграфе при доказательстве барьерных свойств стратегий Ue 4- ue(t, х) и Ve^ve(ttx), экстремальных соответственно к ^-стабильному или ^-стабильному мосту W.
Рассмотрим два движения х^И и х<2ф) (/>/*). Первое движение пусть удовлетворяет уравнению
WJ==W,	гф]),	(14.1)
где v [/] Q — какая-то интегрируемая по Лебегу реализация управления второго игрока.
Второе движение пусть удовлетворяет уравнению в контингенциях вида (11.2), т. е. уравнению
*(2)(0, О-	(14.2)
Предполагается, что эти движения удовлетворяют некоторым начальным условиям x(1)[/J = х<°, х<2) (О = х<2), а постоянные векторы и* е Р и у* е Q выбраны из условий
max х^, и\ v) = min max x^, u, u),	(14.3)
Q	tl<=P ueQ
mins'f(^., я!?, «, v*)==max mins'f(/., x<°, u, v),	(14.4)
u<=P	v	u^P
где s. = x(*'— x<2>.
Таким образом, м* есть минимаксный вектор для маленькой игры (12.1) в позиции (/,, х<‘>) при s. ==	— х<2>, а о* —макси-
минный вектор для маленькой игры (12.2) в позиции х<0} также при s, ==х<1) — х<2).
Обозначим через p(t) расстояние между точками х<0[/]
,р(0 = ||х(1)И-х(2)(0И.	(14.5)
Справедлива следующая оценка:
Р2а. + б)<р2(О(1 + Р6) + ф(б)-6	(0<Й<Т), (14.6)
limqp(S) = O,	(14.7)
Равномерная для всех позиций {/,, х*1’} и {/., х<2)} из каждой наперед выбранной ограниченной области G пространства V» ^}»
60
ИГРА СБЛИЖЕНИЯ —УКЛОНЕНИЯ
[ГЛ. ИГ
Докажем оценку (14.6). Решения уравнений (14.1), (14.2) — движения х<'>[/] и х(2)(/)— являются абсолютно непрерывными функциями. Поэтому при почти всех t t* функция р2(0 (14.5) имеет производную, которая определяется по известной формуле дифференцирования сложной функции ([28*], стр. 226):
= 2 (х<>> [f] - х<2> (0)' (f> [Л - f<2> (0),	(14.8)
где
f(,) И = х<‘> [/] = /(/,	и', v[f])
f(2) (t) = х<2» (/) «= &-и (t, х<2> (/), о*).
В ограниченной области, содержащей рассматриваемые движения, справедливы оценки
Н/(1)Ш1Кх, НРЧОНСх.
II Х(1) Ш — 4° II < х (/ — О, II х<2) (0 — х<2> II < % (t — t,), где х— некоторое достаточно большое число. Поэтому соотношение (14.8) можно преобразовать к следующему неравенству:
<2<(f(1>И-f<2)(0) + 8x2(/ — ?,) (s, = 4«-х<2>).	(14.9)
Оценим величину
g = s.'(f(I>[/]-f(2>(0).	(14.10)
По теореме Каратеодори ([8*], стр. 783) вектор f<2>(/), который содержится в выпуклой оболочке	v*) =
= со U: f = f (t, и, v*), u^P}, можно представить в виде f2> (0=5*ар/(Л х<2>(0, «]г>, о*),
„+.	(КП)
сф>>0, «(/’еР, 2а<« = 1. 1=1
Учитывая, что вектор-функция и, v) непрерывна по t и липшицева по х соотношение (14.11) можно переписать следующим образом:
л+1
f(2)(0= хЧ «/•>, о‘) + Д/<2> (0,	(14Д2)
II Af,2) (011<Ф‘С- О + Х|| S.II.
Здесь К — постоянная Липшица по х функции f в рассматриваемой области, <р*(6) — непрерывная функция, удовлетворяющая условию
Нтф*(б) = 0.	(14.13)
б->0
I5]	ЭКСТРЕМАЛЬНЫЙ БАРЬЕР	61
Поскольку вектор также можно представить в виде 41*, «•> нФ+Afm ....
цд/(1)[Ш<ф’(*-о.	4)
то для величины (14.10) получаем оценку
х<», и\ сф])-rt+l
»*)] + 2||s.||<p-(/-0 + M S.IF, (14.15) i=l
Замечаем теперь, что по определению векторов и* (14.3) и у* (14.4) в силу предполагаемого нами условия (12.4) имеем не-равенства
S'jtb х'1», «*, vI/])«f(/„ х<'>, «<z\ V’)	(14.16)
(/= 1, 2, .... n+ 1).
Умножая эти неравенства на неотрицательные числа и суммируя их по I, получаем
Г	п+1
s' [/(/., х<'>, и\ V [f]) — 2 aWf (t, 41», «</>, v’)] < 0. (14.17)
/
Таким образом, из оценок (14.17), (14.15), (14.9) имеем неравенство
< 2Л || s, ||2 + 41| s. || ф* (t - Г) + 8 (/ -t.) v?. (14.18) -
Учитывая, что lls.ll2 = р2(/»), а функция ф*(/ — /*) удовлетворяет условию (14.13), интегрированием неравенства (14.18) по* лучаем теперь нужную оценку (14.6), где, стало быть, 0 = 2Х.
Переменив местами буквы и и v, получим снова оценку (14.6), но теперь уже для пары движений
х(1) [f] = f(f, u[t], о*), x(1)[tJ = xV\ х<2) (f) е= (/, х(2) (t), и'), х<2> (О — х®.
При этом векторы ы* и v* снова выбираются как минимаксный и максиминный векторы для маленькой игры (12.1), (12.2) в позиции {/,, х<'>}, но теперь уже при выборе вектора $. = ==х<2> —х’1».
§ 15.	Экстремальный барьер. В этом параграфе мы покажем, что стратегия Ue-r- ue(t, х), экстремальная к «-стабильному замкнутому множеству W, сохраняет на W позицию К х И) для всякого начавшегося на нем движения x[t, t0, Хо, Ue] вплоть до
62
ИГРА СБЛИЖЕНИЯ - УКЛОНЕНИЯ
[ГЛ. ПГ
встречи этой позиции с множеством Мс, Точно так же мы проверим, что стратегия Ve-^ve(t, х), экстремальная к у-стабиль-ному замкнутому множеству W, сохраняет на W позицию {/, х[/]} для всякого начавшегося на нем движения t0, хо, Vе], вплоть до выхода этой позиции из окрестности H(NC) множества Nc. Иначе говоря, мы проверим, что экстремальные стратегии 0е и Vе образуют вокруг стабильных мостов W барьеры, которые препятствуют соскальзыванию с них движений вплоть до того момента, когда будет достигнута цель первого или второго игрока соответственно.
Итак, начнем со случая rz-стабильного моста W. Нам надлежит доказать следующее утверждение.
Лемма 15.1. Пусть замкнутое множество W является и-стабильным; Vе — ue(t,x) есть стратегия, экстремальная к множеству W, и пусть {/о, *о}	№. Тогда для всякого движения
дф] = x[t, t0,xQ, Ue] вплоть до встречи {т, х[т]} выполнится включение {t, х[ф е W t т). Если для некоторого движения x[t] = x[t,tQ,xQ,Up] встреча с Mc не наступает вообще, то для такого движения {/, х [£]} е W при всех t tQ.
Предположим, что это утверждение неверно. Тогда найдется движение х [/] = х [t,tQ, х0, Ue], для которого позиция {/, x[fj} покидает W раньше, чем она попадает на Мс. Пусть t = — верхняя грань тех значений для которых {/, х[/]} еЕ W при /о t /**. Вследствие замкнутости множества W и отрезка выбранного движения x[t]	справедливо
включение {i*, g№.B то же время по выбору движения х [Z] имеем {/*, х[^]}^7Ис. Стало быть, на выбранном движении % [t, tQ, Xq, Ue] можно указать отрезок	+	(т*>0),
который лежит на некотором ненулевом расстоянии р* от замкнутого множества Мс, Более того, отрезок t t* + т* мы можем полагать еще и настолько малым, что и всякое движение x(t, t*,x*, V) (t* t + tJ, являющееся решением уравнения (11.2) в контингенциях, при всяком выборе V 4- а* не будет пересекаться с Мс. Но это вследствие ^-стабильности W будет означать, что всякое сечение W (t) множества W при /е
Ac + 't*] не пусто, причем для рассматриваемого движения x\t] расстояние от позиций {t, х[/]} до множеств W(t) при + будет меньше некоторого числа Е*.
Рассмотрим ломаные Эйлера	=	t0, x(ok), [7е,
• ]] (6.3) (k= 1, 2, ...), дающие в пределе при fe->oo выбранное нами движение x[t, tQ, Xq, Ue].
Оказывается, что справедлива оценка
(О ('«) + (' +('-'»)) ЧРЙ] ехр р(1-у,	(15J)
+т.»	k=l,2,...
$ 15]
ЭКСТРЕМАЛЬНЫЙ БАРЬЕР
63
Здесь символ 8fe(/) обозначает евклидово расстояние от точки xA(fe)[d до сечения W (/) множества F; cpfe = sup. t ф(/—?(*)) прИ / = 0, 1,	t^J, — точки из разбиений Д^,
<р(д) и Р — величины, определенные в соответствии с оценкой (14.6), где ограниченная область G выбрана так, что она содержит все рассматриваемые ниже позиции {/,
"Ь т*> ^==1,2,...) вместе с их ^-окрестностью. Отметим, что величина ek(t) при	+ по выбору
момента / = + имеет смысл, так как сечения W (/) непусты при	+ V
Заметим теперь, что из условия {/0, *о} W вытекает сходимость 8/г(/о)->О при &->оо, а из соотношения (14.7) — сходимость фй->0 при &->оо. Поэтому оценка (15.1) приводит к противоречию. В самом деле, оценка (15.1) означает, что функции Ek(t) на отрезке [£0,	+ т*] сходятся к нулю при &->оо, т. е.
при ^->оо все позиции {/, хд(^ [/]} (/0 < t < + т#) сходятся к замкнутому множеству W. В то же время все эти позиции При fe->OO сходятся к позициям {t, %[/]}. А это возможно лишь при условии {/, х[£]} е W (/о t t* + %). Выполнение этого включения при t > t* противоречит выбору движения х|7] и момента /*. Полученное противоречие доказывает справедливость леммы.
Таким образом, для полного доказательства леммы 15.1 остается'проверить оценку (15.1). Сделаем это.
Рассмотрим предварительно некоторые свойства функции g = 8(/), где величина s(t) есть евклидово расстояние от позиции {t, ХдИ) до сечения W (t) множества W, хд[/]— некоторая ломаная Эйлера (6.3). Покажем, что на отрезке [/о, £н + т*], где величина е(/) имеет смысл, функция г полунепрерывна снизу ([9*], стр. 113) и непрерывна справа.
Итак, пусть последовательность точек (/= 1, 2, ...) сходится к точке £ <= [Лъ	а значения е(/г) сходятся при
i->oo к числу 8*. Требуется показать, что 8(?)^8*. Действительно, по определению величины 8(/) имеем
II’
где {/;, ^г} — некоторые подходящие позиции из W. В силу замкнутости W всякая предельная точка {?, w*} последовательности К, оу J (i = 1,2, ...) содержится в W, поэтому
6 (fl) = кд И — Wi II -*е. = II *Д 11> 8 (О-
Полунепрерывность снизу функции е доказана. -
Пусть теперь ?е[/0, /» + т.) и (г =	2, ...) — некоторая
последовательность точек, сходящаяся к 7 справа. Пусть е(?) =
64
ИГРА СБЛИЖЕНИЯ - УКЛОНЕНИЯ
[ГЛ. III
= Цхд [?]—ДО*Н, где {?, w*} е 1F. Воспользуемся свойством и-ста-бильности множества 1F, из которого вытекает существование позиций {/г, Wi} е W (/=1, 2,...) на каких-то обобщенных движениях х(/, 7, V 4- v*) и поэтому удовлетворяющих условию II—> 0 при i->oo, т. е. при /г —> ? + 0. Поэтому имеем следующие соотношения:
8 ft) < II ft] - Wt || < I хд ft] - X (?) | + || хд [?] - W, || + Цо». - ||= = 8(?) + ||xAft] — х[/]|| + ||а>, — t»f|. Переходя в этом неравенстве к пределу при i -> оо, получаем, что всякая предельная точка 8* последовательности е(/г) (i = 1, -2, ...) удовлетворяет оценке 8* ^8(7). Однако, в силу полунепрерывности снизу функции 8, справедливо также неравенство 8*^8 (7). Следовательно, е(/г)->е(7) при i->oo, что и требовалось доказать.
Вернемся к рассмотрению функций 8&(0- Для доказательства оценки (15.1) предположим от противного, что эта оценка неверна. Тогда при отдельных значениях k на отрезке /о t 7* + т* будет где-то нарушаться неравенство
81(0 <	(0 = [8’i ft) + (1 + (t - Q) <pft] exp 0 (t - Q. (15.2)
Итак, пусть для функции оценка (15.2) нарушается. Обозначим через /да нижнюю грань чисел t е [А>,	+ т*], для кото-
рых справедливо неравенство &k(t) >ф6(/). Поскольку функция Ек полунепрерывна снизу и непрерывна справа, то имеет место следующее равенство: elftfe)) = i|)ftftft)). Пусть [т(Д — полуинтервал, содержащий точку t(h). Тогда по определению числа t^h) имеем
8ИтП<W0’ 4(0>VO. (15.3) где /*— некоторая точка полуинтервала [т(й), лежащая правее точки /(&). Из неравенств (15.3) по определению функции ф(/) (15.2) получаем соотношение
81 (?) > 81 (т'Л exp 0 (f - т<»>) + (f - т<*>) <pfc exp 0 (f - Q >
> 81 (^>)(1 + ₽ft-t<ft>)) + (Г-т<?))ф6. (15.4)
Пусть [/] = u</> |т(Л>]— экстремальное управление первого игрока, которое осуществляет движение хд(^ [/] при
Напомним, что «^[т^*]— минимаксный вектор, разрешающий маленькую игру (12.1) в позиции хд(^ [x(zft)]} при $. = = хл(/г> [т)й)] — где ww — точка сечения W (х[А)), ближайшая
МАКСИМАЛЬНЫЙ СТАБИЛЬНЫЙ МОСТ
65
§ 16]
К точке хД(й) т. е. || хд(» [?<*>] — ау<*> || = efe (т<^). Выберем максиминный вектор о*й), разрешающий маленькую игру (12.2) в позиции хд(й)[ту°]} при s, = хд(*) [т^]— ww. Рассмотрим пучок движений x(t, w(k), V(ft,)(7	v(fe>), являющихся реше-
нием соответствующего уравнения в контингенциях (11.2) при v Поскольку по выбору числа т, этот пучок не пересекается при + т, с Мс, то вследствие «-стабильности моста W в таком пучке найдется по крайней мере одно движение x(t, т(6),	для которого
{Г, х(Г, т<*>,	У<*>)} е W.	' (15.5)
Поэтому из оценки (14.6) в силу соотношения (15.5) получаем неравенство
4 (Г) < 8* (т'*>) (1 + ₽ (Г - т<*>)) + (Г - Т<«) ф (Г - TW). (15.6)
Поскольку по определению числа справедливо неравенство <₽(/* — T(zfe))^qpfe, то оценка (15.6) противоречит оценке (15.4). Полученное противоречие доказывает оценку (15.1), а с ней — лемму 15.1.
Перейдем теперь к случаю ц-стабильного моста W. В этом случае нам надлежит доказать следующее утверждение.
Лемма 15.2. Пусть замкнутое множество W является v-стабильным, Ve-±-ve(t,x)—стратегия, экстремальная к множеству W, и пусть {tQ, х0} W. Тогда {/, х[(]} е W при /0 t т для всякого движения х [/] = х [/,	*о, Vе] вплоть до момента т,
когда {т, х [т]} 0 H(NC). Если для некоторого движения х [7] = = x[t, /о, *о, Vе] все время {/, х[/]} H(NC), то для такого движения {t, х [/]} €= W при всех t /о-
Справедливость леммы 15.2 вытекает немедленно из леммы 15.1, если заметить, что поменяв местами буквы и и v, мы из ц-стабильного моста W, фигурирующего в лемме 15.2, получим u-стабильный мост W, фигурирующий в лемме 15.1. При этом только роль множества Мс будет теперь играть дополнение к множеству H(Ne) до всего пространства {/, х}.
Таким образом, в этом параграфе мы установили важные барьерные свойства стратегий [7е 4- ue(t, х) и Vе -±-ve(ttx), экстремальных соответственно к «-стабильному мосту W или к ^-стабильному мосту W.
§ 16. Максимальный стабильный мост. В этом параграфемы сконструируем предельно широкие стабильные мостьь W, которые только могут существовать в задаче сближения к моменту О и в задаче уклонения вплоть до момента 6*.
3 н. Н. Красовский, А. И. Субботин
66
ИГРА СБЛИЖЕНИЯ - УКЛОНЕНИЯ
[ГЛ. III
Обратимся сначала к задаче сближения с множеством Мс к моменту 'О'. В соответствии с принятым раньше условием множества Мс и Nc будем полагать замкнутыми. Нужный нам предельно широкий u-стабильный мост W, который удовлетворяет условиям (2) и—(4) и (стр. 50), мы построим следующим образом.
При данном фиксированном значении О уберем из пространства {/, х} все те позиции {/*, х*} (/*<-&), Для каждой из которых, как для начальной, разрешима задача об уклонении хотя бы от одной окрестности G(MC) множества Л4С внутри хотя бы одной окрестности Н(Nc) множества Nc на отрезке [/*, •б]. Выброшенные позиции {/*, х*} образуют в каждой гиперплоскости t — t* = const открытое множество. В самом деле, пусть {/*, х*} — некоторая выброшенная позиция. Стало быть, найдется стратегия ‘ V v (t,x), которая обеспечит уклонение всех движений х [/,/*, х*, V] от встречи с G(/Wc) внутри H(NC) при t Ф. Но эта же стратегия V для всех движений х[/,/*, х*, V] при всяком выборе х** из достаточно малой окрестности точки х*:
(16.1)
обеспечит также уклонение от встречи с некоторой окрестностью G*(AJC) множества Л4С, лежащей со своим замыканием G* в G(MC), причем это будет уклонение внутри некоторой окрестности	лежащей со своим замыканием Н* в H(NC) при
t Ф. Если бы это было не так, мы могли бы построить сходящуюся последовательность • х(й) -> х* при k -> оо, такую, что некоторые соответствующие движения = х [/,/*, х<4 V] бу-дут удовлетворять условию
{t, x№[t]}e=H*(Nc) при	{тА	eG*«)
(16.2)
при	и будут притом при t $ сходиться рав-
номерно к некоторому движению х [/] = х [/,/*, х*, V]. Но тогда и это предельное движение удовлетворит условию
(т, х[т]} еб'Ш {t, x[t]]e=H*(Nc) при	(16.3)
а это противоречит тому, что стратегия V уклоняет все движения х[0 от встречи с G(A1C) внутри H(NC) при t Ф. Полученное противоречие и доказывает, что в каждой гиперплоскости t — t* — const выброшенные нами позиции образуют открытое множество.
Обозначим символом множество всех оставшихся позиций {t,x}. Ясно, что всякий u-стабильный мост W, лежащий целиком в Nc и обрывающийся на Мс при t = О, должен содер-
§ 1б]	МАКСИМАЛЬНЫЙ СТАБИЛЬНЫЙ МОСТ	67
жаться в W®. В самом деле, пусть некоторая позиция К, х*} не содержится в IF0. Тогда не может существовать стратегия: U-~u(t,x), которая обеспечивала бы встречу всех движений x\t,t*, x*,U] с мс при t Но если бы {t*, x*}(=W, где W — какой-то «-стабильный мост, то согласно лемме 16.1 стратегия уе ue(t, х), экстремальная к этому «-стабильному мосту, обеспечивала бы такую встречу.
Важный факт состоит, однако, в том, что все множество IF0 и составляет нужный нам максимальный «-стабильный мост Wu- Таким образом, справедливо следующее утверждение.
Лемма 16.1. Множество является замкнутым и составляет максимальный и-стабильный мост wt, лежащий целиком в Nc и обрывающийся на Мс при t — Ф.
Для доказательства леммы, очевидно, достаточно проверить лишь «-стабильность множества IF0. В самом деле, два последние его свойства, утверждаемые леммой 16.1, вытекают очевидным образом из способа его построения. Замкнутость же IF0 будет следовать из его «-стабильности согласно лемме 11.1, ибо IF0 может быть только максимальным стабильным мостом.
Итак, проверим «-стабильность множества 1F°. Примем от противного, что таковым оно не является. Тогда найдутся позиция {/*, xj е IF0 (£*<#), вектор v*^Q и момент	О]
такие, что все решения х(/) = х(£,К*) уравнения (11.2) при /*] не будут пересекаться с Мс и образуют замкнутое множество точек х* = х(/*), не пересекающееся с замкнутым сечением IF°(f*) множества IF0.
Но по определению множества IF0, согласно предыдущему (см. стр. 66), для всякой точки	найдется стратегия F*,
которая обеспечит уклонение всех движений х [/,/*, х**, F*] от некоторой окрестности G*(MC) внутри некоторой окрестности H*(NC) на отрезке [/*, О] для всех х**, удовлетворяющих условию 1|х-х’||<д-	(д*>0).	(16.4)
Покроем множество 3?* конечной системой окрестностей (16.4). Рассмотрим множество IF всех позиций {/, х}, которые удовлетворяют условию
x — x(t>	хА,
или условию
Г t	т* (х [ • ]),	х = х [t, Г, х”, V].
Здесь х** — произвольная точка из какой-либо из окрестностей (16.4) нашего покрытия множества ^*, т*(х[-]) — момент времени, когда точка {/, х|7, /*, х**, V*]} впервые^ покидает область #Ж). Можно проверить, что замыкание W множества W яв
3*
68
ИГРА СБЛИЖЕНИЯ — УКЛОНЕНИЯ
[ГЛ. ПГ
ляется я-стабильным мостом для некоторой задачи об уклонении на отрезке [/*,$] при подходящем выборе G(Me) и H(NC). Но тогда согласно лемме 15.2 стратегия Ve + ve(t, х), экстремальная к Г, обеспечит уклонение всех движений х[/, /*, х*, Vе] от G(MC) внутри H(NC) на отрезке [£*,-&]. Однако, это возможно лишь при условии, что {/*, х*} ф Полученное противоречие с нашим выбором позиции {/#, х*}, удовлетворяющей включению {^,xj^ е доказывает лемму.
Обратимся теперь к задаче уклонения от G(Afc) внутри H(NC) на отрезке [£о, О]. Нужный нам максимальный о-стабиль-ный мост W*, .который удовлетворяет условиям (2)^ и (3)„> мы построим следующим образом.
При данном фиксированном значении Ф выбросим из пространства {/, х} все те позиции {/*, х*} (/*^'0'), для каждой из которых, как для начальной, разрешима задача о сближении к моменту Ф с множеством G*(Afc) внутри множества H*(NC) по крайней мере при одном выборе окрестностей^ G*(MC) n_H*(Nc), вложенных вместе со своими замыканиями G*(MC) и H*(NC) в окрестности G(MC) и H(NC). Множество всех оставшихся позиций обозначим символом W®. Ясно, что всякий ^-стабильный мост W, не пересекающийся с G(MC), должен содержаться в W®. Важно, однако, что все множество и составляет нужный нам v-стабильный мост Это утверждение вытекает немедленно из леммы 16.1, если мы заметим, что проведенное только что построение множества имеет тот же характер, что и построение множества W® на стр. 66, 67. При этом только при переходе от множества построенного сейчас, к множеству W®, построенному на стр. 66, 67, достаточно поменять местамц буквы и и v и перевести на роль множеств Мс и Nc дополнения ко всему пространству до множества H(NC) и G(A1C) соответственно, причем новое множество Мс следует пополнить гиперплоскостью Гу Таким образом, для построенного сейчас множества W® справедливо следующее утверждение.
Лемма 16.2. Множество W® является замкнутым и составляет максимальный v-стабильный мост IFv, не пересекающийся с окрестностью G (Мс).
§ 17. Альтернатива. В этом параграфе мы сформулируем и докажем основную теорему об альтернативе, которая при условии (12.4) характеризует нашу игру сближения — уклонения в классе чистых стратегий U-^u^t, х) и V-r-v(t, х). Эта теорема, которая является прямым следствием лемм 15.1, 16.1 и определения моста IFu, читается следующим образом.
Теорема 17.1. Пусть для всех возможных {/,х} и s выполнено условие (12.4), дана начальная позиция {<о, Хо} и вы
$ 17]
АЛЬТЕРНАТИВА
69
брано число ft 5= /о- Тогда либо найдется стратегия Uc~uc(t, х), которая для всех движений х [/] = х [Z, f0, *о, Uc] обеспечит встречу
{г, х[т]}	(17.1)
внутри Nc при условии т ft, либо найдутся число ео > 0 и стратегия Vc-^- vc(tfx) такие, что для всех движений х|7] = = x\t,to,*o, Vc] будет обеспечено уклонение вплоть до момента -ft от г^-окрестности множества Мс внутри г^-окрестности
множества Nc.
Из теоремы 17.1 вытекает, таким образом, что при всяком выборе ft все полупространство t О разбивается на две части ТГа и Часть WZ слагается из всех позиций {/,%}, для которых, как для начальных, разрешима задача сближения с Мс внутри Nc к моменту ft. Множество IFu является множеством замкнутым и, очевидно, с ростом ft это множество Wt не умень-* шается. Часть слагается из всех позиций {/,%}, для каждой из которых, как для начальной, разрешима задача уклонения от некоторой 8-окрестности множества Мс внутри подходящей «-окрестности Nc} множества Nc вплоть до момента ft. Множе* ство является множеством, открытым в полупространстве t ft, и с ростом ft его сечения гиперплоскостями t = const не увеличиваются. Множество складывается из множеств (е > 0), каждое из которых является замкнутым в полупространстве /»<ft множеством позиций {£,*}, для которых, как для начальных, разрешима задача уклонения от Msc внутри №с вплоть до момента ft.
Прямым следствием из теоремы 17.1 является следующее утверждение.
Следствие 17.1. Для всякой начальной позиции {/0, %о} справедливо одно из двух утверждений: либо (1) найдутся число ft tQ и стратегия Uc~ uc(t, х), которая для всех движений x[/] = x[f, tQ, Хо, Uс] обеспечит встречу (17.1) внутри Nc при условии т ft; либо (2) при всяком ft to найдутся число > О и стратегия Vc~vc(t,x) такая, что для всех движений
= x[t, to, Хо, VJ будет обеспечено уклонение вплоть до момента ft от г^-окрестности множества Мс внутри ^окрестности множества Nc.
Следствием из теоремы 17.1 и из леммы 6.1 является следующая теорема об альтернативе в аппроксимативной форме.
Теорема 17.2. Пусть для всех {t, х} и s выполнено условие (12.4) и дана начальная позиция {to, х0}. Если для этой
70
ИГРА СБЛИЖЕНИЯ — УКЛОНЕНИЯ
(ГЛ. ИГ
начальной позиции при некотором значении Ф выполнено первое-утверждение теоремы 17.1, то для любого 8>0 можно подобрать 6е > 0 так, что для всех ломаных Эйлера [/] = = хд[/, ^о, х*,	£>[•]] при условиях
II Хо — ХоН<Л> sup,(T;+I — T/) = S<6e (17.2> будет обеспечена встреча
{т, хд[т]| <=ХЕ|	(17.3>
с ^-окрестностью М(? множества Мс внутри ъ-окрестности множества Nc при условии т О. Если для данной начальной позиции {/о, х0) задача сближения с Мс внутри Nc к моменту fl-не разрешима, то найдется число 8 > О и к нему число 6 > О, такие, что для всех ломаных Эйлера х& [/] = хд [/, to, х$, Vc, и [ • ]} при условиях (17.2) встреча (17.3) с М{? внутри Nf будет исключена вплоть до момента fl.
В заключение параграфа подчеркнем, что стратегии Uc-t- uc(t,x) и Vc-i-vc(i, х), о которых идет речь в теоремах 17.1 и 17.2, согласно материалу из §§ 15 и 16 можно строить как экстремальные стратегии С" 4- ue\t, х) и Vе + ve(t, х) к соответствующим стабильным максимальным мостам Wt и тН?’61-
Глава IV
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
§ 18. Игра с фиксированным временем окончания. В данной главе мы обсудим структуру некоторых типичных дифференциальных игр. При этом будем опираться на теоремы из третьей главы, предполагая опять, что выполнено условие о седловой точке (12.4) маленькой игры (12.1), (12.2} для всякой позиции {/, х} и при всяком выборе вектора $.
В данном параграфе мы обратимся к самой удобной для исследования дифференциальной игре с заданным заранее моментом т = '0> ее окончания. В этой игре функционал <р(хИ, to t '&) (8.1), минимизируемый первым и максимизируемый вторым игроком, выберем в виде
Ф(х[£], t0^t <$) = о(х [#]), '	(18.1)
т. е. отождествим его с некоторой заданной функцией о'(х[Ф]) от конечного фазового состояния х [Z] рассматриваемой системы (6.1). Функцию о(х) будем предполагать непрерывной. Множество V, фигурирующее в условиях задач 8.1 и 8.2, будем теперь полагать совпадающим со всем пространством {/, х}. Множество же М, определяющее тогда по условиям задач 8.1 и 8.2 момент т окончания игры, в соответствии с условиями рассматриваемой теперь игры с фиксированным моментом Ф окончания следует отождествить с гиперплоскостью t = Таким образом, получим следующие две задачи, которые конкретизируют задачи 8.1 и 8.2.
Задача 18.1. Требуется найти стратегию и°(/, х), удовлетворяющую условию минимакса
sup<j(x[O, tOi х0, f/°]) == minsupo(x['ft, Zo, x0, f/]) = Y°- (18.2) *[•]	и x(-J
Задача 18.2. Требуется найти стратегию VQ 4- vQ(t, x), удовлетворяющую условию максимина
inf о (х [•&, t0, х0, V0]) = max inf ст (х [#, f0, х0, V]) = уо- (18.3) V хН
К задачам 18.1 и 18.2 сводится также дифференциальная игра с фиксированным временем окончания t = О, в которой ~ Функционал <р имеет несколько более общую форму, чем
72
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
[ГЛ. Г\Г
(18.1), а именно — игра на минимакс (максимин) функционала г/], w[Z], сф], /0 </<<>) = о
= | х(/, х[/], u\t\, v[t])dt + а(х[Ф]),	(18.4)
где n(t,x,ufv) и о (х) —заданные непрерывные функции. Для того чтобы формально свести эту игру к задачам 18.1 и 18.2». достаточно фазовый вектор х = {xi, ..., хп] исходной системы (6.1) дополнить до фазового вектора х* = {х, xn+i) = {хь ... ..., хп, xn+i}, где
t
. *п+1И=/%(1, MIL «Rl.	(18.5>
векторное уравнение (6.1) в соответствии с (18.5) дополнить уравнением — компонентой
и, а)	(18.6)
и положить в соответствии с (18.4), (18.5)
а* (х* [#]) = а (х [&]) ч- х„+1 [0].	(18.7}
Тогда мы снова получим позиционную дифференциальную-игру, складывающуюся из задач 18.1 и 18.2, но уже для системы» описываемой уравнением
х’ = Г (/, х\ и, о) = [х,и’о)1,	(18.8}
'	’ L х (I, х, и, о) J’
и для функционала о* (18.7), предполагая здесь функцию х(£, х, и, v) липшицевой по х и выполнение условия
min max s*'f' (t, x*, и, v) — max min s*' f (t, x*, u, v) u&Pv&Q	ve=Q u<=P
для любого (n + I)-мерного вектора s* и для любой позиции {/, х*} (это условие — аналог условия (12.4). При этом, правда, нам уже формально придется рассматривать движения х* [/J в пополненном фазовом пространстве {х*}, выбрать новое пространство позиций {/, х*} и отождествлять стратегии U и V с функциями u(t, х*) и v(t, х*). Хотя, казалось бы, теперь нам требуется информация о всем новом векторе х* [/] = = {х[/], Xn+i И}, однако оказывается, что новая формализация не нарушает исходной содержательной постановки проблемы позиционного управления с полной информацией только о векторе х|7]. Это объясняется тем, что компонента xn+i не входит в правую часть уравнения (18.8), а в выражение для функционала о* (18.7) компонента xn+i[O] входит аддитивно, как
$ Ig]	ИГРА С ФИКСИРОВАННЫМ ВРЕМЕНЕМ ОКОНЧАНИЯ	73
дополнительное слагаемое. Отсюда выводится (см. ниже в этом параграфе), что решения U° -s- u°6(t, х) и V0 х) задач 18.1 и 18.2 для системы (18.8) в случае функционала о* (18.7) можно выбрать так, что эти решения U° и V0 будут определяться функциями u°s(t, х) и о^(1,х), которые не будут зависеть от xn+i. Поэтому оказывается, что потребность в дополнительной информации о компоненте xn+i[/] вектора х*[/] в описанной формализации носит призрачный характер, и на деле для осуществления оптимального управления U° или V0 знание реализации xn+i [/] оказывается ненужным. При этом, правда, мы будем пользоваться в конце данного параграфа уже стратегиями U 4- u6(t,x) и V-t-v6(t,x), которые определяют движения х [/, t0, Хо, U] и x[t,t0, Хо, V] как равномерные пределы ломаных Эйлера хд [/], порожденных уравнениями (6.3) и аналогичными им, где, однако, уже u[rz] = м«(тр хд [tJ) или v [rz] = »^(тр хд [rz]) при S= = sup(tf+I — Xi). Но это, очевидно, не нарушает содержатель-i
ной картины явления.
Структуру рассматриваемой дифференциальной игры можно описать достаточно полно на основании теорем из §§ 15—17. Обратимся сначала к задаче 18.1. Выберем какое-нибудь число с, фигурирующее среди значений функции о(х). Тогда можно выделить непустое замкнутое множество Мс = [{/, х}: t = О, а(х)^с]. Рассмотрим для заданной начальной позиции {/0, х0} задачу 9.2 для второго игрока об уклонении от выбранного множества МС9 полагая, что множество Nc в соответствии с условиями задачи 18.1 совпадает со всем пространством {1,х}.
Будем предполагать, что множество значений с, для которых рассматриваемая задача 9.2 разрешима, непусто. Если предположить, что это не так, то, согласно теореме 17.1 об альтернативе, будет существовать стратегия UQ 4- uQ(t, л;), которая для всех движений x[t,t^ xOiUQ] обеспечит встречу с множеством
*= [{/, х}: / = О, о(х) = г°], где c° = min[a(x),—оо<хг-<оо, i= 1, 2, ..., и]. Очевидно, это будет оптимальная минимаксная стратегия для задачи 18.1 на минимакс функционала ср = = а(х['&]) (18.1). Тогда любая стратегия V4-o(Z, х) будет оптимальной максиминной стратегией для задачи 19.2 в той же игре, ибо тогда любая стратегия V4-u(/, х) автоматически будет обеспечивать неравенство о(х[-&, f0, *о, V])	с°. Ясно, что
в этом тривиальном случае игра будет иметь седловую точку
V} с ценой уо — у0 = £°.
Пусть с = с° есть верхняя грань тех чисел с, для которых при данной начальной позиции {/0, х0} рассматриваемая задача 9.2 об уклонении разрешима. При с — с° эта задача для второго игрока уже иметь решения не может. В самом деле,
74
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
[ГЛ.
если бы некоторая стратегия ч- исо (t, х) для данной начальной позиции {^о, Яо} разрешила задачу 9.2 об уклонении от множества Мсо — [[t,x]: / — ft, о (я) =Сс°], то, по условиям этой задачи, она исключала бы встречу с некоторой е-окрестностьк> М^ множества Л1С<> для всех движений х [/] = я[/, /о, х0, Но вследствие непрерывности функции о (я) для любой ограниченной области D можно выбрать числа в* > 0 и с* > с°, такие,, что D A М^} cz D П М, где М(с^ — 8-окрестность множества Мс*= [{/, х} : t = ft, о (я) Однако это означает, что та же самая стратегия Vc<> исключает также и встречу с множеством А1(с*) опять для всех движений x[t. /0, я0, Г°]. Стало быть, эта стратегия для начальной позиции {/0, xQ} также решает задачу 9.2 об уклонении и от множества Мс*. Но это противоречит выбору числа с° как верхней грани тех чисел с, для которых рассматриваемая задача об уклонении разрешима. Итак, при с = задача 9.2 для второго игрока об уклонении от множества неразрешима. Согласно теореме 17.1 об альтернативе это означает, что для данной начальной позиции {/0, я0}имеет решение* задача 9.1 для первого игрока о сближении с множеством Л4со. Иначе говоря, найдется такая стратегия U04-w°(/, я), которая обеспечит встречу всякого движения я[/] = я[/, /0, я0, С7°] с Мс^ т. е. обеспечит неравенство
а (я [ft, /0, Xq, (70])<Л	(18.9)
В то же время по выбору числа с° для всякого числа с < & найдется стратегия Vc4-uc(^x), которая для всякого движения я [/, /0, Яо, Vc] обеспечит уклонение от множества /Ис, т. е. обеспечит неравенство
а (я [ft, /0, х0, VJ) > с.	(18.10)
Эго неравенство означает, что не существует стратегии я), которая для с < с° обеспечивала бы неравенства
а(я['&,/0, я0, (/])<с	.	(18.11)
для всех движений я [/, /0, я0, U]- Но выполнение неравенства (18.9) при невозможности обеспечить неравенство (18.11) при с < с° означает, что стратегия 47° — w°(/, я) есть не что иное, как оптимальная минимаксная стратегия, разрешающая в данном случае задачу 18.1 и удовлетворяющая, стало быть, условию
max а (я [ft, /0, я0, Lr°]) = minmaxa(*[ft, /0, я0, U]) = с°.	(18.12)
и Х[.]
Обратим внимание на то, что символ sup а (я [ft]), фигуриро-вавший в условиях (18.2), мы заменили здесь символом
ИГРА С ФИКСИРОВАННЫМ ВРЕМЕНЕМ ОКОНЧАНИЯ
75
«§ 18]
тахо*(.](*№])• Это можно сделать, так как множество всех движений x[t,tQ,XofU] (tQ <g t ft) при зафиксированной стратегии U является компактным в себе множеством в пространстве (см. § 7) и, следовательно, max о*[ф] (х[&]) по всем х [/] = х [/, ^о, х0, U] (tQ t ft) действительно достигается на каком-то движении х[/,/о, Xq, U]. Такая замена знака sup на max не была сделана в условии (18.2), чтобы подчеркнуть там, что по смыслу условий задачи 18.1 существование максимума max ох[.](х [*&]), вообще говоря, не требуется.
В соответствии с материалом из §§ 15—16 эта стратегия 67° -г- н°(/, х) может быть построена как экстремальная стратегия к максимальному u-стабильному мосту Wt, который в момент О обрывается на множестве Мс° (рис. 18.1).
Итак, мы проверили суще
ствование оптимальной минимаксной стратегии UQ+u°(t> х), разрешающей задачу 18.1.
Обсудим теперь вопрос об оптимальной максиминной стратегии 1/°~- vQ(ty х), разрешающей задачу 18.2 для второго игрока. Однако при этом мы можем не проводить каких-либо новых по существу рассуждений. В самом деле, если в предыдущих рассуждениях, которые привели нас к стратегии UQt мы поменяем ролями первого и второго игроков, будем рассматривать множества Л1с = [{/, х): / = '&, а(х) с] и заставим решать вспомогательные задачи 9.2 об уклонении от Мс уже первого игрока (переведенного временно на роль второго игрока) и выберем число Cq как нижнюю грань тех чисел с, для которых новая вспомогательная задача об уклонении разрешима, то сразу придем к оптимальной максиминной стратегии VQ^rvQ(t,x)y которая будет в данном случае разрешать задачу 18.2 и, стало быть, будет удовлетворять условию
mino(x['ft, /0, х0, 7°]) = max mina(x[$, /0» х0, V]) = co- (18.13) X Н •	V x[-J
Эта стратегия У°4-у°(/, х) может быть построена как экстремальная стратегия к максимальному ^-стабильному мосту WVf который в момент обрывается на множестве Me<t (рис. 18.2).
Мы придем к этому выводу, предполагая опять, что множество значений с, для которых рассматриваемая задача 9.2 об
76
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
1ГЛ. IV
уклонении от множества М*с разрешима, непусто. Если предположить, что это не так, то, согласно теореме 17.1 об альтернативе, будет существовать стратегия V0 4-	х), которая для
всех движений х [/, /о, Хо, V0] обеспечит встречу с множеством Мс3 = [ {/, х): / = о(х) = с0]> где с0 = тах[о(х)_, —оо<хг-<оо> i=l, 2, ..., п]. Очевидно, это будет оптимальная максимин-ная стратегия для задачи 18.2 на максимин функционала ф = = o(x[f>]) (18.1). Тогда любая стратегия U-~u(t, х) будет оптимальной минимаксной стратегией для задачи 18.1 в той же
Рис. 18.2.
игре, ибо она автоматически будет обеспечивать неравенство О (X [Ф, /о, Xq, U]) Со. Ясно, что в этом тривиальном случае игра будет иметь седловую точку {U, V0} с ценой Y° = Yo = со-
Теперь остается проверить» что рассматриваемая дифференциальная игра имеет седловую точку. Для этого надлежит проверить, что пара стратегий U° из (18.12) и К0’ из (18.13) и составляет эту г седловую точку {t7°, 7°}, т. е. проверить, что выполняется равенство с0 = с°. Проверим это.
Как всегда в случае сравнения минимакса и максимина, и в нашем случае справедливо неравенство с° с0, которое вытекает прямо из условий (18.12), (18.13) и из леммы 6.2. Поэтому остается только проверить, что в данном случае с° cQ. Но это неравенство следует сразу из условия (18.13) и из определения числа с° как верхней грани тех чисел с, для которых выбором V может быть обеспечено неравенство о(х[&,/о,хо, !/]):> с.
Таким образом, окончательно приходим к следующему утвер-
ждению.
Теорема 18.1. Какова бы ни была начальная позиция {/о, Хо}, дифференциальная игра, складывающаяся из задач 18.1 и 18.2, имеет седловую точку {U°, V0}. Оптимальная минимаксная стратегия U°~u°(t, х) обеспечивает неравенство
ог(х['О, /0, х0, С/0]) у° = с°	(18.14)
для всех движений x[t, х0, UQ]. Она может быть построена как экстремальная стратегия Ue 4- ue(t,x) к максимальному и-стабильно му мосту Wu, обрывающемуся при t — ft на множестве
§ 18)
ИГРА С ФИКСИРОВАННЫМ ВРЕМЕНЕМ ОКОНЧАНИЯ
77
jl4ca = [ {t, х\: /==Ф, о(х) ^y°==c°J. Оптимальная максиминная стратегия V0 4- v°(t,x) обеспечивает неравенство
О (X /0> х0, V0]) > Yo = СО (Yo = Y°)	(18.15)
для всех движений х |7, t0, х0, V0]. Она может быть построена как экстремальная стратегия Ve-±-ve(t,x) к максимальному v-стабильному мосту , обрывающемуся при t = Ф на множестве Мс, = [(Л х}: / = •0', о (х) Yo = со] и минующему, стало быть, множество Ме = [{/, х}:
t = ®, <j(xXc] (с < с0) (рис. 18.3).
Обозначим символом х[/, t0, х0, U°, 1/°] движение, которое порождается парой оптимальных стратегий {U°, V0}. Таких движений может быть не одно, но это не важно. По определению движений x[f] (см. стр. 33, 36) каждое из движений x[t, t0, Хо, U°, V0] оказывается общим элементом для пучков движений {х [/, to, x0,U°]} и {х[^,/о,хо, И}.
Рис. 18.3.
Очевидно, вдоль каждого такого движения х[/]=х|/, t0,x0, U°, J7°] позиция {/, х[/]} скользит все время по пересечению множеств и Wv (см. рис. 18.3), пока в момент t = ф не оказывается в точке х = х[&], где о(х[ft]) = yo = Y0- Если же какой-либо
из игроков отклоняется от своей оптимальной стратегии, а другой остается верным своей оптимальной стратегии, то движение х [/], вообще говоря, отклоняется от моста W®, принадлежащего «уклонисту», и результат игры о(х[&]), таким образом,
для этого «уклониста» может только ухудшиться.
В аппроксимационной форме теорема 18.1 принимает вид следующего утверждения.
Теорема 18.2. Какова бы ни была начальная позиция {/о, х0}, для любого числа е>0 можно указать число 6е > 0, такое, что стратегия U° 4-«° (/, х) для всех ломаных Эйлера Хд|7, to, х0, U°, о[-]] с шагом
supz (т<+1 — Т/) = 6<бе
(18.16)
обеспечивает неравенство
ст(Хд[-О’, to, Хо, и°, о[ • 1]Xy°+«»
(18.17)
78
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
(ГЛ. IV
а стратегия VQ~v°(t,x) для всех ломаных Эйлера хд[/, ^о, Хо, V0, «[•]] с шагом б бе обеспечивает неравенство
а(хд['0>, tQt Xq, 7°, и[ • ]])>Yo —е,	(18.18)
причем yo = Y°-
Итак, мы проверили, что дифференциальная игра, складывающаяся из задачи 18.1 на минимакс и задачи 18.2 на максимин функционала (р = о (х [-О]) (18.1), всегда имеет седловую точку {t7°, V0}. Для построения оптимальных стратегий UQ и V0 надо уметь строить стабильные мосты WZ и WZ> Эффективные способы построения этих мостов WZ и WZ для отдельных конкретных типов рассмотренной в этом параграфе задачи будут описаны в главах V—VIII.
Обратимся теперь к дифференциальной игре на минимакс — максимин функционала (18.4). В соответствии с материалом, изложенным на стр. 72, 73, надлежит проверить, что оптимальные решения UQ и V0 для этой игры можно определить функциями tf\ (/, х) и х), не зависящими от компоненты xn+i вектора х* — {х, xn+i}. Проверим это. Согласно предыдущему, рассматриваемая игра на минимакс — максимин функционала ф* (18.7) в классе стратегий U* ~ u(t, х*) и V* v (t, х*) имеет седловую точку {t7*°, V*0} и цену у° = Yo = с*° = £о, где числа с*° и ^определяются описанным выше образом. При этом для начальной позиции {/0, Хо, Xn+i, о — 0} мы можем, подобрав числа с*° = со, построить максимальные стабильные мосты и Wv^ в пространстве {/, х*}, которые будут обрываться в момент $ на множествах Л1с*0 = [{/, х*]: / = '&, <т*(х*)^с*°] и МСо* = [{/, х*}: / = = 'О', о* (х*) со ] соответственно. Зафиксируем эти мосты. Построим функцию u^(t, х) следующим образом. Зададимся некоторой функцией р(б)>0 при б > 0, удовлетворяющей условию
limg(d) = 0.	(18.19)
б->0
Для данной позиции {/, х} подберем наибольшее значение координаты Xn+i, при котором расстояние от точки {/, х*} = = {^, х, хпп} до сечения Wu^ff) моста IT*? равно величине
8(б) (/) = ц (6) exp X (/ — f0).	(18.20)
Затем для этой позиции выбираем вектор ц^(/, х), как оптимальный минимаксный вектор и* для маленькой игры (12.1) в позиции х*} = {/, {х, хп+1) } по вектору s* = {x, xrt+1}— где w*— точка из Wt® (/), ближайшая к точке х’= [х, xrt+I}. Если подходящей координаты xrt+1 для данной позиции [t, х]
ИГРА НА МИНИМАКС-МАКСИМИН ВРЕМЕНИ
79
§ 19]
подобрать нельзя, то в качестве u^(tyx) можно выбрать любой вектор и^Р. Теперь, опираясь на оценку из § 15 и стабильность моста W*u\ повторяя рассуждения из § 15 лишь в несколько модифицированном виде, нетрудно проверить, что можно подобрать функцию ц(6) (18.19) и постоянную Л в (18.20) так, чтобы всякая ломаная Эйлера хд[/, /0,	и&\ с шагом
supf(Tj+i — tz) = S удовлетворяла бы неравенству
а* (х*д [«]) <	+ № (Ф).	(18.21)
Отсюда, вследствие выполнения для величины (18.20) условия
Нгпе(б) = 0,	(18.22)
6->0
заключаем, что для всякого движения х* [/, /0, х0, (7° ч- справедливо неравенство о* (х* [О])	с*°, что и доказывает оптималь-
ность этой стратегии в нужном нам смысле.
Функция с/£(/, х), которая определяет максиминную стратегию V0, строится аналогичным образом с той разницей, что при этом для позиции {/, х} подбирается наименьшее значение координаты xn+i, при котором расстояние от вектора х* — = {х, xn+i} до сечения W*® (/) моста W*® равно величине s^(i) (18.20), и вектор v^(ty х) выбирается затем как оптимальный максиминный вектор у* для соответствующей маленькой игры (12.2). Тогда опять получается, что всякое движение х*[/, хо»	удовлетворяет неравенству
о (*’[<>]	(18.23)
Отсюда вытекает, что стратегия V0 -ь (/, х) будет оптимальной максиминной стратегией в нужном нам смысле.
§ 19. Игра на минимакс-максимин времени до встречи. Рассмотрим теперь одну из наиболее типичных дифференциальных игр — игру на минимакс—максимин времени до встречи. Множества W и М мы будем теперь полагать замкнутыми и цилиндрическими множествами в пространстве {/, х} с образующей, параллельной оси I. Такой случай цилиндрических множеств N и М является достаточно общим и в то же время обладает преимуществом наглядности. Функционал ф(х[/], tQ t т) (8.1), минимизируемый первым и максимизируемый вторым игроком, будет теперь иметь смысл времени до встречи, так что
Ф(х[/], t0^t^x) ~х— /0,	(19.1)
80
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
(ГЛ. IV

zzzzzzjzzzz^zzzzzzzzzzzzz^zzz^zz^zzzz.
ХО~~ м{.
где, стало быть, /о — момент начала игры и т — момент окончания игры, определяемый из условий встречи (2.3), (2.4) движения х[/] с множеством М. Иначе говоря, т — момент времени, когда впервые точка х [/] попадает на Мщ оставаясь до этого все время внутри N{x}> где и N{X}—проекции цилиндрических множеств М и N в пространство {х} (рис. 19.1).
Итак, условие встречи в данном случае изображается в форме условий x[t]g=M{x}, х[7]	М{х},
х [/] <= N{x} при /0 < t < т.
(19.2)
Таким образом, мы получим следующие две задачи, которые конкретизируют задачи 8.1 и 8.2.
Задача 19.1. Требуется найти стратегию UQ 4- u°(t, х), которая гарантирует встречу (19.2) для всякого движения х[^] = = х[/, /о, *о, UQ] и среди всех стратегий U u(t, х), удовлетворяющих этому условию, отличается тем, что для нее выполняется равенство
sup (т (х [ •, /0, х0, t/°]) — /0) = min sup (т (х [ •, /0, х0, U]) —	(19.3)
xi-i	U
4^

t

Рис. 19.1.
где символ т(х[-]) обозначает для всякого движения х[/] = = х[.,^о, Хо, U] момент встречи (19.2).
Задача 19.2. Требуется найти стратегию V0 v°(t,x), которая исключает встречу (19.2) для всякого движения - х [/] = = х [f, to, Хо, V0]. Если такой стратегии не существует, то требуется найти хотя бы стратегию V°4-o°(f, х), которая удовлетворяет условию
inf (т (х [ •,/0, х0, V0]) — /0) = шах inf (т(х[•, t0, х0, V]) —t0), (19.4) XI-)	V *|.|
причем в (19.4) нижняя грань для величины у = х— to вычисляется по всем тем движениям х [-] = х [/] (t^ to), для которых значение т оказывается конечным.
В качестве более специфического примера дифференциальной игры на минимакс—максимин функционала <р = т —10 (19.1), обсуждаемой в этом параграфе, рассмотрим дифференциальную игру погони — убегания, которая складывается из задачи 19.1 о сближении и задачи 19.2 об уклонении
ИГРА НА МИНИМАКС - МАКСИМИН ВРЕМЕНИ
81
§ 19]
для системы двух управляемых объектов:
У = fw (t, у, и),	(19.5)
z = Р (t, Z, о).	(19.6)
При этом условие встречи в предположении одинаковой размерности векторов у и z определяется включением (г — </)eS, где S — заданное замкнутое множество, определяющее область влияния преследующей точки y\t\. В эту область первый игрок должен захватить преследуемую точку г [/], управляемую вторым игроком. Функционал <р = т — /о (19.1) тогда приобретает смысл времени Т = т — to до такого захвата. Чтобы ввести эту дифференциальную игру в рамки дифференциальной игры, сформулированной выше в этом параграфе, следует положить
и определить множество Af в пространстве {t, х} условием М — ==[{/, х}: t to, (г— у) е S]. Первый игрок, распоряжающийся управлением и, решая свою задачу 19.1, будет, стало быть, стремиться осуществить встречу и притом по возможности уменьшить Т, а второй игрок, распоряжающийся управлением v, решая свою задачу 19.2, напротив, будет стремиться избежать захвата или хотя бы увеличить Т.
Функционал <р (19.1) мы можем записать в следующем виде:
т.
ф(х[/], т) = т—	(19.7)
/о
Но тогда представляется естественным включить рассмотренную сейчас игру на минимакс — максимин времени до встречи в более широкий класс игр, где функционал ф изображается равенством
ф (х [/], и [/], V [/], to < t < т) =
т
= | х(/, х [/], и [<], v [£]) dt + со (т, х[т]),	(19.8)
i.
причем к(/, х, и, v) и a(t,x) — заданные непрерывные функции и момент т окончания игры определяется обычными условиями встречи (2.3), (2.4).
Введем новый фазовый вектор х* = {х, xn+i}, где компонента хп+1[/] определяется равенством (19.5) и удовлетворяет дифференциальному уравнению (18.6). Тогда исходное дифференциальное уравнение (6.1) мы можем заменить новым векторным
82
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
[ГЛ. IV
дифференциальным уравнением (18.8), а функционал ср (19.7> удобно записать тогда в форме функционала
ф*(х*[т]) = (й(Т) х[т]) +	[т].	(19.9}
Теперь исходную игру на минимакс — максимин функционала (19.8) можно включить в число игр, которые формализуются в следующих двух задачах.
Задача 19.3. Требуется найти стратегию [7° 4- uQ(t, х*), которая обеспечивает встречу
{т, х*[т]} е М\ {/, х*[Л I Ф {/, х*[Н} ЛГ (19.10) Go < t < т)
для всякого движения х* [/] = x\t, t0, xj, t/°] и среди всех стратегий U-i-u(t, х), удовлетворяющих этому условию, отличается тем, что обеспечивает минимакс minusup*» {.j<p* для заданного функционала <р*(х*[т]).
Задача 19.4. Требуется найти стратегию V0 4- v°(t, х), которая исключает встречу (19.10) для всякого движения х*[^] = = х* [/, /0> хо> Г°]. Если такой стратегии не существует, то требуется найти хотя бы стратегию V0 4- vn(t, х*), которая обеспечивает максимин maxy inf[.,<р* для заданного функционала <Р* (х* Н) •
Здесь М* и N* — заданные замкнутые множества в пространстве {/, х*}.
Если условия встречи (19.10) совпадают с условиями (19.2), функционал <р* имеет вид (19.9), а уравнение движения
х’ = f*(t, х’, и, v)	(19.11)
имеет правую часть вида (18.8), то о связи задач 19.3 и 19.4 для системы (19.11) с исходной позиционной игрой на минимакс— максимин функционала (19.8) для системы (6.1) можно высказать те же соображения, которые приведены для аналогичной ситуации в конце § 18. Следует, впрочем, отметить, что исследование задач 19.3 и 19.4 с условиями встречи (19.10) оказывается более трудным делом, чем исследование задач 18.1 и 18.2 с фиксированным моментом & окончания игры.
Структуру дифференциальной игры, складывающейся из задач 19.1 и 19.2, также можно описать достаточно полно на основании теорем из §§ 15—17. Будем следовать в общих чертах тому же порядку рассуждений, что и в предыдущем параграфе. Зададимся некоторым числом с 0. Рассмотрим для значения & = с + t0 задачу 9.2 для второго игрока об уклонении от множества М? = [{G х}: t0 t О,	внутри множе-
ства Nc = [{/, х}: t to, xeAZ{X)]. Пусть для выбранного зна-
jgj	ИГРА НА МИНИМАКС - МАКСИМИН ВРЕМЕНИ	83
чения Ф данная задача имеет решение. Это означает, что найдется число 8 > 0 и стратегия V^4-Uo(Z, х) такие, что всякое движение х [/] = х [/, /0, *о, Vd при /о б1 минует 8-окрестность Л1{%} множества 7И{Х}. Пусть теперь О0—верхняя грань тех значений ft, для которых разрешима рассматриваемая задача 9.2 об уклонении. Будем полагать, что такая конечная верхняя грань существует. Другой случай оставим здесь в стороне. Подобно тому, как это было сделано в § 18, и здесь нетрудно убедиться, что при О — О0 задача 9.2 об уклонении от множества Мс при с = cQ = -ft0 — т. е. задача об уклонении ют множества М вплоть до момента ft0, разрешима быть не может. В самом деле, если бы некоторая стратегия V\>o 4- х) разрешала задачу 9.2 об уклонении от М вплоть до момента ft0, т. е. если бы эта стратегия обеспечивала уклонение всех движений х[/] = х[/, £0, хо, УИ при	от некоторой 80-ок-
рестности множества то та же самая стратегия обеспечивала бы уклонение всех движений х [/] = х [£, tQ, х0, V’0] при io t от некоторой 8*-окрестности (ей < е0), где число О*, достаточно близкое к числу 0°, больше, чем 'ft0. Но это противоречит выбору числа 6°. Итак, задача 9.2 об уклонении от М вплоть до момента $ == О0 неразрешима. Стало быть, согласно теореме 17.1 об альтернативе, наоборот, разрешима задача 9.1 о сближении с М к моменту Ф°. Возвращаясь теперь к нашей исходной игре на минимакс — максимин функционала Ф = т—/0 (19.1), приходим, стало быть, к следующему выводу. Пусть величина ft0 конечна. Тогда существует стратегия UQ -4- u°(t,x), которая для всякого движения х[/] = = х [/, £0, *0, U<>] обеспечивает неравенство ф (х И, to t т) = ==т(х[-])—to Ф0—tQ. В то же время при выборе любого значения ft* < ft0 не может существовать стратегии 67* 4- u*(t, х), которая для всякого движения х [Z] = х[/, /0, х0, (/*] обеспечивала бы неравенство ф(х[/], t0 t т) = т(х [•])—'О'*— Отсюда видим, что число О0— /о есть не что иное, как число у0, от-вечающее в данном случае решению задачи 19.1, а стратегия х) есть не что иное, как минимаксная стратегия для данной задачи, которая, следовательно, удовлетворяет условию
sMt(x[-J0,x0, ^])-/о) =
= min sup (т (х[«, /0, х0, {/]) —/0) =$° — /0 = у0.	(19.12)
и хн
В соответствии с материалом из §§ 16—18, для построения этой стратегии 1/°4-ц°(/, х) достаточно построить максимальный ^-стабильный мост Wt\ обрывающийся на М к моменту б10 (рис. 19.2).
84
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
[ГЛ. IV
Стратегия 1/Со -ь исо (/, х), экстремальная к этому мосту > и явится искомой оптимальной минимаксной стратегией t/°4-4- «°(/, х).
Вопрос об оптимальной максиминной стратегии V°4-4-у°(/, х) в данном случае оказывается более сложным, чем в случае игры из § 18. Во всяком случае, на основании выбора Фо, мы можем только утверждать, что при всяком выборе 8 > О найдется такая стратегия Ж 4-и(е)(/, х), которая для всякого движения х [/] = х [/, tQ, х0, V(e)] обеспечит неравенство т (%[•]) — — to > 'ft0—to — 8. Но это означает, что в данном случае
supmin(x(x[*, /0, х0, V])— t0)— W— t0.	(19.13)
v x[-]
Ситуацию, когда справедливо равенство
inf sup ф (x[ • ]) = sup inf ф(х[ - ])»	(19.14)
U x [•] x H	V x[«l x [•]
мы будем называть г-седловой точкой или ситуацией г-равно-весия. Стало быть, в данном случае мы имеем ситуацию 8-равновесия (19.14). При этом обязательно существует оптимальная минимаксная стратегия (7°4-4-и°(£, х), которая удовлетворяет условию (19.12), и при всяком 8 > 0 можно указать а стратегию W 4- х), t которая обеспечивает для второго игрока результат Y(e) = Ф(в) — h = ft0 — — /о — е, 8-близкий к тому
результату у0 = ft0 — который обеспечивает минимаксная стратегия UQ + u°(t, х) первому игроку. При этом, однако, вопрос о существовании оптимальной максиминной стратегии V°4-4-^°(/,х), которая обеспечивала бы в данном случае равенство
min(T(x[-, ^°]) — /0) = maxmin(T(x[-, /0, х0, И) -хн	v *н
(19.15)
остается пока открытым. В дальнейшем в главе VII, § 45 мы обсудим этот вопрос для отдельных частных случаев и укажем некоторые классы задач 19.2, для которых оптимальная макси-минная стратегия обязательно существует. Впрочем, следует сказать, что различение случаев существования I/0 или несуществования V0 при доказанном нами равенстве (19.14) носит формальный характер и проявляется только в классе идеальных
ИГРА НА МИНИМАКС - МАКСИМИН ВРЕМЕНИ
85-
« 19]
движений х [/, t0, х0, 17] и x[t, t0, х0, V]. При переходе к аппроксимационным движениям —ломаным Эйлера х&[/, t0, х0, U, v[-]] и хд1Мо, хо, К «Ы1 —эт0 различие стирается (см. ниже теорему 19.2), равно как это различие стирается, если допустить, что стратегия V°-*-yg(/, х) может определяться функцией
(t, х), зависящей от шага 6 ломаной Эйлера хд [/, t0, х0, V°r w[.]] (см. выше § 18, стр. 73).
Итак, справедливо следующее утверждение.
Теорема 19.1. Какова бы ни была начальная позиция {f0, Хо}, для нее верно одно из двух заключений: или задача 19.1 для первого игрока не разрешима (при у°< оо), и тогда при всяком выборе > to найдется стратегия + (t, х), которая обеспечит неравенство
т(х[«, t0, х0, VJ) ——*о,	(19.16}
или задача 19.1 для первого игрока разрешима, и тогда имеет место ситуация г-равновесйя: некоторая оптимальная минимаксная стратегия U° 4- u°(t,x) удовлетворяет условию (19.12) и при всяком е > 0 найдется стратегия У<8>4-»(е)(/, х), которая обеспечит условие
т(х[-,/0, х0, V(e>]) — to>№ — to — е.	(19.17}
В аппроксимационной форме теореме 19.1 можно придать, следующий вид. Заменим функционал ф = т(х[-])—10 на функционал ф<“> = та(х[-])— to, где Тсс(х[-]) — первый момент встречи точки хИ с замкнутой евклидовой a-окрестностью множества Af{X} внутри a-окрестности Тогда справедливо следующее утверждение.
Теорема 19.2. Какова бы ни была начальная позиция {/о, Хо}, для нее верно одно из двух заключений: или задача 19.1 для первого игрока не разрешима (при у0 < оо), и тогда при всяком выборе to найдется стратегия V04- у0 (t, х) и числа «о > 0 ц 60 > 0, такие, что для всех ломаных Эйлера хд[/, t0, х0,. V(#), u[-]] с шагом supi(Ti+i—Тг) = б^бо будет обеспечено неравенство
Тай(хд[ • ]) —/o>ft —А»	(19.18}
или задача (19.1) для первого игрока разрешима, и тогда для всякого а > 0 можно указать число ба > О такое, что оптимальная минимаксная стратегия U° 4- u°(t,x) для всех ломаных Эйлера хд [/, to, Хо, t/°, и[-Ц с шагом sup.;(Ti+i — тг) = б ба обеспечит неравенство
^(хЛ-Ъ — t^^ — to,	(19.19}
причем хд [/] е и при всяком выборе 8 > О можно указать-стратегию W 4- v<s>(t, х) и числа ае > О, бе > О, такие, что-
£6
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
[ГЛ. IV
для всех ломаных Эйлера хд [/, /0, х0, V(8), и] с шагом 6	68
будет обеспечено неравенство
(19.20)
§ 20. Игра на перехват. В этом параграфе мы рассмотрим -еще одну конкретизацию задач 8.1 и 8.2. Эта конкретизация в формализованной модели позиционной дифференциальной игры отвечает той задаче о перехвате, которая была описана в менее строгих терминах в § 3. Множество N будем полагать совпадающим со всем пространством {t,x}y множество М будем полагать замкнутым в пространстве {/, х}, а функционал ф (8.1), минимизируемый первым и максимизируемый вторым игроком, выберем теперь в следующей форме:
Ф(*[/],	тах <о(С лф]),	(20.1)
где оф, х)— заданная непрерывная функция. Момент окончания игры, как обычно, определяется условиями встречи (2.3), (2.4). Кроме того, мы будем предполагать, что множество М включает в себя также некоторую гиперплоскость t = ft > так что игра закончится обязательно не позже заданного момента времени ft (но не обязательно именно в этот момент -ft, ибо встреча (2.3), (2.4) может случиться и при т < ft). Таким образом, мы получим следующие две задачи.
Задача 20.1. Требуется найти стратегию UQ •— u°(t, х), которая удовлетворяет условию
sup max со (t, дф, tQi vOf t/°]) =
x.H
= min sup max со(/, x[t, /0, x0, С7]) = у°.	(20.2)
Задача 20.2. Требуется найти стратегию Е°-?иф, х), которая удовлетворяет условию inf max со (/, х [/, /0, хъ> ^°]) = х[«1
= max inf max оф, x[t, tQf x0, У]) = у0.	(20.3)
V x[-J
Структура дифференциальной игры на минимакс — максимин функционала ф (20.1) также может быть описана достаточно полно на основании теорем из §§ 16—18 и по тому же плану, как это было сделано в двух предыдущих параграфах.
Зададимся некоторым числом с, которое содержится среди значений функции со(/, х). Обозначим символом Nc множество Nc = [{t, х}: tQ t ft, оф, х)^с]. Рассмотрим для второго игрока задачу 9.2 об уклонении от множества Мс = М внутри Nc. Предположим далее, что множество тех значений с, для которых эта задача имеет решение, непусто. Если предположить,
ИГРА НА ПЕРЕХВАТ
87
§ 20] что это не так, то, согласно теореме 17.1 об альтернативе, будет существовать стратегия UQ 4-	х), которая для всех движе-
ний х [/, /о, *о> IP] обеспечит встречу с множеством Мс* внутри множества Nc*> где r° = min[co(/, х), tQ < t ft, ||хЦ < оо]. Иначе говоря, тогда найдется стратегия	х), которая обеспечит
равенство
<р(х[/, tQ, х0, С/°],	= min[co(/, х),	11*11 < °°]-
(20.4}
Очевидно, это будет оптимальная минимаксная стратегия для задачи 20.1. Тогда любая стратегия V+v(t, х) будет оптимальной максиминной стратегией для задачи 20.2 в той же игре, ибо тогда любая стратегия V+v(t,x) автоматически будет обеспечивать неравенство <p(x[«,	х0, V])^ с°. Ясно, что в
таком тривиальном случае игра будет иметь седловую точку {[7°, V} с ценой у0 = у0 = с°.
Пусть теперь с° — верхняя грань тех чисел с, для которых, рассматриваемая вспомогательная задача 9.2 имеет решение. При с = с° рассматриваемая задача 9.2 для второго игрока об уклонении от Мсо внутри Nc^ уже иметь решения не может (см. выше рассуждения в аналогичных случаях в §§ 18, 19 на стр. 73, 74 и на стр. 83). Стало быть, согласно теореме 17.1 об альтернативе, найдется стратегия (7° 4- u°(t, х), которая обеспечит первому игроку встречу с Мсо внутри т. е. обеспечив неравенство
<р(х[/, f0, х0, IP],	(20.5}
В то же время по выбору числа с° для любого числа с < найдется стратегия Ус4-ус(/, х), которая обеспечит неравенство
<р(х[/, /0, х0, Уг],	(20.6}
Отсюда заключаем, что стратегия LP 4- u°(Z, х) является в данном случае оптимальной минимаксной стратегией и мы имеем опять в данной игре ситуацию 8-р а в н с в е с и я. Вопрос же о существовании оптимальной максиминной стратегии У°4-ц°(/, х) опять остается открытым. При этом о данной ситуации 8-равновесия можно сделать те же замечания^ которые были сделаны в § 19 на стр. 84, 85 для аналогичной ситуации 8-равновесия в игре, складывающейся из задач 19.1— 19.2 несколько более частного вида, чем задачи 20.1—20.2. Заметим кстати, что задачи 19.1 и 19.2 можно рассматривать как один из случаев задач вида 20.1 и 20.2 при выборе <о(/, х) = Л (При этом еще в задачах 20.1 и 20.2 надлежит снять оговоренное выше ограничение t О на продолжительность игры и добавить нетривиальное множество АЛ, однако в частном случае-<o(Z, х)=/ это ограничение для задач 20.1 и 20.2 не является
«8
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
(ГЛ. IV
важным.) Тем не менее задачи 19.1, 19.2 вследствие их специфичности, мы все-таки выделили в качестве самостоятельного •случая игры на минимакс — максимин времени до встречи.
Итак, справедливо следующее утверждение.
Теорема 20.1. Какова бы ни была начальная позиция {/0, Хо}, задача 20.1 для первого игрока имеет решение UQ ч-4-«°(^,х), и имеет место ситуация ^равновесия. Оптимальная минимаксная стратегия UQ-±-u°(t,x) обеспечивает условие (20.2), и при всяком е>0 найдется стратегия Vc~vc(t,x) (с = с°—е), которая обеспечит условие (20.6).
В аппроксимационной форме теорема 20.1 принимает вид следующего утверждения.
Теорема 20.2. Какова бы ни была начальная позиция {/0, х0}, для любого числа е>0 можно указать число 68 > 0 такое, что стратегия UQ^-uQ(t,x) для всех ломаных Эйлера Хд [/, /о, х0, t/°, v [• ]] с шагом sup; (тг+1 — тг) = б б8 обеспечивает неравенство
ф(хд[/,	х0, t/°, у], /о^^те)^с° + 8*	(20.7)
При всяком выборе г > 0 можно указать стратегию И8) ч-4-у(8)(/, х) и числа а8 > 0 и б8 > 0, такие, что для всех ломаных Эйлера хд [/,/0, х0, V(8), «[•]] с шагом б б8 будет обеспе
чено неравенство
ф(*д|Л t0> хо> ^(8>>	^о^^таг)^с° — е- (20.8)
Здесь символ та(х[>]) обозначает первый момент встречи позиции {/, х [/]} с замкнутой a-окрестностью М<а> множества М.
§ 21. Примеры. В этом параграфе мы приведем некоторые простые модельные примеры задач из §§ 19, 20.
Пример 21.1. Задачи у сп о коен и я — р а с к а ч к и математического маятника. Рассмотрим математический маятник, подверженный управляющему моменту и и некоторой возмущающей силе, которая создает момент V. Пусть m — масса маятника, d — длина подвеса, g — ускорение силы тяжести и g — угол отклонения маятника от нижнего устойчи» вого положения равновесия (рис. 21.1).
Тогда уравнение движения маятника имеет вид
6=--£-510? + ^ + ^.	(21.1)
Примем, что по условиям задачи моменты и и v могут в каждый момент времени t выбираться любыми и они должны 'быть стеснены только неравенствами
(21.2)
§ 21]
ПРИМЕРЫ
8»
причем постоянные р и а удовлетворяют неравенству
Р > а.	(21.3}
Первая из задач для маятника (21.1), которую мы рим, будет состоять в таком выборе управления и, который обеспечил бы наименьшее возможное отклонение маятника (по углу g) от нижнего устойчивого положения равновесия go = 2fen (k = О, ±1, ...) в заданный момент времени t == О при учете самых неблагоприятных проявлений возмущающего момента ф]. При этом формирование управления и должно осуществляться по принципу обратной связи на основе информации о реализующихся значениях g|7] и £[/].
Эта задача формализуется, очевидно, как игровая задача 18.1. Ее математиче-
ская модель будет такова. Полагая = g и х2 == g„ получим из-(21.1) векторное дифференциальное уравнение (6.1) в виде
рассмот-
'/////////////////.
и+и
т
Рис.
21.1.
1Р-т^
* = л = g .	.	1	,	1	= /(/, х, и, v), (21.4)
[_x2J	—-~sinx H----— «Н-----jp- v '	’	*	" v z
L d	md2 md2
причем ограничения (6.2) на и и v суть здесь ограничения (21.2). Функционал ф (8.1) следует здесь выбрать, как функционал вида (18.1), где а(х) = о(хр х2) = min|xl — х<*>|, х^ = 2л& (k= = 0, 1, ...). Далее, как обычно, полагаем заданной начальную-позицию {/о, *о} = {Ль *оь *02}. По смыслу задачи управлением и распоряжается первый игрок-союзник, возмущающим «управлением» v — второй игрок-противник. Союзник ведет позиционное управление, диктуемое его стратегией [/, способ формирования управления tr может быть каким угодно, и он может базироваться на любой мыслимой информации. Таким путем приходим к следующей модельной задаче, конкретизирующей задачу 18.1.
Задача 21.1. Требуется найти стратегию £7° 4- х) = = и°(/,хьх2), которая обеспечивает минимакс
suprnin|x1['&, /0, х0, £7°] — х'*>| =
= minsupmin|x1['&, /0, х0, £7] — х<Л) |SY° (21.5>
ДЛЯ' движений системы (21.4) при ограничениях (21.2).
so
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
[ГЛ. IV
Можно с самого начала поставить противоположную задачу с предельной раскачке (по углу g) маятника управляющим моментом v при наличии возмущающего момента и. Тогда следует полагать, что управляющим воздействием нашего союзника (теперь это будет второй игрок) является момент v, а момент и, представляющий возмущающую силу, будет вырабатываться первым игроком-противником. Затем, полагая снова, что игрок-союзник строит свое управление позиционно по принципу обратной связи на основе своей стратегии V, а способ формирования «управления» и может быть каким угодно, придем к следующей модельной задаче, конкретизирующей задачу 18.2.
Задача 21.2. Требуется найти стратегию V0 ~- vQ (/, х) = = vQ(t, Xi,x2), которая обеспечивает максимин
inf min J*! [t>, tQi х0, V0] — х^| =
= max inf mini х. pfr, L, х0, 71 — х^|=у0	(21.6)
V х[«] k 1 L • J	1
для движений системы (21.4) при ограничениях (21.2).
В соответствии с материалом из § 18 дифференциальная игра, складывающаяся из задач 21.1 и 21.2, имеет седловую точку.
Следующая задача об успокоении маятника (21.1), которую мы рассмотрим, будет состоять в таком выборе управления и, который обеспечил бы наискорейшее возможное приведение маятника в нижнее его положение go = 2йл (k = 0, ±1, ...) и притом так, чтобы в этом положении маятник оказался с нулевой скоростью g = 0. Задача формирования управления и опять должна решаться по принципу обратной связи при наличии информации о реализующихся значениях координаты g [/] и скорости g|7] и при учете самых неблагоприятных проявлений возмущающего момента v [/]. Кроме того, мы примем еще, что по условиям задачи угловая скорость g не должна превышать по модулю заданную величину х.
Эта задача формализуется, очевидно, как задача 19.1. Для построения ее математической модели надлежит добавить еще к уравнению движения (21.4) и ограничениям (21.2) описание множеств М и N. Из условий исходной задачи управления ясно, что эти множества М и N описываются соответственно соотношениями
=	%} : / х1 = 2kn (fe = 0, 1, ...), х2 = 0],	(21.7)
N = [U, *} •	] х2)<х]	(21.8)
§211
ПРИМЕРЫ
91
и, следовательно, условия встречи (19.2) принимают в рассматриваемом случае следующий вид:
X] [т] = 2йл(& = 0, 1, ...), х2[т] =0, х1 [/] =И= 2&л, (21.9) =#= 0, | х2р] |=Сх при
Функционал <р согласно (19.1) надлежит здесь выбрать в виде
<р(х[/], /0<^<'г) = т(х[ • ]) —10.	(21.10)
Таким образом, приходим к следующей конкретной модельной задаче 19.1.
Задача 21.3. Требуется найти стратегию U° 4- u°(t, хь х2), которая, во-первых, обеспечивает встречу (21.9) для всякого движения х[/] = x[U0, хо, f/0} системы (21.4) при ограниче' ниях (21.2), а, во-вторых, среди всех стратегий U -j- u(t, Xi, х2), удовлетворяющих этому условию, отличается тем, что удовлетворяет условию
sup (т (х [ • , to, х0, С7°]) —10) = хН
== minsup (т(х[ •, Iq, х0, ^1) — /о)- (21.11) и х[-]
Можно поставить и противоположную задачу о раскачке маятника (21.1) (по углу § и скорости |) управляющим моментом v при наличии возмущающего момента и так, чтобы по возможности долго препятствовать его приходу в нижнее положение go = 2&л (k = 0, 1, ...) с нулевой скоростью. При этом уже управление v будет строиться позиционно, а способ формирования «управления» и может быть каким угодно.
Таким образом, придем к следующей конкретной модельной задаче 19.2.
Задача 21.4. Требуется найти стратегию V0 4- у°(/, хь х2)г которая исключает встречу (21.9) для всякого движения х[/] = = х [/, /0, Хо, Vю] системы (21.4) при ограничениях (21.2). Если такой стратегии не существует, то требуется найти хотя бы стратегию V0 4- vQ(t, хь х2), которая удовлетворяет условию inf (т (х [ • , to, хо, У0]) —10) = *(•1
= maxinf (т(х[ •, t0, х0, V]) — /0). (21.12) V xl-l
В соответствии с материалом из § 19 дифференциальная игра, складывающаяся из задач 21.3 и 21.4, обладает ситуацией е-равновесия. Более того, в дальнейшем из материала § 53 мы увидим, что эта игра, если в ней исключить ограничения на *2 И из (21.9), имеет и строгую седловую точку.
Ц2
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
(ГЛ. IV
Модельные задачи, рассмотренные в примере 21.1, относились к тому кругу прикладных задач, о которых шла речь в § 4, иначе говоря, это были задачи регулирования при наличии неопределенной помехи. В следующих двух примерах мы обратимся к модельным задачам, которые относятся уже к кругу задач конфликтного управления, т. е. к тому кругу прикладных задач, пример которых обсуждался в § 3.
Пример 21.2. Модельная задача преследования — убегания. Рассмотрим две материальные точки с массами и соответственно, которые перемещаются в вертикальной плоскости (g, т,). Пусть координаты i-й точки суть переменные {gw, rff)}. Пусть на эти точки п№ и тР\ помимо сил тяжести gmW и gmP\ действуют управляющие силы Я1) и Я2), модули которых не могут превышать заданных значений и Примем, что силы Я1) и Я2) порож-л	даются управляющими
векторами и у*, моду-ли КОТОРЫХ совпадают по величине с модулями сил J "*^**^#	Я1) и ^(2)> однако между
р(г)	управляющими вектора-
/ (2)	ми и* и v* и порождае-
мыми ими силами Я1) и Я2) возможны люфтовые углы и а(2), значе-ния которых стеснены ____________________________условиями |сс<*>| £ (рис. 21.2).
Ситуация предпола-гается конфликтной: первый игрок, распоряжающийся управлением «*, стремится сблизить как можно раньше точки п№ и до полного совпадения их координат второй игрок, распоряжающийся управлением о*, напротив, стремится препятствовать как можно дольше такому сближению точек и т<2). Наряду с явно конфликтующими управлениями и* и у*, в условиях задачи фигурируют также неопределенные помехи и а<2>. Чтобы ввести данную ситуацию в рамки игры двух лиц, мы отнесем эти помехи также к числу управляющих воздействий, предоставив право распоряжаться люфтом aW второму игроку, а люфтом а(2) — первому игроку. Таким образом, мы примем, что в распоряжении первого игрока находится трехмерный управляющий вектор и = {и*, а<2>} = {«1,	и3}, а в распоряжении второго игрока —
трехмерный управляющий вектор v — {у*,	v3}. При
ПРИМЕРЫ
93
•§ 21]
этом указанные управляющие векторы и и о по условиям задачи стеснены ограничениями
||«’|| = (m2 + «2),/’<V1),	|а<2> | = |«з!<0(2),	(21.13)
|| || = (и2 + 0|у/,	A/2),	|a(i) | = | и3[<р(1).	(21.14)
Эта задача преследования, если ее рассматривать за первого игрока-союзника, должна, очевидно, формализоваться, как игровая задача 19.1. Тогда ее математическая модель будет такова. Полагая Х| =£<*>—£(2), х2 —г|(|) — Л(2)> *з=:£<1)—£(2), ,x4==f)(I) — f|(2), получим векторное дифференциальное уравнение движения (6.1) в виде
>3
х4
1 , . .	1 . . .
--тт~ («1 COS V3 — «2 sin v3)	tj? (o I cos u3 — v2 sin u3) = m' ’	m' ’
—-т- (и 1 sin o3 + u2 cos p3)-(t>i sin u3 -f-1>2 COS u3)
. ml '	nr ’	_
~f(t, x, u, v),	(21.15)
причем ограничениями (6.2) на и и v будут условия (21.13), (21.14). Множество М определится из условия встречи £(1)[т] = = ^2>[т] и == г]<2)[т]. Стало быть, М = 1{/, х}: t to, Xi=0, х2 = 0]. Множество N будет совпадать со всем пространством {/, х}. Таким образом, условие встречи (19.2) в фазовом пространстве {х} принимает вид
Х1[т] = 0, х2[т] = 0; х2[/] + х2[/] > 0 при t < т. (21.16)
Функционал <р согласно (19.1) опять выбираем в виде (21.10).
Таким путем приходим к следующей конкретной модельной задаче 19.1 о преследовании.
Задача 21.5. Требуется найти стратегию £/04-ц°(£, хь х2, Хз, х4), которая обеспечивает встречу (21.16) для всякого движения x[f] = x\t, t0, Хо, <7°] системы (21.15) при ограничениях (21.13), (21.14) и среди всех стратегий U 4- u(t, Х], х2, хз, х4), удовлетворяющих этому условию, отличается тем, что она обеспечивает минимакс (21.11).
Напротив, задача убегания, рассматриваемая за второго игрока-союзника, должна, очевидно, формализоваться, как игровая задача 19.2. Таким путем мы приходим к следующей конкретной модельной задаче 19.2.
Задача 21.6. Требуется найти стратегию V°-j-o°(f, xb х2, Л’з, х4), которая исключает встречу (21.16) для всякого движения
94
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
1ГЛ. IV
x[t] = x[t, t0, х0, V0] системы (21.15) при ограничениях (21.13)г (21.14). Если такой стратегии не существует, то требуется найти хотя бы стратегию V0 4- v°(t,	х2, *з, *4), которая обес-
печивает максимин (21.12).
, Утверждать существование е-равновесия для дифференциальной игры, складывающейся из задач 21.5 и 21.6 на основании материала из § 19, мы можем лишь при условии 0^ = 0(2) = О, ибо только при этом условии будет выполняться условие (12.4) седловой точки маленькой игры (12.1), (12.2). В случае 0<!> =# О или 0(2) =# 0 это условие выполняться не будет. Поэтому при 0(1) =И= 0 и 0<2> =И= 0 анализ игры, складывающейся из задач 21.5 и 21.6, должен опираться уже на материал из более поздних глав XI—XIV, где мы откажемся от условия (12.4).
Пример 21.3. Модельная задача о перехвате. Рассмотрим модельную игру на перехват, которая конкретизирует для достаточно простых объектов те игровые задачи о перехвате, о которых шла речь в §§ 3 и 20. Пусть на горизонтальной плоскости {g, т)} движутся три материальные точки т0)т /п(2) и zn<3\ Координаты Z-й точки будем обозначать символами {g6\ T](2)}- Точками и т<2), которые будут играть роль преследователей, пусть управляет первый игрок посредством сил Я1) и Я2). Точкой которая будет играть роль преследуемого, пусть управляет второй игрок посредством силы Я3). Предполагается, что силы Я*> стеснены только условиями ||Я*>|| где № — заданные постоянные (АР^АЯ). Пусть, далее, по условиям задачи второй игрок стремится приблизить точку rrffi к началу координат g = 0, г] == 0 и в процессе своего движения он должен оставаться в полосе |т]|<а. Выход его из этой полосы означает конец игры. Первый игрок препятствует осуществлению намерений второго игрока, перехватывая точку т<3> какой-либо из своих точек или гг№. Игра заканчивается, когда осуществляется такой перехват, описываемый условиями
[(£(>) _ ^(3))2 _|_ (т1(» _ n<3))2]’/s с р	(21 17)
или
[U<2)-6(3))2 + (n(2)-n'3))2],/2<P.
где р — заданная постоянная, определяющая области влияния точек и /п(2). Кроме того, примем, что вся продолжительность игры, стартующей из позиции {/0, ^‘*> Ч‘*> Во2*» Ч2*» Во’» Ч3*}0» ограничена временем to <5 t <5 О, где О— заданный заранее момент времени.
Эта задача о перехвате, если ее рассматривать за первого игрока-союзника, должна, очевидно, формализоваться, как игровая задача 20.1. Тогда ее математическая модель будет такова.
<§ 21]
ПРИМЕРЫ
95
Положим
X2 = T](i)» *3 = £(2), Х4=Т](2);
х5 = £(3), л-6 = П,3); xi+6 = Xi (Z=l,	6);
{«„ m2} = F<», («з, u4) = F,2>, {vb o2} = F<3).
Тогда векторное дифференциальное уравнение движения (6.1)
примет вид
(21.18)
причем ограничения (6.2)
на и и v примут вид условий
W + (ui + <2<V2), («ММ31 (Л<О=Л(2>).
(21.19)
Функционал ф (20.1), минимизируемый первым игроком и максимизируемый вторым игроком, в соответствии с содержательным смыслом задачи, следует здесь выбрать в виде
Ф(*[/], /0</<т) = max (— (х2[/] + х2[/])1/а).	(21.20)
i т
Множество М в пространстве {t, х}, встреча с которым определяет момент т окончания игры в соответствии с ее содержательными условиями, определится следующим ее описанием:
M = [{f, х) U =	min^Xj — *5)2 + (х2 — х6)2;
(Хз - Х5)2 + (х4 - х6)2) < р2) V I Х6 | > а].	(21.21)
Множество N будет совпадать со всем пространством {/, х}.
96
ИГРОВЫЕ ЗАДАЧИ ДИНАМИКИ
(ГЛ. IV
Таким образом, мы получаем следующую конкретную модельную задачу 21.1.
Задача 21.7. Требуется найти стратегию £/°xt, ... .... Х12), которая обеспечивает минимакс
sup ,max^(—	/0, х0, £/°] + х| [/, /0, х0, С7°] )'/«) =
= min sup max (—(*?[/, t0, x0, С/]4-хЦб t0, x0, i/])7’)
(21.22)
для движений системы (21.18) при ограничениях (21.19) и при условиях встречи
(т, х[т]} е М, {/, х[/]} ф. М,	(21.23)
определенных множеством М (21.21).
। Напротив, задача сближения с точкой g = 0, т] = 0 до пере-; хвата, которую здесь следует поставить для второго игрока-i союзника, будет, очевидно, формализоваться, как задача 20.2. i Таким путем мы приходим к следующей конкретной модельной I задаче 20.2.
Рис. 21.3.
Задача 21.8. Требуется найти стратегию	Xi, ,.t
.... *12). которая обеспечивает максимин
inf max (— (х|[/, /0, х0, V0] + х| [/, /0, х0, V°])7’) =
= max inf max (— (xUt, x0, V14-xj?p, L, x0, V1)'A)	(21.24)
V xH
для движений системы (21.18) при ограничениях (21.19) и при условиях встречи (21.23), определенных множеством (21.21).
ПРИМЕРЫ
97
§ 21]
Как и в § 20, проверяется, что дифференциальная игра, скла* дывающаяся из задач 21.7 и 21.8, имеет ситуацию е-равновесия. Это означает, что для всякой начальной позиции {/0, х0} определяется число ро, обладающее следующим свойством. У первого игрока найдется стратегия U0, которая обеспечит перехват точки т<3> раньше, чем она приблизится к точке g = ц = 0 на расстояние, меньшее чем ро. В то же время для всякого р > р» у второго игрока найдется стратегия V0, которая обеспечит ему сближение точки т& с точкой {£ = 0, т] = 0} на расстояние, не превышающее число р в пределах полосы г] < а, не позже момента & и притом раньше, чем точка /п<3> будет перехвачена точкой /л(1) или (см. рис. 21.3).
4 Н. Н. Красовский, А. И. Субботин
Глава V
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
§ 22. Предварительные замечания. Согласно материалу главы IV, для успешного решения игровых задач 8.1 и 8.2 по крайней мере для тех дифференциальных игр, которые были рассмотрены в §§ 9, 18—20, достаточно уметь решать в меру хорошо и эффективно подходящие игровые задачи 9.1 и 9.2, составляющие игру сближения — уклонения при должном выборе множеств Мс и Nc. В свою очередь, согласно материалу главы III, для успешного решения задач 9.1 и 9.2, составляющих дифференциальную игру сближения — уклонения, достаточно уметь строить подходящие ^-стабильные или у-стабиль-ные мосты IF, обрывающиеся на Мс или минующие Мс соответственно. И в случае, если та или иная задача для данной начальной позиции {tOi х0} разрешима, такие стабильные мосты Wt и IF^ действительно существуют согласно леммам 16.1 и 16.2. Эти леммы говорят о предельно широких, максимальных мостах Wu и Wt Но для конкретного построения разрешающих стратегий Uc или Vc, экстремальных к таким мостам W, доказательства лемм 16.1 и 16.2 помогают мало, так как эти доказательства, годные в общем случае, не указывают эффективной процедуры построения моста в частных задачах. Для теоретических рассуждений такие мосты в широком классе случаев можно получать на базе некоторых попятных построений, описание которых будет дано в главе XI, § 66. Но использование этих попятных построений в форме конкретных вычислительных процедур затруднено большим количеством вычислений и большим объемом запоминаемых данных. Поэтому в данной монографии мы откажемся от изучения универсальной процедуры построения максимальных мостов W®u и IF^.
Поставим перед собой более скромную задачу о построении хотя бы каких-нибудь мостов IF« и W*, которые, может быть, не были бы предельно широкими в том или ином случае, но тем не менее обладали бы подходящими свойствами стабильности для построения экстремальных к ним стратегий, разрешающих ту или иную задачу сближения или уклонения. Обсуждению этих вопросов об эффективных способах построения мостов Wu и Wv и будут посвящены следующие четыре главы, начиная с этой. В этой главе начнем подготовку к изучению
§ 23]	ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ	99
того способа построения стратегий Uc~uc(t,x) и Vc +vc(t, х)т который будем именовать экстремальным прицеливанием. В случае дифференциальных игр этот метод отвечает широко распространенному в теории оптимальных процессов способу решения задач синтеза систем, работающих по принципу обратной связи, путем перехода от подходящих задач программного управления. Надлежит, однако, отметить, что в случае игровых задач управления этот способ оказывается менее универсальным и его обоснование там, где он проходит, требует специальных усилий.
§ 23. Динамическое программирование. Один из путей построения стабильных мостов Wu и и соответствующих им способов экстремального управления Uc~ uc(t, х) и Ус~ vc(t, х), которые выводят позицию {/, х[/]} на Мс, или, напротив, отклоняют ее от встречи с Мс, связан с использованием гладких функций е(/,х), играющих роль потенциала в соответствии с рецептами динамического программирования. Не будем останавливаться на полном изучении подобных методов, так как динамическому программированию посвящена достаточно обширная литература (см., например, [1*, 4*, 36*]). Остановимся на некоторых вопросах, имеющих прямое отношение к нашим задачам.
Известные функциональные уравнения динамического программирования иногда составляются и используются без аккуратного математического обоснования. Однако рассматриваемое нами игровые задачи сближения и уклонения базируются на строго формализованных понятиях стратегий и движений. Поэтому для решения этих задач следует дать в меру строгие достаточные критерии, отвечающие характеру тех теорем, которые были доказаны в главах III и IV. Поскольку задача 9.2 об уклонении при перемене местами букв и и v и при подходящем переименовании множеств Мс и Nc превращается в задачу 9.1 о сближении (см. стр. 49), мы можем ограничиться здесь только задачей 9.1 о сближении с замкнутым множеством Мс внутри замкнутого множества Nc. Переход к аналогичным достаточным критериям, определяющим решение задачи 9.2 об уклонении, получается понятной трансформацией достаточных критериев, определяющих решение задачи 9.1 о сближении.
Итак, пусть мы имеем задачу 9.1 о сближении с заданным замкнутым множеством Мс внутри заданного замкнутого множества Nc. Предположим, что в области t # удалось построить непрерывную функцию е(/, х), удовлетворяющую неравенствам в(/, х)>с при {/, x}&Nc	(23.1)
и
е(О, х) > с при (Ф, х] & Ме,	(23.2)
4*
100
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
(ГЛ. V
имеющую непрерывные частные производные дъ/dt, dzldxt п) в области
t < ft, с < e (/, x) < с + p (P > 0 — постоянная) (23.3) и такую, что в области (23.3) выполняется неравенство
х> и> <23-4)
Здесь и в дальнейшем [де/дх]— вектор {de/dxt, i=l, ... .... и), f(t,x,u,v)—правая часть уравнения движения (6.1), а Р и Q — ограниченные замкнутые множества из условий (6.2).
Справедливо следующее утверждение.
Лемма 23.1. При условиях (23.1) — (23.4) множество W позиций {/, х] (/гСФ), удовлетворяющих условию e.(t, х)^.с, образует и — стабильный мост, проходящий внутри Ne и обрывающийся на Мс при t = Ф.
В соответствии с определением свойства «-стабильности (стр. 52,53) для доказательства леммы 23.1 достаточно показать, что при всяком выборе позиции {/*, х»} (/,<&, е(/*, х*)<с), числа t* <= (f», О] и вектора v* по крайней мере одно решение x(t) = x(t, t*, х*, V 4- v*) уравнения в контингенциях (11.2) удовлетворит условию {t*, х(£*)} <= W, т. е. условию
в (Г, х(Г))^с.	(23.5)
Искомое решение х(/, £»,х», V) мы построим следующим образом. Наряду с уравнением (11.2) рассмотрим еще одно уравнение в контингенциях
x°(0e <F°(t х°(0> V*),	(23.6)
где для области (23.3) символом ^*«(Л х, о’) обозначена выпуклая оболочка множества векторов f(t, х, и, v*), получающегося, когда вектор и<= Р пробегает все те значения и*, при которых выполняется условие
х> и'> = х> и’ 0,))- (23-7)
Вне области (23.3) полагаем = РГа. Вследствие непрерывности частных производных dzjdxt в области (23.3), множества &~°и {t, х, о*) оказываются полунепрерывными сверху относительно включения (см. выше, стр. 38, 39) по изменению по-зиции {t, х}. Стало быть, для уравнения (23.6) выполняется теорема о существовании решений x°(t) (см. стр. 41). Кроме того, очевидно справедливо вложение
0~°u(t, х,	х, u‘)>	(23.8)
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
101
§ 23] ,и значит, всякое решение уравнения (23.6) является одновременно решением уравнения (11.2).
Теперь остается проверить, что всякое решение x°(t) = —	х», V-r-v*) уравнения (23.6) удовлетворяет условию
(23.5). Проверим это. Предположим от противного, что для какого-то решения х°(/) = х° (/,/*, х«) условие (23.5) не выполняется. Тогда, вследствие начального условия е(/*, х°(/*))<: с .и непрерывности функций е(/,х) и мы можем построить такой отрезок	(т» /», т* /*) движения x°(t) =
= x°(t, х„ V), который при т, < t т* лежит в области ^<e(Z, x)<c-j-P и притом удовлетворяет условию е(т», х°(т»)) — с. Отсюда вытекает, что для абсолютно непрерывной функции 8°(/) — 8°(/, х°(/)) на интервале (т», т*) должно найтись множество Т значений t, имеющее ненулевую меру, на котором будет выполняться неравенство
8°(0>0 при всех /еТ.	(23.9)
Однако, вычисляя производную сложной функции е°(/) = ~ e.°(t,x(t)) по известному правилу (см. [28*], стр. 226):
®°W = [-£P(z)+^r	<23Л°)
и учитывая условия (23.6), способ построения множества &~ou по условиям (23.7), а также условие (23.4), получим из (23.10) неравенство
ё°(/)<0 при почти всех	т").	(23.11)
Это неравенство противоречит неравенству (23.9). Полученное противоречие доказывает лемму 23.1.
Из леммы 15.1 и 23.1 вытекает, что при условии e(t0, х0)^с стратегия	(t, х), экстремальная к множеству W =
в[(Л х):	&(t, х)^с], обеспечивает встречу всякого
Движения хр, /0, х0, с множеством М.е внутри Nc при т. е. стратегия разрешает здесь задачу о сближении.
Однако, если найдена функция е(/, х), которая удовлетворяет Условиям (23.1) — (23.4), то для построения искомой стратегии с'с-т- uc(t, х), разрешающей задачу 9.1 о сближении, уже не обязательно надо обращаться к построению экстремальной стратегии LM ч- «(е) (/, на базе u-стабильного моста W = •®а С{Л х}: t0 t О, в(/, х)^с]. Искомую стратегию можно сконструировать иначе. Покажем это.
- Пусть символ Uc(t,x) означает множество векторов ысеР,. Удовлетворяющих в некоторой позиции {/, х) из области (23.3):
102
ДИНАМИЧЕСКОЕ ПРОГ РАММИРОВАНИЕ
|ГЛ V
условию (23.4)
min max Г4^-1 f(t, х, и, v) = max[-^-] f(t, х, ис, а).
«ер jeQl°xJ	peQ L ох J
В позиции {t,x}, которая не лежит в области (23.3), в качестве-Uc(t, х) можно выбрать все множество Р. Пусть х, Uc) есть выпуклая оболочка множества векторов f(t,x,u,v), когда и <= Uc(t, х) и v е Q. Заметим, что множества х, Uc) полунепрерывны сверху относительно включения по изменению позиции {t, х}. Справедливо следующее утверждение.
Лемма 23.2. Пусть e(t0,x0)^c. Тогда для любого решения x(t) — x(t,to,Xo,Uc) дифференциального уравнения в контингенциях
x(f)f=0-„(t, x(t), Uc)	(23.12>
выполняется условие встречи
(т, х(т)} еМс, {/, x(t)}^Nc при	(23.13)»
т ^-0-.
Доказательство этой леммы основывается на том факте, что вдоль всякого обобщенного движения x(t), являющегося решением x(t) = x(t,to,xo, Ue) уравнения (23.12), выполняется неравенство
е(/, х(1))^с при	(23.14)
и, стало быть, е(Ф, х(О)) с. Но последнее неравенство означает, что позиция {-&, х(Ф)} е Мс, а неравенство (23.14) означает, что {t, x(t)} е Nc при всех to t Ф. Это и доказывает лемму 23.2. Остается только проверить выполнение условия (23.14). Однако проверка этого условия проводится совершенж> по тому же плану, как и проверка условия (23.5) для всех решений х°(/) уравнения (23.6) при доказательстве леммы 23. L Эту проверку мы здесь опустим.
Обозначим теперь символом U°c-i-uoc(t, х) стратегию, задаваемую функцией uQc(t, х), которая во всякой позиции {£, х) удовлетворяет условию u^(t, x)^Uc(t, х). Тогда всякое конструктивное движение x[/] = x[f, t0, х0, t/“] явится также и обобщенным движением x(t) = x(t, t0, х0, Uc), которое является решением уравнения в контингенциях (23.12). Отсюда и из. леммы 23.2 заключаем о справедливости следующего утверждения.
Теорема 23.1. Предположим, что удалось найти непрерывную функцию е(/, х), удовлетворяющую условиям (23.1)—» (23.4).
ГЛАДКИЙ ПОТЕНЦИАЛ е
103
$ 24]
Пусть далее стратегия UQc -ь (/, х) задана условием тпах(х' ис^’ *)> &))=
= min max ([4^-1 f(t, x, u, (23.15) U^P oeQ V L GX J	/
области (23.3); вне этой области u®(t, х) может принимать любые значения.
Тогда, если г{^,х^)^.с, то для всякого движения jr[/] = x[/, /0, х0, U*] выполняется условие встречи (23.13) при т 'О1.
Полезно заметить, ссылаясь на рассуждения, которыми мы обосновывали лемму 23.2, что стратегия UQC обеспечивает также выполнение условия
(#,х[й]}еМп	(23.16)
jxoth ft уже может и не быть первым моментом т встречи позиции {/, х[/]} с Мс.
Далее, заметим также, что управляющее воздействие uQ(t, х), порождаемое стратегией UQC, согласно условию (23.15) опять можно трактовать как некоторое экстремальное управление относительно ц-стабильного моста W = [{/, х} : tQ t -О, е(/, х) с], но имеющее базой уже не евклидову метрику рДх, №) в окрестности №, как это было в § 13, а заменяющий здесь эту метрику потенциал z(t, х). Условие выбора *) (23.15) означает наискорейший возможный спуск движения х[/, /0, х0, 1РД относительно этого потенциала х) к мосту W при наиболее упорном сопротивлении противника, распоряжающегося управлением v.
Важно заметить еще, что при доказательстве леммы 23.2 и вытекающей из нее теоремы 23.1, условие (12.4) седловой точки для маленькой игры (12.1), (12.2) нигде не используется и, стало быть, в условиях леммы 23.2 и теоремы 23.1 это условие предполагать не требуется.
§ 24. Гладкий потенциал е. Согласно материалу из § 23, для разрешения игры сближения — уклонения, складывающейся из задач 9.1 и 9.2, достаточно найти гладкую в области (23.3) функцию е(/, х), удовлетворяющую условиям (23.1) — (23.4) теоремы 23.1 в случае задачи 9.1 о сближении, или найти функцию е(/, х), удовлетворяющую соответствующим образом трансформированным условиям в случае задачи 9.2 об уклонении. Нужную функцию е(/, х) из теоремы 9.1 можно искать следующим образом.
104
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
Ограничимся случаем, когда множество Nc совпадает со всем пространством {/, х}. Полагая левую часть в (23.4) равной нулю и исключая в ней и и v из условий минимакса, получим некоторое уравнение в частных производных для функции? е(/, х). Добавим к этому дифференциальному уравнению подходящее краевое условие при t = О для функции s(Z, х)„ которое удовлетворяет неравенству е($, х) > с .при {О, Если полученное уравнение удастся проинтегрировать при выбранном краевом условии и, стало быть, если удастся построить, дифференцируемую в области t < О' функцию е(/, х), которая будет удовлетворять и указанному дифференциальному уравнению при t < О и коаевому условию при t = ft, то, конструируя стратегию UQc + ifl(t, х) по условию (23.15), получим решение задачи о сближении с Мс в момент О. В составлении упомянутого дифференциального уравнения в частных производных и? уравнений, ему подобных, и в их интегрировании и состоит, собственно говоря, метод динамического программирования в приложении к дифференциальным играм (см. монографию [1*]). К сожалению, известно, что определение искомой функции z(t,x) непосредственным интегрированием уравнений в частных, производных динамического программирования образует задачу» для которой пока найдено мало эффективных решений. Поэтому в данной монографии этим прямым путем мы не пойдем и только» разберем в § 28 один из немногих известных нетривиальных примеров, когда прямое обращение к уравнению в частных производных и его непосредственное интегрирование позволяют получить решение дифференциальной игры для системы более или менее большой размерности. В следующих затем параграфах мы рассмотрим уже другой по форме путь получения стратегий типа стратегии UQc 4-	х), базирующейся на функция
е(£, х). Эти стратегии также будут обусловлены соотношениями вида (23.14) и им подобными соотношениями. Наши рассуждения будут связаны ' с некоторыми вспомогательными программными движениями, которые помогут сконструировать, подходящие стратегии. По сути дела, построение этих оптимальных программных движений в наглядной и в то же время достаточно строго обоснованной форме подменит собой интегрирование дифференциального уравнения динамического программирования в частных производных методом характеристик; [30*] (стр. 406), роль которых и будут играть подходящие оптимальные программные движения.
Отметим следующее существенное обстоятельство. Гладкая при с < в < с + р функция в(/, х), удовлетворяющая в области (23.3) условиям (23.4), как бы обволакивает стабильный мост 1J7 = [{/, х}; tQ t е(/, х) с] областью е(/, х)>с, и&
<§ 24]
ГЛАДКИЙ ПОТЕНЦИАЛ е
105
которой управление и®(/, х) (23.15) «прижимает» все движения X [Л *0’ к М0СТУ W вплоть до встречи с Мс при т О*. Таким образом, функция е(/, х) играет здесь роль своеобразной функции Ляпунова (см. по этому поводу также ниже § 58 гл. X). При этом, как мы видели выше (см. лемму 23.2), вынуждаются к встрече с Мс не только все конструктивные движения х[£] == -= х[/, /о, определенные как пределы для соответствующих ломаных Эйлера хдр, tQ, х0, LP, • ]], но даже и все движения x(t) из более широкого, вообще говоря, класса обобщенных движений x(t) = x(t,t^ Хо, £/°), определенных как решения _x(t) уравнения (23.12) в контингенциях. Возникает вопрос о том, всегда ли возможны такие построения. Ответ на этот вопрос получается отрицательным, как показывает следующий простой пример.
Пусть фазовая переменная х является скаляром и ее изменение описывается дифференциальным уравнением вида
х = н— V,	(24.1)
причем ограничения на и и v имеют вид
1«1<2, |и|<1,	(24.2)
где символ ||| обозначает модуль величины g. В качестве множества Мс выберем прямые х = —1 и х = 1 на плоскости {/, х}, .а множество Nc пусть совпадает со всей этой плоскостью. Наконец, выберем 0 = 0. Тогда нетрудно убедиться, что максимальный u-стабильный мост WZ будет состоять из позиций {/, х}, удовлетворяющих условиям
/<0, |х—1|< —/, |х+1|< — /,	(24.3)
Здесь не удается построить подходящую обволакивающую этот мост 1Гц область е(£, х) > 0 с помощью гладкой при в > 0 функции е(/, х). Далее, в этом случае нельзя обеспечить встречу с Мс при всех возможных {/0, *о} WZ всех обобщенных движений х(/) = x(t, to, Хо), формализованных как решения каких-либо подходящих дифференциальных уравнений в контингенциях вида
х(/)е=^(/, х(0),	(24.4)
где множества (F(tyx) в правой части суть замкнутые выпуклые множества, полунепрерывные по включению по изменению позиции {t, х}. (Для того чтобы убедиться в этом наглядным образом, достаточно проанализировать поведение решений x(t) уравнения вида (24.4) в окрестности критической позиции {/0, *о} = = {—1,0}). Строгого обоснования высказанного утверждения мы, однако, приводить здесь не будем. Заметим только, что
106
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
более содержательные и более аккуратно разобранные примеры^ различающие возможности разрешения игровых задач в классах обобщенных движений x(t) из (24.4) и конструктивных движений х [Z], предельных для ломаных Эйлера хд[/], будут приведены в § 55.
§ 25. Гладкий потенциал в игре с фиксированным моментом? окончания. Рассмотрим дифференциальную игру с фиксированным моментом окончания ft, складывающуюся из задач 18.1 и 18.2. Сопоставим материал из § 18, связывающий данную игру с игрой сближения — уклонения, с материалом из § 23, дающим приложение методов динамического программирования к этой игре сближения — уклонения. Тогда придем к следующим достаточным условиям для решения игры из задач 18.1 и 18.2. Эти условия будут просто переложением на другой язык теоремы 23.1. Итак, справедливо утверждение:
Теорема 25.1. Предположим, что удалось найти непрерывную в области	функцию е(/, х), которая удовлетво-
ряет краевому условию
e(ft, х) = а(х),	(25.1>
имеет непрерывные частные производные ds/dt, дг/дхг (i = 1, .... ..., п) в области
а0 < е (/, х) < t0 < t < ft	(25.2>
(где а0 = inf а(х), а0 = super (х) (— оо < xt < оо, / = 1, .. rifi tc удовлетворяет в этой области (25.2) условию
min max f(t, х, и, 0) + —-1 =
ut=P v&Q ' L их -*	7
= nwc ^([4?] П*» “> w) + 4r) = 0, (25-3>
Пусть, далее, стратегии U° 4- u°(t, х) uV + v° (t, x) определенье в области (25.2) условиями
*> *)> °))=
min и^Р
= min тах( /(*>
([4г] х> х») =
= тах min
oeQ Uf=P
([-й-Р^ x> “• P’
(25.4}
(25.5}
X, ц, V
25]
ГЛАДКИЙ ПОТЕНЦИАЛ 8
107
а в областях е (t, х)	ст0 « е (Л х) °° функции и® (/, х) и ст® (t, х)
принимают любые значения из Р и Q.
Тогда для данной начальной позиции {to, х0} стратегии U°, У® •образуют седловую точку {U°, У®} дифференциальной игры из § 18 на минимакс — максимин функционала <р (18.1), причем цена этой игры определяется равенством
Yo==Yo = e(/o, х0).	(25.6)
Обратим внимание на следующие обстоятельства.
(1)	Условие (12.4) седловой точки для маленькой игры (12.1), (12.2) фигурирует в теореме 25.1 в условии (25.3), причем роль вектора s из (12.4) играет вектор-градиент [де/дх] функции в(/, х) по х. Как видим, здесь оказывается достаточным, чтобы условие (12.4) выполнялось в каждой позиции {/, х} из области (25.2) лишь для вектора s(t, х) — [де/дх].
(2)	Стратегия U° 4- u°(t, х), согласно теореме 25.1, обеспечивает неравенство
ст(х[Ф, /0. хо> С/°]Хе(/0, х0)	(25.7)
для всех порождаемых ею конструктивных движений х[/]. Однако, как и в § 23, на материале которого базируется доказательство теоремы 25.1, можно проверить, что неравенство
ст (х (&, /0, х0, U0)) < е (/0, х0),	(25.8)
•будет выполняться для более широкого класса всех обобщенных движений х(0, которые определяются как решения дифференциального уравнения в контингенциях
х(1)б^Л, х(0, U°),	(25.9)
где &~v— выпуклая оболочка множества всех векторов tf(t, х, и, и) при u^U°(t, х) и v е Q, причем в области (25.2) U°(t, х) есть множество всех векторов и°<=Р, удовлетворяющих условию (25.4), а вне области (25.2) U°(t, х) — Р.
Точно так же стратегия У®-г-ст®(/, х), согласно теореме 25.1, обеспечивает неравенство
ст (X [0, /0, х0, У °]) > 8 (t0, х0)	(25.10)
для всех порождаемых ею конструктивных движений х(/]. Од-«ако неравенство
ст(х(ф, to, х0, У°))>е(/0, х0)	(25.11)
будет выполняться для более широкого класса всех обобщенных движений x(t), которые определяются как решения дифференциального уравнения в контингенциях
х (/) е 3~и (t, х (/), У®),	(25.12)
108
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
где &~и — выпуклая оболочка множества всех векторов» f(t,x,u,v) при veV°(/,x) и ueP, причем в области (25.2) V°(t,x) есть множество всех векторов o°eQ, удовлетворяющих условию (25.5), а вне области (25.2) У°(/,х) = Q.
(3)	В § 8 при постановке задач 8.1 и 8.2 мы предполагали начальную позицию {/о>*о} зафиксированной (см. выше, стр. 44). Поэтому оптимальные стратегии С/° и V0, разрешающие такие задачи, вообще говоря, должны быть наилучшими (в смысле условий соответствующей задачи) для этой начальной позиции. Если в ходе управления противник при t
t* будет действовать не наилучшим для него образом, то-может сложиться такая позиция {/*, х*}, для которой снова, как для начальной, может найтись стратегия U* для задачи 8.1 (или V* для задачи 8.2), которая будет лучше, чем U° (или Vе) для союзника. Постановка задач 8.1 и 8.2 этого не исключает. Однако в разбираемом сейчас случае оказывается, что оптимальные стратегии U°-r-u°(t, х) и V°-±- v°(t, х), построенные для задач 18.1 и 18.2 в соответствии с условиями теоремы 25.1, такой неудобной возможности не допускают. Именно, к какой бы позиции {t*, х,} = {/„ х [/J} (t0	< ft) в ходе управления мы
ни пришли, стратегии U° + u°(t,x) (25.4) и V°-r- v°(/, х) (25.5) остаются по-прежнему оптимальными и для игры, отправляющейся из этой новой позиции, рассматриваемой уже как начальная. И для этой новой начальной позиции пара {U°, V0} по-прежнему образует седловую точку и дает цену игры у0 = у0 = = е(/», х»). Это нетрудно усмотреть не только из доказательства теоремы 25.1, но уже из самих условий этой теоремы, в которых особенная роль начальной позиции {/0, Хо}, кроме ограничения to t ft, никак не проявляется.
§ 26. Пример. В этом параграфе мы расмотрим модельный пример приложения теоремы 25.1. На этом очень простом примере удобно в наглядной форме проследить многие из понятий, о которых шла речь в предыдущих разделах книги. Выберем в качестве управляемой системы S точку т, перемещающуюся в плоскости {хь Хг), и примем, что скорость этой точки будет определяться как сумма двух управляющих векторов и = = {ui, и2} и v = {t>i, v2}, стесненных неравенствами
II ы II ^(Ы2+ «!)*/.< a, ||o||==(of + vf)‘/’<P	(26.1)
(а > ₽)•
Уравнение движения, стало быть, в рассматриваемом случае имеет вид
* =» [ * 1 = [ t °' ] = U + V.	(26.2)
L *2 J I ^2 Т *2 J
§ 26]	ПРИМЕР	109
Функционал ф (18.1) определим как расстояния от точки до начала координат х = 0, т. е.
Ф (х [t], /о < t < О) = а (х [Ф]) = П х [О] || = (%* [О] + х2 [О])*	(26.3)
Для решения задач 18.1 —18.2 на минимакс — максимин функционала (26.3) в соответствии с теоремой 25.1 надлежит найти функцию е(/,х), которая удовлетворяет равенству (25.3) в области (25.2). Заметим, что вследствие о0 = 0 и о0 = оо эта область в данном случае имеет вид
0<e(t х) < оо.	(26.4)
Итак, составим выражение 2
+>=(£),.„• <26В>
фигурирующее в (25.3). Это выражение мы обозначаем символом (dzldt)u, v для сокращения записи и в то же время чтобы подчеркнуть, что оно строится по тому же правилу, как и полная производная по времени 7 от сложной функции е(/, вдоль решения уравнения (26.2) (см. выше рассуждения при доказательстве леммы 23.1). Однако следует иметь в виду, что трактовать это выражение как производную функцию е(/,х[/]) вдоль движения х [/], определенного в § 6 в виде предела для ломаных Эйлера хдЙ, следует с осторожностью, так как такое движение х [/] может не быть решением дифференциального уравнения (6.2) при каких-либо и^Р и v eQ в обычном смысле. Имеем
Ш., - 4г+
Минимакс (25.3) этого выражения по и и v с учетом ограничений (26.1) будет
min max	= 4т + (₽ — a) [(-f2-? + (-^ЧТ = 0. (26.6>
usp „eq \dt)u,v dt	' |Д дх\) \дхг) J	v '
При этом значения векторов и°=Цм°, и =
которые обеспечивают данный минимакс, определяются равенствами
но
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
при условии
(26.9)
и и° и р° могут принимать любые значения || и01| "С а, II»° II Р, когда левая часть (26.9) равна нулю.
Уравнение (26.6) надлежит интегрировать при краевом условии
8(0, х) = (х? + х|)Ч	(26.10)
Искомое решение е(/, х) можно подобрать по догадке. Оно имеет вид
8 (/, х) = [(х2 + 4)у’ — (а — Р) (О — 0]	(26.11)
в области
(х* +	- (а - р) (О - 0 > 0	(26.12)
и
е(/, х) = 0	(26.13)
в области
(х2 4-х|)‘/’-(а —Р)(О —0<0.	(26.14)
Стало быть, область (25.2), где удовлетворяется равенство (25.3), в данном случае есть область (26.12) (рис. 26.1).
есть область (26.12) (рис. 26.1).
В этой области (26.12) управляющие воздействия w° и Vй определяются соотношениями (26.7), (26.8). После подстановки в эти равенства значений де/дх< из (26.11) получим
и°(0 х) = -а-г^г,
п°(Ох) = р-^т. (26.15)
геометрический в каждой позиции
Эти выражения имеют ясный смысл:
{Ох} из области (26.12) вектор ис(0х) дает составляющую и скорости х [/] (26.2), направленную в точку х = 0, а вектор определяет составляющую v скорости х[/] (26.2), которая направлена в сторону, прямо противоположную направлению на точку х = 0 (см. рис. 26.1). В области (26.14) значения векторов и°(/, х) и у°(/, х) могут быть выбраны какими угодно.
§ 26]
ПРИМЕР
111
Цена игры
у0 = min max || х [ft] || = max min || x [ft] || = Yo	(26.16)
и v	v и
согласно теореме 25.1 определяется равенством ус == у0 = = е(/0, %о)-Следовательно, если начальная позиция {/0, х0} лежит в области (26.12), то мы имеем
Yo = Y° = (Iko II — (<* — ₽) (О — to))',
(26.17)
в противном случае Yo = Yo = O-
Это равенство опять имеет ясный механический смысл: из положения Хо, лежащего от начала координат х = 0 на расстоянии II Хо II >(а — р) (ft — to), точка х[/], движущаяся прямо на точку х = 0 со скоростью || х [/] II = II и° + v° || = а — р, за время ft —/о придет в положение х [ft], лежащее от начала координат х — 0 на расстоянии || х[ft] || = II х0 II — (а — р) (ft — to).
Если второй игрок будет отклонять свое управление v [/] от оптимального v°[/] = ц°(£,х[/]), а первый игрок будет придерживаться управления = u°(t, х[/]), то точка х[4 будет прибли-
жаться к началу координат х = 0 быстрее чем со скоростью (а—р), и мы получаем величину l|x[ft]|| < Hxoll — (а — р) X X (ft — /о). Если же, напротив, первый игрок будет отклонять свое управление и [/] от оптимального, а второй игрок будет придерживаться оптимального управления и°И = v°(t, х[ф, то точка х[/] будет приближаться к началу координат х == 0 медленнее чем
СО скоростью (а—Р), и	Рис. 26.2.
МЫ получим величину
!lx[ft]|| > Hxoll—(а — р) (ft — t0) (рис. 26.2). Здесь изображены движения x[fl, которые реализовались при исходной позиции По. *о) = {/0, Х|0, х20) = [0, —5,0) и при а=3, Р = 2, ft=4 в случаях: (1) и = и°, v = v°‘, (2)и = и°, v [/] = v” — {0, 2); (3) и = и* (t, х) = Н ~ 2171	~ гТнГ V 3 -*1)}- у = v°-
Если начальная позиция {to, Хо) лежит в области (26.14), то Yo = у0 == e(to, Хо) = 0, и это понятно, так как из такой позиции
112
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
за время О —10 первый игрок всегда может привести точку х[/] в положение х [Ф] = 0. При этом до выхода позиции {t, х [ЭД на поверхность || х || — (а — £) (& — t) = 0 он может вообще не заботиться о выборе того или иного значения для управляющего вектора и [/], но уже попав на эту поверхность, он должен не выпускать позицию {/,х[ЭД из конуса (26.14), выбирая управление «И = «о(/,х[ЭД.
Наконец, заметим, что конус (26.14) есть не что иное, как максимальный «-стабильный мост Wu для задачи 9.1 о сближении с множеством Л10 = [{/, х): t = ё, х = 0], усеченный конус || х || — (а — Р) (О' — 0 с (t О') при всяком с > 0 есть максимальный «-стабильный мост 1Ги для задачи 9.1 о сближении с с множеством Мс = [{/, х}: t = О, <у(х) = || х || с], а воронка II х || — (а — р) (О — t) c(t О) при всяком с 0 есть макси-
мальный «-стабильный мост W„ для задачи 9.1 о сближении с
множеством = [{/,*}: t = О, ст(х) = || х ||	с], где, однако,
первый и второй игрок меняются ролями (см. выше § 18, стр. 75). Или иначе, воронка || х ||—(а — Р) (О' — /)> с* (t О', с* > 0) есть «-стабильный мост W«, пригодный для ре-
шения задачи об уклонении от всякого множества Л4С = = [{/,%}:/ = О, о(х) = ||х||<
с] при с < с*. Стратегию х) в области ||х||— — (а — р) (О—/)> с можно трактовать как экстремальную к мосту ||х|| —(а —р) (О' —/)<
с, а стратегию «°(/, х) в области 0 < ||х|| — (а — Р) X X (О — t) < с можно трактовать как экстремальную к мо-
сту ||х||— (а — Р) (О' — с (рис. 26.3). Полезно еще заме-
тить, что каждая из стратегий х) и У°4-«°(/, х) в
Рис. 26.3.	области (26.12) определяет
движения х|7] = x[t, t0, х0, £7°] и х [/] = х [£, to, Хо, V0], которые не требуется обязательно трактовать как пределы для ломаных Эйлера Хд[ЭД так как при всякой интегрируемой реализации управления противника «[/] или
u[t] эти движения будут обычными решениями соответствующих дифференциальных уравнений движения. Однако, если выбрать, например, «° = 0 в области (26.14), то на границе областей (26.12) и (26.14) при некоторых управлениях второго игрока »[/] =/= о°(/, х[ЭД могут появиться скользящие режимы х[ЭД ко
УСЛОЖНЕННАЯ ИГРА
113
§ 27]
торые уже следует строить предельным переходом от ломаных Эйлера. Один такой скользящий режим х[£] отмечен на рис. 26.3, где изображена одна из породивших его ломаных Эйлера.
§ 27. Усложненная игра с фиксированным моментом окончания. Обратимся теперь к дифференциальной игре с фиксированным моментом ее окончания в случае, когда функционал <р имеет вид (18.4). Следуя соображениям, высказанным в конце § 18, эту игру можно свести'к игре на минимакс — максимин функционала <р* (10.7) в расширенном пространстве {t,x*} = = {t, х, Xn+i}, притом уже для системы, описываемой расширенным уравнением (18.8). Следуя затем рецептам из § 25, надлежит искать функцию е(^,х*), которая удовлетворила бы условиям теоремы 25.1. При этом, однако, мы заметим, что в краевое условие (25.1), т. е. здесь в условие
в*(Ф, x’) = 0*U‘) = <j(*) + Xn+i,	(27.1)
для функции е* (t,x*) координата xn+i входит аддитивно, а в правую часть уравнения движения (18.8) эта координата x„+i не входит вообще. Поэтому здесь представляется естественным искать функцию e(f,x*) в виде
е* (t, х*) = е (/, х) + х„+1.	(27.2)
Таким путем придем к следующей теореме, которая переносит на данный случай теорему 25.1 и дает достаточные условия оптимальности стратегий (7°4-и°(/, х) и V°4-y°(f,x).
Теорема 27.1. Пусть удалось найти непрерывную в области	функцию e(t,x), которая удовлетворяет краевому
условию (25.1), имеет непрерывные частные производные в области t0<.t < & и удовлетворяет в этой области условию
min max | V-4^- fi (/, х, и, o)-|-x(f, х, м, г?) + 4т| =
о = р osQ axi	]
= max min ( V fi (t, x, u, u)4-«(rf, x, u, w) + -^-j = O. (27.3)
oe Q aeP oxi	01 J
Пусть, далее, стратегии U° -t- u°(t,x) и	x) опреде-
лены в области t0^t <& условиями (25.4) и (25.5).
Тогда для данной начальной позиции {to, х0} стратегии U°, V0 образуют седловую точку {t/°, V0} дифференциальной игры на минимакс — максимин функционала <р (18.4), причем цена этой игры определяется равенством (25.6).
 '.:Л
 ' «
114	ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ	[ГЛ V
Теорема 27.1 вытекает из теоремы 25.1, если заметить, что условия теоремы 27.1 превращаются в условия теоремы 25.1 при замене там функции г (t, х) на функцию е* (/, х*) = 8 (/, х*) + хп+1, а вывод теоремы 25.1 обращается в вывод теоремы 27.1, если учесть, что Хп+1,о = 0.
Заметим, что в полном соответствии со сказанным в конце § 18, теорема 27.1 указывает оптимальные стратегии UQ и V0 для игры на минимакс — максимин функционала (18.7) для системы (18.8) в форме стратегий UQ 4- uQ(t, х), 17° 4-а°(/, х), определяемых функциями ц°(/, х) и у°(/, х), не зависящими от координаты хп+ь Далее, для этих стратегий UQ и VQ можно использовать все те же соображения, которые высказаны в § 25 в пп. (1) —(3) (см. стр. 107, 108).
Ь1аконец, отметим, что высказанные выше соображения, которые приводят к мысли о целесообразности искать здесь функцию 8*(/, х*) в виде (27.2), являются в данном частном случае простейшим отражением известного и имеющего хорошую формализацию метода исследования дифференциальных уравнений на базе допускаемых ими групп преобразований (см. [22*]), не меняющих этих уравнений. В случае, описанном в данном параграфе, интересующее нас дифференциальное уравнение в частных производных для функций 8*(/,х*) = 8*(t,х,xn+i), отвечающее условию (25.3), т. е. уравнение /п+1	*
min max У ft (t, х, и, v) +	= 0,	(27.4>
и^Р v<=Q oxi	01 J
вместе с нужным краевым условием e*(f>, х*) = о(х)+»xrt+1,	(27.5)
допускало преобразование сдвига 8 = s + a, xft+i = xn+1 + a.
§ 28. Линейно-квадратичная игра. В этом параграфе мы рассмотрим один прймер дифференциальной игры на минимакс— максимин функционала <р (18.4), когда можно построить разрешающие стратегии (70 4-ц°(/, х) и 17° 4- vQ(t,x) прямым интегрированием соответствующего уравнения в частных производных (27.2) метода динамического программирования. Примем, что уравнение движения (6.2) является линейным уравнением
х = А (/) х + В (0 и + С (/) и,	(28.1 >
а функционал <р (2.2) имеет вид О	п
<₽ = J (II Х[Ж12 + 11 «Г111!-II	(28.2)
4	I. /==1

«§ 28]
ЛИНЕЙНО-КВАДРАТИЧНАЯ ИГРА
115
Здесь Д(/), B(t) и C(t)—непрерывные матрицы-функции соответствующих размерностей.
В этом параграфе, в отличие от предыдущих, мы примем, что допустимые значения управляющих векторов а и v не стеснены никакими дополнительными ограничениями вида (6.2), а допустимы любые реализации управлений u[t] и иЭД, которые являются функциями, интегрируемыми с квадратом ([9*], стр. 372) по Лебегу. Это вызовет некоторые неудобства, так как для расширенного уравнения (18.8) уже не будет справедливым условие (6.4) равномерной продолжимости движений х[/], в предположении выполнения которого была сформулирована теорема 27.1. Поэтому по ходу дела, пытаясь использовать функцию е(/, х) из теоремы 27.1, мы должны проявлять известную аккуратность. В то же время важным обстоятельством, упрощающим решение задачи, явится как раз то, что в условиях (27.3) минимакс по и и v будет достигаться без дополнительных ограничений на и и и при весьма удобных их значениях. Это существенно облегчит прямое интегрирование получающегося уравнения в частных производных.
Теперь в соответствии с рецептами из предыдущего параграфа будем искать функцию е(/, х), которая удовлетворяла бы условиям теоремы 27.1.
Попробуем искать эту функцию в виде квадратичной формы
п
e(t, х) = QijffiXiXj.
(28.3)
Тогда, согласно материалу из § 27,
п
= S х’ и’ °) + х х> м>и) + =
(28.4)
116
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
Согласно условию минимакса (27.3) нам надлежит теперь решить две задачи: одну задачу — на минимум выражения
₽(1> (и) = 2 (21 aikxk ij bljuj + ij «2	(28.5}
по и, другую задачу — на максимум выражения ns	S
Р<2) (у) = 2 ^2 _ «/Л 2 ctjVj — S у? (28.6)
по V. Решая эти задачи известным образом (см. [14*], стр. 107) f найдем для искомых значений и* и v* следующие выражения:
{п	1
- 12, fa, j= 1...........г |,	(28.7)
( п	)
»*=	=	«(/Л>	/ = 1, .... s|.	(28.8)
Подставляя эти значения для и и v в (28.4) и приравнивая полученное выражение согласно условию (27.3) нулю, получим уравнение
п	г п
2 ^4 J	2 J	I “h
+ ,2 . 2	+ 2 + 2	= 0* (28.9)
i—1 /> Rt p—1	l—l	J—I
Наконец, приравнивая коэффициенты при одинаковых произведениях XiXj в (28.9) нулю, мы получим обыкновенные дифференциальные уравнения для искомых функций:
п	г п
b.tj ——2^5 o.kiaki + 2 k 21 ^ki^pibktbpi — s n
2 j	bij, (28.10)
где bif есть символ Кронекера, т. е. 6гг = 1, 6г/ = 0 при г =/= /.
Для того чтобы удовлетворить еще и краевому условию (25.1), уравнения (28.10) согласно (28.2) и (28.3) надлежит интегрировать при условиях
ai/W = <Jiz.	(28.11)
Система уравнений (28.10) есть система уравнений Риккати (см. [30*], стр. 47). Она во всяком случае имеет решение на не
§ 28]
ЛИНЕЙНО-КВАДРАТИЧНАЯ ИГРА
ИГ
котором отрезке времени [т*, ft], примыкающем слева к точке-/ = Только на таком отрезке мы и будем рассматривать дальше нашу задачу, полагая, что t0 е [т*, ft]. Но тогда после определения функций можно определить стратегии L/* и V*, задаваемые функциями u*(t, х) и v*(t,x) в соответствии с равенствами (28.7), (28.8).
Пока наше решение носит формальный характер, и мы не* можем утверждать со ссылкой на теорему 27.1, что стратегии (7* и V* суть оптимальные стратегии для рассматриваемой нами игры, ибо, как отмечено выше, здесь у нас не выполнено условие продолжимости движений х[/], которое предполагалось в указанной теореме 27.1. Однако можно проверить теперь оптимальность стратегий U* и V* непосредственно. При этом, однако, мы несколько упростим нашу задачу, избегая некоторых неудобных деталей. Именно, вследствие весьма хорошей гладкости функций u*(t,x) (28.7) и v*(t, х) (28.8) не будем обращаться к понятию» движения х [/] из § 6, которое определяет его как предел ломаных Эйлера ХдЭД. Будем просто понимать сейчас под движением x\t,to, xQ, U*] решение обыкновенного дифференциального уравнения
х = Д(0х + В(0«*(^ x) + C(t)v[t],	(28.12)
где ц[/] — произвольная реализация управления v второго игрока-противника, являющаяся функцией, интегрируемой с квадратом на отрезке (70, ft], а под движением х[/, /0,	V*] будем по-
нимать решение х[/] уравнения
x = A(t)x + B(t)u[t] + C(t)v'(t, х),	(28.13><
где w [/] —произвольная реализация управления и первого игрока-противника, являющаяся функцией, интегрируемой с квадратом на отрезке [to, -ft]. Но тогда выражение
n	r	S
+Sх"+S и? х м) - S vt+if (28•14> i=l	»=1	/=1	I
при почти всех значениях t е [/о, &] будет иметь смысл производной для сложной функции е* И = е* (t, х [/], xn+i (/]) вдоль движения x[t,t0, х0, U*]. По выбору функций e(t, х) и u*(t, х) из .(27.3) имеем неравенство
( de' [/] \ х dt / и*. п
<0,
(28.15>
118
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
[ГЛ. V
справедливое при почти всех значениях tQ t ft. Интегрируя неравенство (28.15), получим
х[О, t0, х0, {/*], xn+i [6] Xв* (f0, х0, х„+1>0). (28.16)
Напротив, выражение
п
___yi де.
utv* 1=1 dxi
п	г	s
+	х|7]) +
/=1	fe=l	z=i
п	г	s
<28Л7>
при почти всех значениях t е ро, ft] будет иметь смысл производной для сложной функции 8*И = 8*(/,x[Z], xn+i [/]) уже вдоль движения х[Мо, *о, V4]. Но по выбору функций е(/, х) и и*(£,х) из (27.3) имеем при почти всех tQ t ft неравенство
(28J8>
интегрируя которое, получим
е*(О, х[О, t0, Хо, V’], хп+1 [$])>8*(t0, х0, х„+1>0). (28.19)
Учитывая теперь краевое условие для функции e.*(t,x,xn+i) «•(ft, х[Н х„+1[6]) =
О	п
— J %(/, х[/], u[t], v [/]) dt + У] GijXi ['O'jxy [О], (28.20) t,	t,i=\
убеждаемся, что заключение теоремы 27.1 справедливо для нашего случая из этого параграфа, когда условие равномерной продолжимости движений (6.4) выполненным не предполагается. Итак, найденные стратегии U* 4- u*(t, х) и V*-—v*(t, х) на деле оказываются оптимальными стратегиями для игры на минимакс— максимин функционала (28.2) для системы, описываемой уравнением (28.1).
Простой пример
х = и + V, о
<Р=/(l|x|F + ||«||2-||vy2)^ + HxW||2,	(28.21)
#=-- 1,
показывает, от какого неудобства освободил нас переход от принятого всюду в этой книге построения движений х[/] из § 6 к •обычным решениям х[/] дифференциальных уравнений (28.12),
§ 28]
ЛИНЕЙНО-КВАДРАТИЧНАЯ ИГРА
11»
(28.13). В самом деле, здесь стратегия U* 4- и*(t, х) = — ах (28.7) ни для какой начальной позиции {/0, х0}, to < 1, не обеспечивает продолжимости до момента t = О движений x[Z], определенных в соответствии с материалом из § 6. В то же время эта стратегия обеспечивает продолжимость до t = & любого движения х[/], определенного как решение уравнения (28.12). Ситуация, случившаяся в этом параграфе, показывает, таким образом, что использование более усложненного понятия движения хИ там, где оно не требуется по существу дела, может оказаться не только излишне усложненным, но даже и просто не подходящим. Впрочем, если допустимые реализации противника vW[/] или «<*>[/] в условиях, определяющих движения x[t ,t*,x*, U[ или х [/, С, х», V] предельным переходом от ломаных Эйлера хд(*ф, t,, х., U, ц<*>[ • ]] или Хд(*)[/, х„ V, «<*>[ • ]] (см. § 6, стр. 32, 33), стеснить равномерно условиями
е	&
J || и (О II2 dt < Л(0, J || v (/)1|2 dt < Х(2),	(28.22>
fo	^0
где А/1) и — сколь угодно большие наперед выбранные величины, то в работе с такими движениями лф] в этом параграфе уже опять не возникает осложнений.
Глава VI
ПРОГРАММНЫЕ КОНСТРУКЦИИ
§ 29. Программное поглощение (содержательный аспект). В этой главе мы опишем программную конструкцию, которая явится вспомогательным средством для решения позиционных игровых задач сближения — уклонения. Имея в виду материал предыдущей главы, поставим сначала задачу подобрать такую .программную конструкцию, которая позволила бы вычислять функцию е(/, х) из теоремы 23.1. Тем самым мы получили бы средство строить стратегию LP 4- u°c(t, х), определяемую из условий минимакса (23.15) и разрешающую задачу сближения 9.1. Чтобы подойти к задаче подбора такой конструкции, отметим прежде всего, что стратегия UQC 4- и°с (/, х), построенная по функций е(/, х) в соответствии с условиями теоремы 23.1, гарантирует, между прочим, встречу всех движений х [/, tQi х0, с Мс даже так, что выполняется условие (23.16), хотя, как уже отмечалось выше в § 23, значение t = $ может и нс быть первым моментом т встречи с Мс для того или иного движения х[/, tQi х0, С/о]. Сосредоточим поэтому внимание пока на таком решении задачи 9.1, которое гарантирует во всяком случае встречу (23.16) в зафиксированный заранее момент времени t = О. При этом будем всюду ниже в этом параграфе полагать, что множество Nc совпадает со всем пространством {£, х}. Собственно говоря, способ построения «-стабильного моста Wat годного для решения задачи 9.1 о сближении х [£] с Мс в момент t = О, был уже описан в § 16. Для этого, согласно материалу из § 16, достаточно выбросить из полупространства /^0 все те позиции {^, xj, для каждой из которых, как для начальной, разрешима задача 9.2 об уклонении от сечения МС(О) множества Мс. Те позиции {£, х}, которые останутся в полупространстве / О, и составят максимальный «-стабильный мост
ведущий на 7ИС(О). Стало быть, позиция {/*, х*} (/* ^ О) будет лежать на максимальном мосту Wu тогда и только тогда, когда при всяком выборе стратегии V~-v(/, х) среди движений х [/] = х [/, /о, Хо, V] найдется по крайней мере одно движение ,х[/], удовлетворяющее включению х[О]^Л1с(О). Иначе говоря,
§ 29)
ПРОГРАММНОЕ ПОГЛОЩЕНИЕ
12F
<= тогда и только тогда, когда е;(^хЛ) = с,	(29.1}
где
е*(/., х., й) = max minр#(х[Ф, G х, У], AfJ + с. (29.2>
Здесь и в других аналогичных случаях символ рв (х, Мс) обозначает евклидово расстояние от точки {-&, х} до сечения Мс('&) множества Ме. Существование решения V°-?u°(/, х) и х°[/] задачи (29.2) для всякой позиции {/*, xj (/, < &) было установлено в § 18, ибо V0 есть не что иное, как оптимальная макси-минная стратегия V0 для задачи 18.2 при выборе функционала <р (х [/], /, С t < й) = о (х [&]) = ро (х [&], Мс) + с.
Итак, максимальный и-стабильный мост Wu' гарантированный леммой 16.1, в данном случае есть множество позиций {/*, х*} (/*^$), для которых выполняется условие (29.1). Более того, если окажется, что функция eQ(t, х, О) в области с < е’ (/, х, &) < с -|- 0, t < &, является функцией дифференцируемой, то она будет удовлетворять всем условиям теоремы 23.1.. Таким образом, мы как будто наметили способ построения функции е(/, х) из теоремы 23.1 в виде решения е*(/, х, О) задачи (29.2) для всякой позиции {t, х} = {/„, х»}. Однако на самом деле мы не получили, очевидно, чего-либо нового, просто' повторив изложенное в § 16, правда, для специфического случая, когда множество Nc совпадает со всем пространством {/, х}, а множество Мс совпадает с его сечением Л1с('&). Найти функцию е‘ (/, х, О) прямым решением задачи (29.2) в нетривиальных случаях трудно, ибо это решение в принципе будет требовать перебора всех позиционных стратегий V, отождествляемых каждая с какой-либо функцией v(t, х), стесненной только условием v(t, х)е Q.
Попробуем выйти из положения, подменив задачу (29.2} другой задачей, менее трудной в принципе. При отыскании величины 8„ (/*, х», &) по смыслу задачи (29.2), как сказано выше,, надлежит перебрать все возможные функции v(t, x)eQ от двух переменных / их. Это и делает задачу весьма трудной. Сузим, однако, класс стратегий V, оставив лишь такие стратегии которые задаются функциями v(t)<=Q, зависящими только от одной переменной /. Такие стратегии V будем именовать программами, а порождаемые ими движения х [/] — программными движениями. Тогда вместо позиционной задачи (29.2) мы можем рассмотреть аналогичную ей программную-задачу: найти величину
е0(/, х., Ф) = sup min р$(х [©,/., х., V],	(29.3>
V х [•]
122
ПРОГРАММНЫЕ КОНСТРУКЦИИ
ГГЛ. VI
где верхняя грань берется уже только по всем стратегиям-программам	(Мы не пишем в условии (29.3)
символ гпаху вместо символа supy из осторожности, так как априори неизвестно, действительно ли достигается такой максимум на какой-либо программе V0~y°(/).)
Сравним решения 8* и 80 задач (29.2) и (29.3). Ясно, что в0 (/, х, ft) 8*(/, х, ft), так как в (29.2) максимум вычисляется на более широком классе стратегий V. Стало быть, максимальный «-стабильный мост W®, заданный условием 8^(/, х, ft) = c (/^ft), содержится во множестве UW, которое мы определим условием 80(/, х, ft)=c	Очевидно, это множество W^> =
= [{/, х}: / ft, 8о(/, х, ft) = с] обладает следующим свойством. Позиция {t*y х*} е тогда и только тогда, когда при всяком выборе программы	найдется по крайней мере одно
движение х [/, /*, х*, V], которое встретится с Мс при t = ft. В таком случае будем говорить, что процесс (6.1), (6.2) программно поглощает Ме из позиции {/*, х*} в момент ft. Само множество UW будем именовать множеством программного поглощения цели Мс в момент ft.
Итак, Wu <= W^\ Если при этом окажется, что множества W^ действительно шире, чем Wu (а такие случаи возможны), то множество не будет нужным нам «-стабильным мостом, и функцию е0(£,х, ft) не удается использовать в качестве нужной нам функции 8(/, х), удовлетворяющей условиям теоремы 23.1. Однако нередки случаи, когда на самом деле №« = = и функция 80(/, х, ft) при с < 8о < с + р оказывается даже функцией дифференцируемой. Тогда вспомогательная задача (29.3) на программный максимин, которую, вообще говоря, легче решать, чем аналогичную позиционную задачу (29.2), может оказаться хорошим подспорьем для решения исходной позиционной задачи 9.1 о сближении с множеством Мс в момент ft Таким образом, представляют интерес те достаточные условия, при выполнении которых множество W^ = [{/, х}: t ft, 80(/, х, ft) = c] будет совпадать с максимальным «-стабильным мостом F« = [{/, х} : f<ft, 8о(/, х, ft) = с], ведущим на Alc(ft). Изучению таких условий посвящена следующая, седьмая, глава. Однако исследование задачи (29.3), сформулированной для движений х [/,/*, х*, V], порожденных стратегиями-программами V-m»(/)eQ, по ряду формальных причин оказывается не очень удобным. Поэтому стратегии-программы V+v(t) и программные движения х И = х [/,/*, х*, V], порожденные ими, мы заменим ниже некоторыми более формально определяемыми программами {л<.)}п и порождаемыми ими пограммными движе-НИЯМИ x(t, tt, , Т)(.) <= {т]()}п (где т)() = foe  < t < Ф), к0'
ПРОГРАММНЫЕ УПРАВЛЕНИЯ И ДВИЖЕНИЯ
123
§ ЭД
торые будут иметь тот же самый содержательный смысл, однако выраженный в более завуалированной форме.
Читатель, которого не заинтересует переход от конструктивных движений x[t, t*, х„ V 4-у(0] и стратегий-программ Уч-о(/) к программным движениям x(t, t*, х„ т](.)) и программам {Л( ))п из §§ 30, 31 > может в дальнейших параграфах подменить эти программные движения x(t, t*, х*, обычными конструктивными движениями x[t, t*, х*, V4-u(/)]. Наиболее существенные изменения, которые потребуются при такой подмене, мы отметим по ходу дела.
§ 30. Программные управления и движения. В этом параграфе мы определим программные управления и программные движения. Пусть фазовый вектор системы х[£], как и всюду в этой книге, изменяется в соответствии с уравнением (6.1), и управления и и и стеснены ограничениями (6.2). Функцию f(t, х, u,v) в правой части уравнения движения (6.1) в этой главе удобно предполагать имеющей непрерывные частные производные df/dxt (£=1,2, ..., n).
Рассмотрим вероятностные меры ([15*], стр. 147, (26*], стр. 128) i]t(du,dv), зависящие от параметра ^<=[/0, Ф) и определенные при всяком значении t на множестве Р X Q из векторного пространства {«JXk'L Будем полагать, что рассматриваемые ниже -функции г] = гр, значениями которых являются вероятностные меры r\t(du,dv), удовлетворяют следующему условию слабой измеримости по t. При всяком выборе непрерывной функции a(w, v) функция
₽ (0 = 11 а (и, и) ж (du, dv)	(30.1)
р Q
должна быть измеримой по Лебегу ([9*], стр. 281) функцией на полуинтервале [/о, О). Меры r\t(du,dv) можно подменить функциями распределения Ft(u,v) ([15*], стр. 105, [26*], стр. 33), зависящими от параметра /е[/о, О) и определенными при всяком t для векторных случайных величин {и, v}, значения которых с вероятностью единица сосредоточены на множестве Р X Q. При этом надлежит рассматривать такие функции распределения F — Ft, которые удовлетворяют следующему условию слабой измеримости по t. При всяком выборе непрерывной функции а(и, v) функция
р (0 = J J а (и, и) dFt (и, v)	(30.2)
{а, о}
Должна быть измеримой по Лебегу функцией на полуинтервале (/0,а).
"124
ПРОГРАММНЫЕ КОНСТРУКЦИИ
(ГЛ. vr
Рассмотрим также функции v = vt (/о*С^<'&), значениями которых являются вероятностные меры vt(dv), определенные на множестве Q из векторного пространства {у}. Полагаем, что функции v = vt удовлетворяют следующему условию слабой измеримости по t. При всяком выборе непрерывной функции а(и) функция
р(0= J а (и) vt(dv)	(30.3)
Q
должна быть измеримой по Лебегу функцией на полуинтервале [to, '&). Иначе, можно рассматривать функции распределения Ft(v), определенные при всяком t для векторных случайных величин v, значения которых с вероятностью единица сосредоточены на множестве Q. При этом функции F = Ft должны удовлетворять следующему условию слабой измеримости. При всяком выборе непрерывной функции a(v) функция
₽(/)= f a(v)dFt(v)	(30.4)
м
должна быть измеримой функцией на полуинтервале [/о» Ф) • Имея какую-нибудь слабо измеримую функцию т] = гр, мы
можем построить меру на [Zo, *0) X X Q:
rf (dt, du, dv) = rp (du, dv) dt,	(30.5)
где эта мера — произведение x]tdt — понимается в соответствии с известным определением ([15*], стр. 370). На языке функций распределения F: имея какую-нибудь слабо измеримую функцию F = Ft, можно построить функцию
t
Г (t, и, и) — J Fx (и, v) dr.	(30.6)
Напомним ((7*], стр. 288), что меры г)* (30.5) образуют линейные функционалы ([16*], стр. 12)
о
Рп«(а)= 111 а(/, и, v)T]f((/u, dv)dt,	(30.7)
to Р Q
определенные на пространстве {а(/, и, о)} непрерывных функций а(/, и, о) (/о	О’, «еР, v е Q); или, на языке функ-
ций распределения,
Pj?. (а) = j J J a (t, и, о) dF' (t, и, v).	(30.8)
h {и, vj
•'§ 30]
ПРОГРАММНЫЕ УПРАВЛЕНИЯ И ДВИЖЕНИЯ
125
Всюду в дальнейшем под слабой сходимостью рассматри-ваемых функций rj = rjf (*о<7 < О) (или функций F=Ft будем понимать слабую сходимость ([16*], стр. 212, [9*], стр. 199) в пространстве соответствующих функционалов ^(а) (Рр(а)). Стало быть, будем говорить, что последовательность
=	к — 1, 2, ...) (последовательность F<® = F^}
<'&, к= I, 2, ...)) при k^-oo слабо сходится к функции rf = v{>	(к функции F° = F° (fo<f<0)) тогда и
только тогда, когда при всяком выборе непрерывной функции ъ = а(1, и, v) будет выполняться предельное соотношение
lim ^)(а) = р (а) &->оо
(lirn (а) = рро (а)). &->оо
Из известных свойств вероятностных мер ([7*], стр. 288, [16*], стр. 254) вытекает, что множество всех возможных мер rf(dt, du, dv) вида x\t(du, dv)dt (30.5) является множеством, слабо замкнутым и слабо компактным в себе ([16*], стр. 212, 254, [34*], стр. 48, 49). Это означает, что из всякой последовательности = <’ (t0<t <«)} (*=1, 2, ...) можно выбрать подпоследовательность {г)(*^ =пГ') &<'<&)} (/ = 1, 2, ...), которая будет сходиться слабо (в определенном выше смысле) к функции т)° = ?)£ (tQ^.t<_
Всякую слабо измеримую функцию т] =	(t0 t < 0), зна-
чениями которой являются вероятностные меры i\t(du, dv) на Р X Q, будем именовать программным управлением т) — гр на полуинтервале [£о> б1) •
Программным движением x(t, t*, х», тц.)) (to t &) на отрезке t &, порожденным программным управлением т) = т)е из позиции {?*, х,}, будем называть решение дифференциального уравнения
х — j" J f (t, х, и, v) тр (du, dv),	(30.9)
p Q
Удовлетворяющее начальному условию
x (/.) = хш.
(30.10)
Заметим, что определение подобных обобщенных дифференциальных уравнений восходит к работам [39*, 40*, 129а]. Стандартными в теории обыкновенных дифференциальных уравнений методами доказывается, что при наших условиях (и в том числе — при условии (6.4)) при всяком выборе начальной
126
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VI
позиции {/*, х*} и программного управления гр на полуинтервале [/*, 'О’) существует единственное программное движение *(М*> **, Л(-)) являющееся, стало быть, решением x(t) уравнения (30.9). Это движение'x(t) является абсолютно непрерывной функцией, удовлетворяющей начальному условию (30.10) и равенству (30.9) при почти всех значениях t из полуинтервала [/*, О’).
На языке функций распределения Ft(u, v) программным движением х(/, t^x*, F) следует называть решение дифференциального уравнения
х = J J f(t, х, u, v) dFt (du, dv)	(30.11)
P Q
снова, разумеется, при начальном условии (30.10).
Пусть, далее, v = vt (to^ t < О) — некоторая зафиксированная функция, слабо измеримая по t в том смысле, как это определено выше в этом параграфе, значениями которой являются вероятностные меры vt(dv) на Q. Будем называть элементарной программой {т]( ), [/*, О); v(.)}n второго игрока на полуинтервале [/*, $) множество всех программных управлений т) = которые при почти всех значениях t из полуинтервала t < Ф удовлетворяют равенству
J r|f (du, dv) — x\t(P, dv)=- vt(dv).	(30.12)
p
Из известных свойств мер x\t*dt и vt*dt вытекает, что всякая элементарная программа {!)(), [/*, О’); v(.)}n является выпуклым, слабо замкнутым и слабо компактным в 4 себе множеством программных управлений г| =	(/*^<0*).
х Слабое замыкание какого-либо объединения элементарных программ будем называть программой второго игрока и такую программу для полуинтервала [/*, О) будем обозначать символом [/*, О)}п или короче—{т)()}п. Иногда, если надо будет подчеркнуть, что программа {т)( )}п имеет отношение к какому-нибудь объекту, например, к начальной позиции {^, х#}, символы этого объекта также будем включать в число аргументов, характеризующих программу, например: {т)( ), [/*,'&); v(.>; xjn.
Все данные здесь определения имеют пока совершенно формальный характер. Их отношение к рассматриваемым нами позиционным игровым задачам выяснится позднее.
Подчеркнем также, что введенным формальным понятиям программных управлений л = т)/ и движений x(t) не придается сейчас никакого вероятностного смысла, хотя в их конструкциях и используются вероятностные меры T\t(du, dv).
ПРИМЕР
127
$ 31)
§31., Пример. Рассмотрим пример, поясняющий содержательный смысл определений программного управления т) = тц (/о t ft), программного движения x(t) и программы второго игрока, данных в § 30.
Пусть уравнение движения (6.1) является линейным и имеет вид
х = Ах + bu + cv,	(31.1)
где х, как обычно, — n-мерный фазовый вектор системы; и и v — скалярные переменные; А — постоянная (n X и) -матрица, b и с — постоянные n-мерные векторы. Пусть, далее, каждое из множеств Р и Q в условиях (6.2) является двухточечным, так чт0 р = [и : и = цО) V и = и<2)] (ц(2) > w(I)); Q = [у ; v = сК1) V IV v = у(2)] (сА2) > сДО. Тогда в программном управлении г) = тц мера r]t(dufdv) будет задаваться при всяком t четверкой неотрицательных чисел Pij(t) (i=l, 2; / = 1, 2), сумма которых равна единице. Числа Pij(t) будут «равны вероятностям» Pt(и == иР\ -у = t/О)), с которыми в момент t переменная и «принимает» значение а переменная v — значение И эти меры i]t(du, dv) = [pij(t) :to t < ft; i=l,2; / = 1,2] будут определять программное управление тц < ft) тогда и только тогда, когда каждая из переменных pij(t), как функция от времени ie[i0, ft), будет измеримой функцией на полуинтервале [io, ft) • В свою очередь, меры vt(dv) будут задаваться при всяком t двойкой неотрицательных чисел qj(t) (/= 1, 2), сумма которых равна единице, причем каждая из переменных ^j(i), как функция от времени t^[tQ, ft), должна быть измеримой функцией на полуинтервале [io, ft). Числа qj(t) будут «равны вероятностям» Pt(v = vW>), с которыми в момент t переменная v принимает значение v^\ Итак, пусть тц — [Pij(i); io i < ft; i, j = 1, 2] — какое-нибудь программное управление. Тогда, согласно (30.9), программное движение x(i) = x(i, i*, х*, т](.)) определяется как решение дифференциального уравнения
х = Ах + 11 (bu + cv) (du, dv) =
p Q 2
= Ax+ Рч(1)(Ьи(1} + си(У)) =
i. /=i
2	2
= Ax + b£ p\ (0	+ cj; q] (0 p(/>,	(31.2)
i=l	/=1
2	2
где =2^/(0 и 9*/(0 = iSp//(0.
128
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VI
.Иначе говоря, в данном случае программным движением x(t) (t* гС t '0') будет решение дифференциального уравнения
х = Ах + bu(t) + cv(t),	(31.3)
где н(/) и v(Z) суть некоторые измеримые функции, которые при почти всех значениях t s [/*, 6j удовлетворяют неравенствам
ц(,)<ц(0<у<2).	(31.4)
Можно убедиться и в обратном утверждении: для всякой пары измеримых функций и(1) и v(t), которые удовлетворяют неравенствам (31.4), можно подобрать программное управление т)« = [Ро(0» А) < Ф; i, j = 1, 2] такое, что уравнения (31.2) и (31.3) будут эквивалентны. Высказанные утверждения будут переноситься с понятными обобщающими изменениями и на более общий случай линейного уравнения (28.1) при стандартных ограничениях (6.2). При этом, в частности, условие (31.4) перейдет в условие
и(/)еР, v(i)^Q,	(31.5)
где Р и <5 суть выпуклые оболочки множеств Р и Q из условий (6.2). Таким образом, мы видим, что для линейного уравнения (28.1) введение программных управлений гр, заданных мерами r\t(du, dv), не дает каких-либо преимуществ по сравнению с более простым по форме введением обыкновенных программных измеримых управлений «(/) и v(t), удовлетворяющих условиям (31.5). Однако в случае нелинейного уравнения (6.1) использование управлений в форме мер гр (^«, div) по ряду формальных признаков, пожалуй, себя оправдывает, как это выясняется по ходу дальнейшего изложения.
Пусть теперь снова для примера (31.1) v* = pj(/), /=1,2] есть какая-нибудь зафиксированная слабо измеримая функция v=v* (t	Тогда в данном случае элементар-
ную программу {«](.), [/,, 4); v^) составят все программные управления^ г)г = [Pi/(t),	i, j = 1, 2], удовлетворяющие
условиям 2 Pii(t) — ^(t) (j=l, 2). Согласно предыдущему, это означает, что мы можем получить все возможные программные движения x(f) = x(t, t*, х„ т^) при s [/„»); v*^ как решения уравнения (31.1), если в этом уравнении переберем все возможные управления и, задаваемые в виде измеримых функций «(/), удовлетворяющих условию (31.4), а управление v зададим измеримой функцией v* (t) = q\ (t) v<‘> + q*2 (/) удовле-
§ 32]
свойства программных движении
129
творяющей, разумеется, также условию (31.4). Верно и обратное заключение. Выбрав какую-либо измеримую функцию v = v'(t), удовлетворяющую условию (31.4), и перебирая всевозможные измеримые функции u = u(f), удовлетворяющие условию (31.4), мы получим как решения x(t) уравнения (31.1) все программные движения х (7) = х (/,/,, х,, !)(.>)> порождаемые програм-ными управлениями T)f из некоторой подходящей элементарной программы [т],.), [/., О], v’jJh (v*:	t, <7 < О]).
Наконец, на языке функций распределения Ft(u,v) в рассматриваемом примере (31.1) мерам x\t(du,dv) будут при каждом t е [/о, Ф) отвечать кусочно постоянные на плоскости {и, у} функции F(u, v), удовлетворяющие условиям
v)==0	при
Ft(u, v) — 0	при
Ft(u, v) = pu(t)	при	o(1)<y^o(2),
Ft(u, v) = pu(t) + pi2(0 при ы(1) < и < w(2), u(2) < v,	(31.6)
Ft(u, v) = pu(t) + p2i (t) при «<2) < u, v(1)<y<y(2), 2
Ft(u, v)= pi/(0=1 при w(2) < «, o(2> < v.
Функции же распределения Ft(v), отвечающие допустимым мерам vt(dv), будут изображаться кусочно постоянными на прямой {о} функциями Ft(v), удовлетворяющими условиям
Ft(v) — 0	при у^у(|),
(у) = ?1(0	при у(1)<у^о(2),	(31.7)
Л(у) = ?1(0 + <?2(0= 1 при v(2) < V.
Уравнение (30.11) примет тогда вид
х = Ах + || (bu + cv) dFt (и, v) —
{и, V}
2	2
= Ах + b	с	= Ах + Ьи (/) + cv (/),	(31.8)
t=i	/=1
совпадающий, разумеется, с (31.2) и (31.3) при условиях (31.4).
§ 32. Свойства программных движений. В этом параграфе МЫ обсудим некоторые свойства программных движений х*, Ло) и совокупностей {x(t, t*, х*, т](-))} таких движений, которые порождаются всевозможными программными управлениями ф из некоторой программы {т]( ), Ф)}ц второго игрока.
5 Н. Н. Красовский, А. И. Субботин
130
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. vr
При этом будем предполагать правую часть f уравнения (6.1) функцией непрерывно дифференцируемой по х (см. § 30) и, как всегда, будем предполагать выполненным условие (6.4). Все утверждения в этом параграфе мы приведем без подробного доказательства, так как они устанавливаются стандартными в теории обыкновенных дифференциальных уравнений рассуждениями с добавлением лишь технических деталей, отвечающих используемому здесь аппарату обобщенных управляющих функций т) = гц, изображаемых мерами r\t(du, dv).
Прежде всего надлежит заметить, что программные движения x(t) = x(t, х*, т](.)) (^o^^*^^<:ft), которые при фиксированных {/*,%*} и т] =	(f#^ t ft) являются абсолютно
непрерывными функциями от переменной t — решениями уравнения (30.9), в то же время изменяются непрерывно при изменении начальной позиции {£*,%*} или программного управления т] = тц (/* t < ft). Именно, справедливы следующие утверждения.
Лемма 32.1. Каковы бы ни были значение 8>0, отрезок [/о, ft] и ограниченная область G пространства {л}, можно указать число S > 0 такое, что для любых двух программных движений x(t, r|(.)) a x(t,х&\ будет выполнено неравенство
И'. 4°,	х<2>, П(.)Же <32Л)
при всех t из отрезка тах^1*, /(2>) < / <10, если только	О],
/<2> е= [t0, О], х»1» е= G, х?> e=G и
р<» — /<2)|<д, ||х<'> —x<2)||<S. .	(32.2)
Лемма 32.2. Каковы бы ни были отрезок [/0, О], ограниченная область G пространства {х), программное управление г)==т)? (/0 t < &) и сходящаяся к нему слабо последовательность {i)’^} (k — 1, 2, ...) программных управлений = т]^’ (/0 t < О), для всякого значения е > 0 найдется число k (е) такое, что будет выполнено неравенство
|| х (t, t*,xt, n’?/) — х (f, tt, x,, I)?.)) || < e	(32.3)
для всех t из отрезка tt t ft» если только t* e [Zo, 0], x, e G и выполнено неравенство
k^k(e).	(32.4)
Следует обратить внимание на то обстоятельство, что в лемме 32.1 утверждается оценка (32.1) — равномерная по t„ и х. из соответствующей области [/0, и G.
Обсудим теперь свойства совокупности движений {х^.^.х,,^.^, (tl(.), [(,, Ф))п}> порожденной какой-либо программой ^)}п,
§ 32J
СВОЙСТВА ПРОГРАММНЫХ ДВИЖЕНИЙ
131
р частности — свойства совокупности движений (х(7, /е, х*, т^), (Ч )> [^’ ^); 'V( )}n)’ врожденной какой-либо элементарной программой {т)(.)> Р.> ^)’ v( )}n- Можно проверить, что при всяком выборе {/., х,), р., О) и программы [G <*)}п множество движений (х(/, t,, х,, т](.))» {»!(.), р,> О))п) составляет компактное в себ е в метрике пространства множество непрерывных функций х[/[ на отрезке [/„, О]. Это утверждение вытекает из того обстоятельства, что программные движения х (/,£,, х„ непрерывны в метрике ||х( •) ||(< #)= max ||х(/)|| простран-
*’ <»<<<<>
ства Су.,«I по отношению к непрерывному изменению т] = г]е ц	в слабой топологии (см. лемму 32.2), и из слабой
компактности в себе множества всех программных управлений г] = г], (/,<£<<>), составляющих программу. Далее, из лемм 32.1 и 32.2 вытекает следующее утверждение.
Лемма 32.3. Каковы бы ни были значение 8 > 0, отрезок [/0, О'] и ограниченная область G пространства {х}, можно указать число 6 > 0 такое, что для любых двух совокупностей программных движений (х(/,	х<!), П,.))» [С 0)}п) « [х(/,	х®,^),
{т]( ), [/,, 0)}п), порожденных одной и той же программой будет справедливо неравенство
(4'.	П,.,). [Л,.,. [' «))„))< ‘ <32.5)
при всех t из отрезка тах^1*,	если только О],
/<2) е [/0, О], х(1) е О, х<2> е G и * выполнены неравенства (32.2).
Здесь символ р(Й?(1), $/<2)) ^означает хаусдорфово расстояние между множествами й?(1) и<Э?(2), которое вычисляется по формуле
р(й/(|), ^(2>) = max [max р(х(|), ^(2)), max р(х(2), й?(1))], (32.6)
причем р(х, SS) есть евклидово расстояние от элемента х до множества Й?.
Сложнее доказывается следующее утверждение, которое, однако, мы также примем без доказательства.
Лемма 32.4. Каковы бы ни были отрезок [f0, О], ограниченная область G пространства {х), слабо измеримая функция v = v° (/0 t < О) и сходящаяся к ней слабо последовательность [v^cfo)} (6=1, 2,...) слабо измеримых функций^ (4^/<О), для всякого значения 8>0 найдется число k{e)
5*
132
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VI
такое, что будет выполнено неравенство p({x(f, t„ Х„ п(.)), Ь(.), К. «); ^}п),
{х(/, t„ х„ Т](.)), {Т|(.> К. 0); v’jj) < 8 (32.7) при всех t из отрезка	если только е [/0, 0], х.еб
и выполнено неравенство (32.4).
Множество всех точек х=х(О, х,, т]( )) при т]( )е {т)(), [/„ О)] следуя общепринятой терминологии, будем именовать областью достижимости для указанной совокупности движений {х(/, х„ т1(.)), Ц,). р0> ^)}п} в момелт ’в- Будем обозначать такую область символом G (t,, х,, ft;	Из приведенных свойств
движений и, в частности, из лемм 32.3 и 32.4 вытекает, что всякая область G(7„, х„, •&;	есть множество замкну-
тое и при непрерывном изменении начальной позиции {/,, xj область достижимости G (tt, х„ О; {'П(.)}п) деформируется непрерывно; если последовательность v$(dv) сходится слабо к v.®((du), то последовательность G(fe) = G^, х„, О; {>!(.), К» ^), vo}n) схо-дится к области G° — G(t,, х„, &; [г]( ), |7„ ft), v°.)}n) в хаусдор-фовой метрике р (32.6).
§ 33. Уравнение в вариациях. В этом параграфе мы рассмотрим уравнение в вариациях, решения которого бх(/) описывают в линейном приближении изменение Дх(0 программного движения x(t, t,, х,, т|,( при малом изменении Дх = х*— х, начального состояния х, и при малом по мере на полуинтервале [/,, f>) изменении Дп(.) = Л*.)— Л,(.) программного управления Итак, рассмотрим два программных движения х„(/) = = x(t, t„ х„ т), (.>), х* (t) = х(/,	х‘, т),.)) (^ < t <О), являющиеся
по их определению решениями дифференциального уравнения (30.9) при г)г = т]#/ и Л/ = Л* соответственно.
Разность Дх(0 = х*(0 — х, (t) согласно (30.9) удовлетворяет дифференциальному уравнению
Дх(/)= J J f(t, х* (t), и, v)vy(du, dv) —
р Q
— J" j f(t,x„ (/), и, v) т|<( (du, dv) = P Q
= j j [f (t, x"(t), u, v) — f(t, X,(t), u, v)\i\,t(du, cfo) + P Q
+ j j f(t, x*(t), и, ц)[г)*((/и, dv) — r\,t(du, do)]. (33.1) p Q
^33]	УРАВНЕНИЕ В ВАРИАЦИЯХ	133
Из этого уравнения вследствие дифференцируемости функции f по х вытекает, что разность Ах(/) удовлетворяет уравнению
Ах= I	Ах(/)П.Д^ы, dv) + a(t) • Ах(/) +
+ j J f(t, и, и) [л* (.du, dv) — i^t(du, du)] +
P Q
+ JJp(Z, u, u)Ax(/)[ц*(du, dv) — x\tt(du, du)], (33.2) p Q
где матрица-функция a(t) стремится к нулевой равномерно на отрезке [£*, О'], матрица-функция 0(/, и, и) остается ограниченной, когда max ||Ах(0||->0. Здесь символ {df/dx}r 1п обо-значает матрицу Якоби {dfi/dx/} (i = 1, ..., п; /=1, ...,п) вектор-функиии f по вектору х, вычисляемую вдоль движения х, (t). Предположим, что
II Дх (О || < бх	(33.3)
и программные управления rj* и (t, t < &) отличаются лишь на множестве Т с [^, ф), мера которого ц (Т) удовлетворяет неравенству
(33.4)
Тогда, решая уравнение (33.2) по формуле Коши ([2Г], стр. 173), получим t
Ах (/) = S (t, t.)x, (.) Ьх, (/J + J J | S (t, т)х> (-) f (т, х, (т), и, и) X /. Р Q
X [т|г (du, dv) — T|rt (du, du)] dr + 0 (t), (33.5) где вектор-функция 0(/) удовлетворяет неравенству ll₽(0ll<o(6x + 6r)	(33.6)
причем символ о (6) означает бесконечно малую более высокого порядка, чем бесконечно малая 6. В равенстве (33.5) символ означает фундаментальную матрицу решений ([30*], стр. 187) для однородного линейного дифференциального уравнения в вариациях бх:
бх = £(/)бх,	(33.7)
134
ПРОГРАММНЫЕ КОНСТРУКЦИИ
(ГЛ. vx
отвечающего уравнению (33.2), где, стало быть, / Л-й-Е. (t^du>dv^
(33.8)
В дальнейшем нас часто будет интересовать изменение Дй> некоторой непрерывно дифференцируемой функции со (%,(/)) = = <о(х(/, /», х*, л*())) ПРИ малых изменениях начальной точки х(/*) = х* или при малых изменениях программного управле. ния т)*«-С t < 'О'), определяющих данное движение х*(/) = = x(t, t*, х*,т]*()). Это изменение Д<о изображается равенством <
Д® = [д®/дх];.(0Дх(0 + о(||Дх(01|).	(33.9> |
Здесь и ниже [дсо/<5х] есть вектор z=l,..., nj.	J
Согласно (33.5) с точностью, до бесконечно малых высшего- 1 порядка относительно бесконечно малых 6Х и б» мы можем за- 1 менить величинуДш (33.9) ее вариацией би = [<5и/дх]'«(Г)бх(0> | которая изображается равенством	1
6<В = [17Г d*W = [^T	+	J
L°x Jx* (0	L °x (0	*	1
t	I
+ J J | [da/dx]'^ (0 S (/, r) f (t, x. (t), u, v) X	j
t. P Q	I
X (du, dv) — (du, dv)] dx = s'(t, tj 6x (tj +	I
/	I
+ J J J s'(t, x)f(x, x, (t), u, v)bt^(du, dv)dx, (33.10^ I p Q	I
• причем вектор [-|^-] вычисляется в точке х = x(t, t„, х,, г)*1
Здесь символ s(t,x) обозначает	вектор	S'(t,	r)[d(o/dx]x*	1
Фундаментальная матрица решений	S(t,x),	уравнения (33,7),.	I
рассматриваемая как функция от переменной т, удовлетворяет' | матричному дифференциальному уравнению	([21*],	стр. 170)	I
dS'dx’-} =-L'(x)S'(t, х).	(33.11> I
Отсюда следует, что вектор-функция s(t,x), фигурирующая | в равенстве (33.10), удовлетворяет уравнению
(33.12)
ВСПОМОГАТЕЛЬНЫЕ ПРОГРАММНЫЕ ЗАДАЧИ
135
§ 34]
как это вытекает из равенства (33.11) после умножения этого равенства справа на вектор / = [d©/dx]x> (/). Наконец, так как прИ x — t фундаментальная матрица S(J, т) по ее определению обращается в единичную матрицу S (t, t) = Е, то для вектор-функции s(t, т) из (33.10), являющейся, как мы видели, решением уравнения (33.12), выполняется краевое условие
s (t, t) = I = [d©/dx]x>	(33.13)
§ 34. Вспомогательные программные задачи. Пусть <о(^,х, т) — некоторая функция, непрерывная по позиции {/, х} и параметру т, может быть — векторному, из какого-то векторного пространства {/п}. Будем предполагать, что функция 4>(t, х, т) в области ©(t, х, т)> с имеет непрерывные частные производные да/дх{ (I = 1,2.....п). Пусть, далее, в простран-
стве (t, т] дано ограниченное замкнутое множество М, сечения которого гиперплоскостью t — const будем, как обычно, обозначать символами M(t). Пусть, далее
р (t, х) = min © (t, х, tn).	(34.1)
В частности, может быть, что пространство {т} совпадает с пространством {х}, роль множества М может тогда играть часть множества Мс, содержащаяся в какой-нибудь сфере || х || R достаточно большого радиуса, а роль функции ©(/, х, т) — величина
© (t, х, т) = || х — т || + с.	(34.2)
Тогда, в частности, будет
р(а, х) = р9(х, Мс) + с при ||х|| + р9(х, Afc)<R, (34.3)
где, как и раньше, символ р0 (х, Мс) обозначает евклидово расстояние от точки {О', х} до сечения Л4С(О) множества Мс гиперплоскостью t = О'. Первая из вспомогательных программных задач формулируется следующим образом.
Задача 34.1. Задано значение О, при котором множество М (О) не пусто. Задана начальная позиция {t*, х*} (/» О) и выбрана программа {тю, [/*, 0)}п. Среди программных управлений г1() е {г](),!/*, О)}п требуется найти оптимальное минимизирующее управление vfl (/, t < О), которое удовлетворяет следующему условию:
Р(О, х(О, t„ х„ T|?J)= m>n Р(Ф»	4 J)- (34.4)
Если предполагать, что в данной вспомогательной задаче право выбора программы {т]()} п предоставляется второму
136
ПРОГРАММНЫЕ КОНСТРУКЦИИ
(ГЛ VI
игроку, а право выбора программного управления тр
из выбранной таким образом программы {г)(.)}п — первому игроку, то эту задачу 34.1 мы можем трактовать как вспомогательную задачу, которая ставится перед первым игроком в той или иной реализовавшейся позиции {/*, х*}, при условии, что ему сообщается программа {ц()}п, выбранная вторым игроком.
Задача 34.1 имеет решение при всяком задании начальной позиции {/*,%*} и при всяком выборе программы {ц(.), [/*, '0')} tI. В самом деле, величина
р (О, х) = min х, т)	(34.5)
т <= М (t>)
есть непрерывная функция х, а переменная х — х('&, /*,х*, ц(.)) согласно лемме 32.2 зависит непрерывно от программного управления тц / С'О’), если близость программных управлений тр друг к другу оценивать в слабой топологии. Но такая функция (точнее говоря — функционал) р(Ф, х('&, /*, х*, ц(.))) на слабо компактном множестве {гр.),[/*,$)}п своих аргументов тр.) обязательно достигает минимума (см. [7*], стр. 29) на каком-то программном управлении который и доставляет, стало быть, решение задачи 34.1.
Вторая интересующая нас вспомогательная программная задача формулируется следующим образом.
Задача 34.2. Дана начальная позиция {/*, х*} и отрезок времени О], причем множество М (О) не пусто. Требуется найти максиминное оптимальное программное управление (/* t < ft), которое удовлетворяет следующему условию максимина:
р(Ф, х^, хл, 'П(°.°)))= min р(О, х ('&, хш, ц(>))) =
= max min р(О, х(Ф, хж, Лп)) = 8о(^> х*>	(34.6)
{%)}п
Программу	#)}д, на которой достигается максимум
правой части в (34.6) и в которой по условию задачи 34.2 должно содержаться искомое управление л°.0)> будем именовать максимизирующей программой, отвечающей данной начальной позиции {/*, х*} и данному отрезку времени [£*, О].
Задачу 34.2 можно трактовать как вспомогательную задачу, которая ставится в реализовавшейся позиции {£*, х*} перед обоими игроками при следующих информационных условиях: второй игрок выбирает программу {т]()}п и сообщает ее первому игроку, после этого первый игрок выбирает в указанной ему
137
ВСПОМОГАТЕЛЬНЫЕ ПРОГРАММНЫЕ ЗАДАЧИ
§ 341 программе {п<-)}п минимизирующее управление т^. У второго игрока, таким образом, остается только право заранее так распорядиться выбором программы {t)(-)} п» чтобы обеспечить наибольший возможный результат во(^,х*,-&) (34.6) при самом неблагоприятном для второго игрока выборе управления ?](.) первым игроком.
Задача 34.2 и явится той главной воспомогательной задачей на максимин, которую мы будем рассматривать дальше в каче; стве формализации задачи (29.3). Не будем, однако, здесь выяснять в строгой форме и во всех тонкостях вопрос о близости задач (29.3) и (34.6) и тем более — вопрос об их эквивалентно-, сти. Мы просто подменим задачу (29.3) задачей (34.6), так как и та .и другая программная задача рассматриваются нами как вспомогательное средство для решения исходной позиционной игровой задачи сближения 9.1. Поэтому целесообразность выбора вспомогательной программной задачи именно в форме (34.6) будет определяться прежде всего тем, насколько решение этой задачи позволит продвинуться в решении исходной позиционной игры. В качестве же эвристических соображений в пользу близости задач (29.3) и (34.6) можно сказать следующее: в условиях задачи (34.6), как и в условиях задачи (29.3), второй игрок имеет возможность предопределить на будущий отрезок времени [f*, -ft] некоторую программу действий (программу {Л()>	или стратегию-программу V + v(t))y в пределах
которой у первого игрока еще остается возможность осуществлен ния того или иного программного движения (х(/Д*, х#, т)(.)) или х х*, V]). При этом оба игрока в обоих задачах содержательно намечают свои действия как функцию от времени, а не по принципу обратной связи, которая учитывала бы текущие позиции {/, х(/)} (t t*)y реализующиеся по ходу управления. Это обстоятельство, впрочем, в данном случае имеет значение в особенности по отношению к возможностям второго игрока, так как форма выбора управления для первого игрока в виде функции от времени является здесь только формой, и по сути дела ничег^ бы содержательно не изменилось, если бы задачи (29.3) и (34.2) мы переформулировали так, чтобы первый игрок получил бы еще и право строить свои управления по принципу обратной связи, учитывая реализующиеся позиции {t,x(t)}
Задача 34.2 имеет решение при всяком задании начальной позиции {/*, х*} и отрезка [/#, О] и притом уже в классе элементарных программ {т](.), ]/#,.'&); V(.)}n. Для проверки этого утверждения, имея в виду замечание о существовании решения } задачи 34.1, достаточно убедиться лишь в существовании максимизирующей элементарной программы Ц.р	отвечаю-
138
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VP
щей данной начальной позиции {/*, х J и заданному отрезку времени [/*, ft]. Эта проверка осуществляется следующим образом. Пусть {{П(.)>	Ь2,...) — некоторая максимизи-
рующая последовательность элементарных программ для задачи 34.2 для данной позиции {£*, х#} и данного отрезка времени. [/*, ft]. Очевидно, из смысла определения элементарной программы и из смысла задачи 34.2 максимизирующую последовательность для этой задачи мы всегда можем предполагать состоящей именно из элементарных программ. Теперь из последовательности v((*J (k = I, 2, ...) мы можем выбрать слабо сходящуюся подпоследовательность vffl (j = 1,2, ...). Слабый предел этой подпоследовательности и определит искомую максимизирующую программу К, ^); v?.)}n- Тот факт, что программа
[/ш, ft); является максимизирующей программой дли нашей задачи 34.2, вытекает из того обстоятельства, что согласно лемме 32.4 область достижимости хш, О; [/*, ft); является пределом для последовательности областей	ft;
Ь.). К, 0); при / —>оо, а величина min p(f>, x(b, х., T]t) = m*n min <о (fi1, х,/п), фигурирующая в условиях (34.2). xeG т е М (Ъ)
изменяется непрерывно с непрерывным изменением области достижимости G. В частности, если p(ft, х) — (х, А1С) + с, то величина
min p(ft, x(ft)) = min Po(x(ft), AQ + c (34.7^
есть не что иное, как величина с плюс расстояние от области; G(/*, х*, ft; {тр}п) до множества [х: {ft, х} е А1С].
Итак, в этом параграфе мы сформулировали две вспомогательные задачи/34.1 и 34.2 о программном управлении и убедились в существовании решений и х\™ е [/*, ft); v®-каждой из этих задач.	*
Если не переходить к программным движениям х(/, /*, х#, тр.)),. а работать только с конструктивными движениями х[/, /*, х*, V4-4- v(/)] из § 6, подменяя в задачах 34.1 и 34.2 программы {тр.} стратегиями-программами V-r-v(t)^ Q, то в приведенном в этоа® параграфе обсуждении вопроса о существовании решения х° R, /*, хф, V 4- v (/)] при выбранной программе V 4- v (/) не встретится каких-либо отличий, ибо множество всех движений x{t, t*9 х*, V4-d(/)] компактно в себе в метрике пространства C[tib] (см. § 7, стр. 38). Однако вопрос о существовании максимизирующей стратегии-программы VQy- v°(t) для задачи 34.2
139
ПРОГРАММНОЕ ПОГЛОЩЕНИЕ ЦЕЛИ В МОМЕНТ О
§ 35J
уже так же просто не решится. Он требует дополнительного изучения. Мы не будем останавливаться здесь на этом вопросе, просто заменив в условии (34.5) задачи 34.2 операцию max на one-
{М
рацию sup, т. е. определив величину ео(/*, х*, ft) равенством
e0(t. х., ft) = sup min p (0, x(ft, t,, x„ V -e-	(34.8)
V x [•]
и не акцентируя, таким образом, внимания на отыскании оптимальной максимизирующей программы V04-u°(Z), а имея в виду, что можно будет ограничиться лишь максимизирующей последовательностью стратегий-программ (W* ч-	k =
= 1,2,...), понимая, однако, под оптимальным максиминным движением х00 [/] = х00	х*] какой-либо из равномерных пре-
делов для той или иной сходящейся подпоследовательности _х° (М [/] == х°<М [/, х„ ИМ] (/ = 1, 2, ...), где х°<М [/] — решение задачи 34.1 для программы из последовательности {VW}. Из свойств движений x[t, t*, х„ V] (см. § 6) вытекает, что во крайней мере одно такое оптимальное максиминное движение х00И = х00[/,	х»] обязательно существует.
§ 35. Программное поглощение цели в момент ft. В соответствии с планом, намеченным в § 29, мы предполагаем использовать функцию е0(/, х, ft), определенную равенством (34.6), в качестве функции e.{t, х) из теоремы 23.1, которая позволяет •строить стратегию t/° ч- «°(/, х) (23.15) разрешающую задачу 9.1 •о сближении с множеством Мс в момент времени / = ft (при выборе в (34.6) p(ft, х) = ро(х, 2Ис) + с). При этом мы снова, как и в § 29, но теперь уже на основе решений задачи (34.6), в не задачи (29.3), можем определить множество IP®1 программного поглощения цели Afc(ft). Именно, полагая в (34.6) •p'(ft, х) = ре(х, Afc)+ с, таким множеством будем именовать множество всех тех позиций {/., xj (/. ^ft), для каждой из которых в (34.6) имеем е0(/,, х„, ft) — с. Очевидно, это множество обладает следующим свойством: (/„ х,} е lF(#)(/,^ft) тогда и только тогда, когда при всяком выборе программы К)’ Н}п (при всяком выборе элементарной программы К.)’ ft); v(.)}n) сРеДи программных управлений я,.)
[/., О); vH}n) найдется по крайней мере одно управление которое породит движение x(t, х,, i^), удовлетворяющее условию
{ft, x(ft)} <=МС.	(35.1)
Далее, можно проверить, что функция ео(<, х, ft), определенная
140
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. vr
равенством (34.6) в общем случае функции р(/, х) (34.5), является непрерывной функцией от позиции {t,x} при В самом деле, пусть {/*, х*}—какая-нибудь позиция, для которой ft, и {№, x^k'} (6=1, 2, ...)— сходящаяся к {/*, х*} последовательность позиций, для которых /(ft)<^ft. Очевидно, что справедливо неравенство
lim 80(^fe), x{k\ ft)J>80(/)e, х*, ft),	(35.2)
fe-»oo
ибо в противном случае максимизирующая программа [/.*, ft); х*]^, отвечающая позиции {/*, х*}, продолженная, если надо, влево произвольным образом до № < /*, давала бы вследствие леммы 32.1 при достаточно больших значениях k неравенство
min p(ft, x(ft, t{k\ x(fe), т^)) > 80(/(fe), x{k\ ft), (35.3) Ч(’)еМп
которое противоречит определению величины 80(^ ft).
Однако, с другой стороны, справедливо и неравенство lim 80(^), х^, ft)<80(^, ft),	(35.4)
fe->oo
ибо в противном случае максимизирующие программы [/*, &); опять продолженные, если надо, влево произвольным образом до	давали бы вследствие леммы 32.1 щри до-
статочно больших значениях k неравенство
min p(t>, x(ft, т|( ))) > eo(^>	&),	• (35.5)
которое снова противоречит определению величины 8о(/, х, ft). Из соотношений (35.2) и (35.4) и вытекает непрерывность функции 8о(^> х, ft).
Но из непрерывности 8o(/,x, ft) следует, что множество программного поглощения 1W) = [{/, х} : / ft, 8o(tx, ft)^c] является множеством замкнутым. Более того, и всякое множество программного ^поглощения — [{^, х) : t <?&, 80 (i, х, ft) при 8^0 также является замкнутым множеством. При этом, при непрерывном изменении 8, множества изменяются непрерывно, и при 8->0 они стягиваются к WW
Итак, программные конструкции, рассмотренные в предыдущих параграфах, позволили нам сконструировать множество программного поглощения цели Мс в момент ft, которое является замкнутым множеством в пространстве {/, х} при ft, причем сечения Afc(ft) и l^(°)(ft) множеств Мс и гиперплоскостью t = ft совпадают.
ПРИНЦИП МИНИМУМА
141
§ 36]
Дальнейшее развитие рассматриваемой программной конструкции в соответствии с нашим планом должно быть связано с выяснением условий, при которых множество оказывается u-стабильным, а функция ео(/, х, О) в окрестности множества где &o(t, х, О) > с, — непрерывно дифференцируемой и удовлетворяющей условиям теоремы 23.1. Однако, прежде чем выяснить эти условия, мы в следующих двух параграфах установим некоторые свойства оптимальных решений д°ф) и д0® задач 34.1 и 34.2.
§ 36. Принцип минимума. В этом параграфе мы проверим, что оптимальное программное управление (tt^t < О), решающее задачу 34.1, удовлетворяет некоторому условию, которое мы будем именовать принципом минимума. По сути дела, это условие есть не что иное, как известный принцип максимума. Л. С. Понтрягина ([25*], стр. 25). Однако из терминологических соображений это условие нам здесь удобнее использовать именно в форме условия минимума, так как тогда словесно оно будет отвечать принятой в этой книге тенденции первого игрока в рассматриваемой задаче сближения минимизировать расстояние от позиций {/, х(/)} до множества Ме. Итак, принцип минимума, характеризующий оптимальное программное управление т]° (t,^i < О) и соответствующее ему оптимальное программное движение х°(/) — x(t, t„, х„ т\(^) из задачи 34.1 при условии
min р (О, х (0)) > с,	(36.1)
читается следующим образом.
Лемма 36.1. Оптимальное управление rft (/, t < О), раз-решающее задачу 34.1, и порожденное им оптимальное программное движение x°(t) = x(t, t„, х,, rj^) при условии (36.1) удовлетворяют равенству .
j j s' (0 f (t, х° (0, и, о) (du, dv) =
Р Q
= f min [s'(Of (t, x°(t), u, v)] vt(dv) (36.2) q “sp
при почти всех значениях t из полуинтервала [/*, О).
Здесь s(t) —решение дифференциального уравнения
s(t) = -L'(t)s(t)	(36.3)
при краевом условии
5 W = [do/дх]^	(36.4)
142
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VI
причем т° — точка из на которой достигается минимум (34.1) при t = О, х = х°(й). Матрица L(t) в уравнении (36.3) определена равенством
L = J J (О (<*«, dv).	(36.5)
р Q
В частности, если М = А4С и величины о и р определены равенствами (34.2), (34.3), то краевое условие (36.3) принимает вид равенства
iig-g=rfi 	<36-6>
где {O, т°} — точка из 7Ис(т0-), ближайшая в евклидовой метрике к точке {О, х°(6)}. И в общем случае функции ы(г", х, т), и в частном случае <о(/, х, т) (34.2) точка т° может быть неединственной. Условие (36.2) будет выполняться при всяком выборе минимизирующей точки т°, отвечающей данному оптимальному движению х° (0 ==х (Л (,, *», т1°)) задачи 34.1. Мера vt(dv) в (36.2) в соответствии с определением программы {т]( ), 1Л, 61) }п связана с мерой x\°t равенством
vt(dv) = J rft(du,dv).	(36.7)
р
Предположим от противного, что лемма неверна. Это означает, что найдётся такое измеримое множество Т cz [/*, Ф] ненулевой меры р(Т’), на котором будет выполняться неравенство
J J s' (/) f (/, х° (0, и, v) т]? (du, dv) >
р Q
> f min [$'(/)/(/, х°(0, и, v)] V/ (dv).
J и е Р
Но отсюда в свою очередь выводится, что найдется такая постоянная х Z> О, что при всяком выборе 6 > 0 найдется множество ненулевой меры ц(Г6)^6, на котором будет выполняться неравенство
J J s'(t) f (t9 xQ (/), и, v) л? (du, dv) >
P Q	'
> [ min [s'(/)/ (t, xQ(t), u, y)]v/(rfv) + x. (36.8) q u^p
з6]	ПРИНЦИП МИНИМУМА	143
Изменим теперь управление т]® только на Тв на некоторое управление ц, таким образом, чтобы на Гд выполнялись равенства
J г)* (du, dv) = vt (dv),	(33.9)
p
j [ s'(t) f (t, x° (t), u, v) r£ (du, dv) =
PQ	r	-
= min[s'(/)f(/, x°(t), u, v)}vt(dv). (36.10) Q
Из теории меры следует, что такой выбор i), всегда возможен. Новое управление т$*	которое вне Т6 сов-
падает с ц®, а на Т6 совпадает с т),, будет вследствие условия (36.9) содержаться в той же программе {т|(.)}п. Оценим изменение Др величины при замене управления 1]®на управление т]®*, Обозначим x*(t) — x (t, t,, xt, ц®*^. Согласно материалу из § 33, с точностью до членов высшего порядка малости по величине ц (Т6), изменение Дю функции <о(Ф, х(&), ш°) при изменении Ax(4) = = л?(’9) — х°($) только аргумента х(-&) и при сохранении неизменного значения /п = /п° определяется его вариацией й<о (33.10), т. е. в данном случае с учетом (36.8) и (36.10) имеем Д<о = J J J s'(t) f (t, x® (/), и, v) « (du, dv) — p Q
- tj® (du, dv)) dt + о (ц (Te)) < - хм (T6) + о (и (T6)), (36.11) где символ o([i(T6)) обозначает бесконечно малую высшего порядка малости относительно ц(Т&). Таким образом, окончательно из (38.11) получаем оценку
р (О’, х (&)) = ® (О, х* (О), гп) и (О, х (&), т°)
< <о (а, х° (О), т») - пр (Т.6) + о (ц (Т6)), (36.12) где символ tn* обозначает минимизирующее значение пг из условия (34.1) при / = & и х = х'($).
Из этой оценки вытекает, что изменяя управление на множестве достаточно малой меры, мы можем получить новое управление я?* (t.^t<&), которое будет содержаться в той же самой программе {т)(.),	6))п и в то же время по-
родит движение х*(f) = х(t, t„ xt, т]®’), которое обеспечит неравенство
(36.13)
р (О, х* (•&)) < р (О, х® (О)).
144	ПРОГРАММНЫЕ КОНСТРУКЦИИ	[ГЛ. VI
Однако, это неравенство противоречит определению движения х°(/) как оптимального движения для задачи 34.1. Полученное противоречие доказывает лемму 36.1.
ч § 37. Правило максимина. В этом параграфе мы покажем, что при определенных условиях оптимальное программное упра* вление Л?° (С	решающее задачу 34.2 на максимин
(34.6), удовлетворяет условию, которое мы будем именовать правилом максимина. Это правило, характеризующее оптимальное управление л?° (С t < ft) из задачи 34.2, и порождаемое им оптимальное движение x00(Z) = x(t, t*, х*, мы докажем в предположении, что во всякой оптимальной максимизирующей элементарной программе [/*, 'ft); v^, х*}п содержится только единственное (с точностью до значений на множестве t нулевой меры) оптимальное управление л?0 (1*^1 < ft).
Будем говорить, что.элементарная программа [/*, ft); v(<)jn регулярна для данной позиции {/*,%*}	80(/*, х*, ft) > с),
если задача 34.1 для данной позиции {/*, х*} при выборе этой программы {п(>), [/*, О); v(>))]n имеет единственное по существу (т. е. до значений на множестве точек t меры нуль) решение х^, и значение ш°, минимизирующее величину <о в условии (34.1) при t = О и х = х°('&), также единственно. В частности, при условиях (34.2), (34.3) элементарная программа {п(.)}п регулярна для позиции {Z*, х*}> где 8о(/*> х*, й) > с, если оптимальное минимизирующее управление x\Qt единственно и точка {-6, m0}	Afc('O’), ближайшая в евклидовой метрике к
точке {О, х°(Ф)} — {'О’, х^, t*, хж, л^)), также единственна.
Справедливо утверждение:
Лемма 37.1. Пусть оптимальная максимизирующая элементарная программа {л{.р К» '&)*, из за^ачи 34.2 для данной позиции {Z*, х*}, где .8o(Z*, х#, Ф) > с, регулярна. Пусть л?° и х00 (О (Z* t -ft) суть оптимальное управление и порожденное им оптимальное движение, разрешающие эту задачу 34.2. Тогда выполняется следующее условие максимина:
j J s' (Z) f (Z, X00 (Z), и, v) л?° (du, dv) = p Q
= max min s'(t) f(t, x00 (t), u, v) (37.1)
V <= Q и P
при почти всех значениях t из отрезка &].
ПРАВИЛО МАКСИМИНА
145
§ 37]
Здесь s(t)— решение уравнения (36.3), о котором шла речь в лемме 36.1, где в краевом условии (36.4) надлежит заменить %о(а) на х00(й).
Примем от противного, что лемма 37.1 неверна, т. е. найдутся позиция {/,, xj (е0(/„ х., &) > с) и максимизирующая регулярная программа К» О); v?.)}n> Для которых условие (37.1) будет не выполнено. Так как согласно лемме 33.1 управление п?0 и движение x°°(t) удовлетворяют условию (36.2), где следует только заменить на iff и х°(/) на х°°(/), то нарушение условия (37.1) означает, что найдется множество Та cz[t., О] ненулевой меры р.(Т’), на котором будет выполнено неравенство
J J s' (t)f(t, x°°(t), и, v) iff (du, dv) < p Q
< max min s (t) f (t, x00 (t), u, n).	(37.2)
tisQ u g P
Но отсюда в свою очередь выводится, что найдется такая постоянная х > О, что при всяком выборе б > 0 найдется множество Тв ненулевой меры |л(Гв)^б, на котором будет выполняться неравенство
J J s'(t) f (t, xco (0, и, v) т^° (du, dv) =
p Q
= [ [min s'(Z)f (t, x°°(0, u, u)] v?(dt>) <
J u^P
< max min s'(t)f (t, x00 (t), u, v) — x. (37.3) v e Q P
Изменим меру vqt(dv) только на множестве значений на некоторую допустимую меру v) таким образом, чтобы на Т6 выполнялось равенство
f [min s'(t) f (t, x00 (t), u, u)] v* (dv) = q usp
= maxmins'(0f(0 x°°(0, u, v). ,(37.4)
v <= Q и e P
Из теории меры следует, что такой выбор всегда возможен. Таким образом, мы получим новую элементарную программу {*!(.)> К, О); v’5} , заданную функцией vf)* (dv) (t„^.t < &), которая вне совпадает с vQt(dv), а на Т6 совпадает с v*t(dv). Возьмем в этой новой элементарной программе [/,, &); v^} программное управление (t.^t < #), разрешающее задачу
146
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VI
34.1 для позиции {/,, х.) при выборе как раз новой программы {л(.р	v?.*)}n- Пусть х°* (/) = х (/,/,, х„ т[°*). Согласно лемме
36.1, справедливо условие
J j [s0’ (OF f (t, х°*(/), и, v)vP*(du, dv) = р Q
= f [min [s°*(/)]' f (0 x°*(i), u, u)]v9*(do), J u^P
(37.5)
где s°* — решение дифференциального уравнения
s(0=-k°*(d's(0	(37.6)
при краевом условии
5 ('О) = [dco/dx]^ m*}’	(37.7)
причем
L°' W = J j {<},„. /(**)	(37.8>
P Q	' '
и tn* — какое-нибудь минимизирующее значение из (34.1) при = 0, х = х°*(0'), а мера v’* удовлетворяет равенству
| Я°* (du, dv) = v°‘ (dv) p
(37.9)
при почти всех	(v®* = v® вне Т6 и vj‘ = v; на Т6).
Очевидно, по определению максимизирующей программы Ф)» v(°.)}n и движений х°°(0 и x°*(t) справедливо неравенство
со (6, х°* (6), tn) < со (О, х00 (6), т°).	• (37.10)
Построим теперь еще одно движение x**(t). Это будет движение х“(/) = х (0	х„, порожденное управлением
е {Л,, К.» Ф);	которое вне Т6 будет совпадать с управле-
нием а на Т6 будет совпадать с т[°°. Опять же по определению движения х00(/) и значения tn° получим неравенство со (0, х” (&), tn) со (6, х00 (0), ш°).	(37.11)
Из (37.10) и (37.11) следует в свою очередь неравенство со (0, х°* (O'), tn) со (О, х*' (6), т*).	(37.12)
С другой стороны, управления и\°* и ц”, которые порождают движения х°* (/) и х*’(t), отличаются только на множестве Т^.
ПРАВИЛО МАКСИМИНА
147
$ 371
Отсюда, как и выше в § 33, согласно материалу из § 33, получим
<0 (О, х’* (й); гп) — © (&, х°* (О), т‘) =
= I П (ОГ f (t, (0, «. v)]nr (du, dv) -r6 ₽ c?
— n?* (du, dv)] df + o(n (T6)).	(37.13)
Но вследствие единственности оптимального управления iff и значения m°, при стремлении меры ц(Тб) к нулю, движение х°* (/) будет на отрезке сходиться равномерно к движению х°°(0» значение т* будет стремиться к значению ди°, а решение s(f) уравнения (37.6) при краевом условии (37.7) будет сходиться равномерно к решению уравнения (36.3) при краевом условии
5 ($) = [д(а/дх х00	(37.14)
Но тогда из (37.13) с учетом неравенства (37.3) и равенств (37.4), (37.5) мы получаем оценку
(Ф, х** (ft), m*) — со (О, х°* (ft), т*) =
= J J J S' (/) f (/, X00 (0, и, V) [n-	— Y|0* dv)] +
+ о (|X (T6)) < - xp (T6) + о (|X (T6)),	(37.15)
где s(t)—именно то решение уравнения (36.3), которое фигурирует в условиях леммы 37.1, а символ о(р(Т6)), как обычно, означает бесконечно малую более высокого порядка малости, чем бесконечно малая и(?а)•
Неравенства (37.12) и (37.15) противоречивы. Полученное противоречие и доказывает лемму 37.1.
Итак, мы показали, что оптимальное управление т)^° (^^ < .< О) из регулярной максимизирующей программы [/л, О); v(.)}n Удовлетворяет условию максимина (37.1).
Заметим, что условие регулярности программы [/*, О); v?.))n является существенным для справедливости данного правила максимина. В самом деле, можно привести простые примеры, когда это правило для ненулевого решения s(t) уравнения (36.3) уже выполняться не будет. Такой пример доставляет, например, задача
max min min | х(Ф) — т | = | х00(Ф) — т° | (37.16) {Мл Y)HV)}n
148
ПРОГРАММНЫЕ КОНСТРУКЦИИ
[ГЛ. VI
для движений x(t), являющихся решениями скалярного дифференциального уравнения
x = u + v	(37.17)
при ограничениях
1«|<1, Ы<2	(37.18)
и при выборе множества Л1(^) = [{&, х}: Ф = 1/2, х = — 1 V Vx=l], и начальной позиции {/»,%*} = {0,0}. В самом деле, оптимальные управления v°(/)e[—2,2] и	—1,1] определяются здесь равенствами п°(^) = 0, u00(t) == 1,	= —1,
и эти решения (wfl0 = 1, о0 н= 0) или (и00 == —1, v° = 0), очевидно, условию максимина (37.1) не удовлетворяют, ибо здесь s(t) =—1 или s(t)= 1.
Глава VII
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
§ 38. Регулярная игра сближения. В этой главе описывается метод построения решений позиционной дифференциальной игры сближения 9.1, который базируется на вспомогательных программных конструкциях, изученных в предыдущей главе. В этом параграфе мы начнем выполнение этой программы в том регулярном случае игры сближения в момент ft, когда функция ео(^х, f>) (34.6) оказывается функцией дифференцируемой в области 8о(^, х, Ф) > с, и, стало быть, ее можно будет использовать в качестве функции в(/, х) из теоремы 23.1. Именно, в соответствии с материалом из § 37, для выбранных значений с и р>0 ситуацию для задачи 18.1 при выборе o(x) = p(f>, х) (34.1) назовем регулярной, если для всякой позиции {/*,%*} из области
G = [{/*, xj:	с <	х,, Ф) < с + ₽]	(38.1}
задача 34.2 имеет единственное по существу решение (т. е. решение т)®°	единственное с точностью до значений
на множестве нулевой меры), и значение т00, минимизирующее х, т) в (34.1) при t = Ф илпри x = xoo('Oj, тоже единственно. (Здесь может быть с = —оо или с + Р==°°-) В частности, будем называть игру сближения с множеством 7ИС в момент О регулярной, если задача 34.2 при выборе р(/, х) из условия (34.3) будет иметь единственное по существу решение и точка {$, т00} из Л4С('&), ближайшая к точке {О, х00(О)}, тоже будет единственной, для всякой позиции {/*,х*} из области G (38.1), где р — достаточно малое положительное число. Справедливо утверждение:
Лемма 38.1. Если при выбранных значениях с и £ ситуация для задачи 18.1 при
а (х) = р (О, х) = min со (ft, х, т)	(38.2}
т е М (Ф)
является регулярной, то в области G (38.1) функция ео(^,х, &) (34.6) имеет непрерывные частные производные дг^дх^ (i == 1, ...,«), дго/dt, и эти производные определяются
150
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
(ГЛ. VII
равенствами
[4г]	= [4г	=	... «))	= 5(0,/,), (38.3)
L °х J(f.. X.} I axi	J{/.. X,}
= — max min [s'(О, t,)f (t„ x., u, v)],	(38.4)
\	'{t*t X*}	U€=Q U^P
где s (0, t) — решение дифференциального уравнения
-£- = -L'(t)s	(38.5)
при краевом условии
s^>^=[4r]	•	<38-6>
L ох J{0, х00 (О), т00} причем
^(0= [/Ш}хИЮП?°(й«,^).	(38.7)
V V	'Л \lf
Р Q
Для доказательства этой леммы прежде всего заметим, что из условия регулярности рассматриваемой ситуации вытекает следующее утверждение. Пусть {Z*, хJ — некоторая позиция из области G (38.1) и {№\x(k>} (k = 1,2, ...) — последовательность, сходящаяся к {/*, х*} при fe->oo. Пусть {т]н,	'&), vm, х*)п и
{Л(.)>	Ф);	суть оптимальные максимизирующие
программы из задачи 34.2 для указанных позиций. Тогда при k-+oo функции vff сходятся слабо к функции на любом полуинтервале [/* + 6, ft) (6>0). Если бы это было не так, то мы могли бы выбрать некоторую подпоследовательность (/=Ь---), которая сходилась бы слабо к некоторой функции	< Ф), отличной по существу от меры v, на полу-
интервале [/*, О). Опираясь на результаты из §§ 31—34, тогда было бы нетрудно проверить, что программа (т]н,	О); v(*oj ,
отличная от {т)н [/*, ft); v^)n, также оказывается оптимальной максимизирующей для позиции {/*, х*}. .Но при условиях регулярности позиции {/*, х#} отвечает, очевидно, лишь единственная максимизирующая программа. Полученное противоречие и доказывает слабую сходимость указанной последовательности программ к программе^.), [G О); v?.)}n- Пусть, далееr^Q и	суть оптимальные решения для за-
дачи 34.2 для тех же начальных позиций {/*, х*} и x<ft)}; ди00 и п№ суть значения параметра дп, минимизирующие о(/, х, ди) в (34.1) при t = •& и х = х00('&) и x = x(ft)('&), где -X<ft)(/)— оптимальные движения для задачи 34.2, отвечающие
РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ
15!
§ 38]
начальным позициям {#*>, Тогда точно так же проверяется, что последовательность {лр/} сходится слабо к на любом полуинтервале [/* + б, О') (б>0), последовательность х<й>(0 сходится равномерно к x00(t) на всяком отрезке [/*4-6, О) (б >• 0) и последовательность mW сходится к т°° при k -> сю. Однако отсюда выводится далее, что при условии регулярности решение s(/) = s(O,/) уравнения (48.5) при краевом условии (38.6) зависит непрерывно от позиций {/„ х*} из области G (38.1), так что для любого е>0 можно указать б(в)>0, при котором
II sW(t) — s (/)|| < е (шах (/.,/(*>)</<О),	(38.8)
если только
К —х<*>||<6(8) и |/<*> — /.|<б(е).	(38.9)
При этом оценки (38.8), (38.9) равномерны для всякой ограниченной замкнутой области G* пространства {/, х}, лежащей в области G (38.1).
(Аргумент О в обозначении для s(O, t) =s(t) здесь и ниже в этом параграфе мы будем часто опускать, так как значение О' полагается зафиксированным.)
Теперь можно перейти к вычислению производных дг0]дх1 и dzddt. Начнем с вычисления вектора [<?е0/дх] — {де0/дхг (i=l, 2, ..., п)}. Для этого, задавшись позицией {/*,х*} из области G (38.1), вычислим изменение Де0 функции е°(/, х) при изменении позиции {/*, х*} -> {/„ х*} = {/*, х, + Ах). Вычислим сначала то изменение (Де)*, которое претерпела бы функция «о(/, х, ©), если бы при переходе к новой позиции {/», х*-|-Дх} максимизирующая программа [/,, О); v(’.)}n = {^.р К» Оф х,) не претерпела бы изменения. Иначе говоря, вычислим величину
(Де). = Г min min а (О, х(О, t, х‘, т]. Д, zn)l —
Ч(.)е{Ч(.)}п	V V	Л
— V., х„ О) = а (О', х (О', t„ х’, Т]‘}), т") — е0 (/., х„ О).
Так как ®0(/,, хш, О) ©(0, х(б,х,,	/п’), то из (33.9),
(33.10) выводится, что интересующее нас изменение удовлетворяет неравенству
(А8). со (О’, х (О, t„ х", т](*.>), пГ) — © (О', х (0, t,, х,, т]* J, =
= «•'(0,0 Ах 4-0 (II Дх||).	(38.10/
Здесь s*(О', t) — решение уравнения вида (37.6), (37.8) при краевом условии (37.7), где следует полагать х°* (0 = х(t, t„ х„
152
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. Vlt
и = Из слабой сходимости (нетрудно проверяемой) Я(.) к 'П(°)> равномерной сходимости x(t, t,, х., к x(t,t„, xt, т]°®) и сходимости т* к т°° при Дх->0 следует, что при Дх->0 вектор-функция «*(&, /) сходится равномерно к «(ft, t), где «(О, t) — как раз то решение s(9, t) уравнения (38.5), о котором идет речь в лемме 38.1. Поэтому из (38.10) получаем неравенство:
(Де).>з'(Ф, 0A* + o(|| Дх||).	(38.11)
•Однако, очевидно, для действительного изменения Де0 = е0(/,, х‘, О) — е0(/,, х„ О) справедливо неравенство Де0^(Дё\. Таким образом, из (38.11) следует неравенство
Де0>з'(О, О Дх+ о(|| Дх||).	(38.12)
Однако, вычисляя, напротив, изменение (Де)* функции -е0(/, х, О’) при переходе от позиции {/,, х*| — {/„ х, + Дх| к по; зиции {/,, х,} и считая, что при этом максимизирующая программа [/,, О),	К» <>)• v’.), х*}п не претерпела
изменения, а также учитывая равномерные оценки вида (38.8), (38.9), получим аналогичным образом оценку
(Де)* > s' (#, t,) (- Дх) 4- о (|| Дх ||),	(38.13)
причем теперь е0(/ш, хж, Ф) — e0(Z,, х*, О) = — Де0^(Де)*, т. е, Ае0^ — (Де)*- Стало быть,
Де0<з'(«, ОАх4-о(||Дх||).	(38.14)
Из (38.12) и (38.14) получаем нужное нам равенство
Де0 = з'(<., ^)Дх4-о(ЦДх||).	(38.15)
В условиях (38.10) — (38.15), как и в дальнейших выкладках, символ о (|| Дх ||) обозначает малую более высокого порядка малости, чем бесконечно малая ||Дх||. Важно заметить, что здесь эта оценка о(||Дх||) равномерна по всем достаточно малым значениям ||Дх||. Но из (38.15) и вытекает доказываемое равенство (38.3). Одновременно из (38.8) вытекает и непрерывность частных производных deJdxt—Si (ft, Q (i = 1,..., п).
Вычислим теперь величину deo/dt. Выберем две позиции х.} и {Г, х.) из интересующей нас области G (38.1). Пусть для определенности Г > /«. Рассмотрим оптимальное движение х(/,	х,> л”.0))- При перемещении вдоль этого движения x°°(i),
которое мы можем считать лежащим целиком в области G {38.2), справедлива оценка e0(f, x°°(f), ft) — е0(Г, х„ 0)=о(Г—*^).
§ 38]	7 РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ	15$
В самом деле, переменная 80[/] = е0(/, х®°(/), О), очевидно, убывать не может, ибо если бы в какой-то момент т е [/„, f J оказалось, что е0(т, х°°(т), О) < e0(Z„ х„ О), то это означало бы, что максимизирующая программа [т, О); v{0, х®°(т)}п> отвечающая позиции (т, х°°(т)}, дает для этой позиции значение е0(т, х°0(т), меньшее, чем величина
ех= min р(0, х(0, т, х°°(т), т),.)),	(38.16)
”(•)е {%)}П
где программа = {'П(-)» lT> v?.)> х.)п полУчается из отрезка [т, -©)] программы {г],.), [t> ft); v°t); х,}^, являющейся оптимальной максимизирующей для позиции {/., х.}. Но это невозможно по определению оптимальной максимизирующей программы [т, ft); х°°(т))п.
С другой стороны, пусть [Г, х°°(Г)} — некоторая позиция на оптимальном движении =	t,, xt, t]®^); {г|()( [f, ft),
v*t), х°°(Г)}—оптимальная максимизирующая программа для позиции {/*, x°°(f)};	[/,, О), v^} —составная программа,
складывающаяся из отрезка {г^, R,, 0} максимизирующей программы {Л].)» К» 0)> v®), х.}п и программы [f, ft), v*^ x°°(f )}„. Выберем в составной программе управление i')°*(A,3C/<0’), минимизирующее величину р(0, х(0,	х,, Л(.)))- Этот минимум
обозначим 8ф. Очевидно,
= р (О, х°* (О)) = со (О', х°* (О), tn) < 80 [/J,	(38.17)
где х°*(О) = х(•й, /„ х„ т* — значение параметра т, минимизирующее со (О', х°*(0), т).
Рассмотрим теперь отрезок управления л®’ (Г^/<0’), для которого получаем
со (О, х^, f, x°°(f),	«*)^е0[Г].	(38.18)
Из (38.17), (38.18) получаем оценку
МП-80р.]<
< со (О, х(0, Г, х°° (Г),	т‘) — со (О’, х(0,	х,, т]®*), т*).
Учитывая, что при Г—решения s®*(0, t) уравнений вида (37.6)-(37.8), составленных вдоль движений х°* (/) = х(/, х*’Л(0.*)), сходятся равномерно к решению /) уравнений (37.6) — (37.8), составленному вдоль движения x(t, х*,
154
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VH
в силу (33.10) имеем
«о И’] - е0 [/.] < 5' (<►, Q (*°° (О - х.) -г
— s' (О, О J J J f (t, х°* (/), и, v) л?* (du, dv) dt-\- о (t* — t*). t* P Q
Поскольку программные движения xf>*(t) равномерно сходятся к x°°(Z), то из определения управлений и г)®* (см. § 36, 37) получаем
е
«о[Г] —	/ J / s'№> MU’ *°°(0> «» v)x^(du, dv)dt —
t, Р Q
t*
— | j min [s' (0, t) f (t, x00 (t), u, o)] vj (dv) dt-\- о (f — tt) =
Q P t*
= J j J s'(fl, t)f(t, x°°(Z), u, v)rff(du, dv)dt — t. P Q
t*
— f max min[s'(0, t)f(i, x°°(/), u, v)]dt + o(f— t„)=o(f— t,). * D G Q U <= P
Из доказанного выше неравенства e0[f]— е0[/,]^>0 получаем теперь искомую оценку
е0 (f, х (Г, tt, xt, т]^, О)) — е0 (/„, х„ &) — о (Г —1„). (38.19)
Но в то же время
t*
х(Г, t,, х„ г]*) — х, = J J J f(t, х°°(/), и, v)v^(dt, du)dt, t» р Q
поэтому из (38.3), (37.1) имеем оценку е0(Г, х„ &) — 80(f, х(Г, х„ т)“), $) =
= — s' (a, t.) (х (Г, t„ х„ т$) — х.) + о (Г — tt) =
= —max min s'(О, t,)f(t,, x., и, v)(f — O + °(^’ — Ol V e Q и €= P
учитывая (38.19), получаем теперь, что функция eo(t,x, &) в области G (38.1) имеет непрерывную правую производную
(-^'l = — max min s'(О, i)f(t, x, и, v).
\ Ol /+ v eQ uep
§ ggj	ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ	155
Но отсюда следует, что в каждой точке области G существует частная производная функции ft) по t, которая задается равенством (38.4). Итак, лемма 38.1 доказана.
Заметим, кстати, что из соотношений (38.3), (38.4) для частных производных функции 80(/, х, 'О’) и из условия максимина (37.1) для оптимального управления т$°	вытекает
равенство
т, е. вдоль оптимального движения х°°(/) = х(/, t„ х„, я™) функция е0[/] = 80(4, ft) не только удовлетворяет оценке (38.19), но и остается постоянной.
§ 39. Экстремальное прицеливание. В предыдущем параграфе мы показали, что в регулярной ситуации для задачи 18.1 при выборе о(х) согласно (38.2) функция ео(/, х, ft), определенная равенством (34.6), в области
G = [(f, х): /<ft, с < х, ft)<c + p],	(39.1)
является непрерывно дифференцируемой функцией. Опираясь на равенства (38.3), (38.4), составим выражение
\	J) L J	UL
— s'и, v)— max min s'(ft, t) f(t, x, w, v). (39.2) v<= Q u&P
Из (39.2) немедленно вытекает, что при выполнении условия (12.4) седловой точки для маленькой игры (12.1), (12.2) во всякой позиции {t, х} и при всяком векторе $ в области (39.1) функция so(t,x, ft) будет удовлетворять условию
min max [-^-l f(t, x, и, v) +-^r- = 0.	(39.3)
Это означает, что функция 8о(/, х, ft) удовлетворяет всем условиям (23.1) — (23.4) теоремы 23.1. Отсюда вытекает следующее утверждение.
Теорема 39.1. Пусть выполнено условие (12.4) седловой точки маленькой игры (12.1), (Т2.2) и при выбранных значениях с и р > 0 ситуация для задачи 18.1 при выборе о(х) (38.2), регулярна. Тогда экстремальная стратегия IP н- ц®(4, х), заданная условием
х}-
= min тах([-^-1 f(t, х, и, о)) (39.4) и&Р v е Q их J	/
156
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
в области (39.1) и любой функцией u®(t,x) вне этой области, обеспечивает неравенство
о (х [О]) = р (ft, х [ft]) max (с, е0 (/0, х0, ft)),	(39.5)
если только 80(/0, х0, О) < с + р.
Из этой теоремы сразу вытекают следующие следствия.
Следствие 39.1./7 усть ситуация для задачи сближения с Мс в момент ft регулярна. Тогда экстремальная стратегия IP ч--i- uQc (/, х), заданная условием (39.4) в области G (39.1) и произвольно вне этой области, обеспечивает встречу всех движений x[t] = x\t, t0, х0, £7°] с множеством Мс в момент ft, если только ео(^о, *о, ft) с.
Из этого следствия, кстати, вытекает также, что множество программного поглощения множества Мс в момент ft в рассматриваемом нами регулярном случае является максимальным «-стабильным мостом W(u} для задачи 9.1 о встрече с множеством Alc(ft).
Следствие 39.2. Пусть в условиях задачи 18.1 функция о(х) имеет непрерывные частные производные daldxi (i = 1, ..., ri) в области оо < а(х) < о0, где Oo = infa(x) и o° = supa(x) х	X
(—оо < Xi < оо, i = 1, ..., п), и ситуация для этой задачи регулярна при выборе с = о0 и е + Р = о°. Тогда экстремальная стратегия IP + u®c(t, х)у заданная условием (39.4) в области G (39.1) и произвольно вне этой области, обеспечивает неравенство о (х [ft]) < е0 (/0, Xq, ft),	'	(39.6)
какова бы ни была начальная позиция {/оЛо} (^о ft) и как бы ни действовал второй игрок-противник.
Таким образом, следствие 39.2 показывает, что в случае регулярности ситуации для задачи 18.1 и непрерывной дифференцируемости функции о(х) в условиях этой задачи, роль функции z(t,x} из теоремы 25.1 может исполнять функция г$(1,х, ft), доставляемая решением вспомогательной программной задачи 34.2. Напомним, пользуясь случаем, что сведение задачи вычисления функции е(/, х) из §§ 23—25 к решению вспомогательных программных задач для функций вида vQ(t,x, ft) (34.6) есть по сути дела один из путей интегрирования соответствующего уравнения метода динамического программирования способом характеристик, роль которых и исполняют здесь как раз оптимальные движения %00 (t) = x(t, t*, х*, разрешающие задачу 34.2.
Важно обратить внимание на следующее обстоятельство. Благодаря равенствам (38.3), для определения функции u^(t, х)
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ '
157
§ 39] из условия (39.4) нет необходимости вычислять функцию €о(/, х, &) (34.6) и только затем, дифференцируя 80(/, х, 6j, определять ее производные dzoldXi (i= 1, ..., п), нужные для вычисления управления u — u°(t,x) из равенств (39.4). Мы можем сразу искать эти производные де0/дх, из равенств (38.3). Таким образом, в регулярной ситуации для задачи 18.1 при выборе о(х) (38.2), и в частности — в регулярном случае задачи сближения с множеством Мс в момент &, мы получаем следующую процедуру определения управления и°(1, х).
Пусть реализовалась позиция {<*, xj. Заморозим мысленно эту позицию и решим для нее вспомогательную задачу 34.2. Если окажется, что е0(/*, х», ft) С с или е0(^*, х», &) > с -j- Р, то в качестве м°(/„, х„) можно выбирать любой вектор иеЛ Если же 8о(^, х», •&)е(с, с + Р), то следует вычислить вектор s('&,/*) из условий (38.5) — (38.7) и найти затем вектор	xj из
условия
min max s' (&, t,)f (t„ x„ u, v) =
veQ
= max s'(ft, /.)/(/„ x„ u°(t„ xj, v), (39.7) v s Q
который и определит, стало быть, искомое управление и°(/ж, xj для данной реализовавшейся позиции {/*,%*}. Указанную процедуру построения стратегии IP -ь uQc(t, х) мы будем именовать экстремальным прицеливанием.
Таким образом, для осуществления экстремального прицеливания надлежит уметь по ходу дела в каждой реализующейся позиции {/*, xj = {/*, x|7J} быстро решать вспомогательную задачу 34.2, где уже переменная t будет играть роль воображаемого времени, быстротекущего в соответствующем вычислительном устройстве. После определения вектора «(д, t*) из условий (38.5) — (38.7) надлежит определять вектор xj из условия (39.7) и подавать на управляемую систему воздействие и [<J = ==wcG<l, = x[fj). Осуществление этого способа управления исходит, стало быть, из той предпосылки, что имеется возможность по ходу дела столь быстрого решения вспомогательной задачи 34.2, точнее говоря, — хотя бы столь быстрого вычисления s('0>, /*) и затем ц^(^, x[/J), при котором реально текущее время t* и реализующееся на деле фазовое состояние х[Ц успевали бы измениться достаточно мало.
В описанной идеальной схеме экстремального прицеливания предполагается, что весь процесс решения вспомогательной задачи 34.2 от момента замера позиции {/*, х*} = {/*, x[f*]} до момента подачи воздействия и [ZJ = и® (/й, х [/J) на систему
158
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VIT
осуществляется мгновенно. Разумеется, на практике, какими бы быстродействующими ни были соответствующие вычислительные устройства, решение вспомогательной задачи требует некоторого времени AZ*. Таким образом, на практике, осуществляя экстремальное прицеливание, мы будем вводить в момент Z* + AZ* управляющее воздействие и [Z* + AZJ = иР (t*, x[Zj), отвечающее позиции {/*,х[/*]}, которая была реализована раньше — в момент Z*. Иначе говоря, регулятор, осуществляющий управление u — u^t*, x[Zj), будет неизбежно запаздывать с подачей воздействия и [Zj = uQc (Z#, х [ZJ). Предполагая, что решать вспомогательные задачи 34.2 удается достаточно быстро, можно полагать величину запаздывания- AZ* достаточно малой. Но тогда возникает вопрос об устойчивости результата игры сближения при экстремальном прицеливании по отношению к малому запаздыванию AZ* подачи на систему управляющего воздействия u=u^c(t^ x[Zj)r Ответ на этот вопрос будет дан ниже в главах IX, X.
Решение вспомогательной задачи 34.2 является, вообще говоря, нелегким делом. При этом основную роль должно играть условие максимина (37.1), которое характеризует искомое оптимальное управление т^0 (Z* Z < Ф) и порождаемое им оптимальное движение x°°(Z) = x(Z, Z*, ха, т)^). Это условие доставляет, таким образом, определенную информацию, которая помогает решать вспомогательные задачи 34.2. Однако, как и в случаях решения обыкновенных программных задач оптимального управления только на максимум или минимум какого-либо функционала на основе известных критериев оптимальности типа принципа максимума, и здесь в общем нелинейном случае при использовании правила максимина (37.1) еще остается много трудностей с подбором такого краевого условия $ ('&,'&) для вектора s(ft, Z) (Z* t Ф), которое отвечало бы для каждого момента реально текущего времени Z* реализовавшейся в этот момент позиции {Z*, xj = {Z*,x[Z*]}. Разумеется, в случае макси-минной программной задачи 34.2 эти трудности по сравнению с программными задачами оптимального управления только на максимум или минимум лишь усугубляются. Кроме того, конечно, в общем случае составляет трудность и проверка условий регулярности. Положение упрощается, однако, в случае линейного уравнения (6.1), который мы и рассмотрим в следующем параграфе.
Остается еще сказать о том, как следует строить рассуждения из §§ 35—39, если не использовать понятие программного управления x\t (Z^ZCft), программного движения x(Z, Z*,x*, г](.)) и программы {т)(.)}п, а оставаться в рамках конструктивных программных движений x[Z, Z*, V-г n(Z)] и стратегий-программ
40]	ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ СИСТЕМЕ	159
В этом случае все конструкции из §§ 35—39 надлежит трактовать в форме пределов путем перехода от аналогичных построений для ломаных Эйлера хд [t t*. х*, V 4- v(t), u[-]], когда отвечающий этим ломаным шаг разбиения Д стремится к нулю. При этом, в частности, условие регулярности из § 38 превращается в такое условие, которое требует, чтобы для позиций {/*, х*} из соответствующих областей G (38.1) все решения t) дифференциальных уравнений, являющихся аналогами уравнения (38.5) и составленных вдоль ломаных Эйлера Хд t*> х*, V 4- v(t), и [•]], сходящихся к оптимальному макси-минному движению х00И, сходились бы к одной и той же век-тор-функции s('ft, /). Тогда выводы § 39 остаются для такого регулярного случая в силе.
Изучение указанных предельных переходов не является трудным в принципе, но требует рассмотрения деталей, от которых и освобождает введение программных движений х(/,£*, хж,т](.)), программных управлений-мер ф (/* t < ft) и программ {т]( )}п, замыкающих, как мы видели в §§ 34—38, нужные вспомогательные программные конструкции. Тем самььм мы и освобождаемся от необходимости просматривать^ предельные переходы.
§ 40. Экстремальное прицеливание в линейной системе. В этом параграфе мы обсудим построение стратегии LP ч- х), осуществляющей экстремальное прицеливание в случае управляемой системы (6.1), которая описывается линейным уравнением
х = A (t) х + В (0 и + С (0 v + Иt].	(40.1)
Здесь A(t), B(t) и C(t) tQ) суть непрерывные матрицы-функции соответствующих размерностей, /[/] — известная интегрируемая вектор-функция, а управления и и и стеснены обычными включениями
и е Р, v е Q,	(40.2)
где Р и Q — суть ограниченные замкнутые множества. Для того чтобы получить явные выражения для величины 8о(/*, х*, О’) (34.6), ограничимся случаем задачи сближения с множеством Мс в момент О, когда множество А1С(О) есть множество выпуклое. Тогда удается продвинуться довольно далеко в решении задачи о вычислении вектора s(O,/*) (38.5) — (38.7), который играет определяющую роль при построении х) по правилу экстремального прицеливания (39.7).
Будем предполагать, что в данной нам задаче 9.1 о сближении с множеством Мс в момент О требуется привести в желаемое состояние, характеризуемое множеством Л4С('&), только какие-то w координат n-мерного фазового вектора х[-&], а значения,
160
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
которые примут при этом остальные (п — т) координат, никакой роли не играют. Это означает, что множество Мс('&) в таком случае следует полагать цилиндрическим в направлении осей указанных несущественных (п — т) координат. Разумеется, при этом мы никак не исключаем случай т = п.
Для теоретических рассуждений удобно выполнить одно неособое линейное преобразование над фазовым вектором х. Именно, введем новый фазовый вектор х*, который связан с вектором х равенством
х* = ЛГ(й, /)х,	(40.3)
где матрица-функция Х(т, /) есть фундаментальная матрица решений однородного дифференциального уравнения
-g- = A(t)x	(40.4)
и является, стало быть, решением матричного дифференциального уравнения ([21*], стр. 170)
^^- = -X(x,i)A(t),	(40.5)
удовлетворяя при этом краевому условию
Л(т, х) = Е,	(40.6)
где Е есть единичная матрица.
В новых переменных дифференциальное уравнение (40.1) примет вид
х=-Х(®, t)A(i)x + X(G, t)[A(t)x + B(t)u + C(t)v + f[t]] = = X(fl, t)B(t)u + X($, t)C(t)v +
+ X^,t)f[t] = u- + v' + f[t], (40.7)
где, стало быть, согласно (40.2), управления и* и v* стеснены включениями
и’ е Р' (/), v* е Q* (t),	(40.8)
причем P*(t) — Х($, t)B(i)P и Q*(t) == Х($, t)C(t)Q. При этом вследствие краевого условия (40.6) условие встречи в момент О останется в прежней форме:
{О, х*[О]} еМДО).	(40.9)
Наконец, изменив, если надо, нумерацию координат у вектора х*, мы всегда можем полагать, что интересующие нас существенные координаты Ху [&], которые определяют встречу по условию (40.9), суть первые т координат х][О] (г = 1, .... т).
§40]‘
ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ СИСТЕМЕ
161
Но тогда остальные п — т координат x*k[/] (k — т + 1, ..., п) вектора х*И в уравнении (40.7) можно просто игнорировать, ибо в дальнейшем изложении они никакой роли играть не будут. Таким образом, можно составить новые m-мерные векторы {х*}т, {и*}т, {^*}т и складывающиеся из первых т координат векторов х*, и*, v*, f*, и, переобозначив эти m-мерные векторы снова привычными символами х, и, v и f, получим задачу 9.1 о сближении в момент О уже для новой системы, описываемой m-мерным векторным дифференциальным уравнением
х = « + о + Ш]	(40.10)
при ограничениях
и ogQ(1),	(40.11)
где P(t) и Q(t) суть ограниченные и замкнутые множества в /тг-мерных векторных пространствах {«} и {и}, которые изменяются непрерывно с изменением времени t. Эти множества P(t) и Q(t), очевидно, являются проекциями множеств P*(t) и Q*(0 (40.8) на подпространство первых т координат в векторных пространствах {и*} и {и*}. Иначе говоря, P(t) и Q(t) — это те множества, которые пробегают векторы и = {и*}т и v = {v*}m, когда векторы и* и v* пробегают множества P*(t) и Q*(t) соответственно. Обозначив, далее, проекцию цилиндрического множества Afc('ft) в пространство {х*}т символом {Afc(i9j}m, запишем нужное нам условие встречи
х[й, ta, хй, [/] е= {Л4е(Ф))т.	(40.12)
Итак, для решения исходной проблемы сближения нам достаточно уметь решать следующую задачу.
Задача 40.1. Требуется найти стратегию Uc -г- uc(t, еР(/), которая обеспечивает встречу (40.12) для всех движений x[t, xQ, Uc] системы (40.10) при любых действиях противника, стесненных вторым условием (40.11).
Прежде чем переходить к исследованию задачи 40.1, мы оговорим еще одно условие на множество {Afc(‘O)}rn. Полагая это множество замкнутым и выпуклым, как сказано выше, примем еще здесь, что это множество является и ограничен-н ы м. Это последнее условие уже совсем не сужает как-либо исходную постановку той или иной прикладной задачи, где ограниченность множества {Afc('0’)}m может и не предполагаться. В самом деле, начальные позиции {/0, *о}, которые могут нас интересовать, мы предполагаем известными и лежащими в какой-то ограниченной области G пространства {/,%}. (Напомним, что
6 Н. Н. Красовский, А. И. Субботин
162
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
в нашей постановке задачи начальная позиция {tQ, xQ} вообще полагается зафиксированной.) Но тогда движения х[/] системы (40.10) при ограничениях (40.11) могут достигать к моменту ft лишь какой-то ограниченной части множества {2Wc(ft)}m, условие встречи с которой мы и можем ввести в условие задачи 40.1, хотя первоначальное формализованное описание цели игры для первого игрока-союзника может давать и неограниченное целевое множество {Afc(ft)}m.
Обсудим решение задачи 40.1 методом экстремального прицеливания. Пусть символы Pi(/4, ft, /), p2G*> 'О’, Рм(0 и р(,г, {Мс(ft)}т) обозначают величины
о
Pi (/*, О’, Z)= f ( min l'u) dt,	(40.13)
/ ме=Р (t) ь*
p^(i,,	0 = f ( max l'v)dt,	(40.14)
£ .V Е Q (0
Рм(0 = min l'q,	(40.15)
р(х, {AW))m)= min ||x —fl||.
?e(Alcmjn
Тогда справедливо следующее утверждение.
Лемма 40.1. Пусть в задаче 34.2 для системы (40.10), (40.11) р('О, х) = р(х, {Afc(O’)}m) + с. Тогда величина ео(/»,х*, 4) (34.6) определяется равенством
«о (t.> *.» Ф) = max l'x. + Pi (i.> '0> T) + Ш=11
» 1
+ P2(*., O, 0 + Pm (/) + J l'f \f\dt + c, (40.16)
если правая часть этого равенства больше с, иначе e0(t*, ха, ft)=c.
Проверим справедливость леммы 40.1, не углубляясь, однако, в доскональное обсуждение деталей доказательства, которые пример как таковые, а оттеним только основные моменты рас-суждений. Прежде всего, вспоминая пример, который был приведен в § 31, учтем, что задача 34.2 в данном случае может быть сформулирована следующим образом.
Задача 40.2. Дана начальная позиция {t*, XJ и отрезок времени [Z#, ft]. Требуется найти максиминные оптимальные про* граммные управления vQ(t) и ц°(/), которые удовлетворяют
§ 40]
ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ СИСТЕМЕ
163
следующему условию:
р(х(О, ««(•), tr°( • », {ЛМО)к) =
= min р (х (а, 0, х„ и ( •), и0 ( •)), [Л0 (•&)}„;) = «(•)
₽ max min р (х (О', t,, х„, »(•> «(•>
и(•). «(•))> {А0(О))от) = е0(0, х„, 0) — с.
(40.17}
При этом под программными управлениями u(t) и v(t) (041Z<O) здесь надлежит понимать любые интегрируемые по Лебегу ([9*], стр. 290) функции u(t) и v(t), удовлетворяющие при почти всех значениях t включениям
«(0еР(0,	(40.18}
где P(t) и <5(0 суть выпуклые оболочки множеств P(t) и Q(0; под программным движением x(t, t*, х„ и (•), v (•)) следует понимать абсолютно непрерывное решение уравнения (40.10), где и = u(t) и v = v(t) суть какие-либо программные управления u(t) и v{t). Программу второго игрока определит тогда выбор им какого-либо программного управления v — = v*(t) (0 t < &), и эта программа составится из всевозможных пар {ц*(0, и(0}, которые получатся при переборе всех возможных программных управлений u(t) первого игрока.
Для вывода равенства (40.16) выберем какое-либо программное управление v = v*(t) второго игрока. Множество программных движений х(0 = х(0 0,х», «(•),&*(•)), которое получится при переборе всех программных управлений u(t), определит некоторую область достижимости 0(0, х», ft, п*(-)), складывающуюся из точек х = х(О, 0, х„ «(•), и*(-)). Эта область достижимости является ограниченным, выпуклым и замкнутым множеством (см., например, [11*], стр. 39). Очевидно, величина е0(0, х«, &)—с (40.17) не меньше, чем минимум расстояния р(х, {Л4с(Ф)}т) от точек х из области 0(0, х„ О, ц*(-)) до множества {Л4с(6')}т при всяком выборе v*(t) (0^/<6'), и эта величина ео(0, х», О) в точности равна максимуму минимума указанного расстояния по всем возможным программным управлениям v*(t) (0 t < О).
Область достижимости 0(0, х», О, v*(-)), как всякое ограниченное выпуклое замкнутое множество, является пересечением своих опорных полупространств ([8*], стр. 781) П#(G, /) (рис. 40.1), каждое из которых определяется ортогональным внутренним к нему единичным вектором I в соответствии с условиями
П,(О,/) = [х: Z'x> min/'x].	(40.19)
x^G
6*
164
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
Так как согласно уравнению (40.10) точки х = %('&) из области достижимости G (t*, х*, ft, и*( •)) удовлетворяет равенству
о
х(Ф) = х,+|(и(0 + »’(0 + Ш1М, (40.20)
то точка х принадлежит полупространству (40.19) тогда и только тогда, когда для нее выполняется условие
- ft	-1	ft
min [ l'u(t)dt + f Z'(t/* (/) + f [/])чЛ==
(0 L/	J
ft	ft
= Z'x + [ min (l'u)dt + f Z'(a*(/) + f[t])dt = ue=P(t)	£
ft
= /4 + Pi(C V, 0+ J l'(v'(t) + flt])dt. (40.21) t*
Аналогичным образом, ограниченное, выпуклое и замкнутое множество {МД#)}™ также является пересечением своих опорных
Рис. 40.1.	Рис. 40.2.
полупространств П*({Л4с(Ф)}т, Z) (рис. 40.2), каждое из которых определяется ортогональным внешним к нему единичным вектором I в соответствии с условиями
П‘((Л1с(#))т>/) = [х: Z'x< max l'q].
Иначе говоря, точка х лежит в П*({ЛЦ, I) тогда и только тогда, когда выполняется неравенство
Гх — min l'q = — pM (Z).	(40.22)
§ 40]
ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ СИСТЕМЕ
165
Очевидно, интересующее нас расстояние между ближайшими точками из G и {Л1С (О) }т не меньше, чем расстояние между полупространствами II*(G, I) и П*({Л4с(О)}т,/) при всяком выборе I. Более того, опираясь на известные результаты выпуклого анализа ([3*], стр. 175), можно проверить, что это расстояние в точности равно максимуму £° по I расстояния t,(l) между полупространствами II#(G, /) и П’(Я(0)]т, /) (рис. 40.3). Но расстояние £(/) между полупространствами (40.21) и (40.22), очевидно, изображается равенством £ (/) = max (0, l'xt +
t, +	+	(40.23)
Таким образом, из (40.23) вытекает следующее равенство («• \
1'х, + р1 (/., •&,/)+ [ I' (V* (/) + f [/]) dt + рм (I) I, t	J
(40.24)
если величина, стоящая в правой части этого равенства, положительна, иначе £° — 0. Итак, из (40.24) при условии €о(/*, х*, О’) > с имеем
Ш, хА, О)= max max (l'x + Pi (^, О, I) +
«•(OsQ(f) и 111=1 о	о
+ / I'v* (t) dt+ J I'f [/] dt + PM (/)) + c.
Две операции взятия максимума в последнем равенстве мы можем переставить. Тогда и получим равенство (40.16). Тем самым лемма 40.1 доказана.
Пусть позиция {/*, х*} такова, что 8о(/*, х*, О) > с, и пусть ^°(^, к*, О) — множество единичных векторов /°, на которых достигается максимум в правой части равенства (40.16). Из пре« Дьщущих рассуждений вытекает, что эти векторы имеют еле-
166
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
(ГЛ. VII
дующий геометрический смысл: всякому вектору /°е£°(/*,х.,^) отвечает по крайней мере одна максимизирующая программа {v°(-), «(•)} и в ней по крайней мере одно оптимальное программное управление u°(t)	<&), порождающее про-
граммное движение x00(t) = x(t, t*, х,, u°(-), у°(-)), такое, что вектор (х00('&)—/п00)/||х00('&)—т00|| (38.6) совпадает с вектором /° (рис. 40.4). Далее получается, что вектор-функция
^0) (38.5) — (38.7) в данном случае является решением дифференциального уравнения
-g_=_£'(/)s==0	(40.25}
при краевом условии
s(ft, ft) = Z°.	(40.26)
Условие максимина (37.1) превращается в данном случае в условия
s'uQ(t)= min s'u,	(40.27)
ue=P(t)
s'vQ (/) == max s'v,	(40.28)
v s Q (t)
где
s==s(«, = ft). (40.29)
Итак, мы видим, что решение задачи 40.1 о сближении с множеством {Afc(ft)}m для линейной системы (40.10) при ограничениях (40.11) по правилу экстремального прицеливания сводится к решению вспомогательных задач на обычный максимум (40.16). При этом и проверка условий регулярности игры, которые указаны в § 38, также может быть выполнена путем исследования решения вспомогательной задачи (40.16). В самом деле, согласно предыдущему, ситуация для задачи 40.1 будет регулярной в смысле условий из § 38 тогда и только тогда, когда при условии 8о(^*, ft) > с максимум в (40.16) достигается на единственном векторе /° и когда существует лишь единственная (по существу) пара управлений {и°(-)> у°(*)} (u°(/)^P(Z), у°(/)е^(/)), удовлетворяющая условиям (40.27) и (40.28). В свою очередь, при этом условии регулярности для определения экстремального управления ^(Z*, xj, разрешающего позиционную игровую задачу 40.1, надлежит разрешить для реализовавшейся позиции {Z*, х*} — {Z*, х [tJ} вспомогательную задачу (40.16). Если окажется, что 80 (£*,**, ft) = с, то можно выбрать в качестве h°(G **) любой вектор
Если же 8о(^*, х*, ft)>c, то следует определять вектор
л ...	РЕГУЛЯРНАЯ ЛИНЕЙНАЯ ИГРА СБЛИЖЕНИЯ	1А7
4^ 4 I j	i vf f
„’(/„xJePW ИЗ условия
х,) = min s'u,	(40.30)
где вектор $ определен равенством (40.29).
Таким образом, мы видим, что для задачи 40.1 проблема синтеза управления и по принципу обратной связи в форме стратегии Uc + Uc(t,x) экстремального прицеливания в рассматриваемом регулярном случае сводится к серии вспомогательных задач (40.16). Эти вспомогательные задачи должны решайся все время по ходу реального процесса управления для последовательно реализующихся в нем позиций {t*, х*} = == G*,x [/*]}, которые будут получаться с изменением времени t* Это время играет, таким образом, роль действительного времени, а переменная t s [G, '&], фигурирующая во вспомогательных конструкциях (40.13), (40.14) из вспомогательных задач (40.16), будет тогда играть роль воображаемого времени.
§ 41. Регулярная игра сближения в линейной системе. В этом параграфе мы продолжим обсуждение задачи 40.1 о сближении с множеством Мс(й) для линейной системы (40.1). При этом будет показано, что условие регулярности, сформулированное в § 38 в общем случае для системы (6.1) и перенесенное в § 40 без всякого изменения на случай линейной системы (40.1), можно в рассматриваемом линейном случае несколько ослабить без разрушения свойства дифференцируемости функции 80(^,х, ft) в области 8о(^, х, О) > г и без нарушения работоспособности способа экстремального прицеливания. Это ослабление условий регулярности определяется следующими простыми соображениями. Из рассуждений в §§ 38—40, относящихся к способу экстремального прицеливания, ясно, что для его работоспособности не столь важно, чтобы из данной позиции {/*, х*} выходило одно оптимальное движение x°°(Z) = x(f, х*, т]^), являющееся решением вспомогательной задачи 34.2, сколь важно, чтобы для всех таких движений х00(/) = х(/, /*, хш, я™) были одинаковыми значения вектора s('0i, U), фигурирующего в условиях (39.7), определяющих экстремальное управление £/%(/*, х*) в позиции {/*, х*}. Поскольку в линейном случае при выпуклом множестве A4c(f>) согласно материалу из предыдущего параграфа все векторы 5 (Ф, t*) суть не что иное, как все векторы /°, максимизирующие правую часть (40.16) при 8о(/*, х#, -ft) > с, то оказывается естественным в рассматриваемом линейном случае свести условие регулярности именно к условию единственности вектора /°, максимизирующего (40.16) при условии ||/||= 1.
168
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
Итак, будем говорить^ что в случае ограниченного выпуклого множества {Мс(^)}т ситуация для задачи 40.1 регулярна, если для всякой позиции {/*, х*}, в которой 8о(/*, **, О’) > г, максимум в правой части (40.16) достигается на единственном векторе /°, В свою очередь условием этой единственности максимизирующего вектора /° является выпуклость ([8*], стр. 788) по I функции
О, /) = -[Р1(С О, /) + р2(/., О, /) + рм(/)1, (41.1) ибо справедливо следующее утверждение, которое мы примем без доказательства.
Лемма 41.1. При условии 8о (/*,**, О) > с максимум в правой части (40.16) достигается всякий раз на единственном единичном векторе /°(/*, х*, Ф) тогда и только тогда, когда при всех t* е [/о, О] функция х(/*, О, /) (41.1) выпукла по I.
Стало быть, ситуация для задачи 40.1 регулярна тогда и только тогда, когда функция х (41.1) выпукла по /.
Таким образом, мы приходим к следующей теореме.
Теорема 41.1. Пусть при всех значениях 0-] функ-ция х(/*, O’, I) (41.1) выпукла по /. Тогда экстремальная стратегия UQC -* Uc(tf х), определенная при 8о(/*, х*, ft) > с условием
I0' (/*, хж, 0)иЧ^, хЛ)— min Z°z(t> **,	(41.2)
ue=P(t)
где	есть максимизирующий вектор из (40.16) для по-
зиции {/*, х*}, а при 8o(Z*, х*,О) = с определенная любым вектором uQc(t*, х*) P(tj9 обеспечивает встречу всех движений x[f, t0, xQ t7°] системы (40.10) с множеством {Afc(O)}m, т. е. разрешает задачу 40.1, если только 8o(Zo, х0, #) =
Для доказательства теоремы достаточно, повторяя с очевидными изменениями рассуждения из §§ 38, 39, проверить, что при условии выпуклости функции х (41.1) по /, т. е. при условии единственности вектора s(O, /*) = /°(/», х*, О), функция 8о(/*, х*, О) в области 8o(Z*, **, О) > с, t* < О, остается функцией, непрерывно дифференцируемой по Z*, х# и ее частные производные определяются равенствами (38.3), (38.4). После этого справедливость теоремы 41.1, как и справедливость теоремы 39.1, вытекает из теоремы 23.1. Однако теорему 41.1 можно доказать и более прямым путем,, если воспользоваться сразу выражением (40.16) для функции 80(/*, **, $) и, опираясь на непрерывность максимизирующего вектора /°, вытекающую из его единственности, непосредственно проверить, что функция 8o(Z*, х*, Ф) в области 8o(Z*, х*, Ф) > с действительно имеет непрерывные частные производные по х* и Z*, определенные равенствами (38.3), (38.4)>
$ 41]
РЕГУЛЯРНАЯ ЛИНЕЙНАЯ ИГРА СБЛИЖЕНИЯ
169
Но можно, если не заботиться о дифференцируемости функции €о(/, х, А), убедиться в справедливости теоремы (41.1) совсем быстро, исходя прямо из условий (41.2) и из определения движения x[t] — x[t, tOf х0, С/с]как предела для последовательности ломаных Эйлера хд[/] = хд[t, /0, х0, UQc, •]]. В самом деле, рассмотрим какую-нибудь ломаную Эйлера Хд[/], порожденную разбиением А оси t с достаточно малым шагом supf (tz +1 — т^) = = 6. Пусть на этой ломаной Эйлера хд[/] реализовалась позиция {Тг, Хд [тг]}, такая, чтое0(т., xa[tz], fl) > С + 8 (в > 0), и по сравнению с величиной 8 > 0 шаг б данной ломаной Хд {/] настолько мал, что весь отрезок хд [/] (тг- t тг+1) лежит в области 8o(t *, А) > Для изменения величины eo(t Хд [/], fl) вдоль
[/] = хд f0, Хо, IF, у[ •]] получаем из (40.16) с учетом уравнения (40.10) и равенств (40.13), (40.14) следующую оценку: ®o(Ti + l> К + 11’ ^)“ео(ТР *д[ТЛ *)<
Tt + 1
<Z°' / («Дтр *дЫ) +
Tz
Ti + 1	+ 1
— [ ( min l°'u)dt— [ ( max l°'v)dt, (41.3) ’ и €= P (t)	J veQ (f)
xi	xi
где /° = /о(тг + Р хд[т£ + 1], О).
Вследствие единственности максимизирующего вектора Р' он изменяется непрерывно с изменением позиции {/*, xj, но тогда и величина минимума min с изменением позиции {t*, х J и е= р (О
и t тоже будет меняться непрерывно. Отсюда и из условия (41.2) заключаем, что оценку (41.3) можно переписать в следующем виде:
8о(т,+Р *д[т/+1]. О) — ео(тр *д[т<]-	—т/)- (41-4)
И эта оценка (41.4) будет равномерной в точках80(тр хд[т.], А)> > с + 8 (8 > 0) по всем возможным ломаным Эйлера хд[*> ^о> хо’ ’ ]]• Из оценки (41.4) вытекает, что функция €o(^,x[/],fl) не возрастает вдоль всякого движения х|7] = = х [/, /0, х0, Z/о] при всех /0 С / С А. А это при условии £о(^о, х0, А) = с и доказывает теорему 41.1.
Заканчивая обсуждение регулярного случая задачи 40.1, надлежит сказать, что при решении той или иной конкретной задачи 9.1 о сближении с выпуклым множеством Л4С(А) в
170
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
(ГЛ. VII
момент О для линейной системы (40.1) при ограничениях (40.2) г разумеется, нет необходимости проделывать все те преобразования, которые привели нас к задаче 40.1 для системы (40.10) при ограничениях (40.11). Эти преобразования были полезны для теоретических рассуждений, так как они упрощают основные соотношения, определяющие функцию ео(^*, **,О) и вектор s(O, /*). В конкретных задачах удобнее работать с исходной системой (40.1). Для этого следует возвратиться к записи результатов в исходных переменных. Приведем эту запись.
Примем для определенности, в соответствии с предыдущими выкладками, что для исходной системы (40.1), (40.2) условие встречи с множеством Мс в момент $ имеет вид
U[O]U^{^(O)U,	(41.5)
где символ {х(/]}т обозначает вектор, составленный из первых т координат фазового вектора х[(] этой системы (40.1). Тогда выражение (40.16) для величины ео(^*, #*, О), где х*— фазовый вектор системы (40.10), перейдет в следующее выражение для величины со(£*,**, О) где х*— уже вектор из фазового пространства исходной системы (40.1):
е0(С -Ч, ft) = max I Г {X (О’, О х*}т + pi (/,, О, /) +
Il i ii=i \
о	\
+р2а., <>,о+	(41.6)
причем теперь уже величины рь р2 и рм будут изображаться равенствами
о
Р1(/ж, е, l) = f min (1'{Х (О,	(41.7)
о
Р2(С ft> 0= f max(/'{Х(О, t)C (t)v}m)dt, (41.8) J G= Q t*
min l'q,	(41.9)
и символ X (т, t) обозначает фундаментальную матрицу решений однородного уравнения
> = Л(т)х.
(41.10)
(41.13)
(41.14)
42]	РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ О	171
Вектор s(t) = s('&, t), определяемый согласно (38.5) — (38.7)' как решение уравнения
4г- = -Л'(0«(0	(41.11)
при краевом условии
s (О 'ft) = - х°°	m°°	/41 12)
II х°о (ф) -/и00 II ’	(41.12)
задается здесь равенством
s(«, О’Г(», QI'0, где n-мерный вектор Г° определяется равенством
Г° = [/011 т L О J} п — т'
причем /° есть m-мерный максимизирующий вектор из условия (41.6), а символ {<?}т всюду обозначает вектор, составленный из первых т координат вектора q. Наконец, экстремальное управление u°(t„, xj в позиции, где е0(/», х*, Oj > с, определяется стандартным условием
$'(<>, QB(Qu°c(Q x.) = mins'(O, QB (Qu. (41.15) u e p
§ 42. Регулярная игра сближения к моменту Ф. В этом параграфе мы распространим построение стратегии экстремального прицеливания lfc-i-u0(t, х) на случай задачи сближения с множеством Мс к моменту ft. Для этого потребуется определение регулярности такой задачи. Для введения этого понятия и для построения стратегии U°c + u°(t, х) обратимся сначала к следующей вспомогательной задаче на минимум программного максимина. Пусть со(/, х, т) опять, как и в § 34, есть непрерывная функция от позиции {/, х) и параметра tn, имеющая непрерывные частные производные dmldxi (i = 1...п) в той обла-
сти пространства {/, х, пг}, где с <_ ©(/, х, т) < с-J- Р; переменная t меняется в пределах отрезка [/0, <>]; параметр т меняется при всяком значении t в пределах ограниченного замкнутого множества M(t), причем множества M(t) определены при всех t е [/0, и изменяются непрерывно (в хаусдорфовой метрике) с изменением t. Как и в § 34, определим величину p(f, х) равенством (34.1). Сформулируем следующую вспомогательную задачу.
Задача 42.1. Дана начальная позиция {/., х„} (Zo^A.^'fr). Требуется найти минимизирующий момент т0 е [/„ О], максимизирующую программу = {^(.р [^> ^о)’ v(1.)’ дЧп и в не&
172
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VH
минимизирующее управление удовлетворяющие следующим условиям:
min 80(^, х„, т) = 80(/ж, хл, т0) = 80(/ж, хл), т<= [fa, 0}
Р(Т0> *(Т0>	*•’ С)))в min Р(Т0« Х(Т0’ <> *•> 4.)) =
”(-)е
— max min р(т0, х(т0, t*, х*, и.Л) = s0(/a, xj. (42.1) {^•)}n ^-)s {V)}n
Такая задача обязательно имеет решение, так как при условии непрерывной зависимости Af(Z) от t величина 8о(/*, **, т) оказывается непрерывной функцией и от переменной т. Это утверждение проверяется рассуждениями, подобными тем, какие были приведены в § 35, где была доказана непрерывность 8о(^*, **, ft) по {t*, х*}. Поэтому здесь такие рассуждения мы опустим. Будем говорить, что ситуация является вполне регулярной в области
G = [{C	с < 80(^,.xJ < с + Р] (₽ > 0), (42.2)
если для всякой начальной позиции {t*, х*} из этой области единственны минимизирующий момент т0, оптимальное минимизирующее управление и минимизирующее значение парамет* pa т00, удовлетворяющее условию (34.1) при t = то и х = = хоо(то).
Из результатов § 37 вытекает, что во вполне регулярной ситуации для начальной позиции {£*, из области G (42.2) оптимальное управление	< т0) удовлетворяет при почти всех
То] условию максимина:
| [ s'(t0, /)/(/, х00(0, и9 v)vPtQ(du, dv) = р Q
= maxmin s'(t0,	х°°(/)> a, v), (42.3)
V e Q U €E P
где вектор-функция s (to, t) является решением дифференциального уравнения
% = -L'(t)s	(42.4)
при краевом условии
$ (т0. То) = Г-^-1	,	(42.5)
L OX J{Tn>	mt0j
жричем
<42-6>
§ 42]
РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ О
173
Далее, повторяя с незначительными изменениями рассуждения из § 38, можно убедиться, что в каждой позиции {^, х*} из области (42.2) при < т0 во вполне регулярное ситуации функция eo(tx) имеет непрерывные частные производные deoldXi, deoldt, которые определяются равенствами
IM « , Н ^7 (; “ 1.........»)}	- S (т„. О. (42.?)
Г^г] ~~ maxmin s'(t0, tjf(t„ х. и, v).
L Ul	vsQu^P
Но отсюда в свою очередь следует, что функция eo(f*, х*) в каждой позиции {£», х»} из области G (42.3) при < т0 удовлетво-ряет условию
max min ([4^-1 f(t, х, и, п) + -^-) = 0,	(42.8)
v е Q и е Р \ L ох J	>
из которого, аналогично теореме 23.1, вытекает справедливость следующего утверждения.
Теорема 42.1. Пусть ситуация является вполне регулярной и в каждой позиции {/*, xj (^-^О) из области G (42.2) выпол-нено условие (12.4) седловой точки маленькой игры (12.1), (12.2). Если в начальной позиции {t0, х0} имеем ео(4, Хо) = е <= е [с, с + Р), то экстремальная стратегия U°c 4- и“ (/, х), которая в области G (42.2) при t* <_ то определена условиями
тахз'(т0, х., u°c(t„ х.), v) =
= min тахз'(т0, tj f (/., x,, u, v), (42.9) uefoeQ
а во всех других позициях—произвольным вектором ийс (f., xj е Рг обеспечивает для всех движений х[/] = х[/, to, хо, t/°] результат
min р(/, х[/, /0, х0, t/°])<e.	(42.10)
/о I ‘О'
Возвратимся к задаче 9.1 о сближении с множеством Л4С к моменту О. В этом случае функцию со (t, х, т) и множество М (t) надлежит выбрать в виде
©(/, х, т) = ||х— т||4-с,	(42.11)
Л1(0 = [х: (/, х} <= Л4С],	(42.12)
причем множества M(t) теперь должны изменяться непрерывно с изменением t. Тогда предыдущие результаты принимают следующую форму.
Будем говорить, что ситуация для задачи сближения с Мс к моменту О' вполне регулярна, если в задаче 42.1 при выборе
174
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
<о(/, х, т) (42.11) для всякой начальной позиции из области G (42.2) единственны минимизирующий момент т0, оптимальное минимизирующее управление и минимизирующая точка т00еЛ4(т0). Справедливо утверждение:
Следствие 42.1. Пусть ситуация для задачи сближения с к моменту О вполне регулярна и в каждой позиции {t*> х*} из области д (42.2) выполнено условие (12.4) седловой точки маленькой игры (12.1), (12.2). Тогда экстремальная стратегия Uc 4- uQc(t*, xj (42.9) обеспечивает встречу всех движений х[/] = = х[/, /0, х0, С/о] с множеством Мс к моменту если только £о(^о, *о) С,
Наконец, в линейном случае, учитывая материал § 41, получим следующий результат.
Будем предполагать, что при всяком t е [/о, 'О’] множество jMc(/) является цилиндрическим множеством в направлении осей л —- m последних координат фазового вектора х. Пусть, как и в § 41, символ {Л1с(/)}т обозначает проекцию Mc(t\ на т-мерное подпространство {х}т первых m координат вектора х. Будем полагать, что множества {А4с(0}т ограничены, замкнуты, выпуклы и зависят от t непрерывным образом. Далее, как и в § 41, обозначим символом х(^,т,/) функцию (41.1), где следует, разумеется, заменить О на т, причем величины рь рг и рм определены равенствами (41.7), (41.8) и (41.9), в которых также следует только заменить ft на т.
Справедливо утверждение, которое в линейном случае отвечает следствию 42.1:
Теорема 42.2. Пусть при всех значениях t* [/0, т] и т €=[/*, Ф] функция х(/*, т, /) выпукла по /. Пусть, кроме того, для всякой позиции {f#,x*}, где 8о(/*,х*)> t, задача
с0(^, х*)= min шах
/'Н(т,	т, /)+
т
+ J l'\X(x, t)f[t\\mdt t.
+ с (42.13)
имеет единственное решение т0. П^гть также экстремальная стратегия U°c -ь (Л х) определена при е„ (f,, х.) > с, t,< то условием
s' (то> О 5 (О ие (t, х.) ~ m*n s' (то> Q (О и’ (42.14)
'	7	ь	и^Р '	7
где $(т0, t) — решение уравнения (41.11) при краевом условии
5(т„То)=^=[П';_я<,	(42.15)
СТАБИЛЬНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ в
175
§ 43)
причем lQ — l°(t,, х,, т0) есть максимизирующий вектор из (42.13), а при 80(/,, х,, ) = с или t* = т0 определена любым вектором u°(t*, х,)^Р- Тогда эта стратегия U° u°c(t, х) обеспечивает встречу всех движений хр, t0, х0, системы (40.1) с множеством Мс к моменту О, если только е0(/0, х0) — с.
§ 43. Условия стабильности в игре сближения к моменту б, В этом параграфе приводятся некоторые, более широкие, чем в § 42, достаточные условия «-стабильности множества W<& программного поглощения цели Ме к моменту О. При этих более широких условиях переход от решений вспомогательных задач к позиционному управлению уже не получается столь же эффективным, как в предыдущих регулярных случаях. Поэтому цель данного параграфа -- не столько дать практический способ решения задачи 9.1, сколько выяснить принципиальную связь вспомогательных программных задач с проблемой синтеза позиционного управления zz® для игры, отвечающей задаче 9.1.
Начнем со следующей вспомогательной программной задачи, которая лишь немного отличается от задачи 42.1. Именно, пусть х, tn) —та же функция, которая фигурировала в задаче 42.1. Однако относительно множеств M(t), определяющих значения параметра пг в условиях (34.1), будем предполагать только, что множество М — [{^, пг}: to t О, m е М (/)] компактно в себе, и обозначим символом Т множество тех значений t е [/о, б], для которых сечения M(t) не пусты, а символом Т (/»)—пересечение Т П [/«, б]. Будем еще предполагать, что множество М (б) не пусто.
Задача 43.1. Дана позиция {/*, хД (to si t* О). Требуется найти минимизирующий момент тое[^, б], максимизирующую программу	р»» то): v°-)’ х»}п и в пе“ МИНИМИЗИРУЮ*
щее управление т\™}, удовлетворяющие следующим условиям:
min 80(/., х„ т) = е0(/,, х„ т0) = 80(^, х„) =
Те Т (/,)
= р(т0, х(т0, t„ х„ Г)(Ю)))= min р(т0, х(т0,X., П(.))) = ”(•) е Мд
= max min р (тп, х(т0, t,, х,, п ,)). (43.1) {Мп ”(•>s
Такая задача обязательно имеет решение, так как функция ео(^*, х*,т) при те T(t*), как нетрудно убедиться, оказывается Функцией, полунепрерывной снизу по т, а множество T(t*)— замкнутым. Отсюда и вытекает, что минимум по т в (43.1) для Функции 8о(/«, х„ т) достигается на некотором значении ro^T(Q.
176
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
Предположим, что для всякой позиции {/*, х*} из области G (42.2), где уже 8o(i, х) понимается в смысле (43.1), найдется минимизирующий момент то такой, что во всякой оптимальной максимизирующей элементарной программе {т)^,	т0); v°e), хж]п
будут существовать лишь единственное по существу минимизирующее управление и единственное значение параметра ди00, которое обеспечивает минимум (34.1) при t = то и х = хоо(то). Множество всех минимизирующих моментов то, отвечающих данной позиции {/*, х*} из области G (42.2) и удовлетворяющих указанному условию, обозначим символом То(^, х*). Из результатов § 37 вытекает, что при всяком тоеГо(^,х*) минимизирующее управление т$° t < т0) удовлетворяет при почти всех то) условию максимина (42.3) — (42.6).
Для позиции К, х#} из области G (42.2) при тоее TQ(t*, х*) обозначим символом £(/*, х*, т0) множество всех векторов s = = $(то, f*), которые могут встретиться в условии максимина (42.3) — (42.6) для этой позиции {/*, х*} и при этом значении то.
Нужное нам условие удобно теперь сформулировать следующим образом.
Условие 43.1. Будем говорить, что выполнено это условие, если для всякой позиции {/*, х*} из области (42.2) при ф. фТо(1*, х*) и при всяком выборе вероятностной меры v(dv) найдется по крайней мере один минимизирующий момент т0 ^То(/*, х*) и по крайней мере одна вероятностная мера T\(du, dv), удовлетворяющая условию
J r)(d«, dv) = v(dv)	(43.2)
р
и такая, что для всех векторов s е S(t*, х*, то) будет справедливо неравенство
I I х*, v)v\(du, da) max min хш, и, v). (43.3) J J	USP
Значение условия 43.1 для наших задач определяется следующим утверждением об оценке приращения Де0 = = е0(/*, л:(/*))—8о(^*, ^(^)) вдоль программных движений x(t, t*, х*, т|(.)), из которой вытекает «-стабильность множеств Г8 = [{t, х}: t0 f < fl, 8о(Л х) е] (с 8 < с + р).
Лемма 43.1. Пусть выполнено условие 43.1 и {/*, х*} (/0 t* < fl) —позиция, удовлетворяющая требованиям условия 43.1. Тогда при всяком выборе вероятностной меры v(dv) для всякого сс > 0 найдется число 6 > 0 такое, что по крайней
СТАБИЛЬНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ О
177
§ 43]
мере одно программное движение x(t) = x(t, t„ х*, rj), которое порождено управлением = г], удовлетворяющим условию (43.2), обеспечит выполнение неравенства
е0(Л x(t, t„, х„ т]))^е + а(/ — tt)	(43.4)
при всех t 4” б (здесь е ео(^*> х*)) •
Предположим от противного, что лемма 43.1 неверна. Тогда найдутся позиция {/*, х«}, удовлетворяющая условиям этой леммы, вероятностная мера v(dv) и число а>0 такие, что для всякого программного движения x(t, t*, х*, т]), где ц удовлетворяет условию (43.2), найдется последовательность сходящаяся к значению справа, для которой будет справедливо неравенство
e0(/(ft>, x(t(k}, t,, х,, т])) > е + a(/(ft) — /,).	(43.5)
Итак, выберем в качестве такого движения x(t, t*, х*, т)) как раз то движение, которое порождается программным управлением— мерой тр(du, dv) — r\(du, dv), удовлетворяющей условию 43.1. Мы можем, очевидно, предполагать при этом, что все /(й) то, где То — именно то значение минимизирующего момента То, которое фигурирует в условии 43.1 и которое в дальнейшем мы зафиксируем. Рассмотрим позиции {/W, x<ft)} (k = — 1, 2, ...), x(fe) — x(Pk\ t*, x*, г|). Каждой такой позиции
%(А)} мы можем поставить в соответствие максимизирующую программу {л(.), р(А), х0)‘,	х(й,}п, которая разрешает следую-,
щую программную задачу на максимин:
e0(/(fe), х(й), т0) = max min р(т0, х(/, flk\ x(ft), т0)). (43.6) {Мп "wHMn
По смыслу величины ео(/, х) (43.1) из неравенства (43.5) следует неравенство
е0(^, х<й>, т0)>8 + а(^ — /.).	(43.7)
Построим теперь всевозможные составные программы fy.), [(,, т0);	, складывающиеся на полуинтервале т0)
из максимизирующих программ	т0), x<ft))n, а на
полуинтервале [/,, /(й)) — из одной из максимизирующих программ	т0), v’.p х,)п. Выберем для каждой из таких
составных программ Ц.))^ = {Л(.)» [(,, т0), v*)ft)}n °Дно из программных минимизирующих управлений удовлетворяющих
178
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
условию
p(T0, **w(t0)) = P (т0> *(то>	*•> )w)) =
e min ,ь,р (т0’ х (то> П(.))) = ”(-)s{Wn)
= min min со (т0, х*<&) (т0), т) — ® (т0, х‘(ft) (т0), tn*<ft)).
V)s {^•))(п) т е м (’о)
(43.8) Очевидно, справедливо неравенство
p(to, x*<ft>(T0)X e0(<„ х,) = е.	(43.9)
Кроме того, согласно результатам из § 36, оптимальное минимизирующее управление удовлетворяет условиям принципа минимума
JJ f)f(t, x*w(t), и, v)t]J(fe) (du, dv) — p Q
= j ^min s* (fe)'(T0, t) f (t, x*w (t), u, o)j v; <*> (dv),	(43.10)
где s*W(t0, t) — решение уравнения
= — L*(kr (t) s*<fc)	(43.11)
при краевом условии
S*W (To, To) == [-^-1
{t4, x* № (t.), tn* <«} причем
i‘U) = JU-JU ^(du,dv). po l<ix Jx*<fe)(t)
(43.12)
(43.13)
Обозначим символом S* (/<*>, x(ft)) множество всех возможных векторов s‘<w = s*(*,(to, t„), которые получаются из условий (43.11) — (43.13) для всех возможных составных программ {^.р [С т0); V*}*)} , отвечающих той или иной зафиксированной позиции x<fc)}. Дальнейшие рассуждения будут опираться на следующее важное утверждение, которое мы примем без доказательства: какое бы значение и>0 мы ни взяли, всегда найдется столь большой номер k = k(n), что для всякого k> k(v.) во множествах S(/„, х., т0) и S*(£(ft), x,fc)) найдутся по вектору з и которые будут удовлетворять неравенству
Н s —	(43.14)
СТАБИЛЬНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ О	179
§ 43J
что особенно важно, вектор будет отвечать такой составной программе {п(.Р [А,, т0); v* <*>}п, в которой v(*.W=v« при< *(fe)> где v°) определяет как раз ту программу ,, р, Tq); v°))n, которой отвечает вектор s.
Составим теперь еще для всех k=\, 2,... программные движения = t„ х„ (/.</<т0), где программное управление т)}?) складывается из управлений ^ = 1] при/X ^.t<t(kj и т]/ = Л*w при t(k} t < т0. Очевидно, всегда
(О (т0, х(й)(т0),	*{к}> т0).	(43.15)
Из (43.7), (43.8), (43.9) и (43.15) получаем неравенство
ш (т0, х*(ft) (т0), т*<*>) + a (tw — t,) < <в (т0, х<и (т0), tn*<*>), (43.16)
которое верно для всех сконструированных нами движений x*№(t) и х<^(/) и при любом выборе значений отвечающих x*<ft)(To). Но если мы теперь сравним эти же величины и для той пары движений x*W(0 и х(А>(/), которой отвечают векторы s и из (43.14), то получим, согласно материалу из § 32 и с учетом (43.3), неравенство
и (т0, х(й) (т0) т*1й)	(т0, х*(ft) (т0), т*(ft)) + a (/(ft) — f.). (43.17)
Неравенства (43.16) и (43.17) противоречивы. Полученное противоречие доказывает лемму 43.1.
Итак, при условии 43.1 выполняется'оценка (43.4). Но эта оценка гарантирует «-стабильность каждого множества
— [ {f, х} : /0 ’С t ‘О’» ео (Л х) е] (с < в < с + Р)
относительно множества Ме — [{/, х}: р (/, х) 8, f е 7]. Это следует из утверждения о том, что при всяком выборе позиции {/„ х,} е IFe#1, вектора о* е Q, момента t* > t* для любого достаточно малого числа а>0 среди решений уравнения (11.2) найдется хотя бы одно движение x(t), для которого
80 (/, х (ОХ 8 + a (t — О	(43.18)
при	или при некотором
р(т*. х(т-)Хе + а(т* — t,).	(43.19)
Действительно, предположим противное. Тогда найдутся позиция {0, х,) е U7!*1, вектор Q, момент t* > и число а > 0 такие, что оба условия (43.16) и (43.19) нарушаются для всякого решения x(t) уравнения (11.2). Тогда для любого решения {x(0> i* < t «С t*} = *(•) уравнения (11.2) существует первый
180
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
момент тЖ(.) < /*, для которого при всяком 6 >0 найдется момент тж(.) < t6 < max (Тх(.) + б, t*) такой, что
So (k, х (/d)) > в + а (та — /,),	(43.20)
причем при всяком t<=T (/* t t*)
р(?, х(О) > 8 + а(/ —/,).	(43.21)
При этом можно проверить, что
«о (хх (.), X (тх (.))) = 8 + а (хх (.) — /„).	(43.22)
В самом деле, функция ео(/, х) непрерывна справа в позициях {t, х}, для которых t не является минимизирующим моментом, а с учетом условия (43.21) позиция {тЖ( ), х(тЖ(.))} как раз и является таковой. Отсюда с учетом (43.20) получаем, что
«о <хх (.), х (тх (.))) > е + а (тх (.) — /,).
Обратное неравенство следует из замкнутости множества q. Для этого достаточно рассмотреть последовательность позиций {tk,x(tk)} (где {tk} сходится к тЖ(.) слева), содержащуюся в этом множестве.
Положим т* = supтХ(.) в классе решений х(-) = х(»,	х*)
уравнения (11.2). Эта верхняя грань достигается на некотором движении х*(/), являющемся решением (11.2), так как тх<.) полу^ непрерывно сверху по движениям х(-) = [x(f,х*), в метрике Сф*,/*] и семейство этих движений х(/), являющихся решениями (11.2), компактно в себе в той же метрике. Тогда при условии (43.22) позиция {т*, х*(т*)} содержится в области (42.2) и для нее справедлива лемма 43.1 (так как % не есть минимизирующий момент То из (43.1) для позиции {т*, х*(т*)}); Следовательно, вдоль некоторого программного движения x(t, т*, x*(r*)f т|), для которого
| ц (du, dv) — Su<t (dv),	(43.23)
p
где символ S^ (dv) обозначает меру, сосредоточенную в точке и* Q, выполняется оценка (43.4) при выбранном наперед а X > 0 при < t < /°, /° > т*. Но это противоречит определению т* как максимального из {тХ(.>} момента. Итак, справедливость (43.18), (43.19) доказана.
Пусть позиция {/*, xj е ^gQh	Выберем по-
следовательность ось (ось > 0), сходящуюся к нулю, и при ка-ждом k выберем движение x^(t), удовлетворяющее либо (43.18), либо (43.19), и являющееся решением (11.2). Тогда с учетом компактности в себе множества всех решений
СТАБИЛЬНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ О
18Г
§ 431
x(t t*, х*) (11-2) приходим к выводу, что найдется движение *(/’£*♦)> удовлетворяющее уравнению (11.2), для которого
(< х(т*)} е= Л1Е (/. < т* < Г)	(43.24}
ИЛК	[Г, х(Г))е= П#).	(43.25}
Из доказанной стабильности множеств We^ на основании леммы 15.1 получаем, таким образом, следующее утверждение.
Теорема 43.1. Пусть выполнено условие 43.1 и для всякой позиции {/*, х,} из области (42.2) выполнено условие (12.4) седловой точки маленькой игры (12.1), (12.2). Тогда при всяком е (с е < с + Р) стратегия U°c ч- и°с (t, х), экстремальная к множеству IFe*1 =[ (/, х] : t0	е0(/, х)<е], гарантирует для:
всякого движения x[t\ — х [/, /0, х0, £/°] выполнение условия
min p(f, хр])<:е,	(43.26}
leT
если только eo(Zo, х0)^8.
В частности, для задачи о встрече с множеством Ме к моменту Ф, полагая p(Z, х) = рДх, Мс) + с, получим из теоремы 43.1 следующую ее модификацию.
Следствие 43.1. Пусть для функции p(t, х) = pt(x, Мс) + с выполнено условие 43.1 и для всякой позиции {/*, xj из области (х (42.2) выполнено условие (12.4) седловой точки маленькой игры (12.1), (12.2). Тогда стратегия U® + u°c(t, х), экстремальная к множеству = [{f, х}: t0 t &, е0(/, х) = с] программного поглощения цели Мс к моменту О, гарантирует для всякого движения х [Z] = х |7, t0, х0, t/°] встречу с Мс к моменту &, г. е. выполнение условия
(т, х[т] ] е= Мс при	(43.27}
если только ео(/о> х0) = с.
Наконец, в линейном случае с учетом результатов из §§ 40, 41 условие 43.1 для множества Мс, удовлетворяющего условиям, предваряющим теорему 42.2, за тем исключением, что теперь-можно требовать лишь замкнутость Л4С, но можно не требовать-непрерывности Mc(t) по t, трансформируется в следующее-условие.
Обозначим
ео(С, х,) = min max Z'{J(t,/,)xjm+ т e r (i,) U||=l I T
+ MC T, /) + p2(z„ T, /) + /' f {X(T, Of[Z])mdZ + pM(Z)
+ c =
= min 80 (f, x„ t) = e0 (t, xj, (43.28} т €= T (^)
182
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
причем величины рь рг и рм определены равенствами (41.7), (41.8) и (41.9), где полагаем $ = т.
Условие 43.2. Будем говорить, что выполнено это условие, если для всякой позиции {G, х*} из области G (42.2) при выполнении неравенства < то для всех минимизирующих то Т(/*) при всяком выборе вектора у е Q = co{v е Q} найдется по крайней мере один минимизирующий момент т0^ Т(/*) и по крайней мере один вектор ueP = со{« е Р} такой, что для всех векторов $ — $(то, Q (41.11) — (41.14), где /° — любой вектор из множества максимизирующих векторов L°(£*, х*, то), будет справедливо неравенство
s' (В (Q и + С (/J и) < min s'В (fj и + max s'C (fj v. (43.29) U&P	V Q
Справедливо утверждение.
Теорема 43.2. Пусть выполнено условие 43.2. Тогда стратегия U°c + u°c(t, х), экстремальная к множеству = = [{/, х}	х) = с], гарантирует для всякого дви-
жения х[/] = хр,/0, х0, £/°] системы (40.1) встречу с множеством Мс к моменту 4, т. е. выполнение условия (43.27), если ТОЛЬКО 80(/0, Х0) = С.
Итак, мы убедились, что условие 43.1 при выборе р(£, х) == = р< (х, Л1с) обеспечивает «-стабильность множества = — [{/, х}: tQ t во(/, х) = с] программного поглощения цели Мс к моменту времени -0; и тем самым мы получаем возможность строить стратегию -ь и^ (/, х), экстремальную к этому «-стабильному мосту и разрешающую задачу 9.1 о сближении с Мс к моменту О’. Таким образом, как и в предыдущих параграфах, условие 43.1 позволяет переходить от решения вспомогательных программных задач к синтезу позиционного управления 4- «^ (/, х). Однако здесь мы имеем и существенное отличие от результатов предыдущих параграфов. В самом деле, в рассматриваемых там регулярных случаях мы получили и способ построения управления «° (/, х) в форме условий экстремального прицеливания (39.7), (42.9), которые, по крайней мере в случае линейного уравнения (40.1), можно использовать в меру эффективно. Условие же 43.1 позволяет лишь, вообще говоря, строить разрешающую стратегию только при известном множестве т. е. здесь уже для построения стратегии лР -т- «^ (/, х) надо иметь достаточно эффективное описание множества 1F4 Во всяком случае, в соответствии с конструкцией экстремальной стратегии здесь надо уметь для всякой реализующейся позиции {/*, х*} = {/*, х|7*]} находить ближайшую к ней позицию {/*, ш} из множества т. е. ближайшую позицию для которой 80(^*, w)=c. Эта задача, вообще говоря,
j 43]	СТАБИЛЬНАЯ ИГРА СБЛИЖЕНИЯ К МОМЕНТУ О	18$.
оказывается весьма нелегкой. Но все-таки возможность при условии 43.1 замены максимального u-стабильного моста Wu содержащимся в нем множеством может в какой-то мере облегчить решение задачи построения стратегии IP -*- iP (t, х),. экстремальной к мосту и разрешающей задачу 9.1.
В заключение параграфа рассмотрим пример, который показывает существенность предположений, сделанных при доказательстве леммы 43.1.
Лемма 43.1 была доказана в предположении, что для величины e0(t,x) (43.1) найдется такой минимизирующий момент т0, что во всякой оптимальной максимизирующей элементарной программе минимизирующее управление т)00 и минимизирующее значение параметра т°° единственны. Приведем пример, показывающий существенность сделанных ограничений. Рассмотрим скалярную систему
|г>|<Л<2>; W> < А<2> <
множество Т состоит из единственной точки т0 > 0, ы(то, х, т) — = |х— т|, где т <= М(т0) = [т:т = т0 V т = — т0], причем то > Who.
Заметим, что здесь для всякой позиции {/,, 0} (t0	< т0)
в максимизирующей программе минимизирующее управление неединственно, однако для каждой позиции, удовлетворяющей требованиям условия 43.1, для любой вероятностной меры v(dv) существует согласованная с ней вероятностная мера x\(du,dv), удовлетворяющая неравенству (43.3) на всяком векторе s е
5 (^*, х#, То) •
В самом деле, при каждом v е Q = [—W>, +W>] достаточно выбрать и (у) = WyW>sign v. При этом v и {«(ц)} исполняют роль мер v(dv) и r\(du,dv) в условии 43.1 соответственно. Поскольку множество векторов s, участвующих в соотношении (43.3), может состоять здесь самое большее из двух векторов +1 и —1, то проверка условия (43.3) здесь равносильна проверке соотношения
|«(v) —	— Ж
При нашем определении и(у) оно выполнено. Вместе с тем в позиционной игре сближения не существует стратегии U первого-игрока, гарантирующей ему попадание на множество Ме, е = = 8о(/0, хо) — то — Who, для всякого движения, порожденного* этой стратегией, поскольку существует стратегия V второго
184
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
(ГЛ. VII
игрока, описываемая функцией у(х) вида
о(х) =
при при при
х > О, х = 0, х < О,
(43.31)
+ АЯ
О
— №
гарантирующая уклонения от множества Мг при всяком 8< /п0, в то время как 8О(/о, х0) =	— М1)т0 > 0. Поскольку в данном
примере маленькая игра (12.1), (12.2) обладает седловой точкой, то ^-стабильность множества из теоремы 43.1 здесь невозможна.
§ 44. Экстремальное прицеливание в задаче об уклонении. В этом параграфе мы перейдем к решению позиционной игровой задачи 9.2 об уклонении на основе вспомогательных программных конструкций, развитых выше в этой и предыдущей главах. Как и раньше, в этой главе будем предполагать, что множество Nc совпадает со всем пространством позиций {/, х}. Будем рассматривать, стало быть, задачу 9.2 для второго игрока-союзника об уклонении от замкнутого множества Мс вплоть до некоторого момента Ф. Следует сказать, что исследование и решение задачи об уклонении на основе наших программных конструкций оказывается, вообще говоря, более трудным, чем исследование и решение на той же основе задачи 9.1 о сближении. Начнем с наиболее удобного вполне регулярного случая, который уже встречался раньше в § 42. Пусть, как и в § 42, задана непрерывная функция со(£, х, т), имеющая непрерывные частные производные дю/дхг (/= 1, п) в той области пространства {/, х, т}у где с < х, т) < с + р. Пусть далее, как и в § 42, функция р(/, х) определена равенством (34.1), где множества M(t) изменяются непрерывно в хаусдорфовой метрике с непрерывным изменением переменной t. Обратимся опять к вспомогательной программной задаче 42.1 и предположим, что ситуация является вполне регулярной в том смысле, как это определено в 42. Тогда во всякой позиции {/*, xj из области
G = l К. :	с <e0{t„, х,) <с + ₽, I* <т0] (44.1)
функция е0(/*, х#) имеет непрерывные частные производные deddxi, d^oldt, которые определяются равенствами (42.7). Отсюда в свою очередь следует, что в области (44.1) функция £0(О-х*) удовлетворяет условию (42.8).
Построим дифференциальное уравнение в контингенциях
хе^(М)	(44.2)
•следующим образом. Пусть множества T*(t,x) для позиций {t, х} из области (44.1) складываются из всех векторов v* е Q,
л ...	ПРИЦЕЛИВАНИЕ В ЗАДАЧЕ ОБ УКЛОНЕНИИ	fgg.
§
удовлетворяющих условию максимина
= max tninf-^T-Y f(t, х, и, v). (44.3> ug=Q «G=pL ОХ J{f, х}
Пусть для позиций {/, х) из области с<е0(/, х)<с + Р, ^ = т0, множества T’(t, х) складываются из всех векторов »’sQ, удовлетворяющих условию
max min	f(t, x, и, v) =
veQ P L J{/. X, mc0}
= min [4^-1 f(t, x, u, v*)> (44.4> u e p L ox J{ft Xt mooj
а во всех остальных позициях {/, x} полагаем T*(t„ x*)= Q. Положим x)= co[f:f = f(t, x, u, v); ut=P, vf=T*(t,x)]. Очевидно, множества Z*(/, x) полунепрерывны сверху относительно включения по изменению позиции {/, х} и, стало быть, множества
х) в правой части (44.2) также обладают этим свойством. Отсюда вытекает, что уравнение (44.2) удовлетворяет достаточным условиям существования решений x(t).
Возьмем какое-нибудь решение х(/) уравнения (44.2) и построим функцию
ео(О = 8о(/, х(/)).
Решение x(t) уравнения (44.2) является функцией абсолютно непрерывной, а функция еоО», х») непрерывно дифференцируема по и при t* < то- Отсюда выводится, что и функция ео (0 = = eo(t, х(/)) в области (44.1) также является функцией абсолютно непрерывной и ее производную deo/dt, которая существует при почти всех значениях на любом интервале < t < т*, где позиция {/,x(t)} не выходит из области (44.1), можно вычислять, исходя из равенства
тг-[4г]'н'’+т,	<44-5>
причем f (/) е (t, x(t)).
Но из условий (44.3), (42.8) по построению множеств (t, х) заключаем о выполнении неравенства
-^->0	(44.6}
на отмеченных выше интервалах т* < t < т*.
Оценим теперь изменение функции 80(/) вправо от какой-нибудь точки t = т* = то, которая не является левым концом интервала x*<Zt < т*, на котором позиция {/,%(/)} не выходит
486
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
из области (44.1). Тогда найдется последовательность № (£=1,2,...), сходящаяся к точке t = т* справа и такая, что
-будут справедливы равенства
8о (/<*)) = е0 (№, х (^>)) = «о (/<*>, х (/*’),	(44.7)
где символ обозначает то значение параметра т, которое удовлетворяет условию минимума (34.1) при t = х = х(№). Выберем любую из таких последовательностей. Решим для начальной позиции {т*, х(т*)} задачу 34.2 при выборе в этой за-даче -$ = /(*) и р(0\ х) = <о(ЛЧ х, m<fe>). Ясно, что для решения г£о(т*> х(т*), f(fe)) = (о(#Ч х00(^)), гг№) этой задачи по определению числа то — т* справедливо неравенство
(о(тж, x(tJ, m00) со (/(fe), х00(^), ^(/г))-	(44.8)
С другой стороны, учитывая, что решение рассматриваемой сейчас вспомогательной программной задачи удовлетворяет условию минимума (36.2), а параметр при £-+оо сходится к ди00, и учитывая построение множества ££"(/, х), получим оценку
со х00 П < со (№, х П п№) + о(/'*> — tJ. (44.9)
Из (44.8) и (44.9) получаем неравенство
е0 W > 8о К) + о — tJ.	(44.10)
Однако из условий (44.6) и (44.10) вытекает, что правое нижнее производное число функции g0(t)= &o(t,x(t)) на любом интервале, на котором позиция {/, x(t)} остается в области с < е(/, х(0)< с + р, неотрицательно. В самом деле, предположим, что при каком-то значении т*, где с < 80(т*) < с + р, функция 8о(О имеет отрицательное правое нижнее производное число. Но тогда можно построить последовательность {/<*)}, сходящуюся к т* справа, для которой
®о < ео (О — а — т.)
(a>0 = const).	(44Л1)
Очевидно, при условии (44.6) значение % не может быть левым концом какого-либо интервала г* < t < т*, где позиция {/, х(/)} не покидает область (44.1). Более того, и числа мы можем полагать не лежащими на интервале такого вида. Ибо если эти числа из последовательности (44.11) сначала лежали бы на таких интервалах, то мы могли бы заменить их на левые концы этих интервалов. Однако неравенства (44.10) и (44.11) противоречивы. Полученное противоречие доказывает, что правде нижнее производное число функции 80(/) = е0(Л х(/)) в области •с < 8о(/, х(/)) < с + Р неотрицательно. Но отсюда вытекает, что
ПРИЦЕЛИВАНИЕ В ЗАДАЧЕ ОБ УКЛОНЕНИИ
187'
§ 44]
функция	не убывает вдоль всякого решения x(t) урав-
нения (44.2) при всех t /о- Так как, далее, всякое движение лф> А>» хо> V»], порожденное стратегией V°с4- v° (t, х), где (t, х) е eX’(t х) является одновременно и решением x(t) уравнения (44.2), то приходим окончательно к следующему выводу.
Лемма 44.1. Пусть ситуация является вполне регулярной. Тогда стратеги^. ч- (t, х), определенная в области с < < g0(Z, х) < с + Р, t < то условиями
min х, и, v4t, х)) = max min s'f (t, x, u, v), (44.12) u^P	1>GQ мер
где вектор s определен условиями (42.4), (42.5), (42.6), а вне этой области — любым вектором v е Q, обеспечивает вдоль всех движений х[/, /0, х0, VJJ], где е0(/0, х0) > с, неравенство
р(/, х[/])> min (с + Р, 80(/0 х0)) при /0	(44.13>
Обратимся теперь к нашей задаче 9.2 об уклонении от множеству Мс вплоть до момента О. Полагая, что сечения Mc(t) множества Мс зависит от t непрерывно, мы можем положить в предыдущих рассуждениях со (/, х, пг) = || х — пг || + с и М (t) — = [х: {/, х} е Мс]. Тогда используя опять терминологию из § 42». мы можем переформулировать лемму 44.1 в виде следующей теоремы.
Теорема 44.1. Пусть игра сближения с множеством Мс к моменту Ф вполне регулярна. Тогда стратегия	х),
определенная условиями (44.12), обеспечивает уклонение всех движений х[/] = х[/, tQ, х0, от множества Мс вплоть до момента Ф, если только &q(Io, х0)5> с.
Наконец, в линейном случае, учитывая результаты из §§ 41,. 42 и полагая, что множество Мс удовлетворяет условиям, предваряющим теорему 42.2, получим следующий результат.
Теорема 44.2. Пусть при всех значениях	Ф] и
т^[А, ft] функция	-(41.1) выпукла по I. Пусть, кроме-
того, для всякой позиции {/*, х#}	где ео(/*, х*) > с,
задача (42.13) имеет единственное решение т0- Тогда стратегия V® +	х)> определенная при 80(^*, х*)> с условием
s' (то> Q с (t) v°c (*., X.) = max s' (т0, /.) C (/.) v,	(44.14)
где s(r0, t) есть решение уравнения (41.11) при краевом условии (42.15), причем 1° есть максимизирующий вектор в (42.13), обе-спечивает уклонение всех движений х[/, /0, х0, системы (40.1) от множества Мс вплоть до момента ft, если только *о)> с.
188
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
§ 45. Условия стабильности в игре уклонения до момента Ф. В этом параграфе приводятся некоторые, более широкие, чем в § 44, достаточные условия и-стабильности множеств = = [{/, х}	80(/,х)^е], которые получаются на основе
вспомогательных программных конструкций для задачи 9.2 об уклонении от множества Мс вплоть до момента ft. Относительно этих условий можно сделать те же замечания, какие были сделаны в аналогичной ситуации в самом начале § 43 и в самом конце этого же параграфа, но только для задачи 9.1 о сближении. Поэтому цель данного параграфа главным образом состоит в том, чтобы выяснить принципиальную связь вспомогательных программных задач с проблемой синтеза позиционного управления для игры, отвечающей задаче 9.2.
Обратимся к вспомогательной задаче 42.1 при тех же предпо-* ложениях в ее постановке, которые были сделаны в § 42, причем JW(/) предполагаются изменяющимися непрерывно в метрике Хаусдорфа. Теперь, однако, при обсуждении решения этой задачи мы откажемся от того требования, чтобы во всякой максимизирующей программе (т)н, [/*, т0); х*}п существовало лишь «единственное оптимальное минимизирующее управление При этом мы откажемся и от того условия, что каждое минимизирующее управление удовлетворяет условию максимина (42.3) — (42.6). Однако это не мешает, очевидно, для каждой позиции {/*, х*} из области G (42.2), для каждого минимизирующего значения то для каждого минимизирующёго управления и работающего с ним в паре минимизирующего параметра т00 составить дифференциальное уравнение (42.4), (42.6) и выбрать его решение s(to, 0» удовлетворяющее краевому условию (42.5). Таким путем мы построим множество	скла-
дывающееся из всех возможных векторов s = s(r0, /#), получающихся описанным сейчас способом.
Нужное условие удобно теперь сформулировать следующим образом.
Условие 45.1. Будем говорить, что выполнено это условие, ^сли для всякой позиции {£*, х*} из области G (42.2) при всяком выборе функции U 4- Р во множестве
Uv) = со [f ' f = f **, u> *0; u — u (v), v e Q] (45.1) найдется по крайней мере один вектор f*, для которого при всяком выборе вектора s е5(4, х*) будет справедливо неравенство s'f*> max	v)>	(45.2)
v^Q ueP
Значение этого условия 45.1 для наших задач определяется следующим утверждением об оценке приращения Део =£
СТАБИЛЬНАЯ ИГРА УКЛОНЕНИЯ
189
§ 451
== е0(/*, х(/*))—е0(<*, х(/*)) вдоль программных движений x(t, ri( )), из которой вытекает u-стабильность множеств
И*1 = [(/, х} : /0 < t <е0 (/, х) > е] (с < е < с + р).
Лемма 45.1. Пусть выполнено условие 45.1 и (t*, xj— позиция из области G (42.2), причем t* Ф. Тогда при всяком выборе функции u(v) для всякого а > 0 найдется число б > О такое, что по крайней мере одно решение x(t) = x(t, t*. x*,Uv) уравнения в контингенциях
x^^v(t, х, Uv),	(45.3)
где £rv(t,x,Uv) — множество, определенное условием (45.1), удовлетворит оценке
e0(t, x(t, t„ х„, t/J) > е0 (/,х.) — a(t — t,)	(45.4)
при всех 1б).
Докажем лемму. Пусть выбрана функция u(v) и f* — как раз тот вектор, который удовлетворяет условию (45.2). Этот вектор f* мы можем изобразить в виде
f = J j f (/., xt, и, v) rf (du, dv),	(45.5)
p Q
где i\*(du, dv)—некоторая подходящая вероятностная мера. Рассмотрим, далее, то решение x(t) = x(t,t^, хф, Uv) уравнения (45.3), которое имеет вид
x(t) = J J f(t, x(t), и, v)vf(du, dv).	(45.6)
p Q
Возьмем на этом решении точку x(t*) (t*> /*). Для позиции {<*, х(/*)} решим вспомогательную программную задачу 42.1. Пусть т* — какое-нибудь значение То, отвечающее решению этой задачи. Зафиксировав это значение т’, решим для начальной позиции {t*, х*} вспомогательную программную задачу 34.2 при Ф — т*. Возьмем какую-нибудь из разрешающих максимизирующих программ {'П(.>, р»> то)> v*.)> х*}п и срежем ее, оставив лишь отрезок ^(), [Г, т*); v’j} . Теперь для этой программы [С то)> v(*.)) и для позиции {t*,x(t*)} решим вспомогательную задачу 34.1. Пусть т|‘., — оптимальное управление для этой задачи. Очевидно, справедливо неравенство
“(To> х(то> *’> Х(О> Пи).	(45-7>
190
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
Здесь символ tn обозначает минимизирующее значение параметра т из (34.1) при / = т* и х = х(т*, Г, % (Г),
Далее, мы построим движение x*(t) — х (/, /*,	n*(.>), где
управление складывается из двух управлений: при f
имеем 'П*г = тЬ а при	управление т] fсовпадает с тем
управлением которое решало задачу 34.2 для позиции К, **} и /& = Tq. Очевидно, справедливо неравенство
®(то> x(tJ, t*, х*,	m*)>80(f„ xj. (45.8)
Теперь нам осталось сравнить величины, стоящие в левых частях неравенств (45.7) и (45.8). Но управления т|* й совпадают на полуинтервале [Г, т*), причем на этом промежутке эти управления удовлетворяют условию минимума (36.2). Отсюда, вследствие полунепрерывности сверху по включению множества векторов S(t*,x*) относительно изменения позиции {£*, х*}, которая вытекает из непрерывности M(t) по /, используя обычным образом вариацию бсо (33.10), получим оценку
ш(то> *(то> С
> ® (?;, х (?;, t„ х„ 1], (.(), т‘) + О (Г — Q, (45.9)
из которой вследствие (45.7) и (45.8) и вытекает нужное нам неравенство (45.4). Тем самым лемма 45.1 доказана.
Итак, при условии 45.1 выполняется оценка (45.4). Но эта оценка гарантирует о-стабильность каждого множества = = [(/, х] :	80(f, х) е] (с < е с + 0), как в этом мо-
жно убедиться, повторяя с незначительными изменениями рассуждения на стр. 179—181 из доказательства теоремы 43.1 и используя при том свойство непрерывности функции ео(^,х) относительно изменения позиции {/, х}. Таким образом, прямым следствием из леммы 45.1 является следующее утверждение.
Теорема 45.1. Пусть выполнено условие 45.1. Тогда при всяком в (с < 8 с + 0) стратегия У0 v® (t, х), экстремальная к множеству = [{/, х} :	е0(/, х)^е] (с<8^с + 0),
гарантирует для всякого движения х[£] = х[7, /0, х0, У°] выполнение условия
min р(/, х [/]):> е,	(45.10)
если только 80(f0, х0)^в.
В частности, для задачи 9.2 об уклонении от множества Afc вплоть до момента Ф, полагая р(/, х) = р((х, Л1С) + с, получим из теоремы 45.1 следующую ее модификацию.
4б]	ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ ИГРЕ УКЛОНЕНИЯ	191
Следствие 45.1. Пусть для функции р (/, х) = pt (х, Мс) + с выполнено условие 45.1. Тогда стратегия V°c + v°(t, х), экстремальная к множеству 1Г19| = [{/, x}:t0^t^$, в0(/, х)>е] (С<е^с + ₽), гарантирует для всякого движения x[Z] = = х[/, t0, х0, уклонение от множества Мс вплоть до момента •О', если только е0(/0, х0)>8.
Наконец, в линейном случае с учетом результатов из § 40 и в предположениях относительно Ме, предваряющих условие 43.2, условие 45.1 трансформируется следующим образом.
Условие 45.2. Будем говорить, что выполнено это условие, если для всякой позиции {/*,%*} (/0 С t* < ft, с<е0(/*, х»)< <с + ₽), где величина е0(^, х») определена равенством (42.13), при всяком выборе вектора ueP = co{w е Р} найдется по крайней мере один вектор о G б = со {f е Q} такой, что для всех векторов s — s(r0,t*), являющихся решением уравнения (41.11) при краевом условии (42.15), причем 1° — любой из максимизирующих векторов /°, отвечающих всем возможным минимизирующим моментам То из (42.13), будет справедливо неравенство
s' и + С (О v) min s'B и + max s'C (tj v. (45.11) u&P	V^Q
Справедливо утверждение:
Теорема 45.2. Пусть выполнено условие 45.2. Тогда стратегия	о“(/, х), экстремальная к множеству №№ =
= [{/, х}	80(/, х)^е] (8 > с), гарантирует для всякого
движения x[f] = x[7, t0, х0, системы (40.1) уклонение от множества Мс вплоть до момента •&, если только е0(/0, х0)^8.
§ 46. Обобщенное экстремальное прицеливание в линейной дифференциальной игре уклонения. В данном параграфе рассматривается линейная дифференциальная игра уклонения. Решение этой задачи построено в форме стратегии экстремального прицеливания. В исследуемом ниже случае стратегию уклонения можно определить в соответствии с материалом из § 45 как стратегию, экстремальную к множеству = [{£, х) :	е0(/, х)е], т. е. решение рассматри-
ваемой здесь задачи в принципе уже известно. Однако дополнение результата, полученного в предыдущем параграфе построением решения в форме стратегии экстремального прицеливания, обосновывается тем, что решение данной дифференциальной игры, полученное в этой форме, приводит к сравнительно простым соотношениям, которые можно реализовать в конкретных примерах. Напротив, стратегии, экстремальные к стабильным мостам, Удобны для исследования общих свойств дифференциальных
192
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
игр, однако непосредственная реализация их в конкретных задачах зачастую оказывается весьма сложной.
Итак, будем рассматривать задачу для второго игрока-союзника об уклонении от множества Мс вплоть до некоторого момента t = Будем предполагать здесь, что множество Мс является выпуклым и цилиндрическим в направлении оси t и осей (п — т) последних координат. Таким образом,
где {Мс}т — некоторое замкнутое, ограниченное и выпуклое множество в /^-мерном пространстве векторов {х}ш, составленных из первых т координат фазового вектора х. Движение системы пусть описывается линейным уравнением (40.1) при /[/]== 0.
Пусть начальная позиция игры удовлетворяет условию 8o(Zo, х0) > £, где величина 80(/,х) определена соотношением (42.13), которое в рассматриваемом случае имеет вид
80(/, х) = min е0 (/, х, т),	(46.1)
80(/; х, т) = шах[/' {Х(т, t)x}m + р1 (/, т, Z) +
+ Р2 (Л Т, /) + РЛ4 (/)] + С, (46.2) \
если правая часть в (46.2) больше с; в противном случае 8o(Z, х, г) = с. Здесь величины рь рг и рм определены соотношениями (41.7), (41.8) и (41.9), где полагаем О’= т, причем в отличие от случая, рассмотренного в §§ 41, 42 величина рм(0 здесь не зависит от переменной т.
Для построения решения задачи об уклонении в форме стратегии экстремального прицеливания введем функцию
$
2i(Z, х) = J 8^1(/, х, т)б?т,	(46.3)
t
где х, т) = 8о(Л х, т)-— с. Из дальнейших построений будет видно, что эта функция играет здесь роль своеобразной функции Ляпунова [17*].
Рассмотрим некоторые свойства функции Z = X(Z, х). Отметим прежде всего, что эта функция определена в области G, заданной условиями х) > г,	Эта область G не
пересекается с множеством Мс. Действительно, по смыслу вели^ чины 8о(/,х, т) для любой точки {/*, х*}, принадлежащей множеству Мс, справедливо равенство 80(/*, х*,/*) = с, поэтому величина 8* = 80(Z*, х*)—с обращается в нуль, и {/*, х#}0О. Отметим далее, что при стремлении точки {t, х} к границе области G значения функции X неограниченно возрастают. Более аккуратно это свойство формулируется следующим образом: если {thi xj е
s 46]	ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ ИГРЕ УКЛОНЕНИЯ	193
(= G (k= 1,2,...), U*>	-* {£»> **} при k -> оо и {/„ х»} ф G, то
K(tk, xk)-*<x> при k-*oo.	(46.4)
Это положение выводится из свойств функции ео(/, х,т). В частности, из условия Липшица по переменной т, которому удовлетворяет эта функция, вытекает, что интеграл (46.3) расходится в каждой точке {t,x}, не принадлежащей области G при t <Z
Вернемся к нашей исходной задаче. Пусть х [/] (/	/0) есть
некоторое движение рассматриваемой системы (40.1). Будем вычислять вдоль этого движения значения функции Х|7] = = K(t, xJ7J) вплоть до выхода точки {t, х [/]} из области G. Предположим, что эти значения удовлетворяют оценке
А-К1СЧ при всех	(46.5)
где X* — некоторое конечное число, т, — момент времени, когда точка {/, х [/]} впервые покидает область G. Покажем, что в рассматриваемом случае точка {t, х[/]} должна оставаться в области G до момента t = •&, т. е. т» = &.
Предположим противное. Пусть (т,, xfxJj^G и т, < fL Рассмотрим последовательность точек (ffc, х[£*]}, где tk < {k=A, 2, ...) и >т при >оо. По предположению
[tk, х[/*])е=С? и X(4, x[/J) = X[^]<X. (й = 1, 2, ...), что противоречит соотношению (46.4).
Таким образом, движение х[/] (/^ /о), для которого в области G выполняется оценка (46.5), остается в области G до момента t = Ф, следовательно, на промежутке [/0, '&) это движение уклоняется от встречи с множеством Мс. Теперь можно высказать следующее условие: если у второго игрока имеется стратегия, которая обеспечивает в области G невозрастание величины Х(/] = Х(/, хИ), то эта стратегия гарантирует уклонение от попадания на Мс на промежутке [/о, "&).
Перейдем теперь непосредственно к построению такой стратегии. Будем при этом предполагать выполнение следующих условий.
Условие 46.1. При всех £е[/о,<>] и	функция
х(/, т, I) = —[pi (/, т, I) + рг(/, т, /) + рм (01 выпукла по I.
Условие 46.2. При всяком выборе вектора ыесо(Р} найдется вектор o(«)eco{Q) такой, что для всех чисел т и t Go «С / т &) для всех /n-мерных векторов I будет справедливо неравенство
O(B(O« + C(/)V(«))U>
>min/'{X(T, /)B(0«)m + max/' (Х(т, t)C{t)o]m. (46.6) ueP	veQ
7 H. H. Красовский, А. И. Субботин
194
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
Условие 46.2 требует большего, чем условие 45.2 из § 45, где требовалось выполнение аналогичного неравенства хотя бы только для всех векторов /° из множества максимизирующих векторов /°, отвечающих всем минимизирующим моментам тоиз (42.13). Таким образом, при выполнении условия 46.2 условие 45.2 также обязательно выполняется.
Как отмечалось в § 41, при выполнении условия 46.1 (т. е.— условия регулярности) функция бо(/, х, т) в области О будет дифференцируемой по t и х при фиксированном значении т. Частные производные этой функции определяются общими соот-ношениями (39.3), (39.4) и в рассматриваемом случае получаем для них следующие выражения:
2.....л| = Х'(т, х, т), (46.7)
----min/о/ (/> х> т) (х (т> t} в (/) и}т _
01	UG=P
х, т){Х(т,	х, т){Х(т, t) A(t)x}m. (46.8)
Здесь /°* — л-мерный вектор, первые т координат которого образуют вектор l°(t, х, т), остальные (п — т) координат суть нули; вектор l°(t, х, т) доставляет максимум в (46.2).
Поскольку подынтегральная функция в (46.3) в области G дифференцируема, то в этой области дифференцируема и функция h(t,x), причем, используя соотношения (46.7), (46.8), получаем
дК«>* х\. = _ 8-1 (/, X, t) + f е~2 (t, х, т) [min 1°' (t, x, т) X or	♦	J *
x H(r, t)B(t)u}m +	x, t){J(t, t)C(t)v}m +
+ /»'(/, X,	t)A(t)x}m]dr,	(46.9)
i, 2, .... л] = -5*(Л x),	(46.10)
OX^	J
где
a
s*(t, x) = | e~2(/, x, x)X'(x, x, x)dx. (46.11) t
Обозначим через J^°(f, x) совокупность векторов v°eQ, для которых при {t, х} е G выполняется следующее условие максимума:
(t, х) С (0 о0 ?= max s’' (f> х) С (/) о,	(46.12)
... veQ
ПРИЦЕЛИВАНИЕ В ЛИНЕЙНОЙ ИГРЕ УКЛОНЕНИЯ
195
§ 46J
а при	полагаем T°(t, х) = Q. Отметим, что множества
уоЛ, х) зависят от переменных / их полунепрерывно сверху относительно включения, поэтому можно рассмотреть уравнение в контингенциях
е А(/)х(0 + В (0 со {« «= Р} + С(/) со {о€= Г° (t, х(/))}’ dt	/	ч	(46.13)
(х(/0)=х0).	'
Здесь в правой части этого соотношения стоит множество всех векторов вида f = А (/)х(/) + B(t)u + C(t)v, где (ieco{ueP}, veco {neF°(/,x(/))}.
Покажем, что для любого решения уравнения (46.13) в области G выполняется оценка (46.5), причем %, = % (t0, х0). С этой dK [<] d\ (/, х (I))
целью вычисляем производную -	., существова-
ние которой при почти всех to t < т* вытекает из непрерывной дифференцируемости в области G функции %(/, х) и абсолютной непрерывности рассматриваемых решений х(/) (t^to). Отметим, что производную dx(t))dt можно представить в виде
= А (/) х (/) + В (/) и [/] + С (/) [/],
где u[/]eco (иеР), о°[/]есо {v^T°(t, x(t))}, поэтому, учитывая выражения (46.9) — (46.11), получаем
о
^1= - 8-1 (t, x(t), t) + f 8-2(t, x(t), t) [min/0'(f, x(0, t) X ai	*	У *	uep
X{X(t, /)B(/)«U + max/°'(/, x(/), t){X(t, t)C(t)v}m.-
~Z°'(Z, X(O, t){X(t,	—
-Z°'(Z, x(t), t) C (t) vQ [I] }m]dr. (46.14)
Воспользуемся теперь условием 46.2. Рассмотрим выражение,, стоящее в квадратных скобках в (46.14). Если вместо вектора у0И подставить в это выражение вектор v(u[Z]), который обеспечивает выполнение неравенства (46.6) при и — и И, то рассматриваемое выражение примет неположительное значение. С дру* гой стороны, из соотношения (46.12) видно, что замена вектора ^°И е со {и eF°(Z, x(Z))} любым другим вектором иесо {veQJ может привести лишь к возрастанию величины, стоящей в (46.14) в квадратных скобках. Итак, получаем, что рассматри* Маемая величина неположительна, поэтому
dK [/]  dl (/, х [/]) n : dt	dt
7*
196
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
(ГЛ. VII
при почти всех	следовательно, для решений уравне-
ния (46.13) функция %[/] = %(/, х(/]) не возрастает. Стало быть, как показано выше, эти решения будут уклоняться от встречи с Ме на промежутке [/0,0).
Пусть теперь v°c(t, х) — некоторая функция, удовлетворяющая при всех {/, х) условию о® (t, х) е Т° (t, х). Рассмотрим движения х[/] = х[/, t0, х0, У®], порожденные стратегией V°-r-ti°(^>x). Всякое такое движение является одновременно и решением х(0 уравнения (46.13), следовательно, стратегия V°-i-ti®(/, х) доставляет решение задачи об уклонении.
Итак, доказано следующее положение.
Теорема 46.1. Пусть выполняются условия 46.1 и 46.2. Тогда стратегия V® -ъ о® (t, х), определенная в области G соотношением (46.12), а вне области G— условием o®eQ, обеспечивает уклонение всех движений х [^] = х [/, t0, х0, V®] от множества Ме на промежутке [/0, б1), если только х0) > с.
В заключение параграфа обсудим кратко смысл условия (46.12). Выбор управления v°, удовлетворяющего этому условию, означает прицеливание в направлении вектора s*(t,x), который является усреднением всех возможных направлений экстремального прицеливания
s (t, х, т) == X' (т, t) l°* (t, х, т),
отвечающих различным значениям параметра т е [f, -О']. Величина 8~2 (t, х, т) играет роль некоторой весовой функции, при этом вес направления s(t, х, т) тем больше, чем меньше соответствующее значение величины е*(^,х, т)>0. Выбранное таким способом усредненное направление экстремального прицеливания обеспечивает сохранение неравенства е*(/, х, т)> 0 при всех t е [/о, й) и г е [/, #).
§ 47. Примеры. В этом параграфе приведены некоторые примеры, иллюстрирующие материал данной главы. Рассмотрим сначала решение задач преследования и уклонения в случае, когда движения управляемых объектов описываются линейными однотипными уравнениями
i/ = 4(Oz/ + B(O« + f(1)(/), «ЕД
г = А(0г + В(0и + /<2>(0, fsQ,
причем множества Р и Q здесь п о д о б н ы, т. е. Р — rQ (г > 1). Предполагается, что игра преследования — уклонения оканчивается в момент времени t = т, когда впервые осуществляется условие	е Л4М/п, где М{Х}т— некоторое выпуклое
замкнутое множество в m-мерном пространстве векторов {х}т- .
ПРИМЕРЫ
197
§ 471
Полагая здесь х = у — г, получаем, что изменение фазового вектора х описывается уравнением вида (40.1), где С(/) = _= —В(/)> а множество Л4С является цилиндрическим в направлении оси t и осей (и — т) последних координат фазового вектора х.
Покажем, что решение рассматриваемой игры можно получить, исходя из материала данной главы. Проверим сначала, что здесь выполняется условие регулярности, сформулированное в §41. Для этого в соответствии с материалом § 41 достаточно показать, что функция х(/», &, /) (41.1) выпукла по I (см. лемму . 41.1). Учитывая, что в данном примере C(t) = — B(t) и Р = rQ, получаем, что функции pi (/*, &,/) (41.7) и р2(/»,	/) (41.8) свя-
заны соотношением
гр2(*.Л. /)== — Pi(/„ М) (г>1).
Поэтому функция х(/а, О, Z) (41.1) задается здесь соотношением
х (t,Л, /) = -	Р1 (/.Л, /) + Рл1 (/)],
т. е. функция х(/*, 'О’, Z) в данном случае будет выпуклой по /, что и требовалось показать.
Итак, в рассматриваемом примере решение задачи преследования можно определить в соответствии с теоремой 41.1 соотношением (41.2), причем в качестве параметра 0* можно выбрать наименьший корень ft = Оо (/о, *о) уравнения е0 (Zo, О) = с (О^/о). Тогда экстремальная стратегия UQC обеспечит попадание точки {/, х[/]} на множество Мс к моменту t = Оо(6ь*о), или, что то же самое, обеспечит к моменту t = Оо(/о, *о) встречу движений y[t] и z[f| — выполнение условия {y[t] —
Рассмотрим теперь задачу об уклонении. При решении этой задачи в соответствии с материалом из § 46, кроме проверенного выше условия выпуклости функции %(/*,'&,/) (41.1), требуется выполнение условия 46.2. Покажем, что и это условие вытекает из соотношений С (/)==—- B(t) и Р = rQ (r> 1). Действительно, выбирая в качестве v(u) вектор v(u) = -~«, получаем следующее соотношение:
f)(B(/)« + C(/)0(«))]m =
= 1^2-0 I'	LzlLminI' t) B(/) tt}m. (47.1)
1 U^P
С другой стороны, справедливы равенства
max/' (Х(т,	= — min/' {Х(т, t)B(t)v}m =
v<=Q
<= - V min/' {X(t, /)В(/)u}n. (47.2)
r U<=P
198	'	ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ	[ГЛ. VII
Поэтому из соотношений (47.1), (47.2) вытекает, что при любом выборе вектора mg со {Р} и чисел т, t (Zo t г Ф) для всякого вектора I будет справедливо неравенство (46.6), причем v(u)^ со {Q}, т. е. имеет место условие 46.2.
Следовательно, решение задачи уклонения здесь можно искать в форме стратегии обобщенного экстремального прицеливания, описанной в § 46. При этом в качестве параметра -0* можно взять любое значение О < Фо (/о,*о), сколь угодно близкое к наименьшему корню уравнения 8о(/о,*о, $)= с. Тогда такая стратегия второго игрока будет гарантировать уклонение от встречи {^[/] — е на промежутке времени [/0, *&).
Итак, в рассматриваемом примере экстремальная стратегия Uс, определенная в соответствии с материалом § 41, и стратегия обобщенного экстремального прицеливания VQC, определенная в-§ 46, доставляют ситуацию типа седловой точки дифференциальной игры преследования — уклонения.
В качестве конкретного примера рассмотрим следующую игру. Имеются две материальные точки единйчной массы т^> и перемещающиеся в вертикальной плоскости. Предполагается, что на точки и действуют силы и и v соответственно, выбор которых первыми и вторыми игроками стеснен условиями
II	(47.3)
Игра преследования — уклонения считается оконченной в момент t = т, когда впервые совпадут геометрические координаты точек и Движение этих точек описывается уравнениями
.	=	У2 = ^4> £з = «1> ^4 = «2— ё,	(47.4)
Zi = zit z2 — z4, z3 — vh z4 — v2—g.	(47.5)
Здесь {г/ь y2}, (zh z2] — координаты точек m™, m®; {y3> y4], {z3, z4} — векторы скоростей этих точек; g — ускорение свободного падения. Нетрудно заметить, что в данном примере управляемые объекты (47.4), (47.5) являются однотипными в указанном выше смысле.
Определим для данного примера элементы экстремальной конструкции, используемой в § 41 для построения стратегий При этом будем полагать, что введением переменной х = у — z данный пример приведен к обычному виду задачи сближения, где изменение фазового вектора х описывается уравнением
Xj=x3, х2 — х4, x3 = ul — vl, х4 = и2 — v2,	(47.6)
а множество Мс определено соотношением
= [ {/, х}:Х1 = х2 = 0].
(47.7)
ПРИМЕРЫ
199
$ 471
Фундаментальная матрица X (А, 7) для системы (47.6) имеет вид
X($,t) =
1
о о
.0
О 1 о о
(й-/) о
1
о
о
(0-0 о
1
Поэтому
р2(Л,	/)
{X(fl,7)B(7)u}w = (fl —7)и, {X(fl,7)C(7)oU = (fl-7)v.
Отсюда получаем для величин pt (7„, fl, Z) (41.7) и р2(7„, А, О
(41.8) выражения
Pi (*..А, 0 - -	16? + ll,
^(\~U2/zF+I.
Следовательно, величина е0(7., х,, А) определяется здесь соотношением
«о (7.. х„ А) = max (liqi х„ А) + l2q2 (7., х,, А) —
Здесь максимум достигается на векторе
/0 ,	.. Г 71	fr)/||q (t„ х„ fl) II I
(7.. X., «) — [ qi	0)/nq (4>	ф) Ц J.
<h (t.i x„ fl) = X.] 4- (fl — 7.) х^з,
<?2 (7.> x., fl) = x,2 + (fl — 7,) x,4,
II q(*., x., fl) II = Vq\ (7., x., fl) + ql (7., x., fl).
(47.8)
где
(47.9)
Поэтому
8о(t., х., = \\q (t„ х., А) ||- &—+ с. (47.10)
Итак, окончательно получаем, что в данном примере соотношение (41.2) в области, где ео(7«, х*, $)> с, определяет искомое управление ы“(7ш, xj следующим образом-.
'-V®(7.,x.,fl) ' fl) J’
где вектор 1° определен равенством (47.8). Напомним, что в качестве параметра О здесь выбирается наименьший корень fl sa *=Ао(70, х0) уравнения ео(7о, хо, А) = с, где функция во (’7, х, А) определена соотношением (47.10).
и?с (t, *♦)
(47.11)
200
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
(ГЛ. VII
Обратимся теперь к задаче об уклонении. Из соотношения (46.12) сразу получаем, что искомое управление vQc(t, х) определяется равенством
v°c (t> х) =
^*2^1 О» ^) _ ^»2s2 (^»	_
Здесь, в соответствии с (46.11), о
х)—|(е0(/,х,т)—с)-2(т —х, x)dx (О<^{ta, х0), /=1,2).
(47.12)
где величина eo(t,x, т) и вектор l°(t, х, т) определены равенствами (47.10) и (47.8), в которых параметр О заменен на т.
Стратегии U°c (47.11) и V°c (47.12) были реализованы на
ЭВМ. При этом были выбраны следующие числовые значения
параметров и начальные условия:
^=60, Л2 = 37,6, г/? = 0, ^ = 0, у“ = 0, 1/5 = 0, 2о = 01 2®=15, г“ = 5, zj= —5, g=10.
На рис. 47.1 изображены некоторые реализации процесса сближения — уклонения. Заметим, что при построении управления и°с в процессе игры осуществлялась коррекция наименьшего корня Оо(Лх[/]) уравнения ео(/,х|7], О) = с, т. е. в соотношениях (47.11) параметр # не фиксируется и допускается его сдвиг влево. Сплошными линиями на рис. 47.1 изображены траектории точек
Рис. 47.1.	mW и т<2)> отвечающие стра-
тегиям и V?, штриховыми— траектории, отвечающие стратегиям U* -ь и* (у, z) и V* -ь -i- v*(y, г), которые назначают управления и* и о* (||н*|| = Хь Цц*11 = М, направленные по оси, соединяющей точку mW сточкой /п<2>. На рис. 47.1 указано также время встречи точек и
zn(2), причем при реализации пары стратегий U*, V0 встречи не
происходит.
5 47]
ПРИМЕРЫ
201
Рассмотрим теперь другой пример игры преследования — уклонения, в котором хотя преследующий и преследуемый объекты не являются однотипными, однако выполняются условия 46.1, 46.2, что позволяет определить ситуацию типа седловой точки, используя материал данной главы. В этой игре две материальные точки ап*1) и ап*2) перемещаются по горизонтальной плоскости и точка ап*1) преследует точку ап*2). Как и в предыдущем примере, преследование считается оконченным в момент t = т, когда впервые совпадут геометрические координаты точек ап*1) и т<2). Предполагается, что, кроме управляющих сил, на каждую из точек ап*1) и ап*2) действует сила трения, пропорциональная скорости точки. Итак, рассматриваются управляемые объекты, движение которых удовлетворяет уравнениям
У1=Уз, Уг = «/4. Уз = -а^з + «1, У. = - ЩУ^ +	(47.13)
Z1 = Z3, У-2 = z4, z3 = — a2z3+ vb z4 = — a2z4 + а2> (47.14)
11«11<ЛЬ ||о||<Л2.
Отметим, что параметр ои, вообще говоря, не совпадает с а2, поэтому уравнения (47.13), (47.14) не являются однотипными.
Полагая хх = ух — zr, х2 = у2 — z2, х3 = у3, х4 = У4, *5 = z3, Хб = z4 приведем данную игру к обычному виду игры сближения— уклонения, где множество Мс будет задано соотношением (47.7), а изменение фазового вектора х будет описываться уравнениями
*1 = *3 — *5,
== Х4 Xgf
х3=-а1хз + н1,	(47.15)
х4 — — ai%4 + и2, x5 = — a2x5 + vh Xg = CL2Xq -4“ ^2*
Покажем, что при выполнении соотношений
Л1/(Х|	^2	(47.16)
в данном примере будут выполняться условия 46.1, 46.2.
Поскольку фундаментальная матрица решений для однородной части системы (47.15) имеет вид
	1 0	0 1	п (О, 0 0	0 п (О, 0	— r2 (fl, t) 0	0 — Г2 (О’, t)	
	0	0	e-at (О-А)	0	0	0	
	0	0	0		0	0	»
	0	0	0	0	e-a2 (О—А)	0	
	0	0	0	0	0	—a2 CO1—A)	
202
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
то получаем {X{&,t)B(t)u}m = rl('&,t)u,
{X(Ь, t)С (0 v}m = - г2 (А, 0 v,	(47-17>
Pi(t, A, D = -Mi«M.) Vl\ + ll, /л„,оч ,z------------------------г	(47.18)
р2 (*.,А Л) = М2 (Ъ О У К + ll .
Здесь
г, (»,0-^-(1 - е-“< а1
о	(47.19)
Rt (a, t,) = f rt (fl, /) di = (^~Z,) +	(e““*(#-u — 1)
J	ot- °i
(£=1,2).
Заметим теперь, что при выполнении соотношений (47.16) справедливы неравенства
ViCft, £)>l2r2(fl, f) и ^7?! (fl, 0>М2(А, 0	(47.20)
при всех £^fl. Поэтому функция х(/„ fl, I) (41.1), которая задается соотношением
и (/., А, I) = Mi (A, Q — Л2/?2 (А, О) //? + /!, будет выпукла по I, т. е. здесь выполняется условие 46.1. Для проверки условия 46.2 полагаем v (и) = -^-и и получаем (см. (47.17), (47.20))
I' {X (т, /) В (/) и + X (т, 0 С (0 v (и)]т =
= Г (т, t) и —	г2 (т, /) и j
V. (т, 0 -V2 (Т, 0 min t,u = _ (Л1Г1 (т>	||, || =
Л1	и^Р
= min/'{X(T, t) В (t) и}т + тахГ {X (х, t)C(t)v]m, u^P	v^Q
причем это соотношение справедливо для всех векторов I и чисел т, t (tQ t т < оо), а вектор v (и) удовлетворяет условию || v (и) || Хг. Таким образом, условие 46.2 здесь также выполняется, поэтому решение рассматриваемого примера можно получить с помощью экстремальной конструкции, предложенной в данной главе.
$ 471
ПРИМЕРЫ
203
Учитывая соотношения (47.18), получаем следующее выражение для величины ео(/«,х», ft):
*.» О) ~ т1х <*.» х.»	+ /2?2 (С х,, ft) —
-Г[-^

+ 4-(e-“‘(®-<»> —1)11
ai <4	J
+- 4 (e-“HO-w_ 1)1 Vfi a2 aj
где
<71 (t., х.,	= х,х + fj (ft, f.) х,3 — r2 (ft, /.) x>5,
<?2 (*.» X„ ft) = X,2 4- r, (ft, /,) X,4 — r2 (ft, tt) X*.
Максимум в (47.21) достигается на векторе по г чл_Г? 1	х*’ ф)/|14(*•> II1
L <72 (/., х„, ft)/|| <7 (t„ х„ ft) || J •
Поэтому
«о ((.. Х„ ft) = II q (/., х„ ft) II — Л1 р£-~ V
(47.21)
(47.22)
(47.23)
(47.24)
4- -L (е-а> («-<»)
Г (ft-О '2
«! ау
. l(e-aHO-U-l)l+C. а2 а2
Итак, окончательно получаем, что в данном примере соотношение (41.2) в области, где ео((», х„ ft) > с, определяет искомое управление u°c{tt, х.) следующим образом:
'-V?(<t,x.,ft)‘
_ ~	(^»» ft) _
(47.25)
где вектор 1° определен равенством (47.23). Напомним, что в качестве параметра ft здесь выбирается наименьший корень ft = = fto((o, Хо) уравнения ео((о, х0, ft) = с, где функция е0(/0, %о. ft) определена соотношением (47.24).
Обратимся теперь к задаче об уклонении. Из соотношения (46.12) сразу получаем, что искомое управление о®((, х) определяется равенством

Z2S! {t, X)
х)
(47.26)
204
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛИВАНИЕ
[ГЛ. VII
здесь в соответствии с (46.11) и при 6’<О'о(/о, х0) й
st(/, х) = — J (е0 (/, х, т) — с)““2 г2 (ь 0 (^> т) dx, (47.27> t
где величины е0(/, х, т) и /? (/, х, т) определены равенствами (47.23), (47.24), в которых параметр ft заменен на т.
Отметим, что в примере игры преследования — уклонения выполняется следующее условие, которое можно рассматривать как обобщение свойства однотипности: для любых чисел т, t (tQ^t т) существует непустое выпуклое множество m-мерных векторов Н(х, 0, такое, что, во-первых, для любого вектора и^со{Р} существует вектор y(w)eco{Q}, для которого при всех т и t (/о t т) выполняется соотношение {X (т, t) (В (t) и + + C(t)v(u)}m^ Н(х, t), во-вторых, для любых чисел т и t (/о t т) и для любых векторов H(x,t) и ueco {Q} можно указать вектор и е со {Р}, для которого справедливо равенство
{Х(т, t)(B(t)u + C(t)
Можно проверить, что это условие является достаточным для выполнения условий 46.1, 46.2.
В заключение параграфа приведем пример, иллюстрирующий материал § 43. Пусть рассматривается задача преследования материальной точки материальной точкой Движение этих точек описывается уравнениями (47.4), (47.5), управление второго игрока по-прежнему стеснено ограничением
(47.28)
а управление первого игрока удовлетворяет теперь ограничению
I^K^.	(47.29}
Как и выше, приведем рассматриваемую задачу о преследовании к задаче о сближении, в которой фазовый вектор х = у — z описывается уравнением (47.6), а множество А1С задано соотношением (47.7).
Покажем, что в данном примере имеет место условие 43.2. Учитывая, что здесь сечения Л4С(/) множества Л4С непусты при всех t /0, получаем следующее выражение для величины eo(^,xj (43.20):
е0 (t,	— min max	T) +	x) —
 b {X-ty (| /( J + | J) + UiX-t.Y (,2	+ c> (47 30)
где величины qi определены соотношениями (47.9).
ПРИМЕРЫ
205
§ 47]
Однако здесь для проверки условия 43.2 удобнее исходить не из формального выражения для величины 8о(/»,х») (47.30), а воспользоваться геометрическим смыслом векторов Z°(/», х», т), на которых достигается максимум в (47.30). Для этого в соответствии с материалом из § 40 определим в пространстве точек. {xi,x2} область достижимости Gi(Z„ х„ т, о*(-)). В данном примере эта область будет квадратом со сторонами, параллельными координатным осям, длина которых равна Xj(t — tn)2r центр квадрата находится в точке
т
Х„ т, v’( • )) = q(/„ х„ т)— j (т —	(47.31}
Различному выбору допустимых управлений о*(-) отвечают различные положения точки g(t*, х*, т, г>*(-)), причем из (47.28), (47.29) видно, что точки £(/», х„ т, о*(-)) заполняют круг G2(Z.,x„t) радиуса Л^т-2 с центром в точке q(t*, х», т)
(47.9). Таким образом, для следует определить такое положение точки g(t», х», т, у°(-)) <= G2(/„ х., т) (центра квадрата Gt), при котором расстояние от квадрата Gi до начала координат
х4 = 0, х2 = 0 будет максимальным. Отметим, что такая точка g° = g(tt, х», т, о°(-)) может быть не единственной. Из материала §40 вытекает (см. стр. 165, 166), что векторы х», т) направлены из начала координат на ближайшие точки
определения величины ео(/«, х„г)
множества Gi(f%, х«,т, о°(-)). Эта геометрическая интерпретация позволяет заключать, что в области ®°(/., х,, т) > с максимум в (47.30) достигается либо на единственном векторе Z°(f,, х,, т), либо на паре векторов х,, т), ^2)(Z.> х,, т) вида
/“) = {(-!)', 0}, & = {0,(-1)'}	(/,/=1,2). (47.32)
На рис. 47.2 изображена ситуация, в которой /п) = {1,0}, /?2> = “=(0, 1).Здесь жирными линиями изображена граница квадрата
206
ЭКСТРЕМАЛЬНОЕ ПРИЦЕЛЙВАНИЕ
[ГЛ. VII
61, отвечающего нулевому управлению р*(/) = 0 (/;>/*). Круг указывает область, в которой может оказаться нижняя левая вершина квадрата Gi при различных выборах управления £>*(•). Штриховыми линиями изображены два положения квадратов Gi, отвечающие максимальному удалению их от начала координат.
Перейдем теперь к непосредственной проверке условия 43.2. В случае единственного вектора т) соотношение (43.29), которое в данном случае имеет вид
Z0' (и + v) min /°'и + max /°'у,	(47.33)
U(=P	V е Q
будет выполняться для любого v при выборе и* из условия
/°'и’ = min 1°'и.
и<^Р
Если же множество L°(Z„ х*, т) состоит не из одного элемента, то, как отмечалось выше, его составляет пара векторов вида (47.32). Пусть для определенности /°,> = {1-, 0), /°2)= {0, 1). Выберем вектор ы» = {—М, — Ы; тогда, учитывая, что здесь
тШ'« = -М1М + 1М), и<==р
получаем
(«* + о) = min + 10({р min и + max l^v usP	u<=P	d eQ
O’=1,2),
t. e. при выборе вектора u* для любого из векторов Z(i>, Z<2) и для любого v е Q выполняется неравенство (47.33).
Таким образом, условие 43.2 в данном примере действительно выполняется, поэтому его решение можно получить, опираясь на теорему 43.2.
В заключение данной главы подчеркнем, что условия 43.1 и 45.1 являются достаточными для того, чтобы множество совпадало с максимальным — u-стабильным мостом для задачи сближения с множеством Мс к моменту О, который был определен при доказательстве леммы 16.1 неконструктивно, а здесь, стало быть, получает конструктивное описание на базе программных построений. ,
Глава VIII
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
§ 48. Стабильная дорожка. В предыдущей главе множество Ц7, которое предполагалось использовать в качестве стабильного моста, ведущего на цель Мс (в случае задачи 9.1 о сближении) или минующего цель Мс (в случае задачи 9.2 об уклонении), строилось исходя из условий программного поглощения цели А4С. Для использования такого множества W = [{/, х): to t eo(t, х)^е] или W — [{/, х}: to t 'О', eo(t, х)^ е] в качестве подходящего моста требовалась, однако, дополнительная проверка свойства стабильности, так как свойство стабильности из способа построения подобного множества не вытекает. Тем не менее, в предыдущей главе показано, что стабильность множества программного поглощения по крайней мере в регулярных случаях можно проверить с положительным результатом. Заметим, кстати, что множества W программного поглощения, вообще говоря, оценивают максимальный стабильный мост W7* сверху. Однако, при построении нужного стабильного моста можно идти и другим путем, конструируя такие множества W, которые оценивали бы максимальный стабильный мост VF* снизу. При этом представляется естественным постараться, чтобы уже в самом построении W предусматривалось свойство стабильности. Тогда проще всего начать с попытки построения предельно узкой априори стабильной дорожки, лежащей на максимально широком стабильном мосту IW и связывающей начальную позицию {/о, Хо} с целью Мс в случае задачи 9.1 о сближении или минующей цель Мс в случае задачи 9.2 об уклонении. Очевидно, простейшей такой дорожкой W явится просто некоторая кривая {t,x — w(t)} (t0^t начинающаяся в момент t ~ to из позиции {/о, Хо} и в случае задачи 9.1 о сближении к моменту & идущая все время при to t О в Nc и попадающая в момент t = на ЛГС, а в случае задачи 9.2 об уклонении вплоть До момента — покидающая Na или минующая Мс при t0^t^& (рис. 48.1 и 48.2).
Следуя этим соображениям, рассмотрим сначала для определенности задачу за первого игрока. Предположим, что функция w(t) (to^tf^&), определяющая искомую дорожку {t,x = w (/)} (to t О), есть функция абсолютно непрерывная. Тогда условие «-стабильности такой предельно
208
АПРИОРИ стабильные мосты
(ГЛ. VIII
узкой дорожки в соответствии с материалом из § 11 требует, чтобы при всяком выборе программы	при почти всех
значениях t <= [/о, О] выполнялось включение
w(t}<=&a(t, w(t), V),	(48.1)
где символ	V), как обычно, обозначает выпуклую обо-
лочку векторов f(t,x, и, v), когда вектор v, определенный
выбранной программой V-*-v, зафиксирован, а вектор и пробегает все множество Р. Условие (48.1) является необходимым и достаточным условием «-стабильности дорожки {t,x = w(t)}
(to t Ф). Отсюда вытекает, однако, что для «-стабильности дорожки {t, x = w(t)} (to^t^ty во всяком случае достаточно, чтобы при почти всех t е [/о, О] выполнялось включение
w (t) е Н (t, w (t)),
(48.2)
СТАБИЛЬНАЯ ДОРОЖКА
20»
§ 48]
где H(t,w) есть пересечение всех возможных множеств g-u(t,w, V), которые только можно получить для данной позиции {t, а»), перебирая всевозможные программы V — v.
Напомним, пользуясь случаем, содержательный смысл условия (48.1), которое, стало быть, обеспечивается условием (48.2). При выполнении условия (48.1) первый игрок имеет возможность выбором своего управления провести позицию {/, x(f]} по дорожке {/, х = w(t)} (to^t если второй игрок в каждый текущий момент времени t будет сообщать ему программу своих действий на будущий малый интервал времени. Й напомним, что согласно лемме 15.1 при выполнении условия (12.4) седловой точки для маленькой игры (12.1), (12.2) у первого игрока имеется возможность провести позицию (t, х[/]} по той же кривой {t, x = w(t)} (to t <►) за счет такого выбора своего управления — экстремальной стратегии Ul ч- и°с (t, х), которое является чисто позиционным и уже не использует указанную выше дискриминирующую второго игрока дополнительную информацию о программе V его действий.
Итак, соотношение (48.2) приводит нас к мысли конструировать искомые стабильные дорожки {/,x = w(t)} с помощью решений х = w (t) дифференциального уравнения в контингенциях:
X е= Н (t, х),	(48.3)
где
Я (/, х) = П X, V 4-. V),	(48.4)
о<=<?
так как всякое решение x = w(t) уравнения (48.3) уже по самому способу построения этого уравнения доставляет стабильную дорожку. (Предыдущие рассуждения, которые привели нас к уравнению (48.3), нельзя, разумеется, рассматривать как доказательство стабильности любой дорожки {/, x = w(t)}, построенной на решениях уравнения (48.3), ибо эти рассуждения мы провели довольно бегло. Более подробное обоснование этой стабильности будет приведено ниже.)' Итак, докажем следующее утверждение.
Теорема 48.1. Пусть множества Н(1, х) (48.4) непусты для всякой позиции {/, х} из некоторой области D в пространстве {/, х} и пусть существует по крайней мере одно абсолютно непрерывное решение х = w(t) (to t 'О) дифференциального уравнения в контингенциях (48.3), проходящее в области D и удовлетворяющее условиям
w(tQ) = x0, [t,w(t)} <=NC при	{•&, №(&)} е Мс.
(48.5)
210
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
[ГЛ. vnr
Пусть также в некоторой открытой области D*, охватывающей кривую {t,w(t)}	выполняется условие (12.4) сед-
ловой точки для маленькой игры (12.1), (12.2). Тогда стратегия Uc -t-uc(t,x), экстремальная к дорожке W — [{/, х): t0 t -С Ф, х = = и>(<)], обеспечивает перемещение всех позиций {t,x[t, t0,x0,_t7c]} по этой дорожке вплоть до встречи с Мс в момент •§,как бы ни действовал второй игрок.
Для доказательства теоремы 48.1 достаточно, согласно лемме 15.1, доказать только «-стабильность дорожки W = [{/, х}: t0 =5= t ft, x = w(/)]. Собственно говоря, эта стабильность уже была обоснована выше самим построением уравнения (48.3). Однако для соблюдения формы проверим ее теперь еще раз, рассуждая в обратном порядке и исходя прямо из определения уравнения (48.3) согласно (48.4).
Итак, пусть х= w (t) есть то решение уравнения (48.3), о котором идет речь в теореме 48.1. Выберем на дорожке {t, x = w(t)}	какую-нибудь позицию {^», х*}, число
t* < t* < ft) и программу V*-i-v*. Для проверки свой-, ства «-стабильности, согласно определению этого свойства (см. стр. 52), достаточно показать, что по крайней мере одно обобщенное движение x(t) — x(t, t*, х», V*), т. е. в данном случае по крайней мере одно решение x(t) = x(t, t*, х», V*) уравнения в контингенциях
хе>я(и,П.	(48.6)
удовлетворит условию х(/*)	Но по определению мно-
жеств H(t,x) (48.4) для всякой позиции {/, x}^W имеем H(t, х)с х, V*), т. е. функция х = w(t), являясь решением уравнения (48.3), удовлетворяет одновременно и уравнению (48.6), или иначе, эта функция х = w (t) является одновременно одним из обобщенных движений х(/,/*, х», V*), которое, стало быть, удовлетворяет нужному условию х(/*)= w(t*) очевидным образом. Итак, мы еще раз проверили «-стабильность дорожки IF = [{£, х} :t0 t -С О, х = и>(/)] из теоремы 48.1, а вместе с этим мы проверили и справедливость самой теоремы.
. Аналогичным образом, с понятной переменой местами букв и и v, строятся дифференциальные уравнения в контингенциях:
x«=G(/,x).	(48.7)
где
G (/, х) = f| (t, х, и 4- «),	(48.8)
и^Р
^~B(t,x,U-i-u) — co[f:f — f(t,x,u,v),v^Q] (иеР), (48.9)
при этом все решения х = w (t)" (48.7) образуют о-стабильные дорожки {/,х = ш(/)} (t0<t<'&). Для введенных таким спосо-
СТАБИЛЬНАЯ ДОРОЖКА
211
$ 48] бом дорожек справедлива следующая теорема о решении задачи 9.2 об уклонении.
Теорема 48.2. Пусть множества G (/, х) (48.8) непусты для всякой позиции {/, х} из некоторой области D в пространстве {/, х} и пусть существует по крайней мере одно абсолютно непрерывное решение х = w(t)	ft) дифференциального ура-
внения в контингенциях (48.7), проходящее в области D, удовлетворяющее начальному условию w(tQ) = xQ и не встречающееся с множеством Мс при до выхода из Nc. Пусть также в открытой области D*, охватывающей кривую {t,x = w(t)} выполняется условие (12.4) седловой точки для маленькой игры (12.1), (12.2). Тогда стратегия Vc4- vc(Z, х), экстремальная к дорожке W = [{/, х}:	t ft, х — t0(/)], обес-
печивает перемещение всех позиций {/, х [£, tQ, xQi Vc]} по этой дорожке вплоть до момента ft и, таким образом, исключает встречу с Мс при ft, как бы ни действовал первый игрок.
Справедливость теоремы 48.2 вытекает из леммы 15.2, так как по построению уравнения (48.7) всякое его решение х(/), в том числе и то решение х = w(t), о котором идет речь в теореме 48.2, образует априори v-стабильную дорожку W.
Отметим, что утверждения теорем 48.1 и 48.2 остаются справедливыми, если предполагать выполнение условия седловой точки (12.4) лишь в каждой позиции {/*, xj, лежащей на рассматриваемых дорожках W. Однако в этих случаях нельзя просто ссылаться на леммы 15.1 и 15.2, а требуется новое доказательство аналогичных лемм, при котором учитывается возможность нарушения условия (12.4) вблизи дорожек W.
Множества H(t,x) и G(t, х) были определены выше согласно соотношениям (48.4) и (48.8) соответственно. Однако иногда бывает удобно исходить не прямо из этих определений, а использовать какое-нибудь вытекающее из них аналитическое описание множеств H(t,x) и G(t, х). Одно из таких описаний мы и приведем теперь.
Будем рассматривать для определенности множества H(t, х). Переход к множествам G(t,x) получается простой переменой ролей для букв и и v. Итак, выберем какую-нибудь позицию К*}- Нас интересует только случай, когда множество H(t,x) для выбранной позиции {t, х} не пусто, что и будем предполагать. Каждое из множеств х, V 4- v), участвующих в соотношении (48.4), определяющем H(t,x), является ограниченным, выпуклым и замкнутым множеством. Стало быть, таким же множеством будет и H(t,x). Для этого ограниченного, выпуклого и замкнутого множества Н(t, х) справедливо следующее утверждение, которое и дает одно из возможных его описаний.
212
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
[ГЛ. VIII
Лемма 48.1. Вектор h тогда и только тогда принадлежит множеству H(tyx)> когда он удовлетворяет условию
max [max min/'/G, х>	*0— /'А]<0.	(48.10)
Ц 11|=1 V €= Q U^P
Докажем лемму. Пусть сначала h^H(t.x). Стало быть, йе е *, V-t- v) при всяком выборе V. Но из условия йе e^u(<,x, Vvv) вытекает, что h лежит в каждом опорном полупространстве Щ(^\, I) множества 3Tu(ty ху V 4- v). Это полупространство Щ(^"и, Z), ортогональное к единичному вектору /, определяется соотношением (см. выше, стр. 163)
l'h min l'h — min l'f (t, x, u, v). h^Fu u^P
Стало быть, при всяком выборе векторов I и v вектор Ле е H(t,x) должен удовлетворять условию
minх, и, и) — /'Л<0,	(48.11)
иер
откуда и вытекает необходимость условия (48.10).
Пусть теперь выполняется условие (48.10) для некоторого вектора h. Стало быть, при всяком выборе векторов I и v для вектора h справедливо соотношение (48.11). Но это означает, что вектор h при всяком выборе / и v содержится в опорном полупространстве n,(fFu, I) множества х, V 4- и). Однако каждое из множеств 3ru(t, х, V -т- v) совпадает с пересечением всех своих опорных полупростанств П»(£Ги, I) ([8*], стр. 871), Стало быть, при выполнении условия (48.10) вектор h содержится во всяком множестве STu(.t,x, V-z-v), т. е. h содержится в H(t,x). Тем самым и достаточность условия (48.10) также доказана.
Аналогичным образом проверяется следующее утверждение, которое дает описание множества G(t, х) (48.8).
Лемма 48.2. Вектор g тогда и только тогда принадлежит множеству G (t, х), когда он удовлетворяет условию
max [max min/7(/, х, u,v) — /'g]<0.	(48.12)
|U||=1 u<sp seQ
Итак, в этом параграфе мы рассмотрели один из способов построения стабильных мостов для задач 9.1 и 9.2 в форме предельно узких априори стабильных дорожек {/, x = w(t)}	которые образуются решениями х =
= w(t) уравнений (48.3) и (48.7) соответственно.
§ 49. Стабильное интегральное многообразие. В предыдущем параграфе описан один метод построения априори стабильного моста в форме стабильной дорожки {t, x = w(t)} (t0 t
.Q1	СТАБИЛЬНОЕ ИНТЕГРАЛЬНОЕ МНОГООБРАЗИЕ	21£
Этот метод является весьма удобным, так как он позво-^яет свести дело к определению одной единственной кривой которая либо (в случае задачи 9.1) ведет на цель А4С, либо (в случае задачи 9.2) минует цель Мс. Затем, после определения этой кривой, остается только в ходе действительной игры отслеживать движение х[/] вдоль этой кривой вплоть до момента О. И это отслеживание осуществляется при помощи экстремальной стратегии Uc~ uc(t, х) или 14-4-х) соответственно, причем и построение стратегии Uc или Vc, экстремальной к стабильной дорожке {/, x = w(t)} осуществляется весьма просто, ибо в условиях (13 1) или (13.3) роль точки w* будет играть просто точка х = = Однако возможности применения данного весьма удобного метода решения игровых задач сближения — уклонения ограничены тем требованием, чтобы множества H(t9x) йли G(t.x) были непусты хотя бы вдоль дорожки {t9x = w(t)} Условие непустоты H(t,x) (или G(t, х)) означает содержательно, что ресурсы управления первого (второго) игрока грубо превалируют над ресурсами управления его противника. При этом, хотя множества H(t,x) и G(t,x) формально определяются симметрично, однако в задачах, встречающихся на практике, где первый игрок решает задачу сближения, а второй игрок — задачу уклонения, множество Р обычно «шире» множества Q, поэтому условие непустоты множества H(t,x) выполняется чаще, чем условие непустоты множества G(t,x) (впрочем, ниже в § 88 будет рассмотрен пример задачи об уклонении, в котором множество Q «шире» множества Р).
Напомним теперь, что согласно общей теории тот или иной игрок-союзник может при любых действиях противника удержать позицию {/,%[/]} для всякого движения х[/] вплоть до встречи с Afc при т О или до осуществления нужного уклонения от Мс вплоть до момента О только на всем максимальном, предельно широком стабильном мосту, но, вообще говоря, отнюдь не на какой-то фиксированной узкой дорожке,, проходящей по этому мосту и изображаемой кривой (t, х = w(/)} (4 t '&) (рис. 49.1). Поэтому более широкие возможности Для разрешения игровых задач 9.1 и 9.2 о сближении и об уклонении представляет попытка строить нужные стабильные мосты_ уже не в форме предельно узкой дорожки {/, x = w(t)} (4 t '&), порожденной одним единственным решением х = ~w(t) уравнения вида (48.3) или (48.7), а в виде более широкого моста, порожденного стабильным интегральным многообразием, которое определялось бы целой совокупностью решений x = w(t) подходящих дифференциальных Уравнений. К этим уравнениям можно было бы предъявить то* гДа менее жесткие требования, чем к уравнениям (48.3) и (48.7)
214
АПРИОРИ СТАБИЛЬНЫЕ1 МбСТЙ
[ГЛ. VIII
Такой путь построения априорно стабильных множеств мы и рассмотрим в этом параграфе.
Будем искать сначала подходящие для нашей цели дифференциальные уравнения в форме дифференциальных уравнений ъ контингенциях. При этом опять для определенности начнем рассуждать за первого игрока. Пусть удалось найти некоторую «систему множеств #~(Lx), определенных для всех позиций {t, х} в какой-то открытой области D пространства {/, х), причем для
всякой позиции x}eD множество	ограничено, вы-
пукло и замкнуто и при изменении {/, х} множества ^(/, х) из« меняются полунепрерывно сверху относительно включения. Тогда при всяком выборе {t*, х*} D мы можем говорить о решениях x(t) = x(t9t*y х*) дифференциального уравнения в контингенциях:
х е х),	(49.1)
•каждое из которых будет продолжимым вплоть до границы области D. Пусть, далее, множества х) удалось выбрать таким образом, что для всякой позиции {/,х} ей пересечение множества &~(1,х) с любым из множеств
&"и V ч- v) = со [f: f — f (f, x, Uy v)y ue= P] (v e Q) (49.2) -непусто.
Выберем позицию {/*, xj, содержащуюся в области D. Рассмотрим пучок <^(/*, х*у D, Мс) обобщенных движений х(/,	х*),
являющихся решениями уравнения (49.1), причем каждое из движений, составляющих пучок, будем полагать продолженным либо до встречи с множеством 7ИС, либо с границей множества D. Таким образом, 38 (#», х#, О, Л1С) есть функциональное множество, которое складывается из кривых x(t) = х(/,	х*)
t ^2 т(х(•))), где т(х(-)) есть первый момент выхода по
49|	СТАБИЛЬНОЕ ИНТЕГРАЛЬНОЕ МНОГООБРАЗИЕ	215
зиции {Л%(0) либо на границу области D, либо на Мс. Если окажется, что для некоторого движения x(t) = х х») пози* ция {Лх(/)} ПРИ всех t* остается в D и не попадает на Мс,. тогда в пучок (/», х„£>, Afc) включается вся эта кривая х — = x(t) (^<*<°о).
На базе этого пучка введем множество W&, которое является, замыканием в пространстве {t, х} множества
IT = [{f, х):	/Ст(*(•))»	x = x(t, t,, х.)].
(Чтобы не загромождать запись, мы не выделяем здесь специально случай бесконечно продолжимых кривых х = x(t, /*, х«) (t„ t < оо), имея в виду, что для таких кривых запись t ^т(х(-)) означаетоо).
Из условий, наложенных на множества ^"(f, х), вытекает,, что в случае, когда для каждого движения-х = х(() из пучка % (t*, х„ D, Мс) позиция {£, x(f)} попадает на Мс, не выходя из области D, множество W& образует «-стабильный мост. Именно,, справедливо следующее утверждение.
Лемма 49.1. Пусть для всякой позиции {t,x} <=D пересечение множества &"(t,x) из (49.1) с любым из множеств (49.2) непусто. Пусть {/о, Хо)еО и каждое из решений x(t, t0, Хо) уравнения (49.1) встречается со множеством Мс nput = T^^, оставаясь при t < т в области Nc и в области D. Тогда множество Wgg, образованное пучком 3?(t0,x0,D,Mc), является и-ста-бильным мостом 1F* проходящим, стало быть, через позицию {/0, х0} « обрывающимся на Мс не позже, чем в момент &.
Аналогичным образом с понятной переменой местами букв и и v строится «-стабильный мост VP, пригодный для решения уже задачи об уклонении.
Лемма 49.2. Пусть G(MC) и H(NC)— некоторые открытые-окрестности множеств Мс и Nc, &н— граница множества H(NC). Пусть для всякой позиции {t, х} из области D пересечения множеств (t, х) из (49.1) с любым из множеств
STV (t, х, U ч- и) == со [f (t, х, и, о): v <= Q] (иеР)
непусты. Пусть, наконец, {tQ, х0} содержится в D и для каждого-решения x(t) = x(t,to,x0) уравнения (49.1) позиция {t, х(/)} не встречается с G(MC) до выхода на или вплоть до момента t = -& и при этом остается в области D. Тогда множество Wse^ образованное пучком 3?(t0,x0,D,&H), является v-стабильным мостом, проходящим через позицию {t0, х0] и минующим Мс при
Итак, для построения подходящего стабильного моста следует искать уравнение (49.1),удовлетворяющее условиям или леммы 49.1, или леммы 49.2. В частности, можно, имея в виду лемму 49.1, попытаться выбрать в качестве ^F(/,х) множество-
216
АПРИОРИ стабильные мосты
[ГЛ. VIII
G(t,x) (48.8), а имея в виду лемму 49.2, выбрать в качестве множество Н(1,х) (48.4). Основанием для такого выбора служат следующие утверждения.
Лемма 49.3. Пусть в позиции {t, х} выполнено условие (12.4) седловой точки маленькой игры (12.1), (12.2), множество G(t,x) непусто и функция
n(t, х, I) — — max mln х, и, о)	(49.3)
и&Р oeQ
-выпукла ([8*], стр. 788, [27*], стр. 39) по I. Тогда пересечение -G(t,x) (48.8) с любым из множеств ^"u{t,x,V -~v) (49.2) непусто.
Лемма 49.4. Пусть в позиции {/, х} выполнено условие .Х12.4) седловой точки маленькой игры (12.1), (12.2), множество H(t,x) непусто и функция
K(t, х, 1) = — max min l'f (t, x, и, v) (49.4)
D€=Q U&P
выпукла no l. Тогда пересечение H (f, x) с любым из множеств ^v(t9xtU^u) непусто.
Лемма 49.4 получается из леммы 49.3 переменой ролей у букв и и v. Поэтому мы можем ограничиться лишь доказательством, например, леммы 49.3. .
Примем от противного, что лемма 49.3'неверна. Тогда найдется такое мно
жество STu(t,x, V~ v*) (49.2), которое не будет пересекаться с множеством G(Z, х). Согласно теории выпуклых множеств (см. [8*], стр. 782), найдется единичный вектор /*, который определит гиперплоскость
Рис. 49.2.
Г'х — а,	(49.5)
разделяющую множества G(t, х) и х, V 4- v*), т. е. будет справедливо неравенство (рис. 49.2)
max T'f = max l*'f (t, x, u, v*) < a < min l*'g.	(49.6)
«ер	geG
Известно, далее (см. [8*], стр. 781, [27*], стр. 136), что в случае выпуклости функции x(tx,/) (49.3) по I во множестве G(£, х), определенном условием (48.12), при всяком выборе / =/* обязательно найдется элемент g = g*> для которого будет справедливо равенство
— х(/, х, Г) — Z*'g*= max min/*'/(/, х, и, v) — l*'g* = Q, (49.7) и^Р ueQ
$ 49 I
СТАБИЛЬНОЕ ИНТЕГРАЛЬНОЕ МНОГООБРАЗИЕ
21Г
Но из (49.7) при выполнении условия (12.4) седловой точки для маленькой игры (12.1), (12.2) вытекает равенство
min max Г'f(t, х, и, v) = r'g\	(49.8>
Неравенство (49.6) и равенство (49.8) противоречивы. Полученное противоречие и доказывает лемму 49.3.
Комбинируя условия лемм 49.3, 49.4 с условиями лемм 49.1 и 49.2 и теорем 48.1, 48.2, можно получить способы построения стабильных мостов Wu или IF» соответственно для задачи 9.1 о сближении или для задачи 9.2 об уклонении, а также получать, то или иное конкретизированное проявление общей альтернативы из § 17. Ограничимся здесь только двумя примерами подобного рода. Именно, сформулируем следующие два утверждения, вытекающие прямо из предыдущего материала.
Теорема 49.1. Пусть для всех позиций {/, х} из некоторой открытой области D, содержащей начальную позицию {/0, х0} « множество Nc, выполнены условие (12.4) и условие леммы 49.3. Если при этом существует решение х = w(t, t0, х0) уравнения (48.7), для которого позиция {/, w(t, t0, х0)} уравнения (48.7) минует Мс до выхода из Nc или минует Мс вплоть до момента ф, то стратегия Ve^-ve(t, х), экстремальная к дорожке {/, х = = w(t, t0, Хо)} (t0<t<6), порожденной этим решением, гарантирует для всех движений x[t, t0, Хо, Vc] уклонение позиций {/, х[ф от Мс до выхода их из Nc или вплоть до момен-та 6'. В противном случае стратегия ис-*-ис(Е х), экстремальная к множеству W%, порожденному пучком Я? (t0, х0, D, Мс) решений уравнения (48.7), гарантирует сближение с Мс к моменту времени б.
Теорема 49.2. Пусть для всех позиций {t, х} из некоторой открытой области D, содержащей Vo, Хо} и множество Nc, выполнены условие (12.4) и условие леммы 49.4. Если при этом существует решение х = w (t, ta, х0) уравнения (48.3), для которого-
218
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
[ГЛ. VIII
позиция {/, Хо)} встречается с Мс при f = т ft, не выходя до встречи с Мс из Nc, то стратегия Uc-r- uc(t, х), экстремальная к дорожке {t, х = w(t, х0)} t О), гарантирует для всех движений х [/, tQ, х0, Uc] встречу позиций KxR]} с Мс к моменту времени О. В противном случае существуют открытые окрестности G(MC) и H(NC) такие, что стратегия Ус-т-х), экстремальная к множеству W&, порожденному пучком Зв (to, х0, Dh) решений уравнения (48.3), гарантирует уклонение от G (Мс) вплоть до момента времени ft.
Рис. 49.5.
Рис. 49.6.
На рис. 49.3—49.6 изображены последовательно все четыре возможные ситуации, которые фигурируют в теоремах 49.1 и 49.2.
§ 50. Программные конструкции для априори стабильных мостов. В этом параграфе мы обсудим другой по форме, чем в § 49, способ построения стабильных мостов W® на базе подходящих априори стабильных интегральных многообразий. Эти многообразия будут складываться теперь из программных движений х(/, /0, х0, которые фигурировали в главах VI и VII. Однако базу для построения априори стабильных интегральных многообразий {х(/, /0, х0, т)(в))} у нас составят теперь уже не программные задачи типа задачи 34.2, а некоторые, двойственные к этой, программные задачи. При этом и само определен ние программы	О)} окажется в известном смысле двой-
ственным к определению программы [^, ft), v( J из § 30. Именно, условимся называть верхней программой первого игрока	ft)}W всякое слабо замкнутое множество программных управлений тцо	ft), удовлетворяющее следующим
условиям:
§50]	ПРОГРАММНЫЕ. КОНСТРУКЦИИ	219-
(1)^> Для всякой слабо измеримой функции v = vt(dv} в программе [/,, О)}® найдется по крайней мере одно управление rit(du, dv) (t,^t <.&), согласованное с мерами vt(dv) (/„</ < й) условием (30.12).
(2)® Если vp.J(dv) и v®(dv) совпадают на некотором множестве Тс [/,,&], и управление г)®е {^.J® согласовано с vj!}(da) условием (30.12), то в программе {^.j® есть управление согласованное с v® условием (30.12). и совпадающее на Т с управлением ц}1^.
Верхней программой [/*, О')}® второго игрока будем называть всякое слабо замкнутое множество программных управлений ((, t < О'), удовлетворяющее следующим условиям^
' (1)п Для всякой слабо измеримой функции p = p,t(du) (t*^.t <&) ъ программе {тц.р [/„, &)]§’ найдется по крайней мере одно управление i\t(du, dv) (t,^.t < &), согласованное с мерами Ht(du) условием
j T)f (du, dv) = p( (du)	(50.1)
<2
при почти всех t.
(2)^ Если (du) и ц^((/и) совпадают на некотором множестве Т с[/,, О] и управление ц® е }г)(-)}® согласовано с ц<!|(</«) условием (50.1), то в программе есть управлейие ц®, согласованное с ц® условием (50.1) и совпадающее на Т с управлением п®.
Сформулируем следующие задачи.
Будем предполагать, что в пространстве {t, х} выбрана некоторая открытая область D, содержащая Nc, и все движения х (t, t*, х», т](.)) будем рассматривать лишь в пределах этой области D, обрывая их в момент первого выхода позиции {t, x(t)} на границу области D.
Пусть даны позиция {/»,%*}, момент '&>/«, функции (H(t, х, tn), p(t,x) (34.1) и множества М, Т и T(t*), удовлетворяющие условиям, указанным в начале § 43.
Задача 50.1. Требуется найти минимизирующий мо-мент то, верхнюю минимизирующую программу т0)|® ° первого игрока и в ней . максимизирующее управление
220	АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ	[ГЛ. VIII
удовлетворяющие условиям
min min max р(т, х(т, tt, xt, u .)) =
= min max р(т0, х(т0, t., x„ П(.))) =
=	max ,H n P (To> 4To. *.• nH)) =
= р(т0, x(t0, t„ x„ Ti(0))) = e(1)(f„ x.). (50.2)
Задача 50.2. Пусть Зв — некоторый пучок движений х(/,	х., т](.))» каждое из которых продолжено до какого-то
своего момента обрыва этого движения. Требуется найти верхнюю максимизирующую программу	^)п° ВТОРОГО игро-
ка, в ней минимизирующее управление и минимизирующие моменты то, удовлетворяющие условиям max min min р (т, х(т, х„, и .)) =
’>№{'’(•))$ ’sriw
= min min р(т, х(т,х.,	=
Ч(.) е{4(.)}^0 хеГт)(1«)
= р (т0, X (т0,	X., П(°,)) = е<2) (*., *.)• (50.3)
Здесь символ ?„(/«) обозначает множество тех значений ie[i„ О'], для которых непусты множества А1(0 и при которых движения х (t, t,, х„, г^.,) еще не оборвались.
Существование решений этих задач проверяется аналогично тому, как это делается для задачи 34.2, и на этом вопросе .мы здесь останавливаться не будем.
Пусть опять D — некоторая открытая область в пространстве {/, х}. Рассмотрим пучки Зв(tt, х., D, Мс, складывающиеся из программных движений x(t, х„, 0]( ) е {'П(.)}ц), продолженных до первого выхода позиции [t, x(i)} на Мс или из области D, а также аналогичные пучки х„ D, Мс, {П(.)}^)) Движений х(/,	х., т^) (т](<)	{т)(.)}£’).
На основе этих пучков сконструируем множества Wge так же, как это было сделано в § 49 на основе пучков 33(it, х„, D, Мс). Из определения программ {т](.))д и {’If.Jn вытекает, что множество Wgg, порожденное пучком 3? (t„ х„, D, Мс, является «-стабильным, а множество порожденное пучком
xt, Do, Мс, — о-стабильным.
ПРОГРАММНЫЕ КОНСТРУКЦИИ
221
§ 501
Теорема 50.1. Пусть р(/, х) = pt(x, Мс) +'с, и для начальной позиции {to, Хо} при некотором значении &> t0 решение задачи 50.1 при Ncc^D дает e^(to, х0) = с Пусть среди решений задачи 50.1 имеется такое, представляемое программой^ JW0, для которого все множество W&, где 36 = 36 (t0, х0, D, Мс, {ч^.>]„ °)> лежит в Nc при to t то, причем то — наименьший минимизирующий момент в (50.2). Пусть в открытой области D, определяющей указанный пучок 36, выполняется условие (12.4). Тогда стратегия Uc-t- uc(t, х), экстремальная к множеству W&, обеспечивает встречу к моменту времени •&.
Теорема 50.2. Пусть р (t, х) — pt (х, Afc) + с, и для начальной позиции (f0, х0} при некотором значении $'>to и 36 = = 36 (t0, х0, D, Мс,	где D—некоторая открытая область,
содержащая Nc, решение задачи 50.2 дает е<2) (t0, х0) = с + в (е>0). Пусть, далее, в области D выполняется условие (12.4). Тогда стратегия Vc ч- vc(t, х), экстремальная к множеству W&, где 36 = 36(t0, х0, D, Мс,	обеспечивает уклонение от
встречи с Мс вплоть до момента О.
В связи с теоремами 50.1 и 50.2 возникает вопрос о том, как решения задач 9.1 и 9.2, предлагаемые этими теоремами, связаны с решениями этих же задач, предлагаемыми теоремами из главы VII, а также — с решениями, предлагаемыми теоремами 49.1 и 49.2 из предыдущего параграфа. Обсуждение вопроса о связи теорем 50.1 и 50.2 с материалом из главы VII нам удобнее отложить на будущее (см. §§ 52 и 87), а некоторые связи теорем 49.1 и 49.2 с теоремами 50.1 и 50.2 мы можем обсудить кратко уже теперь. Именно, отметим следующие обстоятельства.
Пусть выполняется первое условие теоремы 49.1. Рассмотрим все возможные программные управления т]г, удовлетворяющие условию
w(t) = J | f(t, w(t), и, v)t\t(du, dv)	(50.4)
p Q
при почти всех t. Оказывается, множество всех таких управлений т](.) составляет верхнюю программу	второго игрока.
Это утверждение примем здесь без доказательства. Но тогда, очевидно, у второго игрока найдется и максимизирующая верхняя программа {Л(.)}ц °> удовлетворяющая условиям теоремы 50.2, ибо по крайней мере одна верхняя программа {Л(.)}{ц), складывающаяся из управлений т)<.) (50.4), даже, может быть, и не являющаяся максимизирующей для задачи 50.2, уже удовлетворит условиям этой теоремы.
222
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
[ГЛ. VIII
Пусть теперь выполняется первое условие теоремы 49.2. Рассмотрим всевозможные программные управления т^.), удовле* творяющие условию (50.4). Множество всех таких управлений т](.) составит тогда верхнюю программу	первого игрока.
Очевидно, что будет существовать программа {'П(.)}д)0» доставляющая решение задачи 50.1 при р(/, х) == р/(х, Л1С) + с и удовлетворяющая условиям теоремы 49.1. х
В то же время на примерах можно убедиться, что при выполнении второго положения теоремы 49.1 или 49.2 уже может случиться так, что не удастся даже в принципе построить про* грамму соответственно первого или второго игрока, которая удовлетворяла бы условиям теоремы 50.1 или 50.2.
§ 51. Априори стабильный мост для линейной системы. В этом параграфе мы обсудим в приложении к частному случаю линейного уравнения движения (40.1) те построения априори стабильных мостов, которые были описаны в §§ 48, 49 для общего нелинейного уравнения движения (6.1). Начнем с вопроса о построении стабильной дорожки {/, x = w(t)} (/о^/^б), описанной в § 48 для задачи 9.1 о сближении. Стало быть, нам надо выяснить возможность построения дорожки {/, х = ££>(/)} которая проходила бы через начальную позицию {/0, х0}, в какой-то момент t = О заканчивалась бы на целевом множестве Мс и при tQ t О удовлетворяла бы дифференциальному уравнению в контингенциях (48.3). Множество Мс будем, как и раньше, полагать замкнутым и цилиндрическим в направлении оси /ив направлении координатных осей х> (/ = т + 1, ..., п). От условия выпуклости множества Мс мы можем пока отказаться. Таким образом, задавшись каким-нибудь моментом времени Ф > tQ и проделав преобразования, описанные в § 40, мы снова можем свести дело к задаче 9.1 о сближении движений системы (40.10) при ограничениях (40.11) с множеством {Мс}т в суженном фазовом пространстве {х}. Первым необходимым условием возможности построения нужной дорожки {/, х = w (/)} (/о б) является непустота множеств	(48.4), хотя бы вдоль самой дорожки при /0
t sg О’. Но в данном линейном случае (40.10), (40.11) роль H(t,x) будут, очевидно, исполнять множества
П {» + Яо] + Ш1 = Я(О, (51.1) ое<?(0
где символ vР (t) обозначает совокупность всех возможных векторов q = v + и, когда вектор и пробегает P(t) —выпуклую оболочку множества P(t). Ясно, что множество H(t,x) =H(t) (51.1) непусто тогда и только тогда, когда множество <5(0 мож-
, ...	ЛИНЕЙНЫЙ	СЛУЧАЙ	223
§ 01J	Л.ЛЛГ
но поступательным	смещением	поместить	внутрь	множества
p(t). Будем полагать это условие выполненным при to t О. Тогда, следуя далее материалу из § 48, нам надлежит рассмотреть дифференциальное уравнение в контингенциях
хе Я (О,	(51.2)
или, иначе, уравнение «управляемой» системы
x = h,	(51.3)
где «управляющее воздействие» й стеснено ограничением
Ле Я (fl.	(51.4)
Нужную нам дорожку {/, х = w (t)} (to^t О) мы сможем, стало быть, построить тогда и только тогда, когда удастся найти интегрируемое программное управление h°(t)^ H(t) (to^t^ -g: Ф), которое породит движение х = w(t) системы (51.3), удовлетворяющее краевым условиям
w (to) = ХО, w («) е {Мс (О)]т.	(51.5)
Таким образом, в рассматриваемом линейном случае дело построения «-стабильной дорожки {/, х = w(f)} (to t О) сводится просто к решению задачи о нахождении программного управления h(t) (to^t^d), которое порождает движение x = w(t), удовлетворяющее краевым условиям (51.5) для системы (51.3) при ограничениях (51.4). Стало быть, в этом частном случае первое утверждение теоремы 49.2 принимает вид следующего утверждения.
Лемма 51.1. Пусть при всех to t $ множества H(t) (51.1) непусты. Если краевая задача (51.5) о программном управлении h(t) (to t &) для системы (51.3) при ограничении (51.4) имеет решение h°(t) (to^t^ft), то стратегия Uc-r + uc(t,x), экстремальная к дорожке {t, х = w(titoXo,h<i(-))} (to^t^.^), где х = w(t,to,xo,h°(-))—движение, порожденное этим управлением, гарантирует встречу всех движений X [t, to, Хо, i/J C-Afc при t = •&.
Возвращаясь к исходным переменным х, и и v из уравнения (40.1) и, соответственно, к ограничениям (40.2) на управления и и v, утверждение теоремы 50.1 надлежит переформулировать следующим образом.
Теорема 51.1. Пусть при всех t0 t О множества H(t), определенные равенствами
H(t)=	{X(^t)C(t)v + X(^,t)B(t)P]m,	(51.6)
и Е Q
непусты. Предположим, что краевая задача
x(to) = xo, {x(0)}me {Mc(0)U	(51.7)
-224
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
[ГЛ. VIII
для управляемой системы
x = A(t)x + h + f[t]	(51.8)
при ограничении
{X(b,t)h}me=H(t)	(51.9)
имеет решение h°(f) (to^t ^0).
Рассмотрим пучок SS всевозможных движений x(t, to, хл, &*(•)) (to^-t^®) системы (51.8), где
(Х(Ъ, t)h.(t)}m=-{X(^t)h°(t)}m,	(51.10)
И(й, Ш.и = Щ(Мо)хои	(51.11)
Пусть W& —множество, порожденное этим пучком ЯВ (см. § 49, стр. 214, 215). Тогда стратегия Uc+uc(t, х), экстремальная к множеству W&, гарантирует встречу
{AW)U	(51.12)
Рис. 51.1.
всех движений x[f, to, Xq, С/с] с Ме при t = О.
Полезно обратить внимание на то обстоятельство, что при переходе обратно от суженного т-мерного_ фазового пространства {х} преобразованной системы (40.10) к полному «-мерному фазовому пространству {х} исходной системы (40.1) мы разворачиваем стабильную дорожку {/, x=w(t, to, Хо, й°(-))} (to t О) из леммы 51.1 в (п — m + 1)-мерное множество W&, порожденное пучком № (51.10), (51.11) из теоремы 51.1. При этом дорожка {t, х = w(t, t0, Хо, h6(•))} (t0 -C t &) и множесхво W& связаны соотношением w(t, to, xo, h°(-)) — {X($, t)X XWh(t)}m (to^t^'d), где ГМ0 = [х:{/,х}е НМ, т. e. ТОЧКИ w(t, to, Xo, A°(-)) являются проекциями множеств X (О, t),	(t) на соответствую-
щее m-мерное пространство (рис. 51.1).
Мы не будем разбирать далее подробно аналогичным образом всевозможные модификации утверждений из теорем 49.1 н 49.2, которые можно получить для линейного случая (40.1). Приведем только для примера одну простую модификацию теоремы 49.2

ЛИНЕЙНЫЙ СЛУЧАЙ	225
§ 51]	‘•‘л’
Теорема 51.2. Пусть множества H(t) (t0^t < О'), определенные равенствами
H(t)= П [С(0» + В(0Р],	(51.13)
neQ
непусты и функция
n(t, 1) = — min I'B(t) и — max I'C (f)v (51.14) u<=P	v^Q
выпукла no l. Если при этом no крайней мере одно движение х = w(t, to, Хо) системы, описываемой уравнением в континген-ЦиЯХ'	х<=Л(/)х+ #(/) + /[/],	(51.15)
удовлетворяет условию
{т,	(т<^),	(51.16)
то стратегия Uc ч- uc(t, х), экстремальная к дорожке (/, х = = w(t, to, Хо)) (/о^/^'б) для всех движений х[/] = х[/, t0, х0, Ue] системы (40.1), гарантирует встречу
{т, х[т]}еМс (т<0)	(51.17)
с Мс к моменту й. В противном случае стратегия Vc4- vc(t, х), экстремальная к множеству W&, которое порождено пучком %? обобщенных движений х = x(t, tQ, Хо) (t > t0) системы (51.15) (см. § 49, стр. 217, 218), гарантирует уклонение для всех движений х [/] — х [/, to, Хо, Vc] системы (40.1) от Мс вплоть до момента О.
Полезно обратить внимание на то обстоятельство, что в случае, когда множество Ne совпадает со всем пространством {/, х), и в ситуации, определяющей условия теоремы 51.2 (как, кстати, и в ситуации из теоремы 49.2), игра, складывающаяся из задач 19.1 и 19.2 на минимакс — максимин функционала
<р = т(х[ • ]) —10,	(51.18)
имеет седловую точку {17°, Vй}, т. е. справедливо следующее утверждение.
Теорема 51.3. Пусть в задачах 19.1—19.2 Мс есть произвольное замкнутое множество в пространстве {t,x}. Пусть, далее, множества H(t) (to^-t^-co) (51.13) непусты и функция n(t,l) (51.14) выпукла по I. Тогда игра из § 19 на минимакс — максимин функционала (51.18) имеет седловую точку (I/0, V0}.
В самом деле, рассмотрим для данной начальной позиции {^о, х0} все движения х = w(t, t0, Xq), являющиеся решениями Уравнения (51.15). Предположим, что среди этих движений найдется по крайней мере одно движение х = w (/, to, х0), удовлетворяющее условию
{т, к»(т)} <=МС.	(51.19)
8 Н, Н. Красовский, А. И. Субботин
226
АПРИОРИ стабильные мосты
[ГЛ. VIII
Тогда среди значений т, для каждого из которых можно найти движение /о,*о) (51.15), удовлетворяющее условию v (51.19), найдется наименьшее значение т0- Это наименьшее значение то и определит цену игры
Yo = Y0 = t0— t0	(51.20)
в данном случае. Действительно, с одной стороны, стратегия 4-	х), экстремальная к дорожке {/, х == w(t, х0)}
(/о^^^О), удовлетворяющей условию (51.19) при т = то, обеспечит встречу всех движений x\t, tQf х0, с Ме к моменту то- С другой стороны, стратегия VQc 4- v°c(t9 х), экстремальная к множеству W %9 порожденному пучком всех движений х(/,/о,Хо)	системы (51.15), гарантирует уклонение
всех движений хр, tQi xQf V®] от Мс вплоть до любого момента т_< то. Отсюда и следует, что указанная пара стратегий образует в данном случае седловую точку для рассматриваемой игры, обеспечивая ей цену (51.20).
Пусть теперь среди всех движений x(t9 /0, %о) (Л>"С^<оо) (51.15) нет ни одного, удовлетворяющего условию (51.19) при т < оо. В этом случае стратегия VQC 4- v°c(tt х), экстремальная к множеству W&, будет обеспечивать уклонение для всех движений хр, /0, х0, от Мс до бесконечности t = оо. Тогда можно положить уо = у0 = оо и снова считать формально, что рассматриваемая игра имеет седловую точку {t^, V£}, которая обеспечивает цену у0 = Yo = При этом, очевидно, роль Uc может играть любая стратегия 1РС 4- мф,. х). Итак, теорему 51.3 можно считать доказанной.
Следует, однако, заметить, что в случае у°=:уо=00 утвер;-ждение теоремы 51.3 имеет один неудобный оттенок: при переходе к реализуемым на деле аппроксимирующим ломаным Эйлера хдр, Zo, х0, VQc, и[ • ]] мы уже не можем утверждать, что стратегия V® обеспечивает уклонение таких ломаных Эйлера хдр,	и[ • ]] с достаточно малым шагом 6 и даже,
может быть, с шагом 6(тг), убывающим со временем t=xi9 от Ме вплоть до / = оо. Можно лишь утверждать, что при любом выборе О >/0 найдется число 6(О)>б такое, что стратегия V°c 4- vQc(t, х) обеспечит уклонение всех ломаных Эйлера хд[/, /0, х0, V°c, и[ • ]] с шагом, меньшим 6(0), от Мс вплоть до момента О. Возможность осуществления уклонения всех ломаных хдр, х0, VQC, и[ • ]] от Мс вплоть до /=оо связана с вопросами устойчивости решений игры об уклонении на бесконечном интервале времени /0^/<оо. Эти вопросы будут обсуждены в главе X, § 60.
227
линейный случай
$ 51]
В заключение этого параграфа обсудим еще связь между условиями разрешимости задач о сближении и уклонении из теоремы 51.2 и условиями регулярности аналогичной игры, данными в §§ 43 и 45. При этом ограничимся случаем из §§ 43 и 45, корда т = п. Справедливо следующее утверждение.
Пусть множества Н(/) (51.13) непусты и функция %(t, I) (51.14) выпукла по I. Тогда будут выполнены условия 43.2 и (45.2) и будет справедливо равенство
80(^, Х.) = 8,(/„ Х.);
(51.21)
где величина ео(^*, х») определена равенством (43.1), т. е. в данном частном случае — равенством (43.28), а величина е*(/*, х»)— равенством
®.(^, х.)= min minpT(x(r,х.), Л4с)-|-с,	(51.22)
Т®Г(/,) х(-)
причем х(-) = [х(/,/*, х»), t0 t &] суть решения уравнения (51.15).
В самом деле, из (51.15) получаем известными рассуждениями (см. выше доказательство леммы 40.1), что величина е*(/*, х#) (51.22) определяется равенством (при т = п)
е (^., х*)= min max l'X(x, t)x. +/' f Х(т, t)f[t]di +
reT(U 11/11=1 L	J
+ Рм (0 + Ря (C x,/)] + с при e,(/„x,)>c,	(51.23)
где величина рм(/) определена равенством (41.9) (при 0 = т) и
Рн(/„ т, I) — f min (ГХ(х, f)h)dt. (51.24) tJ
Но согласно лемме 48.1 подынтегральное выражение в равенстве (51.24) можно записать иначе:
min (l'X(x, t) h) = min I'X (r, t)h;
h
h: s'h max min s' (B (f) иC (t) v) при всех s. (51.25) veQ u<=P
С другой стороны, при условии выпуклости функции х(/, $) (51.14) для вектора $* = Х'(т, t)l найдется вектор ft», который Удовлетворяет равенству (см. аналогичный случай выше на стр. 216)
s'ft, = max min s'(В (<)« + С (0 »)•	(51.26)
8*
228
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
(ГЛ. VIII
Очевидно, этот вектор Л* и будет минимизирующим вектором h в условии (51.25). Итак, имеем
min (ГХ (т, t) h) — max min ГХ (т, t) (В (Г)и-±-С (/) и) = v<=Q u^P
= max ГХ (t, t) C (/) v + min ГХ (t, t) В (t) u. (51.27) ueQ	u^P
Из (51.24) и (51.27) заключаем, что правая часть (51.23) совпадает с правой частью (43.28). Это совпадение и доказывает равенство (51.21). Из указанного совпадения заключаем также, что все минимизирующие моменты г = т0 в условиях (43.28) и (51.22) также совпадают.
Далее, из выпуклости функции %(/,/) (51.14) вытекает, что максимизирующий вектор I в условии (43.28) при e0(f*, х*)> с и при всяком Ф] является единственным. Это видно здесь особенно наглядно из записи этого же условия (43.28) в форме эквивалентного условия (51.23). Но тогда требование (43.29) условия 43.2 выполняется автоматически.
Наконец, при условии выпуклости функции х(/, Z) (51.14) всякое множество #\(/, х, U 4- и) (48.9), которое здесь просто совпадает с множеством
STJt х, U + u*)= A(0x + B(0« + C(0Q + Ha (51.28) пересекается с множеством
Н (t, x) — A(t)xA~H (0 + f И	(51.29)
по крайней мере по некоторому вектору й*. Но тогда по определению множества H(t,x) из неравенства (48.10) заключаем о существовании вектора v е Q, который удовлетворяет требованию (45.11) условия 45.2 при всех значениях вектора s, а не только при -s е S(/*, х*). Тем самым наше утверждение полностью доказано.
Полезно заметить, что обратное утверждение не является верным. Можно привести примеры, в которых условия 43.2 и 45.2 будут выполнены, однако условия непустоты множества U(t) или выпуклости функции x(Z, I) (51.14) могут нарушаться.
§ 52. Стабильные интегральные многообразия для линейных систем. В этом параграфе мы обсудим построение априори стабильного интегрального многообразия IIW, которое порождается пучком программных движений x(tf t0, х0, из § 50 для линейной системы (40.10) при ограничениях (40.11). Чтобы не загромождать изложение, остановимся лишь на одном частном случае задач сближения или уклонения в момент О. Кроме того, множество {Мс}т, лежащее, стало быть, целиком в гиперплоскости t = ft, будем опять полагать выпуклым и замкнутым, а мно-
§ 52] СТАБИЛЬНЫЕ МНОГООБРАЗИЯ (ЛИНЕЙНЫЙ СЛУЧАЙ)	229
^кество Nc будем полагать совпадающим со всем пространством {/,%}. Задача 50.1 превращается тогда в следующую задачу.
Задача 52.1. Даны позиция {^, и момент О >Требуется найти верхнюю минимизирующую программу Цф), и в ней максимизирующее управление удовлетворяющие условиям
min max р#(х(•&,/., Х„ п,.,), Мс) =
= max
’•(•Iе {’•(•Off
= р#(х(Ф,/.,х., rft), Л1С) = 8<»«., х.). (52.1)
Согласно материалу из § 50 множество
[{Л х} :	х = х(/, t0, х0,	П(.)	{%)}£’]> (52.2)
порожденное пучком 38, которое составляют движения jc(/, ^0> хо> 'П(-)) i*= Koln’ является «-стабильным. Стало быть, стратегия Uc±uc(t, х), экстремальная к этому множеству W& (52.2), обеспечит для всех движений х[£] = х[/, t0, х0, С/J результат	х0).
Обратимся к вопросу о вычислении величины е(1)(/,, х,). Некоторое движение x(t) — x(t, t„ х„, t)( )) удовлетворяет условию
Ро(*(0), Мс)^е (в>0)	(52.3)
тогда и только тогда, когда при всяком выборе единичного вектора I точка х(6) лежит в опорном полупространстве! 11* ([/) (см. выше, стр. 164) е-окрестности {М(се)}т множества {А4с}т, т. е. когда справедливо неравенство
(• \
х, + J J ]*[(« + ») П* (du, dv)] I < — Рм (0 + в, (52.4) t, Р Q	J
где
Рм(0 = min l'x.	(52.5)
-xslMc}m
Отсюда выводится, что величина е*1’ (£ш, х,) определяется равенством
е,1)0.> х.)= min max max Г/'х,+
"Z|l=l’•(•)e{”( )}(n)L
* 1
+1' / / j (M + v) T]( (du, dv) dt + pM (I) .	(52.6)
t* P Q	J
230
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
[ГЛ. VIIT
Выражение (52.6) можно преобразовать, исходя из следующих равенств: о
j* J* J (« + v)r\t(du, dv)dt=^ J J «nt. v (du) vt (dv) dt + t, P Q	p <2
О	0
+ J J J 0% v (du) vt (dv) dt = J [«(<, v) + v]vt(dv)dt, (52.7> t, P Q	t»
где функция u(t, v) измерима (см. [9’], стр. 281) no t и v. При этом из определения программ следует, что для всякой функции v—vt(dv) функция u(t, у) может быть своя. Итак,
е<'>(/, х.) — min
max max lx, +
W_I V) g L ft
+ I' / [«(t, V) + Vt (dv) dt + pM (I) . (52.8)'
Предположим, что на всякой оптимальной программе ° при 0 <	< р максимум в (52.8) достигается на одном и том
же единичном векторе /°. Тогда оказывается, что величина доставляет не просто какой-то гарантированный для первого игрока результат, но вообще наилучший результат, который он только может гарантировать себе выбором подходящей позиционной стратегии.
В самом деле, задачу 52.1 мы можем иначе истолковать как задачу на максимин:
max min р# (х(&,/,, х,, т),.,), М^) =
= min Р#(х(Ф, t„ х„ TQ, МГ)=	(52.9>
= Р#(*(О, t,, xt, Г|'(ю))> M^) = e,^*(t„ xt),
где символ p$(x, Af^) обозначает евклидово расстояние от точки х до множества Ale*1, которое является дополнением к некоторой достаточно большой евклидовой окрестности множества Мс (в гиперплоскости t = #) (рис. 52.1).
Однако единственность вектора /° означает в терминах из^ §41, что по отношению к вспомогательной задаче (52.9) случай является регулярным. При этом задачу (52.9) мы трактуем как задачу 34.2, где первый и второй игроки поменялись-ролями. Здесь, правда, программы {т)(-)}п определены не совсем
ПРИМЕРЫ
211
<§ 531
так, как программы {т)(-)}п> фигурирующие в задаче 34.2 (даже после перемены местами букв и и v в связи с обменом ролями первым и вторым игроками). Именно, программы	отве-
чают программам {т)(.>}п из вспомогательной задачи типа за-
дачи 34.2, но построенной для случая минимаксной игры (см. § 85). Однако в случае линейного уравнения движения (40.1) это различие не имеет значения. Стало быть, согласно материалу из § 41, у второго игрока есть возможность выбором стратегии у -1- v (t, х) гарантировать для всех движений x[f} = x[t, t„ х„ V] ' результат
т. е. результат
рв(х [«], Мс) > 8* — е<’> * (f„ х.) = = 8(1»(/., х.), (52.11)
Это и доказывает наше утверж-	Рис. 52.1.
дение.
Аналогичные заключения можно было бы вывести и для задачи 9.2 об уклонении от множеств Мс в момент
§ 53. Примеры. В качестве примеров рассмотрим решение задач 21.3 и 21.4 об успокоении и раскачке маятника. Напомним, что уравнения движения маятника имеют вид (см. § 21, стр. 88)
Х!=Х2, х2= — fsinx, + 7^2 (« + *>),	(53.1)
I и I Aq, | v | (Ац Л2).
Множества Мс и Ne определены соотношениями
= хъ x2}'.t^tQ, х1 = 2£л, 6 = 0, ±1, ±2, .
х2 = 0],
NC = [U, Xi, х2): t^t0,
I х2 К а].
Обратимся сначала к задаче 21.3 об успокоении маятника; решение этой задачи попытаемся определить в форме стратегии х), экстремальной к подходящей дорожке {/,w(/)}
Определим для системы (53.1) множество Н (/, х) (48.4). Нетрудно получить, что
Я (/, х) = [{ftb Л2) : hi = х2) | Л2 +	| < (Л1 —	. (53.2)
232
АПРИОРИ стабильные мосты
[ГЛ. VIIF
Уравнение в контингенциях (48.3) для множества H(t,x) (53.2) можно заменить уравнением
Х] = х2»	— sin*! + о(/),	(53.3)1 •
где измеримая функция о(/) удовлетворяет ограничению
I <т (/) |< (Л, — ЪМтсР	(t > 4).	(53.4>
Рассмотрим следующую вспомогательную задачу об оптимальном управлении: требуется определить управление о0 (О которое из заданной начальной позиции {to,x^ осуществляет наведение
{т°, х(т°))<=М<, (Л х(0) Ф Мс, \t,x[t)\^Nc	(53.5).
при
причем время т° — to, за которое управление о°(/) (t0 sg: t т°) осуществляет наведение (53.5), является наименьшим возможным.
Предположим, что эта задача об оптимальном управлении решена. Обозначим через w*(t) движение системы (53.3), отвечающее управлению <т°(/), т. е.
=	й>2(0 = —-f-sinw*(0 + o°(0 (ну* (f0) = х0).
Воспользуемся теперь теоремой 48.1, из которой сразу получаем,, что стратегия U^~ u^(t, х), экстремальная к дорожке {t,w*(t)} (бК/^Сто), обеспечивает наведение (53.5). Отметим,, что общее определение экстремальной стратегии приводит здесь к следующим соотношениям:
+ М при аУг(О —*2>0,
— М при «4(0 — х2<0.	(53,6>
Перейдем теперь к решению задачи 21.4. Рассмотрение этой задачи позволит, в частности, установить, что стратегия (53.6) доставляет первому игроку оптимальный результат, т. е. стратегия l№(t, х)4- i№(t, х) является решением задачи 21.3.
Вычислим в данном примере функцию х(/, х,/) (49.4); получаем
х(/, х, /) = — lix2 + MSI'nXigld -|-1 /2 |(M —
т. e. функция x(Z, x,/) выпукла по l, что позволяет воспользоваться здесь теоремой 49.2. По определению числа т° ни одно движение из пучка решений уравнения (53.3) не встречается с Мс при t < т°, не выходя до встречи с Мс из множества Ne. Поэтому в силу теоремы 49.2 стратегия -м><е)(/, х), экстре- ;
531
ПРИМЕРЫ
233
мальная к множеству из теоремы 49.2, гарантирует второму игроку уклонение до момента т <_ т°. Таким образом, решение' задачи об уклонении составляют следующие операции: (1) определение в каждый момент времени to t т области достижимости G(t, t0, х0) системы (53.3) —совокупности всех точек g = = x(t), В которые выбором измеримого управления o(t) (53.4) можно привести систему (53.3) в момент t t0 из начального состояния {/о, *о}, оставаясь в процессе этого перевода во множестве H(Nc); (2) определение точки g°(t, х)<= G(t, to, х0), ближайшей к точке х; (3) определение искомого управления v^(t, х) соотношением
Л2 при g$(t, х) — х2>0, — %2 при g| (t, х) — xs < 0.
о(г) (t, х) —
(53.7)
Итак, стратегии /7<е> (53.6) и (53.7) являются решениями задач 21.3 и 21.4. При этом стратегия доставляет первому игроку оптимальный результат, поскольку гарантирует сближение с Мс внутри Nc к моменту t = то, а стратегии V& доставляют второму игроку результат, сколь угодно близкий к оптимальному, поскольку обеспечивает требуемое уклонение до момента т < то, где параметр т можно выбрать сколь угодно близким к числу то — цене дифференциальной игры, складывающейся мз задач 21.3 и 21.4.
Подчеркнем, что предложенное здесь решение позиционных игровых задач динамики сводится фактически к решению вспомогательных задач обычного оптимального программного управления.
Гл а в а IX
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
§ 54. Проблема корректности решений. Формализация игровых задач динамики, принятая нами, допускает переход к реализуемым на практике процедурам управления. Этот переход осуществлялся построением ломаных Эйлера, причем предполагалось, что выбор управлений игрока-союзника опирается на точную информацию о реализующихся позициях игры. Однако на самом деле неизбежны различного рода информационные помехи. Например, возможны или неточное измерение фазовых состояний системы, или запаздывание информации о реализовавшемся движении. Оказывается, что в дифференциальных играх возможны такие ситуации, когда подобные, даже малые, помехи могут разладить предлагаемый позиционный способ управления. В таких случаях решение наших игровых задач оказывается некорректным и возникает проблема его регуляризации. В этой главе исследуются корректность и устойчивость решений дифференциальных игр, рассматриваемых в классе позиционных стратегий U~u(t, х),	х) при условии (12.4)
седловой точки маленькой игры (12.1), (12.2).
Прежде чем переходить к проблеме регуляризации некорректных решений дифференциальных игр, приведем простой пример такой задачи, в которой информационные помехи разрушают ее идеальное решение.
Пусть на плоскости перемещаются три точки у, z^ и Каждая из этих точек безынерционна, и игроки могут задавать скорости этих точек. Таким образом, примем, что уравнения движения имеют вид
^ = «р &2 = U2>	=	=	(1=1, 2).
Полагаем, что выбором скорости u = {ut,u2] распоряжается первый игрок, векторы t><’> ={»<*’,	v®1 = {»(2), р<2'} выби-
раются вторым игроком. Управления и, tA1» и о(2) стесним ограничениями
||u||<V‘), ||и(1)1К^(2), II у<2> || <V2>	(X<‘> > Х<2>).
Пусть задача первого игрока состоит в осуществлении встречи точки y\t\ хотя бы с одной из точек £(2И- Нетрудно проверить, что одно из решений этой задачи доставляет следую-
ПРОБЛЕМА КОРРЕКТНОСТИ РЕШЕНИИ
235
•§
ий простой способ управления: точка «/[/] должна двигаться с максимальной скоростью прямо к той из точек (« = 1, 2), которая в данный момент t оказывается ближе к точке 2/[/]. Итак, искомую стратегию U° -4- u°(t, х) (х = {у, zO), z<2)}) можно, например, задать соотношением
u>(t, х) =
II?0-у II
II?2’-У II
если Hz'1» — i/|K||z<2) — z/||,
если ||z;2> — n<l|z(i) — Z/ll-
(54.1)
Эта стратегия U° -i- u°(t, х) доставляет первому игроку наилучший возможный результат по условию минимакса времени до встречи как для начальной позиции {/0, у0,	z<2*}, так и для
всякой возможной промежуточной позиции {/*, г/|7*], z<»[M,г(2)[/*]}. принимаемой по ходу дела с момента t = t* за начальную (см. замечание в конце § 8).
В аппроксимационной схеме стратегия t/°-4-«°(^x) (54.1) формирует ломаные Эйлера y^[t] следующим образом. Пусть выбрана система Д полуинтервалов [и, r;+i) (2 = 0, 1, ...), покрывающих полуось [/о, оо). В моменты времени t — т« первый игрок определяет ближайшую из двух точек z<2>[tz], на эту точку направляется скорость и [тг] преследующей точки, и эта скорость остается неизменной на полуинтервале [тц Тг+i). Для любого наперед выбранного значения е >0 такой способ управления обеспечит попадание преследующей точки в 8-окрестность одной из преследуемых точек не позже чем к моменту времени
А. । min (II у [/0] — ?'> [<о] II, II у ро] — z(2> [<>] ||)
r°-t'	Z(1)-X(2)
если только шаг 6 разбиения Д будет достаточно мал.
Однако этот вывод справедлив при условии, что фазовые векторы 2/[т,}, 2б>[тг], г<2’[тг] измеряются йервым игроком точно. Если фазовые состояния будут измеряться им с ошибками, то эти информационные помехи могут разрушить успешное преследование на основе предлагаемой процедуры управления. В самом деле, пусть в соответствии с выбранной стратегией U° (54.1) управление первого игрока формируется следующим образом:
М’И = м’[тг] = u°(xi, х*[тг]), тг </< тг+1 = тг+ д. (54.2)
Здесь х*К]=(/[т<],	^*<2>[tz]) — результат неточного
измерения. Предполагается, что векторы	2*(2)[т/]
и Реализовавшиеся на деле фазовые состояния
236
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. IX
связаны соотношениями
IIУ [tJ - /[т£] || < £, II [<] - z*<n [Т/] || <
1|2(2)[тН-2*(2)[т/]||<^
В соответствии с игровым характером задачи сближения, которую мы рассматриваем с точки зрения интересов первого игрока-союзника, примем, что ошибки в измерении как бы подвластны противнику и поэтому в соответствии с принципом наибольшей неприятности они в каждой позиции могут осуществляться самым неблагоприятным для первого игрока образом. Тогда после попадания точки y[t] в какой-то момент времени t* в достаточно малую окрестность прямой АВ, равноудаленной от точек 2<ф*] и z<2V*L может осуществиться следующая ситуация. Точки z^V] и z(2)[/] будут двигаться по лучам Л1В1 и А2В2 соответственно, оставаясь все время на равном расстоянии от оси АВ. При этом вследствие неправильного^ определения в каждый из моментов t = Тг ближайшей из точек г^, движение-точки y\t\ будет осуществляться вблизи луча АВ. Эта произойдет в результате попеременного	прицеливания
либо на ложную точку z*Q\ либо на ложную точку z*<2> .	(рис. 54.1). Такое движение
Ч	не приведет	к сближению*
\	ни с одной из	преследуемых,
точек.
Указанное зацикливание-движения y[f\ при выборе управления u*[t] (54.2) воз-
никает вблизи поверхности разрыва функции u°(t, х), представляющей стратегию	х) (54.1), т. е. вблиаи
тех позиций, для которых выполняется равенство \\у — z^H == = Ilf/ — z(2)ll. Заметим, что это зацикливание может возникать в том случае, когда число 6 в соотношении (54.2) удовлетворяет оценке б 6о(£), где величина бо(£) имеет порядок малости величины Поэтому можно сделать следующую рекомендацию: для того чтобы помехи не разрушали предлагаемую процедуру управления, следует огранйчить снизу расстояние между моментами тг-. Однако эта рекомендация обладает тем недостатком, что осуществление условия тг+i — т* > бо(£)
НЕПРЕРЫВНЫЕ СТРАТЕГИИ	237
§ 55)	40'
(7 = 0, 1, •••) может повлечь излишнюю грубость аппроксимационной процедуры и решение задачи опять разладится, поскольку будет существенно накапливаться рассогласование между ломаными Эйлера хд[£] и идеальными движениями х[/], на которых достигается требуемый исход игры. Следовательно, от такой рекомендации также иногда приходится отказываться.
Можно попытаться избавиться от разрушительного действия помех, заменив разрывную стратегию £7°4-м0(/, х) непрерывной стратегией U* 4- u*(t, х), которая хотя и не доставляет первому игроку наилучший (в том смысле, как это отмечено на стр. 235) результат, но во всяком случае гарантирует успешный исход игры сближения. Например, в рассматриваемой задаче можно поступить следующим образом: в начальный момент времени t = to из двух точек [/0] = г^\ zP* [/0] = выделяется та точка z(i) р0] = 2oZ)> которая находится ближе к точке г/[/0] = Уо-Затем уже все время при t to рассматривается задача преследования только этой точки г<ф]. Стратегия £7* 4-и* (£, х), которая доставляет решение этой задачи, задается функцией и* = = u*(t, х) = Л<1>(г(О — y)/\\zW— i/Ц, непрерывной и даже удовлетворяющей условию Липшица во всех позициях {£, х) = = {/, у, ztl\ z<2)}, за исключением тех позиций, где выполнено условие встречи. Можно проверить, что совокупность движений {x[t,to,Xo, £7*]}, порождаемых такой стратегией U* и трактуемых просто как решения x(t) = {y(t), z^Ht), z№(t)} уравнений движения при u — u*(t, х), оказывается устойчивой по отношению к малым информационным помехам при переходе к ломаным Эйлера хд[/, to, Хо, £7‘] с достаточно малым шагом. Поэтому эти помехи не слишком портят практический результат игры для первого игрока при таком выборе стратегии U* и такой трактовке движений x[t, to,Xo, U*]. Однако такую регуляризацию не всегда удается осуществить, так как в дифференциальных играх возможны ситуации, когда решение задачи доставляет разрывная стратегия, которую не удается аппроксимировать или заменить подходящим образом непрерывной стратегией (пример такой ситуации рассматривается в следующем параграфе). Поэтому оказывается, что в общем случае устойчивое решение дифференциальных игр трудно получить на базе обычных процедур позиционного управления вида (54.2) и для осуществления корректного решения приходится искать улучшенные способы управления. Исследование этого вопроса и составляет предмет данной главы.
§ 55. Непрерывные стратегии и обобщенные движения. Обсу-< Дим возможности решения игровых задач динамики в классе непрерывных стратегий, а также в классе разрывных стратегий, когда движения формализуются как обобщенные движения x(f),
238	КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. IX
являющиеся решениями дифференциальных уравнений в контингенциях (см.§ 7). (Для краткости мы называем разрывными или непрерывными стратегии, которые задаются соответственно разрывными или непрерывными функциями.) В связи с материалом предыдущего параграфа этот вопрос представляет интерес по той причине, что пучки обобщенных движений и тем более пучки таких движений, порожденных непрерывными стратегиями, вообще говоря, более устойчивы по отношению к помехам, чем пучки конструктивных движений. Ниже будет показано, что классы обобщенных движений или движений, порожденных непрерывными стратегиями, не доставляют такого решения дифференциальных игр, которое имело бы силу альтернативы из теоремы 17.1, доказанной в § 17 для классов конструктивных движений х[/], порожденных, вообще говоря, разрывными позиционными стратегиями. Это препятствует попыткам преодолеть некорректность игровых задач динамики использованием пучков обобщенных движений более устойчивых, чем пучки конструктивных движений.
Рассмотрим для примера решение одной задачи 18.2 в классе обобщенных движений второго игрока. Будем предполагать, что управляемая система описывается линейным уравнением (40.1) при ограничениях (40.2), где Р и Q суть ограниченные, выпуклые и замкнутые множества. Будем также предполагать, что функция о(х), фигурирующая в задаче 18.2, есть расстояние от точки х до некоторого замкнутого выпуклого множества М.
Непрерывной стратегией второго игрока будем называть стратегию V~v(ty х), заданную непрерывной функцией v = = v (t, х) (v(t,x)^Q). При этом движения x(t) = х(/,/0, х0, V), отвечающие непрерывной стратегии V~v(t9x), будем определять просто как решения уравнения
х (0 = А (0 х (0 + В (0 и [t] + С (0 v (/, х (0) + f[t](x (/о) = хо), (55.1) где u[t] е Р to) — некоторое измеримое программное управление первого игрока-противника.
При выборе вторым игроком-союзником стратегии V 4- v(t, х), задаваемой разрывной функцией v(t> х), под движением х(/,	х*, V) будем понимать обобщенные движения x(t)
(см. § 7, стр. 41, 42), являющиеся, стало быть, решениями дифференциального уравнения в контингенциях
х (П «= А (0 X (П + В (0 Р + С (0 У (t, X (0) + f [f] (х (f0) = х0), (55.2) где, согласно (7.9), Т (t, х) суть множества
Г (/, х) = f) Г"5’(Л х),	(55.3)
6>0
причем У(б) (/, х) = со {о (/., х,): \t — t„ | < 6, || х — х, || < 6).
§ 55J	НЕПРЕРЫВНЫЕ СТРАТЕГИИ	239
Для выяснения интересующего нас вопроса о возможностях второго игрока при формализации движений x(t) как решений (55,2), и в частности — при выборе вторым игроком непрерывных стратегий, будем сравнивать величины
Y0 = maxmino(x['&, /0, х0, V]),	(55.4)
V х[.]
у* = max min а (х(й, xQf V)),	(55.5)
у* = max min a (x (ft, /0, x0, u [ • L v I • ] ))•	(55.6)
V [•]	«[•]
Здесь при определении величины у0 (55.4) и у* (55.5) максимум вычисляется по всевозможным позиционным стратегиям V~-v(t,x), но в соотношении (55.4) минимум вычисляется только по всем конструктивным движениям x[t,to, х0, У], а в соотношении (55.5) минимум вычисляется по всем обобщенным движениям х(/,/о, *о, У). Максимум и минимум в соотношении (55.6) вычисляются по всем программным измеримым управлениям	u[t]^P (t t0). Отметим, что эти максимумы и
минимумы здесь действительно достигаются.
Ниже будет доказано, что в рассматриваемой линейной дифференциальной игре всегда выполняется равенство
Yo==Y*-	(55.7)
Это равенство означает, что в данной задаче, выбирая любую позиционную стратегию Уч-у(Лх) и работая со всем классом обобщенных движений x(t, to,Xo, V), нельзя улучшить гарантированный результат, достижимый для второго игрока уже в классе стратегий — программ У 4-и [fl.
Однако, с другой стороны, можно указать конкретные примеры рассматриваемой задачи 18.2, в которых выполняется строгое неравенство
Yo > Y*,	'	(55.8)
т. е. в этих примерах использование информации о реализующейся позиции игры в форме, вообще говоря, разрывных стратегий Уч-п(/, х), порождающих конструктивные движения х to, х0, У], расширяет возможности второго игрока по сравнению с результатом, достижимым в классе стратегий — программ У 4- v [t].
Из соотношений (55.7), (55.8) получаем, что формализация движений как класса всех обобщенных движений x(t, t0, х0, У) (так и, тем более, — класса всех решений уравнения (55.1) при выборе только непрерывных стратегий) не содержит, вообще говоря, наилучшего решения задачи 18.2, так как наилучший результат, достижимый в этом классе, оценивается числом уо>
240
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. IX
которое меньше, чем оценка уо результата, достижимого на основе разрывных позиционных стратегий V~v(t, х) в классе конструктивных решений. А этот результат у0 уже действительно естественно считать оптимальным для второго игрока вследствие теоремы 17.1 об альтернативе и вытекающей из нее теоремы о седловой точке игры, складывающейся из задач 18.1 и 18.2 в классе позиционных стратегий U~u(t, х), V -i-v(t,x), когда движения формализуются как конструктивные движения.
Итак, перейдем к доказательству равенства (55.7). Заметим, что введение всякого непрерывного управления Q можно рассматривать как частный случай использования стратегии V 4- v(t> х), именно — стратегии V* 4-Поэтому неравенство у* будет вытекать из того положения, что всякое измеримое программное управление	можно аппроксимировать не-
прерывным программным управлением v* И е Q так, чтобы при любом выборе программного управления u[t]^P выполнялось неравенство
II x[t, to, Хо, и[ • ],	• ]] — x(t, to, Хо, и[  ],	• ])||<8
(доказательство этого положения мы опускаем).
Докажем противоположное неравенство
YXY*.	(55.9)
Предположим противное ему. Пусть существует стратегия V* -г- v*(t, х), Для которой
mino(x(Z, to, Хо, V.)) > у".	(55.10)
*(•)
Приведем построения, опровергающие неравенство (55.10). Будем говорить, что пара программных управлений {«(•], о [•]} («И е Р,	t t0) принадлежит множеству R, если для
этой пары выполняется условие
<т(х(Ф, to, Хо, н[ • ], о[ • ]))<Y*-	(55.11)
Из определения величины у* (55.6) вытекает, что для любого программного управления v [•] можно указать программное управление «[•] так, чтобы {«[•], и[-]} е R.
Построим отображение множества R в себя. Пусть {«[], v[-]} — произвольный элемент множества R. Пара управлений {«[•],и[-]} порождает единственное движение системы (40.1) x(t) = x(t, to, Хо, «[•], v [•]). Заменяя в функции T* — V\(t,x) аргумент х вектор-функцией x(t) = x(t, t0, х0, «[•], v[>]), получаем некоторую неоднозначную функцию
rt[t] = r,(t, x(t))	(t^to),	(55.12)
зависящую лишь от переменной t. Отметим, что множествами выпуклы, замкнуты и с изменением параметра t Изменяются по-
, rR1	НЕПРЕРЫВНЫЕ СТРАТЕГИИ	241
пунепрерывно сверху относительно включения. Из этого положения, согласно результатам теории измеримых функций ([20*], стр/ 603), вытекает существование измеримой вектор-функции
И U к0Т0Рая при почти всех t tQ удовлетворяет включениям
о.ИеУ’.Р].	(55.13)
Вообще говоря, соотношение (55.13) определяет вектор-функцию v И неоднозначно. Совокупность измеримых вектор-функций £)*[/], удовлетворяющих включениям (55.13), обозначим символом {»,[ •	|.].0(.j)> который отмечает, что это множество зави-
сит от пары управлений {«[•], о[-]}, порождающей движение х(0) и определяющей неоднозначную функцию (55.12). .
Теперь каждому управлению и,[ • ]е= {у,[ • ]}(u(.]j0N) подберем управление • ] так, чтобы {«,[ • ], о,[ •])<=/?. Совокупность всех таких пар («,[•], ».[•]! обозначим символом /?*(«[ • L ' 1), т- е- {«.[ • 1, ».[ • И содержится в /?’(«[•], и[ •]) тогда и только тогда, когда о.[ • ]е (<[ • ]|(иМ>о1.п и кНл.НМ-
Итак, построено отображение множества R в себя. Произвольной паре управлений {«[•], р[ •]} е= /? поставлено в соответствие непустое множество /?<«[.), 0 [.]> сг /?. Оказывается, что построенное отображение обладает неподвижной точкой {ы°[ • ], »°[ • ]}» удовлетворяющей соотношению
{«°[ • ]. »°[ • ]} е /?*(«°[ • 1, »°[ • ])<=£•	(55.14)
(Доказательство этого положения сводится к проверке условий известной теоремы о неподвижной точке (см. [5*], стр. 489). Эту проверку мы здесь опустим.)
Покажем, однако, что существование неподвижной точки {««[•], у°[-]} (55.14) противоречит неравенству (55.10). Действительно, включение {м°(-], е R означает, что выполняется неравенство
а(х(б, t0, Хо, и°[ • ], о0[ • ]))<у*.	(55.15)
с другой стороны, из условия о°[-]} е R* (м°[<], v°(-]) по построению множества R* получаем, что движение x(t) — = x(t, t0, Хо, u°(-], у°М) удовлетворяет уравнению в контингенциях:
х(t) <= А (0х(f) +-В(f)P + C(ОУ. (t, х (/)) + f [fl,
поскольку u°[/]eP, p°[(|eF»(f,х(0). Таким образом, показано, что существует движение x(t) = x(t,t0, х0, V*) = = x(t, to, х0, «?[•], о°[.]), удовлетворяющее неравенству (55.15), что, однако, противоречит соотношению (55.10). Полученное
242
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. IX
противоречие доказывает неравенство (55.9), а вместе с ним — и равенство (55.7).
Рассмотрим теперь конкретный пример, для которого выполняется неравенство (55.8). Пусть динамика управляемой системы описывается уравнениями
У\=Уз> У2=У1> УЗ = Щ9 У4^иЪ Z\=V\, ^2 = ^2,
ИМ<Ж || v ||(55.16}
Здесь {f/i, уг} — координаты материальной точки {уз, у±} — компоненты скорости этой точки, и = {ui, и2} — управляющая сила, которая прикладывается к инерциальной точке {2Ь z2} — координаты безынерционной точки т?\ управление которой осуществляется выбором скорости v =	у2}- Рассматри-
вая для системы (55.16) задачу 18.2, будем полагать, что функция о имеет смысл расстояния между точками г№ и zn(2), т. е.
а = [(у, [fl] - z, [Ф] )2 + (У, [О[ - z2 [О] )2]'/г.	(55.17} '
Выберем для определенности следующие начальные условия и числовые значения параметров:
/о = 0,0 = 2, z/J = 2, z/o = z/o = yo = ^ = 2^ = O, №=2, № = 1.
(55.18}
При выбранных числовых значениях (55.18) справедливо равенство
у* = 0.	(55.19}
Для проверки этого положения, используя преобразование (40.3), перейдем к новым переменным
*i = */1 — 24 + Уз($ — 0, *2 = */2 —z2 +—0, (55.20}
изменение которых описывается уравнениями
%! = ux (ft — t) — vx, х2 = и2 (ft — t) — v2.	(55.21}
При этом функция о (55.17) будет определена равенством
о = (%2[0] + х2[0])Ч	(55.22}
Рассмотрим область достижимости G(/o, О; и*(-)) (см. § 40> стр. 163). Нетрудно непосредственно проверить, что в данной задаче область G(tQi х0, О; £>*(•)) будет кругом радиуса гх — — №№)2 = 4 с центром в точке
о
с = х° — J v(t)dt (г’^Ш	(55.23)
243
УСТОЙЧИВОСТЬ ЭКСТРЕМАЛЬНОГО УПРАВЛЕНИЯ
•§ 56]
Перебирая всевозможные программные управления и*(-), получаем, что точка с (55.23) остается в круге радиуса г2 = АЯ-О=2 с центром в точке х° = {2,0}. Поэтому, каково бы ни было программное управление и*(-), область G(/o, х0, О; £>*(•)Обязательно содержит точку {xi = 0, х0 = 0}. Следовательно, при выбранных числовых значениях (55.18) действительно выполняется равенство (55.19).
Определим теперь значение величины у0 (55.4). Рассмотрим в пространстве позиций {/, хь х2} множество W, которое определено следующим соотношением:
Г = [{/, хр х2| :х2 + х2>г2, 0</<2],	(55.24)
где rt = 0 при 0 t 1,5, rt = t2—3t + 2,25 при 1,5 t2. Непосредственно проверяется, что множество W (55.24) будет и-стабильным мостом для системы (55.21). Очевидно, {/0, xj, х°) е W\ поэтому стратегия V(<?) 4- ve (t, х), экстремальная к множеству UZ, обеспечит выполнение неравенства (х2 ['&] + х\ [О] )1/2	= 'h.
Можно показать, что этот результат будет оптимальным; следовательно,
Yo = rnina(x['&, /0, х0, Ve])= 1/4.	(55.25)
х [•]
Из (55.19), (55.25) и следует, что в данном случае у0 > у* = у^.
В заключение этого параграфа рассмотрим еще пример задачи 19.2, в которой также полагаем, что движение системы описывается уравнениями (55.16) и выбраны числовые значения’ (55.18). В данном примере требуется обеспечить уклонение точки от встречи с точкой Из приведенных выше рас-суждений следует, что никакая непрерывная стратегия второго игрока не может обеспечить уклонение всех обобщенных движений от встречи до момента / = 0 = 2. Вместе с этим в приведенном примере можно было бы построить разрывную стратегию 17° 4- и°(/, х), формализованную в соответствии с материалом главы II, которая обеспечит уклонение всех конструктивных движений х[/,/о, х0, V0] на любом, сколь угодно большом промежутке времени [/0, Г].
§ 56. Условия устойчивости экстремального управления. Продолжим обсуждение вопроса об устойчивости решений дифференциальных игр. В этом параграфе исследуется связь между геометрическими свойствами стабильных мостов и устойчивостью реализации соответствующих экстремальных стратегий. Докажем сначала следующее положение.
Теорема 56.1. Пусть маленькая игра (12.1), (12.2) для всех позиций {/*, х*} и векторов имеет седловую точку (12.4)*
244
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. IX
Предположим, что существует и-стабильный мост Wu cz Nc, содержащий начальную позицию {/0, *о} и обрывающийся к моменту t = Ь на множестве Мс, причем сечения Wu(t) множества Wu гиперплоскостями t = const суть выпуклые множества. Тогда стратегия 1№ 4- u^(t, х), экстремальная к множеству Wu, гарантирует решение задачи сближения, устойчивое по отношению к информационным помехам, т. е, для любого числа г > 0 можно указать такие числа 6 > 0 и £ > 0, что управление
Ыд[Л = м<е)(тр Хд[т.]), т<</<тг+1	(/ = 0,1,...) (56.1)
гарантирует попадание движений хд[/] (t to) в е-окрестность множества Мс к моменту t = $ при сохранении их в е-окрестно-сти множества Ne, если только полуинтервалы [тг-, Ti+i) разбиения А удовлетворяют условию т.+1 — (i = 0, 1, ...), а х\ — результаты неточного измерения фазового вектдра системы x& [гг] — связаны с ним соотношением
Укажем основные моменты доказательства этой теоремы. Прежде всего замечаем, что в рассматриваемом случае, когда сечения множества №(/) выпуклы, для каждой позиции {/, х} ближайшая к ней позиция {/, w(t,x)}^W будет единственна. При этом вектор s(t, х) = х — w (t, х) зависит от х равномерно непрерывно, т. е. .
II5(/, xj — s(/, х*)||<а(£) при ||х* — хш||<С (56.2) для всех Ф], x*f=En, х* Еп\ здесь сг(£)->0 при
Таким образом, малые погрешности измерения фазовой точки х*’влекут здесь малые погрешности в определении вектора s, направленного на х* из ближайшей точки сечения W(t) моста W*
Приведем формулировку основной оценки, которая используется здесь так же, как оценка (14.6) применялась при исследовании случая, когда текущая позиция измеряется точно (см. § 15). Пусть движения х(1) [Z] и х(2) (/) (/^>/*, x(I)[/J = xV\ х(2} (/J==x^2)удовлетворяют уравнениям (14.1) и (14.2), соответственно, где постоянные векторы и*^Р и	выбраны из
условий
шах s*'f(^, х*, и*, и) — min max s*'f(^> и, ц), (56.3) v^Q	и&Р v<=Q
tnin х‘, и, u‘) = max min x‘, и, v).	(56.4)
U^P	D€=Q u&P
Здесь s* и x* — некоторые векторы, удовлетворяющие оценкам ||S-_(X<1)_X<2))||<(T(?), II х‘- Х<»||<;,	(56.5)
причем <т(С)->0 при >0.
r rxl	УСТОЙЧИВОСТЬ ЭКСТРЕМАЛЬНОГО УПРАВЛЕНИЯ	Олег
§ ODJ
Для величины р2(0 = 11 х''} [И — *(2) (О II2 справедлива оценка р2(^ + 6)<Р2(О(1 + ₽6) + ф*(б, ?)д (О^бСТ), (56.6)-равномерная для всех позиций {^, х*1’), {/„ х<2>} из каждой наперед выбранной ограниченной области G в пространстве (/, х} и для всех векторов х* и s‘, удовлетворяющих оценкам (56.5); в оценке (56.6) 0 —некоторое число, <р’(б, £)-»0 при б->0 и £ "* 0.
Доказательство неравенства (56.6) повторяет рассуждения из § 14 вплоть до вывода оценки (14.15). Затем соотношение (14.16) заменяется здесь следующими выкладками:
х<'>, «*, v(0) =
= «’Ж, х, y«)) + (s.-s‘)7(/., х«>, и*, v(t)) +
+ s*' [f xW u\ v (0) - f (/., x*, v (/))], (56.7) s7(0>	u/°’ vy=s‘'f(tt, X*, U^>, v’) +
+ (s, — s*)'f (Д x*}> u(t}> w*) +
+ W	X-, «Д o’)]. (56.8)
По условиям доказываемой теоремы минимакс (56.3) совпадает с максимином (56.4). Поэтому справедливо неравенство
а’7(Д.х‘, и’, ц(0)<з*7(Д х’, «Д о‘)	(56.9)
(/=1, ..., п+ 1).
Напомним, что s — х(1) —-х<2) (см. § 14), поэтому из оценок (56.5), (56.9) и в силу непрерывности функции f(t, х, и, v) получаем для величин (56.7), (56.8) следующее неравенство:
хД и’, »(/))<
и*)+ Ф.Ю (/=1>2............«+1),	(56.10)>
гДе <Р.(0->0 при £->0.
Заменяя этой оценкой неравенство (14.16), получаем затем., вместо соотношения (14.18) оценку
< 2Х || s, |р + 41| s JI <р (t - t.) + 2ф. (Q + 8 (t - f0) и2,
из которой и вытекает доказываемое неравенство (56.6).
Покажем теперь, что справедливо следующее положение: для любого числа е > 0 можно указать числа б > 0 и £ > 0 такие, что для всякого движения хд [/] = хд ]7, t0, х0, Ид[ • ], v [ • ]], где управление «д[Н формируется по закону (56.1), точка (Л хд [/]} будет оставаться в е-окрестности множеств 1Г вплоть до попадания ее в е-окрестность множества Л1с. Нетрудно видеть, что в силу свойств моста Wu из этого положения будет вытекать справедливость теоремы 56.1.
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. IX
Предположим противное. Пусть для некоторого числа 8 > О существует последовательность движений = x&k [Л х0>
* Ь • 1]	— Ь 2, • • •)» для которой sup, (4^ —	О,
при £->оо, однако движения хд^[7] (£=1,2,...), покидают 8-окрестность множества W прежде, чем они попадают в s-окрестность множества Мс. Можно полагать, что Лвижения хд^|7]	^0) сходятся к некоторой абсолютно непрерывной функции х[£]	Как и при доказательстве
леммы 15.1, определяем максимальный отрезок времени [/0, на котором точка {/, х[/]} остается во множестве Wu. Затем устанавливается, что для рассматриваемых движений х^ [/] -справедлива оценка
‘Ж^оЖ1 + (t-/0))Ф;]ехрр(/-/0)	(56.11)
+	Л=1, 2, ...).
Здесь, в отличие от неравенства (15.1), (p^ = supz /Ф*(/— £ft) при i = 0, 1, ...;	величины Ф‘(б, £) и р опреде-
лены в соответствии с оценкой (56.6). Поскольку >0 и ®fe(/0)->0 при k->oo, то из оценки (56.11) вытекает соотношение {/,	при	+	(г, > 0), которое противоречит выбору момента t,.	'	’
Итак, для доказательства теоремы 56.1 остается проверить оценку (56.11). Предположим, что эта оценка неверна; тогда так же, как и при доказательстве леммы 15.1, устанавливаем -существование промежутка	и точки 4-т, из
этого промежутка, так что будет выполнено соотношение
Ч (Г) >	+ Р (Г — т<*>)) + (Г - т<?>) Ф*.	(56.12) =
Пусть «дй[/] = ИдА[т<Л>] — управление первого игрока, которое осуществляет движение хдД/] при	Вектор
и' = «д [т^] удовлетворяет условию минимакса (56.3) при А=ф*	и =	<Дт<«]) = ХдДт^] —I
где Хд [т^}] — результат неточного измерения фазового вектора ХдДт<*>], причем ||	[т<Л>] —	| < £,	—точка	{
сечения W	ближайшая к точке хдДт^]. Отметим, что из	I
соотношения (56.2) вытекает неравенство
(56.13)
где wtk)— точка сечения W ближайшая к точке [т)й)].
J
УСТОЙЧИВОСТЬ ЭКСТРЕМАЛЬНОГО УПРАВЛЕНИЯ
247
§ 56]
. Выберем теперь вектор и* из условия максимина (56.4) при / = х* —	и 5* == x\k	Рассмотрим пучок
двйжений х(/) = х(/, if1, w{k\	-r- v*), являющихся
решением соответствующего уравнения в контингенциях (11.2> прИ	Поскольку здесь так же, как и при доказатель-
стве леммы 15.1, можно полагать, что этот пучок не пересекается с множеством Мс (см. стр. 65), то из условия и-стабильности моста Wu вытекает существование движения x(t) = x(t, х<®^ w{k\ V{k]\ для которого
{f, x(f))cF	(56.14)
Поэтому из оценки (56.6) в силу соотношения (56.14) получаем неравенство
е1(П<е|(т^)(1 + Р(Г-т^))	(56.15).
Поскольку по определению числа ср* справедливо неравенство ф^ф*(^*—£*)> то оценка (56.15) противоречит неравенству (56.12). Полученное противоречие доказывает оценку (56.11), а с ней — теорему 56.1.
Подчеркнем, что условие единственности вектора s(f, х), из которого вытекает соотношение (56.13), позволило воспользоваться здесь оценкой (56.6) для вывода неравенства (56.15). Можно привести примеры, когда нарушение условия единственности вектора s(t,x) влечет за собой нарушение оценки (56.15). В этих случаях возможны ситуации, когда изменение расстояния от точки {/, хд& [/]}, движение которой осуществляет управление первого игрока вида (56.1), будет удовлетворять оценке
е2 (0 > в2 (if)) (1 + р (t — if))) + Ф (t — if >) (/ — х<») + £х,	(56.16) -
где х>0 — некоторое постоянное число. Поскольку указанная ситуация может реализоваться в'процессе игры многократно, то из соотношения (56.16) видно, что точка хд^ [/]} при этом существенно удалится от множества Wu. Таким образом, в этих случаях экстремальная стратегия 4- х) не доставляет устойчивого решения задачи наведения.
В заключение параграфа заметим, что для того, чтобы вектор s — s(t,x) непрерывно зависел от х, необязательно предполагать выпуклость сечений Wu(t) множества Wu. Нужные соотношения имеют место при более слабых предположениях относительно множества Wu. Достаточно, например, требовать, чтобы вектор s(t, х) = х — w(t, х) был единственным для всех позиций {/, х}, лежащих в некоторой a-окрестности множества Wu*
248
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
(ГЛ. IX
Можно сформулировать и доказать также теоремы об устойчивости стратегий У<е> -4- v^(t, х), экстремальных к а-стабильным множествам Wv, которые удовлетворяют указанному условию выпуклости или хотя бы условию единственности вектора s = = х — w(t, х) для всякой точки х из достаточно малой «-окрестности сечения Wv(t).
§ 57. Управление с поводырем. Перейдем к описанию регуляризации экстремальной конструкции, которая доставляет решение игровых задач динамики, устойчивое по отношению к информационным помехам. Суть предлагаемой регуляризации состоит в том, что вводится в рассмотрение вспомогательная точна — поводырь, движущаяся по заданному стабильному мосту W. Движение этой точки w(t) и движение х[/] исходной системы формируются так, чтобы в процессе игры они взаимно отслеживались. Введение поводыря можно рассматривать как включение в схему управления некоторого регулятора, моделирующего управляемый объект на ЭВМ и не подверженного действию помех.
Опишем сначала процедуру управления с поводырем для первого игрока в задаче сближения.
Итак, пусть движение управляемой системы описывается уравнением
x — f(t, х, и, v)	(и^Р, bgQ).	(57.1)
Динамика поводыря характеризуется таким же уравнением w = f(t, w, и*, v„)	(и*<=Р, о, eQ).	(57.2)
Предположим, что первый игрок измеряет фазовые состояния реальной системы (57.1) неточно, причем разность между вектором х*[/] — результатом неточного измерения — и реализовавшимся на деле значением фазового вектора xJ7] удовлетворяет оценке	......
нх’ш- хшис	(57.з)
Будем полагать, что найден некоторый u-стабильный мост Wu, содержащийся в Nc и обрывающийся к моменту t = & на множестве Ме.
Пусть {/0, Хо} — начальная позиция для системы (57.1), xj — результат неточного измерения первым игроком фазового вектора хо. В качестве начальной позиции для вспомогательной системы (57.2) выберем точку {/0, Шо} из множества Wu, ближайшую к позиции Xg) (если таких точек {/0, а>о} не одна, то выбираем любую из них). Выберем далее некоторую систему А полуинтервалов [т»,Tt+i) (1 = 0,1,...), покрывающих полуось I/о, оо). На первом промежутке [£о, rj движения хИ и w(t) опре
УПРАВЛЕНИЕ С ПОВОДЫРЕМ
24?
§ 57]
делим следующим образом. Полагаем, что вектор о*0) е Q удовлетворяет соотношению
max min (х* — w0)' f (t0, x'o, и, v) = min (xj — w0)' f (t0, xj u,
V e Q и P	P
В качестве движения поводыря w(t) (t0^.ts£ixi) возьмем то» решение уравнения в контингенциях:
w{t)^^u(t, w(t), v<°>)	(®(/0) = да0, f0Cf<T,),
(<Г„ (Л W> °) = СО [f ’• f = f (t> w> u> v)> « <= P] ),
для которого выполняется условие
{/, w(0} при
где т = Т], если на отрезке [Zo, tJ точка {t, w{t)} не попадает на Мс, в противном случае т ti — момент времени, когда точка {0а»(/)} впервые попадает на Ме. Существование такого движения w(t) вытекает из свойства «-стабильности множества !FM и условия {/о, и'о} е Wu. Для построения движения х И при to t Т] определяем вектор «<°> <= Р из условия
min max (Xg —J0oY f (/0, xj, «, o) = max (x* — w0Y f (t0, xj, «(0), v).
uePveQ'	' v (=Q	' '	'
Постоянное управление и[/] = u<°\ (t0 t <z ti) в паре, с некоторой измеримой реализацией управления второго игрока и[/]е Q определяет движение х [/] при to t ть т. е.
х[/] = f(t, Хр], «<0), V[/])	(х}/о] = Хо, /о<^<Т1).
Предположим, что движения х [/] и w(t) определены на отрезке (/0. т<], причем выполняются условия
{/, о>(/)} е ITU, {^, w(/)} Мс при /0<^<тг.	(57.4)'
Для построения движения ау(/) на следующем участке (тг, тч+1)> выберем управление v(<>eQ из условия
max min(x*[Ti] — w(xt)Yf(т,-, х*[т,], и, v) =
f GQ и е Р
= min (х*[tJ — w(т.) у f (тР х’ [тJ, и, (57.5>
Напомним, что х*[т4 — результат неточного измерения фазового вектора х[т<]. Движение поводыря определим так, чтобы оно удовлетворяло уравнению в контингенциях ..
w (0 е (/, w (0, (тг < t < тп '	(57.6)
и для него выполнялось условие
(/, w(t)] е Wu, xi^t^x,
•250
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. IX
где т = тг+ь если на отрезке [т/, т+i] точка {/, не попадает на множество Мс; в противном случае т тг+1 — момент времени, когда впервые {/, w (/)} е Мс. Существование такого движения как и выше, является следствием' и-стабильноети множества Wu и условия {тй tti (rv)} (= Wu.
Управление и[£] — (тг t < n+i) в системе (57.1) выберем из условия
min max(x*[rj — ш^))'f{ri9	и, v) =
и е Р v <= Q
= тах(х’[тг] —te)(rz))'f(Tz, х’[тг], ы(/?, о). (57.7) v е Q
Это постоянное управление первого игрока в паре с некоторой измеримой реализацией у[/] е Q определяет движение х|7] ла рассматриваемом промежутке [т«, ti+i], т. е.
=	*[/], «(0, сф[) (тг</<тг+1).	(57.8)
Указанная процедура формирования движений w(t) и х [Z] (т, t < т<+1, i = 0,l,...) проводится, последовательно до тех пор, пока точка {/, w(t)} не попадает на множество Мс. Поскольку множество обрывается на Мс к моменту t = &, то движущаяся по этому мосту 1FU точка {/, оф)} попадает на Мс не позже, чем в момент t = &.
Для более конструктивного описания движения w(t) на отрезках г, t т,+1 и для реализации его на практике это движение удобно представить как решение уравнения
w(t) = | f (<,.«) (О,	v’0) |4° (d«J,	(57.9)
р
где	(т(<1<т(+1)— подходящая слабо измеримая
функция (см. стр. 123, 124).
Существование такой меры для всякого нужного нам решения w (/) уравнения в контингенциях (57.6) выводится из свойств выпуклых множеств &~v. на основе известных результатов из теории меры. Эго доказательство возможности подбора подходящей меры — управления iit(du)—мы здесь опустим. Дополнительные замечания о практических способах построения движения w(t) (57.9) в прецизионной модели (57.2) приведены в кон« не этого параграфа.
Следует подчеркнуть, что в рассмотренной процедуре упрайле-ния движение поводыря формируется первым игроком, т. е., хотя в записи уравнения (57.2) присутствуют два управляющих параметра и* и однако выбор их, осуществляемый в форме вы--бора v = vw и (du), подчинен только первому игроку. Предполагается, что движение поводьфя моделируется на ЭВМ в си-
УПРАВЛЕНИЕ С ПОВОДЫРЕМ
25 F
§ 57] стеме управления первого игрока; оно измеряется без погрешностей, и для этого эталонного движения имеет место точное выполнение условий о сближении. Смысл соотношений (57.5) и (57.7) состоит в том, что управление движениями х[/] и w(t) осуществляется первым игроком так, чтобы эти движения взаимно отслеживались: управление и^ (см. (57.7)) выбирается так, чтобы обеспечить максимальный сдвиг движения х[/] в направлении на точку ^(тО, управление (см. (57.5)) выбирается из условия прицеливания движения w(t) на точку x[ty]_ Наконец, отметим, что процесс формирования движения w(t) можно трактовать как решение некоторой задачи с информационной дискриминацией второго игрока-противника.
Справедливо следующее утверждение.
Теорема 57.1. Пусть для всех позиций {/*,%*} и для всех: векторов s* маленькая игра (12.1), (12.2) имеет седловую точку (12.4). Предположим, что найден и-стабильный мост WuczNc> обрывающийся на Мс к моменту t — Ь и содержащий начальную позицию {/о, *о}- Тогда предложенная процедура управления с поводырем доставляет решение задачи сближения, устойчивое' по отношению к информационным помехам, т, е. для любого числа в > 0 существуют числа б > О и £ > О такие, что при т/+1 — и ||х*[т/] — ф,]Ю (/= О, 1, ...) не позже, чем: к моменту t = $, движения х[/] (57.8) будут попадать в г-окрестность множества Мс и при этом будут оставаться в г-окрестности множества Nc.
При доказательстве этой теоремы прежде всего заметим, что по построению движения поводыря позиция {/, w(t)}, оставаясь в NCi попадает во множество Мс не позже, чем в момент времени t = ft. Поэтому остается показать, что при достаточно малых величинах б и £ рассогласование между движением %[/] и соответствующим ему движением поводыря w(t) будет меньше любого наперед выбранного числа 8 > 0. Для проверки этого положения можно воспользоваться оценкой (56.6) в виде неравенства
Р2 (/) < р2 К) (1 + (/ - Tf) ₽) + <р* (б, $) (t - Tt)	(57.10>
(т/ </ < rf+1, i = 0, 1, ...), где р2(/) = || лф] — w(t) ||2, так как по построению движений х[/] и w(t) все условия, использованные в § 56 при выводе оценки (56.6), здесь выполнены.
Для удобства дальнейших выкладок будем полагать, что-Движения % [7] и продолжены до момента t = ft, т. е. после попадания точки, {/, оу (/)} на множество Мс движения w(t) и -Ф] задаются соотношениями (57.5), (57.7), однако уже не требуется, чтобы после попадания на Мс точка {/, оф)} двигалась по мосту Wu.
252
КОРРЕКТНОСТЬ РЕШЕНЙЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
(ГЛ. IX
Используя оценку (57.10), можно показать, что величины р2(/) мажорируются следующим образом:
P2(0<[p2(Q + ОН1 Я*-*о))]ехр₽р-,0), (57.11)
Здесь <p’A(C) = supf.,<₽’(/ — Тр С) при £ = 0, 1, ...;./е[т(> т/+1]; <р'(6, и р —с величины, фигурирующие в оценках (56.6), (57.10), причем область G из условия (56.6) выбрана так, что она содержит все рассматриваемые здесь точки {£, х[/]} и {/, о>(/)} (Го^Г^О). Проверка оценки (57.11) проводится в основном так же, как в § 56 устанавливалась справедливость оценки (56.11). Именно, предполагая противное, получаем, что некоторый полуинтервал [т<, Tt+ij содержит точку /*< Ф, для которой оценка (57.11) нарушается, т. е.
Р2 (Г) > [Р2 (/о) + Ф* (6, ?) (1 + (Г - /о))] ехр р (Г - /о),	(57.12)
однако, при t — Xi оценка (57.11) еще выполнялась, т. е.
Р2 (т<) < [р2«о) + ф’ (6, 0 (1 + (тг - Гй))]ехр р (тг - /0). (57.13)
Из соотношений (57.12), (57.13) вытекает неравенство
p2(f)> p2(Tf)(l +(f-tt.) p) + qp*(6, W-тД
противоречащее оценке (57 J0). Полученное противоречие доказывает справедливость соотношения (57.11).
Замечаем теперь, что р2(/о)<^£2, поэтому величина, стоящая в квадратных скобках в (57Л1), стремится к нулю при £-*0, 6—>0. Следовательно, для любого е>0 можно указать такие £>0 и д > 0»; что р2(/)^ в2 при всех fs j/o, О]. Теорема 57J .доказана.
Нетрудно указать причину, по которой способ управления с поводырем обладает устойчивостью. Как и в регулярных случаях, рассмотренных в предыдущем параграфе, эта причина заключается в том, что малые погрешности измерения фазовой точки х влекут здесь лишь малые погрешности в определении вектора s = х[тг]— до(тг), и оценку (57.10) можно использовать рекуррентно, приводя ее к неравенству (57.11).
До сих пор в этом параграфе игроком-союзником был первый игрок. Опишем теперь процедуру управления с поводырем, считая игроком-союзником второго игрока. Пусть определен некоторый ^-стабильный мост IF©» который йе пересекается с G(A4C) (см. § 17, стр. 68). Предположим, что второй игрок измеряет фазовые состояния неточно, причем результаты измерения х*[/] удовлетворяют оценке (57.3). Пусть х*— результат неточного измерения вторым игроком начального фазового вектора Хо. В качестве начальной позиции для вспомогательной системы
$ 57]
УПРАВЛЕНИЕ С ПОВОДЫРЕМ
253
(57.2) выберем точку {(о, ®о} из множества Й7», ближайшую к точке {/0, xj}. Выберем некоторую систему Д полуинтервалов Ттг, Ti+l) (t = °> !>•••)» покрывающих полуось [/0, оо). Предположим, что движение реальной системы х[(] и движение поводыря w(t) определены на отрезке [(о, Тг], причем выполнены условия
{(, да (/))<= №*,	(t, w(t)} gb H.(Ne) при
Управление «ИеР определим из условия
max min (х’[тг] —a»(r/))'f(TZ, х’[тг], и, о) = и е Р v е Q
= min (х*[тг] — да(т;))'/(тр х‘[т{], м<г>, о). (57.14)
Затем движение поводыря w(i) определим так, чтобы оно удовлетворяло уравнению в контингенциях
w(t), ««>)	(тг</<т/+1), ..	(5715)
(Го (t, w, и) = со [f (t, w, и, v): v е= Q]
и для движения w(t) выполнялось условие
{/, да(0)еГ»,	тг^<т,-
где т = Tt+i, если на отрезке [ti, Тг+i] точка {t,w(t)} не выходит из H(NC), в противном случае т — момент времени,, когда впер^ вые нарушается условие {/, да(/)} е H(Ne). Существование такого движения является следствием п-стабильности множества
и условия (тр w (т.)} е W®. Управление v [(] = п(») (ti t < Ti+i) в системе (57.1) выберем из условия пип тах(х‘[т,] — а’(т<))//(т/, х’[т,], м, v) =
= тах(х’[т/] —	(ть x’ItJ, и, о(,)).	(57.16)
и е р
Это постоянное управление второго игрока в паре с некоторой измеримой реализацией Р определяет движение х[(] при Ti Ti+l, т. е.
Х[(] = f(t, х[/], vW) (Т]</<тг+1).	(57.17)
Указанная процедура формирования движений w(t) и х[(] проводится последовательно до момента t = &, либо до момента т, когда точка	впервые покинет множество H(NC).
тметим, что и здесь для описания движения w(t) можно ис-ользовать управление-меру, т. е. уравнение в контингенциях
254
КОРРЕКТНОСТЬ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. IX
(57.15) можно заменить уравнением
w (0= J /(Л ^(0»	(57.18)
Q
где v/(diu)—подходящая слабо измеримая функция (см. стр. 124), Справедливо следующее утверждение.
Теорема 57.2. Пусть для всех позиций {/*,%*} и для всех векторов маленькая игра (12.1), (12.2) имеет седловую точку (12.4). Предположим, что найден v-ст обильный мост	не пе-
ресекающийся с некоторой открытой окрестностью множества Мс и содержащий начальную позицию игры {/0, *о}- Тогда предложенная процедура управления с поводырем второго игрока доставляет решение задачи об уклонении, устойчивое по отношению к информационным помехам, т. е. существуют числа е > 0, 6 > 0, £>0 такие, что прит^ — та ^6, II	||^
(/ = 0, 1, ...) движения x[/] (57.17) на отрезке [/0, fl] будут уклоняться от попадания в г-окрестность множества Ме вплоть до выхода их из ^-окрестности множества Nc-
Доказательство этого положения проводится в основном так же, как и доказательство теоремы 57.1.
В заключение приведем еще одно конструктивное построение движения поводыря. Рассмотрим для определенности процедуру управления с поводырем первого игрока. Учитывая, что движение поводыря моделируется на ЭВМ и не подвержено действию помех, это движение по ^-стабильному мосту W согласно результатам ив § 15 (см. стр. 62) можно аппроксимировать с любой наперед выбранной точностью с помощью ломаных Эйлера
=	/0, wQ, U^, v* [/]], где	w) — страте-
гия, экстремальная к мосту W, = при т.
[тр т/+1) (z = 0, 1, ...)— полуинтервалы постоянства управления в системе (57.2) и u[t] = u^ (тг < т;-ы) в системе (57.1). Подчеркнем, что разбиение Д* выбирается достаточно малым (во всяком случае более мелким, чем разбиение Д) для того, чтобы обеспечить требуемую близость движения [/] к рассматриваемому мосту W. Для определения управлений и^ и v(r> следует заменить в соотношениях (57.7), (57.5) вектор w(ti) на вектор	Для указанной здесь конструктивной
модификации управления с поводырем остается справедливым утверждение об устойчивом решении задачи о сближении.
Глава X
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
§ 58. Устойчивое отслеживание поводыря. В этой главе мы продолжим обсуждение управления с поводырем., Рассмотрим для определенности задачу о сближении 9.1 для первого игрока. В описании управления с поводырем,, данном, в § 57, выбор игроком-союзником управления и, приложенного к реальному -управляемому объекту, диктовался условием наибольшего сдвига фазовой точки х[<] прямо к фазовой точке w (/), представляющей движение поводыря по м-стабильному мосту IFu, ведущему, на цель JWC. В то же время выбор тем же первым игроком-союзником управления о*, приложенного к поводырю, диктовался условием наибольшего сдвига фазовой точки w(t) прямо к фазовой точке х[/} объекта. Эти условия выражаются соотношениями (57.5), (57.7). И этот выбор управлений и и обеспечивал вдоль ломаных Эйлера Хд[?] и о»д(/) нужную оценку (56.6). Эта локальная оценка в свою очередь обеспечивала оценку (57.11), которая гарантировала взаимное отслеживание движений ХдИ и ®д(/) вплоть до выхода позиции{/, о»д(/)} на цель А1С. Однако, если отрезок времени to t Ф оказывается большим, экспоненциальный множитель в оценке (57.11) на деле осложняет отслеживание движения о»д(/) движением хд [/]. Эта оценка, для сохранения близости между точками хд[/] и о>д(0 впло1ь до окончания игры, может потребовать чрезвычайной* малости шага 6 разбиения А, и чрезмерной малости допустимой •ошибки Ахд [/] == Хд |7] — Хд [Л в измерении хд[/]. Эта неприятность еще усугубится, если учесть и возможные неточности Дм и Ду» в значениях управлений « и о*, подаваемых на объект (57.1) и в регулятор (57.2). Поэтому возникает вопрос о дальнейшем усовершенствовании управления с поводырем, которое позволило бы той или иной ценой при больших значениях О — to преодолеть затруднения, связанные с оценками вида (57.11), включающими экспоненциальные множители. Обсуждение этого вопроса и составляет предмет данного и следующего параграфов. При этом мы установим определенную связь между задачами игрового управления с поводырем и задачами стабилизации движений.
Соотношения (57.5), (57.7) можно истолковать в духе теории Устойчивости движения по Ляпунову [2*, 17*, 19*}
256	СТАБИЛИЗАЦИЯ РЕШЕНИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. X
и отвечающей ей теории стабилизации движений [19*], если трактовать ®д(/) как невозмущенное движение, a $д[/] = = ХдИ—и»а(О — как возмущение. Рассматриваемые в теории устойчивости задачи обычно приводят.к такому виду, чтобы невозмущенное движение было нулевым. Поэтому в дальнейшем невозмущенным движением удобнее называть движение s*[t]=O (Z^/o), а возмущение 5Д[/] = хд[/] —дад[/] трактовать как возмущенное движение, удовлетворяющее, стало быть, уравнению возмущенного движения
$д = /(Л *д. «> ») —	(58.1)
где согласно (57.9) имеем
f [И = / f (t, w (t), ut,	(duJ.	(58.2)
p
Величину ||s||2 = ||x — u>|l2 мы можем трактовать теперь как функцию Ляпунова
Ms) = Ц «II2.	(58.3)
Вычисляя полную производную d"Kldt этой функции Ляпунова X(s) (58.3), в силу уравнения возмущенного движения (58.1) получим
W <58-4> ¥
Сравнивая (58.4) и соотношения (57.5) и (57.7), замечаем „ с учетом (57.3), что управления и^ — и^х^ хд[т;], шд(т;)) и i
— vtc(x., хд[т.|, выбирались в (57.5) и (57.7), по сути 1 дела, из того условия, чтобы добиться возможно меньшего-.1 значения производной dKjdt функции X (58.3) в реализовав- 1 шейся позиции {тр хд[т;],	(Правда, вследствие неточ- f
ного измерения хд[/] это наименьшее значение dK/dt опреде- г лялось в § 57-согласно условиям (57.5) и (57.7) при подмене I хд[Л на хд[f] и, более того, при подмене в (57.5) вектора $Д[Л | на $д[/] = хд[/]— га>д(О, но вследствие малости ошибки Дхд | это обстоятельство в конце концов в пределах наших задач | скрадывается.) Однако выбор управлений ис и v»c из условий 1 (57.5) и (57.7), т. е. из условий наискорейшего спуска возму-i щения 5д[/]~хд[/] — а»д(0 (или его искаженного изображения j «дМ==<10 — дад (/)) относительно поверхностей уровням X(s) = const функции Ляпунова Х($) является не чем иным, ! как одним из известных способов стабилизации движений.Я Функция X(s) = ||s||2 (58.3) является, пожалуй, простейшей изЦ всех функций Ляпунова, которые могут быть использования для этой цели. Таким образом, усовершенствование управле-Я
УСТОЙЧИВОЕ ОТСЛЕЖИВАНИЕ ПОВОДЫРЯ
257
§ 58]
Ния с поводырем можно получить путем поиска более удачной для того или иного конкретного случая функции Ляпунова %(/, «, О’)- А эт0 и есть 0Дна из задач теории стабилизации движений.
Таким образом, приходим к Следующей программе действий. Имеем «-стабильный мост Wu. Рассматривая движение $д [0 = == Хд [/] — Ю как возмущенное, составим для этого возмущения его дифференциальное уравнение в линейном приближении (пока формально):
j={|[	s + f (t, te> (0, и, и) - f (t, ®д (0,	»*). (58.5)
I °х 1(шдЩ, и, о)	4	' v
Далее, выберем какую-то дифференцируемую положительно определенную функцию Ляпунова k(t,s, w) и вычислим (пока формально) ее полную производную (dk/dt\u> v в силу уравнения (58.5). Получим
— f(t, и’, п*)]-4
+ ’)
(58.6)
Выберем теперь управления uc(t,s,w) и v*c(t,s,w) из условий
max Г-^-1 f(t, w, ис, v)= min max Г4^-1 f(t, w, и, v), (58.7) v e Q L os J	uePueQLO'SJ
min Г-^l f (t, w, u’, u*c)= max min [4^-1 f(t, w, и*, v") (58.8) u* e p L os J	v* e q Ц* e P I W J
наискорейшего спуска движения $[/] (58.5) относительно поверхностей уровня функции X(/,s, w) исходя из вида второго слагаемого в правой части (58.6). Такой выбор управлений и = ис и и* == v*c вследствие выполнения условия (12.4) обеспечит неположительность этого второго слагаемого в правой части (58.6) при любом выборе функции %(/, s, w). Далее задача будет состоять в таком выборе функции Ляпунова Х(/, s, w), который обеспечил бы наиболее удобную оценку оставшихся членов в правой части (58.6), что дало бы возможность получить подходящее сближение [/] и При этом окончательная оценка искомого сближения должна выводиться на основе функции ^v,s,w) уже содержательно и с учетом возможной подмены в соотношениях (58.7), (58.8) значения $д [/] или w&(t) той или иной близкой к ним величиной. В общем случае успешное выполнение этой программы оказывается нелегкой задачей. Однако в отдельных случаях* дело можно свести к реализуемым на практике процедурам. Кроме того, имея в виду стабилизацию
9 Н. Н. Красовский, А. И. Субботин
258
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. X
процесса отслеживания поводыря объектом ХдИ, движение поводыря w&(t) можно организовать при ограничениях и* е Р*9 v* s Q*, отличных от ограничений и е Р, v s Q, налагаемых на управления объектом^ хА [/], а уравнения движения поводыря также можно выбирать отличающимися от уравнений движения объекта. При этом результат решения игровой задачи в идеальной схеме поводыря может несколько ухудшиться, зато ПОЛУЧИТСЯ ВЫИГРЫШ В УСТОЙЧИВОСТИ ДВИЖеНИЯ Хд [/].
Аналогичные соображения с понятной переменой ролями букв и и v можно высказать и для схемы управления с поводырем в задаче для второго игрока.
§ 59. Стабилизация отслеживания поводыря в линейном случае. В этом параграфе мы рассмотрим осуществление программы стабилизации отслеживания поводыря из предыдущего параграфа в ее приложении к случаю линейной системы. Как и раньше, будем рассматривать для определенности сначала задачу для первого игрока. Пусть, стало быть, движение объекта описывается уравнением
х = Ax + Bu + Cv + f(t)	(59.1)
при обычных ограничениях
v^Q,	(59.2)
где множества Р и Q будем полагать ограниченными, замкнутыми и выпуклыми. Наряду с уравнением (59.1) рассмотрим аналогичное уравнение движения поводыря
w = Aw + Ви* + Cv* + f (0,	(59.3)
однако при отличных от (59.2) ограничениях
(59.4)
где множества Р* и Q* также предполагаются ограниченными, замкнутыми и выпуклыми и к тому же еще такими, что
Q<a)czQ. (а > 0),	(59.5)
где символ G(a) обозначает евклидову a-окрестность множества G.
Рассмотрим еще одну вспомогательную управляемую систему
s =	+ Br — Ct.	(59.6)
Предположим, что эта система является стабилизируемой ([19*}, стр. 477). Это означает, что можно найти линейные
§ 59J	СТАБИЛИЗАЦИЯ В ЛИНЕЙНОМ СЛУЧАЕ	259
функции r(s)= /?s и /(s) = Ls, такие, что невозмущенное движе-ние s = 0 системы, описываемой уравнением
$ = As + BRs — CLs,	(59.7)
будет асимптотически устойчивым ([17*], стр. 64; [19*], стр. 17) по Ляпунову. Тогда согласно известной теореме Ляпунова ([19*], стр. 453) для любой, выбранной наперед отрицательно определенной квадратичной формы
₽(s)= 2 P//S.S/	(59.8)
i, /=1 найдется положительно определенная квадратичная форма
М«) = 2 ^ SiSj,	(59.9)
-L’/=l
полная производная которой (t/X/^0(59.7) в силу уравнения (59.7) будет удовлетворять равенству
(4г) =f3(s)-	<59-1о>
\ ат /(59.7)
Пусть, далее, для системы (59.3) при ограничениях (59.4) организуется движение поводыря w&(t) по какому-то ^-стабильному мосту Wu. Тогда можно организовать движение [/] за поводырем w&(t) вдоль этого моста с помощью функции X(s) и управлений r(s) и l(s) следующим образом.
Обозначим
s = x — w	(59.11)
и составим уравнение возмущенного движения (58.5). Получим $ =	4- в (и — и*) + С (v — uj.	(59.12)
Положим
a = p + r(s),	= q + l(s).	(59.13)
Составим полную производную (dK/dt)(59A2) функции X(s) в силу уравнения (59.12). Получим, учитывая (59.10) и (59.13),
(4г)и.,г1 - ШВ{р - “>+[-эНс +p(s>- <59-|4)
Выберем теперь управления pc = pc(s) и qc = qc(s) из условий
[4г] BPc(s) = Д^.[4г]Л Вр> (59.15)
[4?]' Cqc (s) = птах [-g-]' Cq.	(59.16)
9*
230	СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР (ГЛ. X
Этот выбор управлений обеспечит неравенство
(4г)	(59Л7>
\ а1 '(59.12)
Все предыдущие выкладки, связанные с соотношениями (59.1) — (59.7), носили лишь формальный характер эвристических соображений, поясняющих выбор управлений и и v* в форме (59.13) при условиях (59.15), (59.16). Теперь нам надлежит проследить изменение функции Ляпунова X(s) (59.9) уже вдоль действительного возмущенного движения $д И = Хд Й — о>д(0-Сделаем это. В соответствии с методом отслеживания поводыря, описанным в § 57, ломаные Эйлера ХдЭД и шд(/) будеАм формировать здесь следующим образом. Пусть в момент t = п реализовалась ПОЗИЦИЯ {?;, Хд [тг], ^д(Тг)}, Причем ОСНОВОЙ ДЛЯ фОрМИ-рования управлений и, v и и* служат значения —	+
+ Д5д[т.] иоуд(т/)(|| Д$0[т,]|| ^£). На полуинтервале Xit < Тг-м изменение фазового вектора хд[/] объекта будет описываться уравнением
хд И = Лхд И + В (рс (8*д [т.]) + г (з*д [т,])) + Cv [/] + f (0, (59.18) где и И—какая-то интегрируемая по Лебегу реализация управления v, избранная вторым игроком-противником. На том же полуинтервале т» t <_ tj+i изменение фазового вектора Дод (t) поводыря будет описываться уравнением
wд (0 = Ла>д (0 + Ви, [/] + С (qc (si [tJ ) +1 (8’д [TZ] ))+f (/), (59.19)
где интегрируемая по Лебегу функция и,[/] (т£-^/<т;+1) под- ; бирается по управлению v, — <7С(«1 [т(.]) +1 (s^ [tz] ) из того уело- i вия, чтобы сохранить движение ге>д(/) на «-стабильном мосту  к моменту t = T/+i или вывести его на Мс при каком-то значении / = т<тг+г Таким образом, для возмущения 8д[/] = = хд[/] — ws(f) получаем уравнение
^И-^И + В(/>.й[т1]) + г(Х4[г,])-и.И) +
+ с (»('!-?,(»•„[’<])-'КМ)) (’/«'<’ж)- <59-2<»
Вычислим полную производную	функции Ляпунова
Х(8) в силу уравнения возмущенного движения (59.20). (теперь Ц уже это вычисление имеет смысл определения настоящей произ- Я водной (d'kldt) при почти всех значениях t). Получим	я
(£)„ - [#Ц и». 1'1+*	ь,] Н'-к ы1'»+ I
+	(59.21) I
$ 59]
СТАБИЛИЗАЦИЯ В ЛИНЕЙНОМ СЛУЧАЕ
261
или
+([£Ц„,- [£],„.ИМ'Н*Ы«+
+ г К [’<1) - И) + С (V [/] - Ч. (s-д Ы ) -1 (»« М))]. (59.22) Из (59.22) с учетом (59.17) получаем оценку
(£)	<₽(*аИ)+Ч1 +MI)’m (59.23)
4	' (Oy.ZU/
где k — постоянная, а 6 — шаг разбиения Д оси /, порождающего ломаные Эйлера ХдИ и Из оценки (59.23) в свою очередь известными в теории устойчивости движения рассуждениями (см. [17*], стр. 61; [19*], стр. 34)’ приходим к следующему выводу: для любого 8 > 0 можно указать числа 6(е)> 0 и £(е)> 0 такие, что всякое движение $д [/] с начальным условием
 к И !<£(«)	(59.24)
при всех t to будет удовлетворять неравенству
|$дШ||<е,	(59.25)
если только
б < s (8), 5 5Д [t] - s\ [t] || < z (в).	(59.26)
При этом из данных оценок вытекает, что при выборе подходящего значения для шага 6 > 0 мы можем обеспечить и неравенства
1РЫЛ])||<«.	(59.27)
т. е. выполнение ограничений (59.2) и (59.4) для управлений (59.13), (59.15), (59.16).
Отсюда и вытекает, что указанный способ отслеживания поводыря шд(/) обеспечивает 8-близость движений хд[/] и wA(t), если только шаг 6 разбиения Д и ошибка £ будут достаточно •малыми, ибо ||$д [Ц || = || йУд(^о)—что обеспечивает выполнение условия (59.24). Преимущество оценки (59.25) по сравнению с оценкой (57.11) состоит, в том, что в ней требование (59.26) к малости шага 6 не зависит столь тесным образом от Длины отрезка [/о, О], как это имеет место при использовании
262	СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. X
оценки (57.11). Таким образом, описанный в этом параграфе способ отслеживания поводыря wA(t) оказывается целесообразным в случаях, когда длина отрезка [/0, 'О’] оказывается достаточно большой.
В заключение надлежит заметить, что качество оценок (59.24) —(59.26) может зависеть от выбора функции 0(s) и стабилизирующих управлений r(s) и Z(s). Однако полезно подчеркнуть, что указанный способ отслеживания поводыря не зависит от того, к какой игровой задаче он будет потом приложен, а зависит только от параметров систем (59.1), (59.2), (59.3), (59.4),. т. е. описанный способ отслеживания может быть применен после его выработки для целой серии задач сближения, каждая из-, которых характеризуется своим мостом оценка рассогласования || $А [/] || е не будет зависеть ни от выбора моста Wи> ни от величины отрезка [/0, '&].
§ 60. Уклонение на бесконечном интервале времени. В этом параграфе мы рассмотрим задачу 9.2 об уклонении от множества Мс на всем бесконечном полуинтервале времени /0 t<Z<x\ т. е. мы расмотрим здесь тот случай решения задачи об уклонении 9.2, который мы оставили в стороне в главе IV. При этом ограничимся лишь случаями равномерного, уклонения движения х [/] от Мс при to t <Z Поясним, в каком смысле понимается эта равномерность уклонения х [Z] от множества Мс. Согласно следствию 17.1 мы можем говорить об уклонении всякого движения х[/] = x[t, to, Хо, V] системы (6.1) от множества Мс внутри Nc лишь при условии, что для данной начальной позиции {to, при всяком выборе числа $ > to найдется число > 0 и стратегия Vo 4- v$(t, х) такие, что каждое движение х|7] = 4Л to, х0, при to t $ либо будет миновать ^-окрестность множества Мс, либо раньше, чем попасть в такую е0-окрестность /Vlc, движение x[t\ = x[t, to, Хо, Уд] выйдет из е^-окрестности множества Будем предполагать указанное условие выполненным. Тогда естественно поставить следующий вопрос. Всегда ли при выполнении данного условия найдется стратегия Vc 4- vc{t, х), которая обеспечивала бы уклонение всех движений х [/] = х [/, t0, х0, VJ от Мс внутри Nc при to t < оо? На простом примере нетрудно убедиться в том, что ответ на этот вопрос получается отрицательный.
В самом деле, пусть изменение скаляра х описывается уравнением
x — u-\-v,	(60.1>
управление первого и второго игроков стеснены органичениями
60]	УКЛОНЕНИЕ НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ	263
Множество Мс задано соотношением (рис. 60.1)
= х] : (/>0, a-l)2-x2>l)Va = 2,
а множество Nc совпадает со всем пространством {t,x}. Предпо- . латается, что {6>, *0} = {1, 0}. Покажем, что при всяком 0>/о существует стратегия V® 4-х), гарантирующая уклонение я а отрезке |7о, О].
Действительно, в качестве такой стратегии можно взять, например, стратегию, экстремальную к и-стабильной дорожке йУй(О) (**И), W
1	0	при 1	t С 1 + б (О),
—1—6 (ft) при t	1 + 6 (О')
(на рис. 60.1 эта дорожка изображена жирной линией). Параметр 6 (О) > 0 здесь выбирается так, чтобы при 10 t О дорожка {/, о>в(/)} не пересекалась с множеством Мс.
Однако в рассматриваемом примере не существует стратегии К Ч-ие(/, х), которая обеспечивала бы уклонение от Мс при 1 t < 00. Действительно, для того, чтобы встреча с Л4С не произошла при t = 2, должно выполняться условие | х[2]| < 1. Рассмотрим множество
№* = [{/, х} >2, | х |<х[2] + /].
264
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. X
Это множество является u-стабильным и из условия | х [2] | < 1 вытекает, что существует О < оо такое, что всякая точка {/, е W* при будет содержаться во множестве Мс- Поэтому^ исходя из позиции {2, х[2]} ,где |х[2]|< I, первый игрок может обеспечить наведение на Мс к некоторому конечному моменту времени t — 'ft.
В приведенном примере имело место следующее явление. При увеличении $ движения x[t, to,xQ, У^] уклонялись от множества Мс при t> to неравномерно. Именно, если зафиксировать значение ft* = 2 и увеличивать ft до бесконечности, то в приведенном примере окажется, что при этом позиция {#*,	*о, Ко]}будет неограниченно приближаться к множеству Мс, т. е. расстояние р^(х[^, /0, х0, У$],	не остается
равномерно по всем Ф большим какой-то положительной величины е^. В связи с этим будем говорить, что стратегии У^ обеспечивают равномерное уклонение движений х[/, /о, *о, Уо] от множества Мс внутри Nc, если найдутся такие открытые окрестности G(MC) и H(NC) (общие для всех У^), что всякая стратегия Уо исключает попадание позиции {t,x[t, t0, х0, У$]} при to на G{MC) раньше, чем эта позиция покинет H(NC). Оказывается^ что при условии равномерного уклонения х [/, tQ, х0, У^] от Мс внутри Nc уже обязательно существует стратегия У 4- v(t, х), которая обеспечивает уклонение всех движений x[t, to,Xo, У] от М? внутри Nc при всех to t < оо.
В самом деле, справедливость этого утверждения выводится из следующей теоремы об альтернативе.
Теорема 60.1. Пусть движение конфликтно управляемой системы описывается уравнением (60.1) и для всякой позиции {/*, х*} и для любого вектора выполняется условие (12.4) сед* ловой точки маленькой игры (12.1), (12.2). Пусть, кроме того, F и К — некоторые замкнутые множества в пространстве {/, х}. Тогда для всякой позиции {to, *о} верно одно из двух утверждений'. либо найдется момент Ф и стратегия U такая, что каждое движение х [/, t0, х0, U] выйдет из К при t ft, не попадая до выхода на F, либо найдется стратегия У такая, что ни одно движение x\t, to, Xq, У] не выйдет из К до его попадания на F.
Для доказательства этой теоремы построим ^-стабильный мост W™ следующим образом: выбросим из пространства {t,x} все те позиции, для которых, как для начальных, выполняется первое положение. По схеме рассуждений из § 16 можно проверить, что оставшееся замкнутое множество и является нужным мостом W™, который у-стабилен относительно множества F й лежит; очевидно, целиком в /С. Поэтому в случае, когда для {/0, Хо} не выполняется первое условие альтернативы, т. е. когда (/0, x0} е W™, стратегия У<е)-м>(е)(/, х), экстремальная к мосту
§60]
УКЛОНЕНИЕ НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ
265
обеспечивает для всех движений х[/, to, х0, V(<?)] сохранение на этом мосту вплоть до выхода на F, или, что то же самое, сохранение в К вплоть до выхода на F или при всех 4 t < оо, если такой выход не осуществляется.
Вернемся теперь к нашей задаче об уклонении. Пусть G(Afc) и H(NC) — те окрестности, относительно которых имеет место равномерное уклонение (рис. 60.2). Выберем в качестве К дополнение к множеству G(MC), а в качестве F — дополнение к множеству H(NC). Тогда при условии равномерного уклонения, очевидно, для этих множеств К и F и данной {/0, *о} не может выполняться первое условие альтернативы. Стало быть, согласно теореме 60.1, найдется стратегия V—vfj, х), гарантирующая уклонение всех движений x[t, xQ, V] от Мс внутри Nc при /оС К оо.
В дальнейшем в этом параграфе ограничимся рассмотрением только-случаев такого равномерного уклонения, когда открытые окрестности G(MC) и для которых выполняются условия этого уклонения, содержат евклидовы 8-окрестности МЕс и № множеств Мс и Nc- В этом	с °
случае уже найдется стратегия V 4- v (t, х), которая обеспечит уклонение всех движений x[t, to, Хо, V] от некоторой 8-окрестности Мс} множества Мс внутри 8-окрестности множества Nc при всех t to. И эту стратегию можно построить как экстремальную к у-ста-бильному мосту W™, КО“ торый при всех t to минует Мс} (рис. 603-)
Обратимся теперь к организации управления с поводырем в окрестности моста W™. Как и в § 59, примем, что движение объекта %[/] описывается уравнением (59.1) при ограничениях
266
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. X
(59.2), а движение поводыря описывается уравнением (59.3) при ограничениях (59.4). Однако условия (59.5) мы заменим теперь условиями
Q*(a)c=Q, Р(а)сР’.	(60.2>
Предположим далее, что для начальной позиции {/о, ^о} = Uo, *0} для системы (59 3) при ограничениях (59 4) выполняются уело* вия равномерного уклонения в том смысле, как это определено' выше. Стало быть, мы можем организовать движение поводыря w(t) по и-стабильному мосту который уведет его от встречи с Ale* вплоть до бесконечности или раньше выведет его из Примем, наконец, что вспомогательная система
s = As — Br + Cl	(60.3)
является стабилизируемой.
Выберем снова линейные функции r(s) = Rs и /($)= Ls, при подстановке которых в уравнение (60.3) получается асимптотически устойчивая по Ляпунову система
s = As — BRs + CLs.	(60.4)
Пусть снова некоторая определенно положительная квадратичная форма %(s) (59.9) имеет определенно отрицательную производную (rfX/^)(60.4) = ₽(«) (59.8) в силу уравнения (60.4). Положим
u, = p + r(s), v = q + l(s)	 (60.5)
и выберем управления р = pc(s) и q = qc(s) из условий
[4г]" SP“= ““ [ттГ	(60.6>
(60.7)
Оценим теперь изменение функции X(s) (59.9) вдоль возмущенного движения $д[£] = Хд|7] — ®д(0- В соответствии с методом отслеживания поводыря из § 57, но теперь уже выполняемым вторым игроком, который распоряжается управлениями v, и у., ломаные Эйлера хд [£] и w^(t) будем формировать здесь следующим образом. Пусть в момент t = xt реализовалась позиция хд[тг], гУд(т,)]. На полуинтервале < тг+1 изменение фазового вектора хд(Л объекта будет описываться уравнением
Хд [Z] - Лхд [/] + Ви И + С (qe (sA [tJ ) + I (sA [т.])) + Ж (60.8) где u[t\ — какая-то интегрируемая по Лебегу реализация управления и, избранная первым игроком-противником. На том же
61]	УРАВНЕНИЕ С МАЛЫМ ПАРАМЕТРОМ	267
полуинтервале тг -< t < т<+1 изменение фазового вектора wA (t) поводыря будет описываться уравнением
(/) = Aw^ (/) + В (рс (зд [т<]) + Г (зд [т.])) + Cvt [/] + f (/), (60.9)
где интегрируемая по Лебегу функция (т/^/<т1+1) подбирается по управлению и, = РС(5Д[Т/]) + г(5д[тг]) из того условия, чтобы сохранить движение w&(t) на п-стабильном мосту W™ к моменту / = тг+1 или вывести его из при i^.xi+v Таким образом, для возмущения $д[/] = хдШ — дад (0 получаем уравнение
5д Ш = Л5Д И + 6 (« 1П — Pc (5Д Ы ) - r (SA [Xi] )) +
+ c(?c(saH) + /(s4M)- МП) (l- < t < тж). (60.Ю)
Вычислим полную производную (</%/(//)(60.10) функции Ляпунова Х($) в силу уравнения возмущенного движения (60.10). После преобразований, аналогичных (59.22), получим оценку
+ 4(1 +Ра1Щ)2з.	(60.11)
-аналогичную (59.23). Из этой оценки получаем вывод: для любого е > 0 можно указать число 6(e) > 0, такое, что всякое движение [/] с начальным условием $д [Zo] — 0 при всех t /0 будет удовлетворять неравенству (59.25), если только будет выполнено неравенство 6	б(е). При этом из данных оценок вы-
текает, что при выборе подходящего значения для шага б мы можем обеспечить и неравенства (59.27), т. е. выполнение ограничений (59.2) и (59.4) для, управлений (60.5), (60.6) и (60.7). Отсюда вытекает, что указанный способ отслеживания поводыря wA(/) обеспечивает 8-близость движений %д[/] и вплоть до выхода оуд(О из N{c} или до бесконечности, если только шаг б > 0 разбиения Д будет достаточно малым. Таким образом, при указанных условиях обеспечивается уклонение всех движений ^д [/] от Мс при всех tQ t < оо.
Аналогичным образом описанный способ построения управления с поводырем обеспечивает уклонение от Мс при при указанных условиях также и в случае наличия ошибки (59.26) при условиях достаточной малости £.
И здесь качество оценок может зависеть от выбора функции £($) и стабилизирующих управлений r(s) и Z(s).
§ 61.	Уравнение движения с малым параметром при производной. Рассмотрим задачу 9.1 о сближении с ограниченным замкнутым и выпуклым множеством Мс для линейной системы (59.1) при ограничениях (59.2). Предположим, что первые k
1
268	СТАБИЛИЗАЦИЯ РЕШЕНИЙ ‘ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. X
скалярных уравнений в векторном уравнении движения (59.1} можно записать в виде векторного уравнения	'
Иу = д(п)у + Л(12)2>	(61 j}
где, стало быть, у есть ^-мерная составляющая фазового вектора х, а р, есть некоторый малый параметр. Остальные и — k скалярных уравнений пусть объединяются в некоторое векторное уравнение	~
z = A^y-^A^z + Bu + Cv.	(61.2)
где управления и и v стеснены ограничениями (59.2). Матрицы
В и С в уравнениях (61.1), (61.2) для упрощения будем по-
лагать постоянными. Множество Мс будем предполагать цилиндрическим в направлении координатных осей у.
Предположим, что невозмущенное движение у = 0 является асимптотически устойчивым по Ляпунову в силу уравнения воз-мущенного движения
у = А^у.	(61.3> з
Обозначим	<
=	(61.4)	|
и составим вспомогательное дифференциальное уравнение	J
z° = A^tf(^) + A^z°A-BuA-Cv = A^ + Bu + Cv. (61.5)	|
Сопоставим уравнению (61.5) уравнение движения поводыря
w — Aw + Ви, + Си,	(61.6)
при ограничениях (59.4), причем снова будем полагать выпол- j ненными условия (59.5) и условия стабилизации системы (59.7).
Определим управления и и и* снова равенствами (59.13) и условиями (59.15) и (59.16) на основе подходящей функции Ляпу- ’ нова X(s), где положим только	:
S — Z — w.	(61.7)	;
Вследствие асимптотической устойчивости системы (61.3) для любой выбранной отрицательно определенной квадратичной формы	*
а(у) =	аг/У 1У/
можно указать положительно определенную квадратичную j форму	s
1{у) = ^^ЧУгУ!,

« 61)
УРАВНЕНИЕ С МАЛЫМ ПАРАМЕТРОМ
269
полная производная (dlfdt)^.^ которой в силу уравнения (61.3) будет удовлетворять условию
(61.8)
Обозначим у* = у — y°(z). Оценим изменение функции Ляпу-
нова
Y(s> /) = р(Ш + и/))	(61.9)
вдоль ломаных Эйлера {г/дИ, £д(/]} и иуд|7], полагая, что управления и и v* выбраны в соответствии с указанным ранее условием. Получим после простых преобразований оценку
а	+н ip (5)+^ (1+и s о )2 si - и [-$]'	+
'	+ и [-g-]' А^у\ (61.10)
Из этой оценки стандартными для теории дифференциальных уравнений с малым параметром при производных (см. [6*, 31*]) рассуждениями выводим, что при значениях р достаточно малых значение ||у*[/]|| начиная от момента t = /0 быстро убывает до малой величины и остается все время таковым, а величина ||$д|7]|| также остается все время малой. Отсюда вытекает, что указанный способ построения управлений и и v* позволяет движением гд[/] отследить движение поводыря описываемого уравнением (61.6) вдоль любого стабильного для него моста вплоть до сближения с множеством Мс. При этом будут все время при t to выполняться неравенства
и при +
II £д|7] —а>д (0II <е,
|| Уд И — Уд [z (0]||<8,
(61.11)
(61.12)
причем число 6* > 0 также можно сделать сколь угодно малым, выбирая ц, достаточно малым, а затем выбирая достаточно малым шаг б разбиения А.
Аналогичные построения можно выполнить и для задач уклонения для второго игрока.
Мы рассмотрели в качестве образца только самый простой случай игрового управления системой с малым параметром при старшей производной. Но аналогичные приемы можно использовать и в других случаях (см. пример в конце § 62).
270
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. X
§ 62.	Примеры. Рассмотрим задачу об уклонении от встречи. Пусть движения преследующего и преследуемого объектов опи^ сываются линейными однотипными уравнениями
х(1) = A (t) х(1) + В (0 и,
х<2) = Л(/)х<2> + B(t) v.	(62Л)
Предполагается, что управления преследователя и и преследуемого v стеснены ограничениями
и е Р, v
причем множества Р и Q подобны и Р = xQ, где х > 1. В фазовом пространстве векторов х задано некоторое множество М и выполнение условия (х^1)^] — х(2)[/])е М трактуется как встреча преследующего объекта с преследуемым. Задача об уклонении состойт в выборе такой стратегии второго игрока, которая гарантирует уклонение на промежутке времени максимальной продолжительности.
Отметим, что решение этой задачи было получено в § 47 при дополнительном условии выпуклости множества М. Опишем теперь другое решение данной задачи, в основе которого будет лежать процедура управления с поводырем.
Обозначим через х разность векторов.х^ и х<2\ измененение вектора х описываете^ уравнением
x==4(f)x + B(0«-B(^, х[/0] = х(1)[/0]-х(2)[/о]. (62.2)
Введем в рассмотрение поводыря, движение которого задается уравнением
w = А (0 w + В (/) и* — В (f) v*y	(62.3)
причем управления а* и v* стеснены ограничениями е Р*, s Q*.
Положим сначала Р* = Р, Q*=Q. Пусть [tz, tz+1) (/=0,1, ...)— совокупность полуинтервалов, покрывающих полуось [/0, оо). Управления в системах (62.2), (62.3) второй игрок выбирает из условий
(х* [] — w [Xi])' В (xi} и* [т/] = max (х* []—w [tz] )' В (tz) u, (62.4)
^[tz]= 1/x •	(62.5)
(x* [хД — w[tz] )' В (tz) v [Xi] = max (x* [tz] — w [xt])' В (tz) v,
(62.6)
Условия (62.4) — (62.6) имеют следующий простой смысл. Соотношение (62.5) означает, что в системе (§2.3) может реализо
$ 62]
ПРИМЕРЫ
271
ваться лишь управление а И = и* [/] — у* [/], удовлетворяющее включению
а[/]€=(х— 1)Q.	(62.7)
Следовательно, при таком управлении поводырь не может сблизиться с множеством М раньше, чем за время wQ)— tQ оптимального быстродействия в задаче о переводе системы
w — А (0 w + В (t)a, w (/0) =	(62.8)
на' множество М при ограничении (62.7). Отметим, что при достаточно малом рассогласовании между позициями {/0, Хо} и {to, яуо} справедлива оценка Фо^о, ^о) Оо(^о» *о) — е/2. Соотношения (62.4), (62.6) означают, что движения поводыря w{t) и точки х|7] будут взаимно отслеживаться. Поэтому при достаточно малом числе д = 8ирг(тг+1—т,) точка {/, х[/]} будет избегать попадания на М в течение времени Ге = ^(^о, *о)— to — е.
Заметим теперь, что согласно материалу из § 51 (стр. 225) всякое движение w(t) системы (62.8) образует и-стабильную дорожку. Поэтому, выбирая в качестве такой дорожки движение которое, исходя из позиции {to, Хо}, попадает на М за оптимальное время То = i%(/o, *о)— tQ, получаем, что в данном примере существует решение задачи преследования за время То = Оо(Аъ *о)—* А)* Следовательно, предложенная выше процедура управления второго игрока, которая обеспечивает уклонение на отрезке [/о, ^(^о, *о)~ в], гарантирует второму игроку результат, сколь угодно близкий к оптимальному.
Предложенное здесь решение задачи об уклонении можно использовать не только в случае однотипных объектов. Опишем процедуру управления с поводырем, которая доставляет решение задачи об уклонении в случае, когда для системы (40 1) выполняется обобщенное условие однотипности (см. стр. 204). Полагаем, что движение поводыря задается уравнением
w = А (/) w + В (/) и* + С (/) + f [/],	(62.9)
где управления и* и v* стеснены ограничениями и* Р* — Р и v* е Q* = Q. Управление сф] в системе (40.1) и управления
в системе (62.9) определяются следующим образом-
(х‘[тг] — w (т0)' в (т«)w. = ma* (*’ [ТИ — w (Т<)У (т») «> (62.10)
».[тг] = v(«.[Ti])>	(62.11)
(x* [xj — w (ti))' C (t() v [xj = min (x* [tJ — w (тг))' С (тг) v,
v e Q
«.[/] = «. [тг], v. [/] = ». [rj, p[1]=»[t(]	(62.12)
(ti < rz+1> i = 0, 1, ...).
272	СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР (ГЛ. X
Здесь в соотношении (62.11) вектор v = v(u) выбирается так, чтобы при всех t и т (/о t т) выполнялось включение {Х(т, t) (B(t)u +	Н(т, t) (см. § 47, стр. 204).
Можно проверить, что при таком выборе управления
встреча точки {t, w(t)} с множеством Мс произойдет не раньше, чем в момент t = ®0(t0, w^). С другой стороны, соотношения (62.10) ,(62.12) означают, что движения w(t) и x[t] будут взаимно отслеживаться. Поэтому при достаточно малом шаге 6 = = sup,(Ti+i—т<) и при достаточно малых погрешностях в измерении фазовых векторов х[тг] точка {t, х[/]} будет избегать попадания на Мс в течение времени Тг — <Ь(/о, Хо)— ta — е. Как известно из § 47, этот результат с точностью до 8 совпадает с оптимальным для второго игрока исходом игры.
В качестве конкретного примера приведем решение задачи об уклонении для системы (47.15). Учитывая, что множество является здесь кругом с центром в начале координат и радиуса г = %1Г1 (т, 0—ХгМт, 0> гДе величины п и г2 определены соотношениями (47.19), соотношения (62.10) — (62.12) конкретизируются следующим образом:
Т‘ /(х.зМ-^з(тг))2 + (МтИ-®4(т/))2 ’
МЫ =	____-	,
/(*.з [п] - w3 (п))2 + (Х.4 [П] - Wi (П))2
».[п] = ^-«.[п],
v ,,___________(п))____________________
Х‘	“ даз(т<))2 + (х-б[х<1 ~ “’б(М)2 ’
v Гт 1	"МЫЧ-М^))
V(M4-MW + (Mn]-Mn))2 ‘
Отметим, что в § 47 при исследовании задач преследования — уклонения предполагалось выполнение дополнительного условия выпуклости множества Мс. Можно показать, что, используя процедуру управления с -поводырем, можно решать задачи преследования — уклонения, опираясь лишь на условие обобщенной однотипности, не предполагая выпуклости Мс.
Наконец, в качестве иллюстрации использования процедуры с поводырем при решении задач об уклонении рассмотрим задачу 21.4 о раскачке маятника. Напомним, что в § 53 решение этой задачи было получено, исходя из материала главы VIII. Используя поводыря, можно предложить следующее решение
§ 62)
ПРИМЕРЫ
273
этой задачи. Пусть движение поводыря задано уравнениями = W2>
^2 = - Т Sin Wl +	(U, + ».)•
Полагаем
„ Гт i_
Л И |х*2[тг]-.2(тг)| ’
». [т/1 = -77- ы. fab
„Гт )_ -М'гГМ-’М’г))
1 iJ“	Rvl—2fa)l ’
и.М = «.[т/]> v. [/] = ». fab »Kl=vfa]
при Т; < Т/ + 1, J = Q, 1,...
Замечаем, что по выбору управления п.[(] движение поводыря w (t) удовлетворяет уравнению (53.3). Поэтому по определению момента то (см. стр. 232) оно не может, оставаясь в Nc, попасть на Мс раньше, чем в момент t = xo~ е/2 (если рассогласование между позициями {/о, *о} и {to, w0} будет достаточно мало). Поскольку выбор управлений «*[/] и и^] при достаточно малом шаге S = sup, (тг-+1 — т<) и при малых помехах обеспечивает взаимное отслеживание движений х [£] и w(t), то предлагаемый способ управления будет гарантировать требуемое уклонение от попадания на Ме до момента t = то — е.
Рассмотрим теперь в качестве примера организацию управления с поводырем в стабилизированной форме в соответствии с материалом §§ 59, 60 для игры преследования — уклонения однотипных объектов, описываемых уравнениями (62.1) при тех же соотношениях между множествами Р и Q, которые указаны в начале этого параграфа и при указанных там условиях встречи (х(|)[т] — х<2>[т])еЛ4. Будем предполагать здесь, что матрицы А и В в уравнениях (62.1) не зависят от t. Первый игрок стремится осуществить встречу как можно скорее, а второй стремится оттянуть ее на возможно более поздний срок. Как и в начале параграфа, рассмотрим систему (62.2) и ее модель (62.3). Для нас здесь, естественно, интересен случай, когда исходная система х, = Ах собственно неустойчива. Тогда организация стабилизированного управления с поводырем из §§ 59, 60 возможна лишь при условии стабилизируемости [19*] системы (62.2). Для этой стабилизируемости достаточно выполнения следующего условия ([19*], стр. 492): ранг матрицы
W = {В, АВ, ..., ДП_1В}
равен п. Будем предполагать это условие выполненным.
274
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. X
Рассмотрим сначала задачу первого игрока о сближении. В данном частном случае благодаря равенству С = — В достаточно полагать, что между ограничениями
и^Р, v<=Q и и*^Р*, v^Q* (62.13>
имеет место следующее соотношение:
Р* = Р, Q* = Q(a),	(62.14)
где QW— замкнутая a-окрестность множества Q Далее, несколько упрощая общую процедуру из § 59, решим задачу о стабилизации для системы
s = As-j-Bl,	(62.15)
полагая, стало быть, в общей процедуре из § 59 r(s)= 0.
Пусть стабилизирующее воздействие /0($), найденное, например, по методу, приведенному в [19*], стр. 492—508, дает
/($) = £$,	(62.16)
причем этот метод доставляет одновременно и некоторую оптимальную функцию Ляпунова %(s), удовлетворяющую условию (59.10), где p(s) — некоторая подходящая отрицательно определенная квадратичная форма. Тогда в соответствии с материалом из § 59 определяем управления и и v* (59.13), где r(s) = 0, вектор р определен условием (59.15) и q = р/х. Эти управления и обеспечат устойчивое отслеживание движения поводыря ш[/] движением системы x[Z],
Далее, для определения управления и* в соответствии с материалом из § 48 надлежит для начальной позиции {Zo, w0} модели решить вспомогательную программную задачу оптимального быстродействия
ft° = rnin(ft— /0) при Uo,	w[ft]eAl (62.17)
для системы (62 3) при ограничении о 4- Q* cz Р*. Пусть w = = wQ [/] t Ф°) есть оптимальное движение, разрешающее эту задачу? Тогда управление и* выбираем из условия скольжения позиции {/, w [/]} по ц-стабильной дорожке W = (Zo t ft0, х = т. е. из условия
Ви* =	—Лш°[/] + Bv*.	(62.18)
Напротив, при решении задачи уклонения для второго игрока соотношения между Р Q, Р* и Q* достаточно выбрать в виде Р* = рс«)? Q = Q*. Теперь уже следует полагать
= — p — v = — q,	(62.19)
§ 621
ПРИМЕРЫ
275
где /($), Р и — те же самые величины, что и выше, а управление v* достаточно выбрать из условий
GE Q, = и, + Л, где Йе Я* = [h : h + Q е /><«>]. (62.20)
Управления и* и v (62.19) обеспечат устойчивое отслеживание движения поводыря w [/] движением системы х[/], а управление у* (62.20) обеспечит при этом скольжение позиции [?, w [/]} по ^-стабильному мосту W&, который в соответствии с материалом из § 49 будет построен на интегральном многообразии t^x(tytQ> ay0)L где х(/,70, йУо) — всевозможные движения системы (62.9), (62.20).
Наконец, в качестве более конкретного наглядного примера рассмотрим систему частного вида
*1 = х2,
Х2 = — Xi + Х2 + и — V при ограничениях |и|<2, |о|<1
и решим для нее задачу уклонения для второго игрока от точки %! = х2 = 0. В качестве стабилизирующего управления /(s) в системе (62.15) здесь можно выбрать функцию
I (s)= — 2s2.
Для модели, описываемой здесь уравнениями
Ш1==:Ш2,
= — Wj + w2 + U*---V*,
выберем ограничения
|	2 4- а, |оД^1	(а>0).
Так как исходная рассматриваемая система неустойчива, то задача (62.17) при выборе М =	е2] (е > 0) в данном
случае имеет конечное решение не для всех возможных начальных позиций {/о» ^о}« Предположим, что начальная позиция иуо} как раз такова, что все движения x(t, tQi w0) системы (62.21) при всех минуют Л4, т. е. все движения х(/, Zo, w0) минуют сферу
х, = х2,
,	,	,	. 1	(62.26)
х2 = — Xi + х2 + а, I о I а + 1
минуют сферу
.	х2+х2^е2.	(62.27)
(62.21)
(62.22)
(62.23)
(62.24) (62.
276
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
[ГЛ. X
Выбирая функцию А($) в виде квадратичной формы	<
М*)=4«? + v2 + 4	(62.28) •-
построим управления (62.19), (62.20):	?
ы, == 2 sign (ж, —10] + 2х2 — 2w2) + 2х2,	3
гпг“-	<62'29> 1
v ~ sign (%! — Wi + 2х2 — 2w2),	I
которые обеспечат скольжение позиции (/, да(/)} по интеграль- < ному многообразию	t
& = x(t, t0, w0)]	(62.30)
(где x(t,to,Wo) — всевозможные движения системы (62.26)) и | отслеживание движения w(t) движением х [/] при всех	|
так, что при малом шаге 6 = 5ирг(т<+1 — т() получим	|
-I
II а» (0 — х[/]Н<8/2,	(62.31)	1
и, стало быть, данные управления (62.29) обеспечат уклонение 1 движения х = {х, |7], х2 [£]} при всех t t0 от е/2-окрестности I точки Х1 = х2 = 0.
В заключение параграфа рассмотрим пример, иллюстрирую- £ щий организацию управления с поводырем для системы, описы- \ ваемой дифференциальными уравнениями с малым параметром при некоторых производных. Это управление будет конструиро- 3 ваться в соответствии с методикой из § 61.	.	j
Пусть две материальные точки и п№> перемещаются на « некоторой плоскости П. Материальная точка единичной j массы, испытывающая малое сопротивление среды, линейное по л скорости, преследует материальную точку т<2> с малой массой ц, которая испытывает существенное сопротивление среды, также ' линейное по скорости, с единичным коэффициентом пропорцио-нальности. Каждая из точек управляется своей силой = и и 1 f(2) = v, которая может принимать произвольное направление, , причем должны выполняться ограничения	I
Н«1К%(1),	(62.32)
$ 62]
ПРИМЕРЫ
277
Пусть хЮ (i=l,2)—радиус-векторы точек т№. Обозначая
(D —Х(2) = Г 211	х<» = [гз
L %2 J	1^4
(62.33)
получим уравнения движения точек’ и гг№ в форме следующей системы уравнений:
^2 = ^4 —Z/2,	23«-VZ3+«i,	i4= —V24 + «2,
(62.34>
PZ/1 = — У\ + Щ, \4h = — У2 + п2,
где |х > 0 и v > 0 суть малые параметры.
Будем рассматривать задачу уклонения для второго игрока, который стремится избежать встречи по геометрическим координатам точек и т<2> вплоть до некоторого заданного момента 'О’. Стало быть, в данном случае множество Мс определяется равенством
z> + zl = 0.	(62.35)
Перейдем к построению искомого управления по схеме из § 61. Система уравнений (62.34) не совсем имеет вид, отвечающий совокупности уравнений (61.1), (61.2). Но наличие v в правой части уравнения для у в (62.34), как мы увидим, не будет препятствовать проведению рассуждений по плану из § 61, хотя при этом нам придется внести некоторые коррективы в построение управляющего воздействия v[/].
Полагая в (62.34) ц = 0, определим, по аналогии с (61.4), вектор-функцию
г/°(г, v) — v,	(62.36)
где появление в правой части v обусловлено как раз отмеченным выше отличием системы (62.34) от (61.1), (61.2). Составим вспомогательные уравнения, отвечающие здесь уравнению (61.5). Получим
z» = z°-Vp z« = z«-a2,
Сопоставим этим уравнениям уравнения движения поводыря вида (61.6). Получим
W. =	— V*.,	w 2 = w4 — у*2,
.	(62.38)»
ау3 = и,, — w3, w4 = и,2 — vw4,
•278
СТАБИЛИЗАЦИЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ ИГР
1ГЛ. х
где управления и* и у* ограничим условиями
II и* II < х*1) + ₽, II II < х<2> (Р > 0).	(62.39)
Пусть задана какая-то начальная позиция {/0, *о}« Сопоставим ей начальную позицию {/0, ш0} = {/0, 20}. Но система (62.38) такова, что при выбранной позиции {tQf ш0} второй игрок всегда может так распорядиться своим управлением v*, чтобы при любом выборе управления и* обеспечить уклонение
[/] + w\[/] > 82,	(62.40)
тде 8 > 0 — достаточно малое число. Из простых геометрических •соображений вытекает, что для этого достаточно выбирать в каждый момент времени t е [/0, '&] управление так, чтобы вектор v* имел максимальную возможную длину х<2\ был ортогонален к вектору {доз, ш4} и не составлял при этом острого угла с вектором {шь ау2}. Стало быть, в соответствии с общими результатами, для системы (62.38) существует ^-стабильный мост Wv> который проходит через начальную позицию {/0, ^о} и минует множество ^2 + ш2^е2. При этом для сохранения позиции {/, до[Л} на этом мосту достаточно выбирать управление у* описанным выше способом. Далее, следуя плану из § 61, нам надлежит стабилизировать систему
Л = 53, $2 = 54» $з = — rjs) — v$3, s4= — r2(s) — vs4. (62.41)
Для этого достаточно положить
Г1 = sb r2 = s.	(62.42)
Выбирая затем функцию
* <s> = (т + v) (SI +	+ v (s*+ s<)+ S1S3 + % (62.43)
полная производная d’Kfdt которой в силу уравнений (62.41), (62.42) равна
-^==-115 IF,	(62.44)
мы по плану из § 61 должны были бы определить управления и» и у из условий вида (59.13), (59.15) и (59.16), т. е. в данном случае — из равенства
v = q, ut^p + r(s),
(62.45)
ПРИМЕРЫ
27$
§ 62]
Именно так мы и определим управление и*. Однако определение v по условиям (62.45) и (62.46) вызывает теперь некоторые неудобства. Дело в том, что на поверхности
2(t + v)s‘ + s3 = 0, 2(-^+-i-)s2 + $4 = 0 (62.47}
величина q (62.46) не будет уже дифференцируемой функцией по s, а это затруднит использование оценки (61.10), ибо согласно (62.36) возникнут трудности с использованием в (61.10) производной dyQldt. Из этого затруднения можно выйти различными путями. Может быть, простейший, хотя и не наилучший из них, таков. Построим дифференцируемую функцию которая совпадает с q из (62.46) всюду, кроме малой окрестности поверхности (62.47), и положим
v = q*.	(62.48}
Построенные управления и* (62.45), (62.46), и v (62.48) вместе с описанным выше управлением у* обеспечат близость движений оф] и z[t\, а вместе с тем они обеспечат и уклонение движения а [/] от множества Мс (62.35) при малых значениях ц и при соответственно малом шаге 6 дискретной схемы, формирующей движения г[/], #[/] и w\t\.
Для доказательства этого утверждения, как уже об этом говорилось в § 61, следует здесь снова рассмотреть .изменение-функции Ляпунова А. (-?[/]— w [/]) + || у ||2 вдоль движений рассматриваемой системы (62.34) (62.38). При этом наличие члена с v в выражении для y°(z,v) (62.36) не вносит уже дополнитель
280	СТАБИЛИЗАЦИЯ РЕШЕНИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР [ГЛ. X
ных трудностей, так как вследствие гладкой зависимости (62.48) от s = z[t] — w [f] член с dtf/dt в выражении вида (61.10) остается ограниченным при почти всех значениях t е [ to, 0].
В то же время изменение v, вызванное переходом от v = q к v = q* в достаточно малой окрестности поверхности (62.47), не сказывается существенно на других оценках, так как в этой малой окрестности поверхности (62.47) член [&hlds\'Cv оказывается малым и поэтому в подходящем кольце а < || s || < 0 (а>0, 0 > 0) полная производная для функции X(z[Z) — te>|7])+. + ||z/||2 и при указанном изменении v оказывается отрицательной при достаточно малых значениях р > 0. А это и позволяет продести нужное обоснование близости z[t] и о>[/] и и
Глава XI
СМЕШАННЫЕ СТРАТЕГИИ В ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ
§ 63. Детерминированные и стохастические управления. В предыдущих главах игровые задачи динамики рассматривались для игрока-союзника в классе чистых позиционных стратегий
или V + v(t,x). Напомним, что при постановке этих задач мы не стесняли способы действия противника какими-либо условиями, кроме, разумеется, ограничений (6.2). Например, если игровая проблема рассматривалась со стороны первого игрока-союзника, то допускалось, что возможны любые интегрируемые реализации управления второго игрока-противника, стесненные лишь условием v [/] е Q. В частности, не исключались и такие способы формирования управления и[/], которые в каждый текущий момент времени t используют информацию об управлении u[Z], реализуемом первым игроком, в тот же самый момент времени t.
Конфликтную ситуацию в этих задачах можно рассматривать либо как игру, в которой оба игрока располагают лишь информацией о реализующейся позиции {£, х[/]}, либо как игру, в которой игроку-союзнику, например, опять первому игроку, по-прежнему известна реализующаяся в каждый текущий момент t позиция игры {/,%[/]}, а игрок-противник, кроме этой информации, знает и управление партнера и И, выбираемое в тот же момент времени t. Важной особенностью установленных выше результатов является тот факт, что одна и та же экстремальная позиционная стратегия игрока-союзника гарантирует ему оптимальный и один и тот же результат, как в первой игре, где партнеры располагают равными информационными возможностями, так и во второй игре, где допускается указанная информационная дискриминация игрока-союзника. Более того, игрок-союзник (например — первый игрок) не сможет улучшить свой гарантированный результат игры и в том случае, если будет информационно дискриминирован противник, т. е. если союзнику дополнительно будет предоставлена информация о реализующихся управлениях противника, которому остаются в распоряжение лишь чисто позиционные способы управления. Это положение вытекает из альтернативы, доказанной в главе III, и связано с предположением о седловой точке маленькой игры (12.1), (12.2), т. е. с предположением о выполнении
282
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. XI
равенства (12.3) для всех возможных позиций {/, х} и всех векторов $.
Если же условие (12.3) нарушается, то решение наших игровых задач может существенно зависеть от предположения, которое принимается относительно информированности каждого из игроков об управлениях, реализуемых партнером. Поэтому будем различать далее следующие случаи.
Случай 1. Осведомленность игрока-противника о реализующихся позициях и действиях игрока-союзника не ограничивается какими-либо предположениями. Допускается, в частности, информационная дискриминация игрока-союзника.
Случай 2. Противник, как и игрок-союзник, в каждый текущий момент времени t располагает информацией о реализующейся позиции игры	но не знает управления, выбирае-
мого в данный момент времени t союзником.
Кроме этих двух случаев, ниже обсуждается также решение игровых задач динамики при условии информационной дискриминации противника, т. е. рассмотрен следующий случай информированности игроков.
Случай 3. Противник располагает лишь информацией о реализующейся позиции игры, а игрок-союзник, кроме этой информации, знает управление, реализуемое противником.
Первый и третий из указанных случаев будут рассмотрены в главе XIV. Перейдем теперь к обсуждению случая 2, который исследуется в данной главе и в следующих за ней главах XII и XIII. Это исследование мы проведем на базе позиционных смешанных стратегий О и Р, а решение задач будет опять достигнуто построением подходящих экстремальных, но теперь уже смешанных стратегий 0е или Ре. Содержание предлагаемого в данном случае экстремального позиционного управления раскрывается в последовательности некоторых элементарных актов, которые осуществляют последовательное решение подходящих маленьких игр. При этом, поскольку равенство (12.3) теперь не выполняется, то в соответствии с известным в общей теории игр приемом (см. [18*], стр. 213) используются подходящим образом смешанные управляющие воздействия. Это позволяет состыковать здесь возможности игроков, впрочем, теперь в предположении о стохастически независимом выборе управлений игроками в каждом элементарном акте.
В соответствии со сказанным смешанные стратегии О и Р определяют вероятностные распределения на множествах случайных векторов и <= Р и v е Q, которые ставятся в соответствие каждой возможной позиции {/,%}. В качестве платы в каждой маленькой игре, определяющей элементарный акт управления при экстремальном смешанном управлении, будет выбираться
§ (54]	СМЕШАННЫЕ СТРАТЕГИИ. ДВИЖЕНИЯ	283:
математическое ожидание случайной величины s'f(t,x,u,v) при подходящем определении вектора s.
Итак, элементарный акт управления в некоторой позиции {t, х} для первого или второго игрока, придерживающегося смешанной стратегии, будет определяться вероятностной мерой p(du\t,x) или v(dv\t9 х) соответственно. Известно (см., например, [23*], стр. 353) , что в классе таких смешанных действий, определенных мерами [x(du) и v(dv), существует седловая точка {ц°, V0}, т. е- справедливы неравенства
х, u,	х, и, v0} <
	х, a, r)Vv0}, (63.1>
где символ M (s'fV V} обозначает усреднение величины по соответствующим мерам р (du) • v (dv).
Экстремальная конструкция, которая будет описана в этой главе, позволяет, таким образом, свести решение дифференциальной игры сближения — уклонения к разрешению последовательности маленьких игр, рассматриваемых в классе смешанных элементарных действий. Важно отметить, что выбор случайных экстремальных управлений производится в процессе дифференциальной игры многократно. Поэтому в силу вероятностных законов больших чисел результирующее действие-смешанной стратегии сближения U -(или смешанной стратегии уклонения У), определяющее исход всей «большой» дифференциальной игры, оказывается таким, что условие сближения (или уклонения) будет выполняться с вероятностью, .сколь угодна близкой к единице. Из доказанной ниже альтернативы для смешанных стратегий вытекает при этом, что введение стохастических конструкций не размывает здесь границу между достижимыми игроками результатами. Поэтому для оценки результатов» достижимых в дифференциальной игре на базе смешанных стратегий, не требуется вводить каких-либо усредненных показателей.
§ 64. Смешанные стратегии, движения. Перейдем теперь к формализации дифференциальной! игры, рассматриваемой в классе стохастических построений управлений и и v. В этом параграфе дается постановка игровой задачи сближения — уклонения для идеального случая, когда игроки как бы мгновенно смешивают свои управляющие воздействия. Затем доказывается альтернатива, которая характеризует рассматриваемую дифференциальную игру в классе смешанных стратегий. Содержание предлагаемых здесь формальных определений и теорем будет пояснено в § 66 и затем — более подробно и аккуратно — в главе XIII» где рассмотрены стохастические аппроксимационные процедуры»
-284
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. XI
в которых реализуемое на деле смешивание управлений осуществляется уже во времени.
Отметим, что в своей основе вводимые здесь определения подобны определениям из главы II.
Будем рассматривать вероятностные меры p(du) и v(dt>), нормированные на множествах Р и Q соответственно. Совокупность всех таких вероятностных мер p(du) и v(dv) обозначим символами {ц} и (v).
С мешанные стратегии первого (второго) игрока будем отождествлять с функциями n = p(dult, х) (v — v(dv |/, х)), которые каждой позиции {/, х) ставят в соответствие некоторую меру p.(du\t, х)е(р} (v(dv|/, x)e{v]). Для обозначения смешанной стратегии, заданной функцией p = p(d«|Z, х), или смешанной стратегии, заданной функцией v = v(dv\t, х), будем .использовать символ U ч- \i(du |/, х) или V ч- v(dv И, х) соответственно.
Пусть v = vt(dv) (t^t,)— некоторая слабо измеримая функция в том смысле, как это определено в § 30 (см. стр. 124), Д — система полуинтервалов [т/, т/+1) (i = 0, 1, ...), покрывающих полуось [£„ оо).
Ломаной Эйлера Хд[/] = хд [/, t,, х,, U, v<_)] назовем абсолютно непрерывную функцию хд|7] (хдЮ = х„ которая при почти всех удовлетворяет уравнению
= j J хдИ> ы>	*д Ы) v, (dv) (64.1)
р Q
[(т,-« < tz+1, z = 0, 1,...),
где |х(</м|тг-, Хд[тг])—мера, которую выбранная стратегия О ставит в соответствие позиции {тг, хд[т,]} .Существование решения хд И для дифференциального уравнения вида (64.1), как и в аналогичных случаях из глав II и VI, вытекает из известных результатов теории обыкновенных дифференциальных уравнений ([29*],,стр. 120).
Аналогичным образом определяется ломаная Эйлера хд[/] = = Хд хш, V, J, где p.=pt (du)—некоторая слабо измеримая функция, значения которой суть вероятностные меры на Р. При этом уравнение (64.1) заменяется уравнением
~	= П хдШ>	хдМ)Мйы) (64-2)
(-ti < т/+1, i = 0, 1, ...),
где v(dv |тр xa[tJ) — мера, которую стратегия V ставит в соответствие позиции хд[тг]}.
54J	СМЕШАННЫЕ СТРАТЕГИИ, ДВИЖЕНИЯ	285
Движением х[/] = х[/, х„ £7], порожденным смешанной стратегией U + n(du\t, х) из позиции {/,, х,}, назовем всякую функцию х[/] (*[/.] = х., *>*,), Для которой существует последовательность ломаных Эйлера хд(6)[/] = хд	х&\ U,
равномерно сходящихся к х[/] на любом конечном отрезке [/„ &] при условии lim supz ] — ?<*') = О при £->оо.
Движения x[t, tt, х„ 7] определяются аналогичным предельным переходом ог соответствующих последовательностей
х&(k) 1^1=	(к) И» x*ki> ^0)]	(^ == 1» 2, ...).
Введенные движения обладают всеми свойствами, которые были отмечены в § 6 для движений, порожденных чистыми стратегиями U + u(t, х) и V -ь v(t, х). В частности, можно доказать утверждение, аналогичное лемме 6.2. Именно, пусть символ х[/, t,, х,, О, V] означает движения, которые получаются предельным переходом от ломаных Эйлера хд[/, /*, х,, U, где реализации v'fe в свою очередь определяются условиями v\k) = v (dv |	*, хд *])	(т<‘> * t <	*), причем
y = v(du\t, х) — как раз та функция, которая определяет стратегию V. Тогда при всяком выборе начальной позиции {/„, xj и пары смешанных стратегий {U, V] все движения x[t, t,, х„ U, V] содержатся как во множестве всех движений х [/, tt, х„ U], так и во множестве всех движений x[t, tt, х,, V].
Следует подчеркнуть, что в данной схеме идеальных движений х[/] и ломаных Эйлера хд [/], несмотря на использование вероятностных мер i»,(du\t,x) и v(dv\t,x), сами эти движения и порождающие их ломаные Эйлера по-прежнему определяются как обычные детерминированные функции от времени t. Лишь позднее, при переходе к аппроксимационным схемам, появятся отвечающие этим детерминированным движениям х[/] и ломаным Эйлера хд[/] стохастические случайные движения хдИ (см. ниже § 66).
Теперь можно сформулировать игровые задачи о сближении и уклонении, которые аналогичны задачам 9.1 и 9.2, но решение которых требуется найти уже в классе смешанных стратегий.
Задача 64.1. Дана позиция {to, х0} и замкнутые множества Мс и Nc в пространстве {t,x}. Требуется найти смешанную стратегию Ос-т-iic(du\i, х), для которой всякое движение х[/] = j= х [/, t0, Xq, £7С] удовлетворяет условиям встречи:
[т, х[т]} еМс, {t, x[/])eWc при	(64.3)
286	СМЕШАННЫЕ СТРАТЕГИИ	.	[ГЛ. ХГ
где г—момент времени, когда позиция {/, х [/]} впервые попадает на множество Мс. (Для различных движений x[f] = = x[t, t*, х*, Ос] моменты т, вообще говоря, различны.)
Задача 64.2. Даны позиция {/0, Хо}, замкнутые множества Мс и Nc и отрезок времени	Требуется найти смешан-
ную стратегию Рс 4- vc(dv |/, х), которая на заданном отрезке времени [tQ, О] для всякого движения х[/] исключает встречу (64.3) с Мс, т. е. для которой всякое движение х[/] = = x\t, х0,Рс] удовлетворяет условию
{t, х[/]} &G (Мс) при	(64.4)
где либо т = г<>, если {/, х|7]} е Н (N^ при /0 t либо т — первый момент времени, когда точка {/, х[/]} покидает открытую область H(NC).
Напомним (см. стр. 49), что в условиях задачи 64.2 G(MC) и H(NC) суть какие-либо открытые окрестности множеств Мс и Nc в пространстве {/, х).
§ 65. Альтернатива. В этом параграфе для дифференциальной игры сближения — уклонения, рассматриваемой в классе смешанных стратегий и складывающейся теперь из задач 64.1 и 64.2, устанавливается справедливость следующей альтернативы.
Теорема 65.1. Для заданных начальной позиции {/0, х0} и числа $ > tQ либо найдется смешанная стратегия Ос + 4- цс (du 11, х), которая для всех движений х[/] = х[/, /0, х0, £7С] обеспечивает встречу (64.3) при т О, либо найдутся окрестности G(MC) w H(Nc) множеств Мс и Nc и смешанная стратегия Рс 4- vc(dv\t, х), такие, что для всех движений х[/] = = x\t, to, Хо, PJ на отрезке [/, Ф] будет исключена встреча, т. е. будет выполнено условие (64.4).
- Из этой альтернативы вытекает, что для дифференциальной игры сближения — уклонения в классе смешанных стратегий имеет место ситуация типа седловой точки уже без каких-либо дополнительных предположений. Далее, из этой альтернативы выводится существование ситуаций равновесия или е-равнове-сия для дифференциальных игр в смешанных стратегиях, исследование которых сводится к решению этой игры сближения — уклонения (см. главу IV). Формулировка соответствующих игровых задач и относящихся к ним рассуждений и выводов прямо повторяет материал из главы IV с заменой чистых стратегий U или V на смешанные стратегии О или Рис заменой теоремы 17.1 об альтернативе теоремой 65.1 об альтернативе (уже в классе смешанных стратегий). Поэтому здесь соответствующих формулировок приводить не будем.
Подчеркнем, однако, снова, что в отличие от материала из главы IV здесь уже не требуется предполагать выполнение
$ 65]
АЛЬТЕРНАТИВА
287
какого-либо дополнительного условия типа условия (12.4) седловой точки маленькой игры (12.1), (12.2).
Доказательство теоремы 65.1 проводится по схеме, изложенной в главе III. Поэтому ниже формулируются лишь основные положения и указывается различие в доказательствах этих положений и соответствующих утверждений из главы III. Итак, опишем элементы экстремальной конструкции, используемой при исследовании задачи сближения, рассматриваемой в классе смешанных стратегий О 4- ц(йц| /, х).
Пусть в пространстве позиций {/, х} задано некоторое замкнутое множество W. Будем говорить, что это множество является й-стабильным, если для любой точки {/*, х*} е W, для всякого значения /* > ^ и для любой меры v*(du)e {v} существует решение дифференциального уравнения в контингенциях
x(t)^^u{t, x(t), v.)	(x(f,) = x.),	(65.1)
удовлетворяющее либо условию \f, x(f)} е W, либо условию {т, х(т)) f=A4c при некотором те[<., Г].
Здесь символ 3^u(t, х, v,) обозначает множество
{t, х, v.) — со
fit, х, и, v)v,(dv): и
(65.2)
Построим теперь смешанную стратегию Oe-t-pe(du\t, х), экстремальную к некоторому замкнутому множеству W. Функцию р,® = ^[du\t,x), определяющую эту стратегию, зададим следующим образом. Пусть {/*, х.} — какая-то позиция. Если сечение W(t») множества W пусто, то в качестве pe(du\t*, х») следует выбрать некоторую меру ц(</и)е{ц}. Если сечение №(£») множества W непусто, то определим позицию {/„ WJ, ближайшую в евклидовой метрике к позиции {/*, xj. (Точка пу» может быть не одна; тогда выбирается одна из таких точек.) Теперь меру pe(dujt», х») следует выбирать из условия шах [ f (х* — ayj' f (/*, х*, и, v) (du |/*, xj vdv = ve{v}j j
= min max [ f (хл — f (/*, x*, u, v) p (du) v (dv).	(65.3)
ve{v} J J
Заметим, что существование максимумов и минимумов в (65.3) является следствием слабой компактности совокупности всех мер {ц} и {v} (см. [16*], стр. 254; [34*], стр. 48).
Справедливо следующее утверждение.
Лемма 65.1. Пусть замкнутое множество W является й-стабильным, 0е 4- (du 1t, х) — смешанная стратегия, экстремальная к множеству U? и пусть {/0, х0} Тогда для всякого дви-
288
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. XI
жения х[П = х[/, to, х0, 0е] выполняется условие {t, х[/]} е W при to t х, где х— момент времени, когда позиция {t, х[/]} впервые попадает на множество Мс. Если для некоторого движения х[/] = х(/, to, Хо, 0е] встреча с Мс не осуществляется, то для такого движения позиция {/, х [/]} остается во множестве W при всех t to.
Это утверждение — аналог леммы 15.1. Напомним, что доказательство леммы 15.1 опиралось на оценку, полученную в § 14 (см. стр. 59). В данном случае справедливость леммы 65.1 выводится точно такими же рассуждениями из аналогичной оценки. Приведем формулировку нужной здесь оценки.
Рассмотрим уравнения
х(1) [Л = / / f *(1) Id, И* (du) vt (dv), t t*,	x(I) [t J = x(1),
p Q
(65.4) x® (t)	^u(t, № (/), v* (dv)), t^zt*, x®(t) = x®. (65.5)
Здесь меры pijdu) и v*(dv) удовлетворяют условиям:
min max f f s'f (t, x(1), u, v) ц (du) v(dv) =
це{ц} ve={v} J *	*	*	7
= max I Г s'f(t , x(1), u, ?/)li (du) v(dv), J q * v * *	*
max min | | s'fft , x(1), u, v\\x(du) v(dv) = v<={v}	7
= min f f s'fit , x(J), u, v)ix(du) v*(dv),
Q
где s!le = x[1)— xl2).
Тогда для рассматриваемых движений х(1) [£] и х(2) (t) справедлива оценка
Р2 (К + 6) < Р2 (Q (1 + Р6) + Ф (6) 6	(6 > 0),	(65.6)
равномерная для всех позиций xtn| и {/*, х£2)} из каждой наперед выбранной ограниченной области G в пространстве {/, х}. Здесь р2(/)—квадрат евклидова расстояния между точками х0)[/] и x^(t), р — некоторое конечное число, функция ф(д)-*О при 6—>0.
Укажем единственное существенное различие, которое только и проявляется в доказательствах оценок (14.6) и (65.6). Если в § 14 при выводе неравенства (14.6) использовалось дополнительное предположение о существовании седловой точки (12.4) маленькой игры (12.1), (12.2), рассматриваемой в классе «чис-
§ 65]
АЛЬТЕРНАТИВА
289
т ых» управлений и^Р, v Q, то оценка (65.6) выводится теперь из известного в теории игр факта существования седловой точки маленькой игры, рассматриваемой в классе «смешанных» управлений p(d«)^{p}, v(do)e{v}, т. е. в рассматриваемом теперь случае нужная оценка (65.6) вытекает из соотношения	*
min max f | s'f (/, х, и, v) ц (du) v(dv) =
= max min I | s'f(t> x, u, v)ii(du) v(dv), (65.7) ve{v} ц,е{ц} £ '
которое справедливо для любых непрерывных по и и v функций f (см., например, [23*], стр. 353).
Подчеркнем еще раз, что именно существование седловой точки для соответствующих маленьких игр, отвечающих элементарным актам экстремального управления, является основой, на которую опирается доказательство существования ситуации равновесия или 8-равновесия дифференциальных игр.
• На основе оценки (65.6) повторением выкладок, приведенных при доказательстве леммы 15.1, и устанавливается справедливость леммы 65.1.
Для доказательства теоремы 65.1 после этого остается только при невыполнении второго условия альтернативы сконструировать максимальный й-стабильный мост содержащийся в Nc и обрывающийся к моменту t = на множестве Мс. Этот искомый мост UZ? выделяется в пространстве {/, х} так л^е, как й в случае решения задачи в классе чистых стратегий в § 16. Именно, из пространства {/, х} выбрасываются те позиции {/*,%*}, для которых разрешима задача 64.2 об уклонении. Обозначим символом W® множество всех оставшихся позиций. Оказывается снова, что это множество и является искомым максимальным й-стабильным мостом IFa, содержащимся в Nc и обрывающимся к моменту t = ft на множестве Мс. Проверка этого положения проводится такими же рассуждениями, какие приведены в § 16 при доказательстве леммы 16.1 с заменой только свойства «-стабильности или и-стабильности на свойства й-ста-бильности или й-стабильности соответственно. Свойство й-ста-бильности, используемое при этом, является такой же трансформацией свойства й-стабильности, какой является свойство v-ста-бильности по отношению к свойству «-стабильности.
Используя, далее, лемму 65.1, убедимся, что смешанная стратегия 0е -т- р(й«|/, х), экстремальная к построенному й-стабиль-ному мосту и доставляет решение задачи 64.1 о сближении
10 Н. Н. Красовский, А. И. Субботин
290
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. XI
к моменту t = ft, если начальная позиция {/о, х^} принадлежит множеству
Если же позиция {/0, *о} не принадлежит к мосту W®, то непосредственно из определения этого моста вытекает существование стратегии Р* 4- v*(dn|/, х), которая доставляет решение задачи 64.2 об уклонении на отрезке '&]. Таким образом и завершается доказательство теоремы 65.1.
Теперь надлежит сделать одно замечание, важное для дальнейшего. При определении смешанных стратегий в § 64 мы, как и раньше, в аналогичном случае в § 6, не оговаривали каких-либо условий на свойства гладкости, непрерывности или измеримости функций [i(du\ty х) или v(dt>|/, х) по t или х. При обсуждении дифференциальных игр в нашей идеальной схеме в классе смешанных стратегий такие ограничения на функции n(du\t, х) или v(dv\tt х), как и раньше, в случае чистых стратегий U-±-u(t, х), Р4-у(/,х) из § 6, не требуются. Однако, в случае смешанных стратегий О 4- p,(dw|/, х) и V-±-v(dv\t, х) при переходе к аппроксимационным схемам, мы будем рассмат^ ривать случайные движения хд[/], и нам потребуется оценка вероятностей тех или иных событий, связанных с этими движениями Хд[/]. Для того чтобы иметь возможность делать это в рамках стандартных понятий теории вероятностей, удобно предполагать, что при определении смешанных стратегий О и Р допустимыми являются функции ц(du|х) и v(dv\tix)i слабо измерим ые 'по х. Это свойство следует понимать так: при фиксированном значении t при любом выборе непрерывных функций а (и), Р(у) функции
а* (/, х) = J а (и) ц (du |/, х) Р* (/, х) = j Р (у) v (dv | /, х) (65.8) р	Q
должны быть измеримыми по Борелю ([35*], стр. 81) функциями переменной х. В соответствии со сказанным, данное условие допустимости функций [i(du\tfx) и v(dv\t,x) будет предполагаться ниже без дополнительных оговорок. Важно заметить, что это условие не сказывается на предыдущих результатах этого параграфа. В частности, теорема 65.1 об альтернативе остается верной и в таком, суженном, классе смешанных стратегий О и Р. В самом деле, все основные конструкции, которые используются при доказательстве альтернативы, базируются на экстремальных смешанных стратегиях. Но для каждой позиции {/*, хJ множество	всех мер p(du), удовлетворяющих
условию (65.3), которое определяет экстремальную стратегию Oet получается таким, что эти множества х} оказываются слабо полунепрерывными сверху по включению по
$ 66]
ПОСТРОЕНИЕ а -СТАБИЛЬНЫХ мостов
291
изменению х. Это означает следующее. Какую бы непрерывную функцию а(м) мы ни выбирали, множества Bt(x) всех чисел
р = J а (и) ц (du), ц е= [ц}® х}	(65.9)
р
оказываются полунепрерывными сверху по включению по изменению х в том смысле, как это определено в § 7 (см. стр. 38, 39), Но тогда из известных результатов теории функций действительного переменного ([20*], стр. 603) выводится, что функцию це (du \ ty х) е {р}® ^можно выбрать так, что она окажется слабо измеримой по х в нужном нам смысле. Иначе говоря, мы действительно можем задать стратегию Oe+ve(dv\tt х) допустимой функцией = iie(du\ty х). Аналогичные соображения справедливы и для экстремальной смешанной стратегии Vе-нve(dv\t, х), которую, стало быть, тоже можно задать допустимой функцией ve = хе(dv |/, х). Итак, опираясь на тот факт, что предлагаемые нами решения дифференциально-игровых задач определяются экстремальными стратегиями, которые определяются допустимыми функциями = ixe(du\tt х) и ve = ve(dv |/, х), мы можем в дальнейшем ограничиться только указанными сейчас классами смешанных стратегий О и Р, отождествляемых с функциями p = p(du|Z, х) и v = v(dv\ty х), слабо измеримыми по х.
§ 66. Построение w-стабильных мостов. Из материала предыдущего параграфа видно, что решение задачи о сближении, рассматриваемой в классе смешанных стратегий, сводится в основном к определению подходящего й-стабильного моста IT, т. е. ситуация здесь подобна тому положению, которое имело место при построении решения задачи о сближении в классе чистых стратегий. Отметим также, что для доказательства альтернативы (теоремы 65.1) удобно было ввести максимальный й-стабильный мост. Однако определение этого моста, приведенное в предыдущем параграфе, как и определение максимальных стабильных мостов из главы III, вообще говоря, вряд ли можно использовать для непосредственного построения этих мостов. Поэтому важно указать более конструктивные определения стабильных мостов. В этом параграфе описано построение максимального й-стабильного моста в общем случае. Следует признать, однако, что описываемое здесь построение представляет, пожалуй, также главным образом теоретический интерес, поскольку реализация этого алгоритма требует слишком большого объема памяти и вычислительной работы, превышающего, вообще говоря, стандартные возможности ЭВМ. Таким образом, это конструктивное, в принципе общее, решение дифференциальной игры сближения оказывается на деле весьма
10*
292
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. XI
трудно реализуемым. В связи с этим остается важным вопросом разработка более удобных алгоритмов, приспособленных к решению дифференциально-игровых задач в различных частных случаях. Описанию таких приемов эффективного построения й-стабильных мостов будет посвящена уже следующая глава.
Итак, перейдем к описанию общего теоретического способа построения максимальных й-стабильных мостов.
Пусть D — некоторое замкнутое множество в пространстве позиций {/,%}; 'О' to — заданное число. Обозначим символом W[?](D) совокупность позиций {/*,%*} (/*^'0) таких, что какова бы ни была мера v*(cfo)e{v}, существует решение уравнения (65.1), удовлетворяющее условию {т, x(x)}^D при некотором т О’. Иначе говоря, множество строится для множества D по аналогии с тем, как строилось множество WW программного поглощения в момент О для множества Мс (см. выше § 35). Но, в отличие от определения множества здесь используется поглощение цели к моменту 'ft и перебираются лишь программные управления второго игрока, изображаемые не зависящими от переменной t мерами v* (dv), а не все программные управления второго игрока, изображаемые слабо измеримыми функциями v = v(.)(rfv), как это имело место в § 35 при определении множества Однако, вследствие того, что в конце концов множества 1ИТ^(£>) будут рассматриваться лишь на бесконечно малых отрезках времени, примыкающих слева к моменту поглощения та, последнее различие оказывается несу* щественным.
Для произвольного множества D из пространства {/, х} полагаем
D(ti, t2) — [{tf х]: {/, х} е D, /j < t </2L и, как обычно,
^(0 = [{^х}: {t,x}f=D, t = t*].
Пусть., на отрезке [?0, Ф] заданы точки
+	(Л=о, 1...../).
Рассмотрим следующую рекуррентную процедуру: -	Р(0) = ^П^1тЯ(2ид
Dw = Nc0	(МсU
....................................   (66.1)
§ 66]
ПОСТРОЕНИЕ fl-СТАБИЛЬНЫХ МОСТОВ
293
Смысл соотношений (66.1) состоит, таким образом, в том, что каждое' последующее множество строится как множество программного поглощения к моменту  для суммы множества и сечения	.
Полагаем теперь	>
£)z = D(0>(tz, Tz_t)Un(I>(TZ^, xz_2)U ... U ’>«, t0). (66.2)
Построенное множество Df обладает следующим, свойством, аппроксимирующим свойство й-стабильности. Пусть точка (?0, х0) содержится во множестве Д; тогда {f0, х0) <= По определению множества Ь(1~х\ каково бы ни было смещанное управление v0(do)e {v), выбранное вторым игроком на промежутке [/о, Т|), существует обобщенное движение x(t, t0, х0) — решение x(t) уравнения (65.1) при v,(do) = v0(dv), которое выходит .из позиции {/0, Хо) и либо попадает на Мс при некотором те [/0, tJ, либо удовлетворяет условию {ть х(?[)}• Рассмотрим второй случай. По определению множества Dil~2} получаем, что при любом выборе меры v( (dv) е (v), которую использует второй игрок в качестве смешанного управления на промежутке [ть т2), обобщенное движение x(t) можно продолжить как решение уравнения (65.1) при vt(dv) = vl(dv) так, чтобы либо при некотором те [ть т2] выполнялось условие встречи {т, х(т)} е Мс, либо при t = т2 осуществилось уеловтге {т2, x(t,)|gD,W). И так далее. Причем, если {tz_!, x(T(_|)) e.Dm, то при любом выборе vz_, (do)'s[v) существует обобщенное, движение x(t), которое попадает На Мс к моменту t — 'd.
Итак, если в момент t — u (k = 0, 1, .'.., I—1) второй игрок будет сообщать смешанное управление Vk(dv), котор'бе он собирается реализовать на участке тл t <_ т&+ь то можно так выбирать обобщенные движения x(t)—решения . уравнения (65.5), чтобы обеспечить наведение этих движений на Мс к моменту t = ф, причем для этого движения x(t) в моменты t == — Tft будет выполняться' условие {ть x(rh)} е Мс. Этй соображения служат основанием для использования множеств (66.2) при построении й-стабильнбго моста.
Можно показать, что для множества >	*	<	.	• . - •	• • •	•. ; * г < *
оо 1=1
справедливо равенство	»
7./	.	р[<>1 (/о,&)==.wl,	7 7	7 •• 7
т- е. на рассматриваемом отрезке времени [/о» О] множество (66.3) будет максимальным й-стабильным мостом для1 задачи сближения с множеством Ме внутри Nc К моменту О; •
294
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. хг
В частном случае, когда множество Nc совпадает со всем пространством {/, х}, а множество Мс содержится целиком в гиперплоскости Ф (т. е. в случае задачи сближения с множеством Мс в момент #), рекуррентные соотношения принимают особенно простой вид:
=	(£><*-»(T/_fc)), £)° =	(Мс (О)).	(66.4}
И, стало быть, в этом случае последующее множество строится как множество программного поглощения в момент xi-h для предыдущего сечения D{k^x\xi^k) множества а множество D& строится как множество программного поглощения в момент О’ для множества Л1С(О).
Отметим, что в описанной рекуррентной процедуре (66.1) возможны различные огрубления. Например, вместо исходного-дифференциального уравнения здесь можно использовать его разностную аппроксимацию. Описанную процедуру можно довести до машинного алгоритма, однако его реализация требует такого большого объема вычислительной работы, что, как уже отмечалось выше, осуществление в конкретных примерах этих построений оказывается весьма трудным. Менее универсальные^ но более легко реализуемые способы построения й- и й-стабиль-ных мостов для игры сближения — уклонения будут рассмотрены в следующей главе.
§ 67. Аппроксимация смешанных стратегий. В двух предыдущих параграфах дифференциальные игры рассматривались на формальной базе идеальных движений х [/, /0, *о, 0] или х[/,£0, *о, Р], порожденных также идеализированными ломаными Эйлера хд [/, /0, *о, О, v(.J или хд (/,/0,	Ц(.)]- Эта идеализация:
состояла в том, что допускалось как бы мгновенное смешивание управлений игроков, позволившее описать ломаные Эйлера
х*, О, V(.)] или Хд [/,	х*, Р, Ц(.)] уравнениями (64.1)
(64.2). Рассмотрим теперь физически реализуемую аппроксимацию предложенной формальной конструкции.
Итак, опишем вероятностное аппроксимационное решение игровых задач. Рассмотрим для определенности задачу о* сближении. Предположим, что в соответствии с материалом из § 65 найдено решение этой задачи — некоторая смешанная стратегия О* p(d«(/, х). Рассмотрим следующую стохастическую процедуру выбора управлений первого игрока. Пусть Д1 — совокупность полуинтервалов [т(Д (z = 0, 1, ...), по* крывающих полуось р0, оо); обозначим через цо^и) вероятностную меру, которую смешанная стратегия £7*4- р*(Лф, х) ставит в соответствие начальной позиции игры {/©, х0}. Осуществим испытание по-выбору случайного вектора uQ^P, полагая, что ве-
АППРОКСИМАЦИЯ СМЕШАННЫХ СТРАТЕГИЙ
2G5
67]
•роятностное распределение векторов Р задается мерой pi0(dw). Этот вектор uQ выбирается в качестве постоянного управления первого игрока на первом полуинтервале времени т'п). На этом промежутке времени движение системы осуществляется этим управлением й[/] = «0 (/0 </< в паре с некоторой интегрируемой реализацией v [/] управления v второго игрока. В момент времени	реализовавшейся новой пози-
ции игры {т(Д х смешанная стратегия О* ставит в соответствие меру pi(du). Полагая, что эта мера задает вероятностное распределение на множестве векторов меР, осуществим новое испытание по выбору случайной точки и\ е Р. Постоянное управление u\t\ = их (т*0t < т0)) и некоторая интегрируемая реализация ф] е Q управления v второго игрока определяют движение системы на следующем полуинтервале [т*0, т*1)). Указанная процедура повторяется затем на всех последующих полуинтервалах	При этом реализации могут конструи-
роваться вторым игроком на основе какой-либо детерминированной или также стохастической процедуры.
Описанную стохастическую процедуру управления будем обозначать символом (£7*, Д1), который отмечает, что эта процедура отвечает смешанной стратегии £7* и реализует случайные управления й[/], постоянные на полуинтервалах [т(Д составляющих систему Дь Аналогичным образом определяются стохастические процедуры (Р, Д2), отвечающие смешанным стратегиям второго игрока, причем здесь реализация u[t\ управления и первого игрока формируется на основе той или иной детерминированной или стохастической процедуры. Выбранные игроками стохастические процедуры управления задают вероятностные распределения на множествах случайных движений, порожденных этими процедурами.
Укажем теперь важное условие, при котором будем рассматривать дальше вероятностную аппроксимацию на базе смешанных стратегий О и Р. Это условие состоит в том, что каждый элементарный акт выбора случайных управлений игроков й[/] или £|7] первым или вторым игроком на полуинтервалах^*0, ил I |т<2>, соответственно можно трактовать как взаимно независимый или, по крайней мере, как слабо коррелированный -с выбором управления сф] или u\f\ оппонентом. Например, если на полуинтервале [т*.°, т*.0^ реализуется случайное управление первого игрока ii[t] = Ui, то этот случайный выбор вектора •Ui Р должен быть независимым в вероятностном смысле с управлением противника (т*.°</< т(° J или, по крайней мере, эти выборы должны быть слабо коррелированными.
296
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. ХГ
Сформулируем теперь аппроксимационное свойство, стохастических процедур, постулируя., что управления йд [/] = «/ и н$ полуинтервалах [т^, или управления u[t\ и = и}. на полуинтервалах [т(2\ тЛ2^) стохастически независимы.
Теорема 67.1. Пусть смешанная стратегия Ос доставляет решене. задачи 64.2 об уклонении на отрезке [/о, т^е. обеспечивает. выполнение соотношений (64,3). Тогда для любых чисел е > 0 и р < \ можно . указать такое число б > О, что для случайных движений x{f\, порожденных стохастической процедурой	где supx.с вероятностью, не
меньшей числа р, будет выполняться условие е-сближения к моменту Ф:
{т,	& Мс}, {/, х[/]} е N(c} при /0</<т,
•	Теорема' 67.2, Пусть смешанная стратегия Рс доставляет решение задачи 64.2 об уклонении на отрезке [/0, -&], т. е, обеспечивает выполнение соотношений (64.4). Тогда существует число е > 0 такое, что при всяком р < 1 можно указать число б > О, для которого случайные движения х{7], порожденные стохастической процедурой (Рс, Аз), еде зирДт^ — т<2)) ^б, с вероятностью, не меньшей числа р, на отрезке [?0, '&] уклоняются от попадания в г-окрестность множества Мс вплоть до выхода из г-окрестности множества Пс.
•	Объединяя эти два положения и учитывая теорему 65.1, доказанную для смешанных стратегий, можно получить следующую альтернативу для стохастических процедур.
г. Теор-ем а 67.3. Для любой начальной позиции {^, *о} и для любого числа Ф > tQ либо при любом выборе чисел 8 > 0 и р < 1 существует стохастическая процедура (Ос,\\), которая доставляет аппроксимационное решение задачи о сближении к моменту т,е. имеет место утверждение теоремы 67.1, либо существует число 8 > 0 такое, что при всяком р < 1 существует стохастическая процедура (Рс, А2), которая доставляет аппроксимационное решение задачи об уклонении на отрезке [/0,0], т, е. имеет место утверждение теоремы 67.2.
Подчеркнем снова, что эти утверждения справедливы при условии независимого в вероятностном смысле выбора управлений игроков, на полуинтервалах	или [т^2), т*2^) соот-
ветственно.
В теоремах 67.1—67.3 это условие независимости мы приняли как постулат, игнорируя каждый раз способ построения управления противником. Однако, если принять, что одновременно оба игрока используют стохастические процедуры (О, AJ и (V, Д2), то указанное постулирование потребуется заменить ка-
АППРОКСИМАЦИЯ СМЕШАННЫХ СТРАТЕГИЙ
‘297
§ 67] кими-либо разумными доводами. Эти доводы мы приведем в формализованном виде в главе XIII на базе стандартных понятий теории вероятностей, где и будет завершено исследование вопроса об аппроксимации движений в классе смешанных стратегий. А пока обсудим только предварительно реальные предпосылки нашего предположения о взаимно независимом или хотя бы слабо коррелированном выборе управлений игроков в каж.-дом элементарном акте управления на малых полуинтервалам Ti< 'П+ь Это можно сделать, например, на основе следующего рассуждения.	. . -
Будем полагать, что сведения о реализациях управления партнера тот или иной игрок (пусть для определенности — второй игрок-противник) может извлекать только из анализа уже реализовавшегося движения хд[/], так что в момент t второй игрок-противник будет извлекать информацию об u[t\ на основе анализа истории %д[т] (т 0 движения %д[/]. Тогда предположение о независимости случайных функций и.[7] и v [/] представляется вполне естественным в частном случае, когда оба игрока формируют свои управления в соответствии со стохастическими процедурами (О, Д1), (Р, Аг) и при этом Ai =р= А2.
Однако данное предположение о совпадении разбиений Ai ц - Д2 в свою очередь является не совсем естественным, ибо оно означает, что противоборствующие, вообще говоря, игроки почему-то договариваются об общих моментах Хг переключения своих управлений u[t\ и £[/]. Если же отказаться от совпадения разбиений Ai и Д2, то возникает следующая трудность.	{
Пусть, например, первый игрок-союзник выбрал разбиение Аь и на интервале	он реализует управления й [/] = «.,
Пусть х® — точка разбиения А2 #= Ар избранная вторым игроком, лежащая на интервале т<1) < t < rOjj. Зная свое управление сф] на интервале < t < т(2) и точное значение истории движения хд[Н при <К т(2), второй игрок во многих случаях уравнений движения (6.1) имеет возможность из‘ этого уравнения восстановить управление u[t] на интервале < t < т. е. второй игрок-*противник может определить к моменту t = x® величину й., и, стало быть, ему трудно тогда отказать в праве выбора управления v в момент t = x®\ опираясь на информацию о значении управления й [/] = й/, которая будет реализовываться первым игроком при t > т(2) и, как выяснится для второго игрока позже, вплоть до момента £ = тФ+1. Таким образом, предположение о том, что управления u[t] = ui и у[/] на интервале [т(2), должны быть вероятностно независимы, представляется здесь необоснованно сужающим возможности игрока-противника.
298
СМЕШАННЫЕ СТРАТЕГИИ
[ГЛ. ХГ
От этой трудности можно избавиться, предполагая наличие информационных помех, имеющих, например, характер* запаздывания информации о реализующихся позициях. Именно, если информация поступает к противнику с запаздыванием, большим, чем длина промежутков [тг-, Ti+i) постоянства управления игрока-союзника, то противник не сможет восстановить в нужные ему текущие моменты времени значение управлений союзника, и наоборот, если участки постоянства [tj, tj+i) управлений; противника меньше запаздывания 6 информации, поступающей игроку-союзнику, то союзник не сможет восстановить управление противника в нужные ему текущие моменты времени. Поэтому в данном случае выбор управлений игроков можно считать независимым.
Информационные помехи могут состоять также в том, что* текущая позиция измеряется игроками неточно, с некоторой ошибкой Дх {/] = х [/] — х* [/], || Дх [/] ||	£ (число £ оценивает
расстояние между реализовавшейся на деле фазовой точкой х[/] и точкой х*[/], которая отвечает информации, поступившей в орган управления того или другого игрока в результате неточного измерения). В то же время для определения управления,, выбранного партнером на прошлом промежутке [т*, т*], требуется оценить производную dx^[t]/dt по значениям х*[/] (т* t т*)/ Эта оценка имеет погрешности порядка величины £(т* — т*)-1. Полагая расстояние между точками тг-, тгч-1 достаточно малым,, можно сделать эту погрешность в определении реализации управления u[t] или v[t\ из анализа движения х*[/] на участках [т*, т*],. содержащихся в [т^, или в	соответственно,,
сколь угодно большой. Поэтому игрок не сможет достаточна точно восстановить управление, выбранное партнером на рассматриваемом промежутке времени. В таком случае управления и и v можно считать слабо коррелированными, а тогда снова получаем положения, аналогичные теоремам 67.1—67.3 (см. ниже §78).
Глава XII
ЭФФЕКТИВНЫЕ МОСТЫ ДЛЯ СМЕШАННЫХ СТРАТЕГИИ
§ 68. Динамическое программирование. В этом параграфе мы дадим краткую сводку тех результатов, в которые преобразуются результаты из главы V при отказе от условия (12.3) седловой точки маленькой игры (12.1), (12.2) и при переходе от чистых стратегий U -4- u(t,x), V-r-v(t,x) к смешанным стратегиям О 4- |x(dn| t, х), Р -r-v(dv\t, х), аппарат которых был изучен в предыдущей главе. При этом можно ограничиться именно только сводкой результатов без их подробного пояснения и доказательства, так как эти пояснения и доказательства, пока мы остаемся в рамках идеальных движений х [7,/0, х0,0] и х[Мо, Xq, Р], лишь несущественными техническими деталями отличаются от рассуждений из главы V. Представление о характере этих деталей дает глава XI, поэтому останавливаться на них здесь еще раз вряд ли целесообразно. Другое дело, когда позже в главе XIII мы перейдем к содержательному истолкованию даваемых в этой главе формальных результатов в вероятностных аппроксимационных схемах управления в духе их интерпретации из § 67. Тогда уже потребуются дополнительные пояснения к результатам из данной главы. Итак, начнем с формулировки критерия, который отвечает здесь теореме 23.1.
Теорема 68.1. Предположим, что удалось найти непрерывную функцию ё (t, х), удовлетворяющую неравенству
{/, х} ф. Nc или {t, х} ф Ме частные производные dsfdt,
имеющую непрерывные (i = 1....п) в области
/<&,
и такую, что в области (68.2) выполняется неравенство
min max J J f (t, x, и, v) p, (du) v (dv) +	<0.
Пусть, далее, смешанная стратегия \kc(du\t,x) удовлетворяет условию
mvax 11	v)^(du It х) v (cfo)l =
LP Q	J
(£8.1) дё/дх.
(68.2)
(68.3) -
= min max
“ * U $
(68.4)
300
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. Х1Г
в области (68.2) и продолжена произвольной слабо измеримой по х функцией \ic(du\t,x) вне этой области.
Тогда, если ё(/0, х0)^с, то для всякого движения %[/]== = x[t, t0, xQ, Uc} выполняется условие встречи

{т, х[т]} е Мс, {/,	при	(68.5) i
(при т С61). При этом для всякого движения x[t] = х[Д /0> Хо, f/J J выполняется обязательно и условие встречи в момент т. е.
{'&, х[Ф]} е Мс, {/, х[/])еА^ при	(68.6)	1
Теорема 25.1 при переходе к смешанным стратегиям трансформируется в следующее утверждение.
• Теорема 68.2. Предполооюим, что удалось найти непрерывную в области	функцию. s(t,x), которая удовлетво-
ряет краевому условию
	ё (#, x) = a(x), »	(68.7) J
имеет	непрерывные частные производные defdt,	dz/dXi i-
(i = 1, •	.п).в области	
t причем	crQ < ё(t, х) < о9,. t0<t <-&,	(68.8) |
	о0 == inf 0 (x), ст" = sup ст (x),	(68.9) 7
	1 ' X	X	''-v
и удовлетворяет в этой области (68.8) условию
/I [£]'	*• “• P)nW«) vW») +	(68.10)
min max M- , v
-P Q	J
Пусть, далее, смешанные стратегии U° + y.°(du\t, х) и V 4- vQ(dv х) определены в области (68.8) условиями шах | J f (t, х, и, v) ц° (du\t, х) v(dv)J =
J / [-37У f(h. x, «. v) ц (du) v(dv) ,
-P Q
1
min max
(68.11)
min и
/]* [-57У X, u, v) ц (du) v°(dv U,x) —
Jj*	x, u, v) y(du)v(dv)
Lp Q	J
Lp Q
= max rhin V Ц
(68.12)
§ 69|
ПРИМЕР
301
и продолжены в области ё (t, х) ст0 и ё (t, х) сг° любыми слабо измеримыми по х функциями p°(d«|/, х) и va(dv\t, х).
Тогда стратегии й° и V0 образуют седловую точку {U°, Р°) дифференциальной игры из§ 18 на минимакс — максимин функционала <р (18.1) в классе смешанных стратегий U, V. При этом цена данной дифференциальной игры определяется равенством
Yo = Yo = g(fo,Xo).	(68.13)
§ 69.	Пример. Простой модельный пример приложения теоремы 68.2 доставляет снова задача конфликтного управления безынерционной точкой пг, подобная задаче из § 26, однако осложненная теперь наличием люфтов между скоростями и* и v* точки пг и порождающими их управлениями {н}2 и {о}2- Именно, выберем в качестве управляемой системы 2 точку пг, перемещающуюся в плоскости {xi, х2}, и примем, что скорость этой точки определяется как сумма двух векторов и* = (и*, и2] и t>‘ = =	^г)- Уравнение движения точки пг, стало быть, в рассма-
триваемом случае имеет вид
х =
«2+ °2
— и* + о*.
(69.1)

Предположим, однако, теперь в отличие от § 26, что скорости и* и и* не просто совпадают с управляющими двумерными векторами {и}2 = {«1, Иг) и {у}г = = {oi, v2), но связаны с ними соотношениями
и* = и, cos щ . м, sin о,, ,	' . L 2	3 (69.2)
M2 = M1 Sln U3 + «2 C0S У3>
• V, = v. cos и, — v, sin «...
.	•	,	(69.3)
v2 = V{ Sin U3 + v2 cos u3,
где, следовательно, v2 и из суть углы между векторами и* и {и}2 и о* и {f/2 соответственно (рис. 69.1).. .
Трехмерный вектор и = {«ь м2,ы3} составит управление первого игрока, а трехмерный вектор v = {иь v2, v3}—управление второго игрока. Примем, что эти управления стеснены условиями
=	+	| «з | < а. < я/2,	(69.4)
=	+ <’<₽> | v31 < < к/2,	(69.5)
302
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. ХП
причем
a cos р* > Pcosa*.
(69.6)
Функционал ф (18.1), минимизируемый первым игроком и максимизируемый вторым, как и в § 26, определим как расстояние от точки хИ до начала координат х = 0, т. е.
Ф (х[t], /о < t < О) = а (х [ft]) = || х [ft] ||.	(69.7)
В соответствии с условиями теоремы 68.2 функция §(/, х), потребная для решения данной задачи, должна удовлетворять следующему соотношению:
+ f f [-^ («1cos Оз - «2 sin Оз + V. COS «з -	Sin Из)+
P Q 1
(и, sin t>3 + u2 cos t»3 + o1 sin u3 + o2 cos u3)J p (du) v (dv) = 0.
min max и V . дё дх2
Искомый минимакс, с учетом ограничений (69.4) и (69.5), будет иметь вид
4?+(₽cos а* -5 cos р.) [«)2+(^-)Т=°> (69-8) а меры n°(du) и v°(dv), которые обеспечивают этот минимакс, определяются следующими условиями. Мера y,°(du) в цилиндре
(69.4) сосредоточена в двух точках u<9 и н(2>, причем (рис. 69.2)
цР(и<")=1/2 и р° (и(2>) = 1/2,	(69.9)
„<1> —(	«	дё	а	дё 		)
~)	|<Зё/Эх| (2) _ i	а	dxt ’ дё	||дё/дх|| 	а	(69.10)
1	|Иё/<?х||	dxt ’	И дё/дх [|	• “з—» а* >. дх2	J
5 69]
ПРИМЕР
303
Мера v°(t/v) в цилиндре (69.5) сосредоточена в двух точках о(|) и у<2), причем (рис. 69.3)
•v°(v(,)) = 1/2 и v°(o<2’)== 1/2,	(69.11)
и
„(и — ) Р	.JL	Р	di	_й	I
1||5е/<Эх||	дхх ’	||<5ё/дх||	дх2	’	Р*	Г
-	-	(69.12)
,.(2)__ , Р	.	&	Р	&	g)
1 || дг/дх ||	дх\ *	||	дъ/дх ||	дх2	’	j •
(Все это при условии, что вектор-градиент [дё/дх] — = {de/dxi, дё/дх2} 0, иначе меры |x°(du) и v°(dv) могут быть любыми.)
Уравнение (69.8) надлежит интегрировать при краевом условии	।
ё(а,х) = (х2 + х2)'\	(69.13)
Однако, сравнивая (26.6), (26.10) с (69.8), (69.13), видим полное совпадение этих пар соотношений при выборе
a = acos0, и 0 = 0 cos а,.	(69.14)
Отсюда сразу получаем решение рассматриваемой теперь задачи в виде
ё (/, х) = [(х2 + х|)'/2 — (a cos 0. — 0 cos aj (О — /)]	(69.15)
в области
(х2 + x|)l/2 — (a cos 0. — 0 cos a J (О — t) > 0	(69.16)
и
ё(/, х) = 0	(69.17)
в области
(х2 + х2)'/г — (a cos 0, — 0 cos а.) (О — /) ^ 0,	(69.18)
причем в области (69.16) управляющие воздействия — меры ц0((/м|£, х) и v° (dv| t, х)—согласно (69.9) и (69.11) сосредоточены в точках «<*) и м<2> (69.10) и сК1) и у<2> (69.12), где следует положить
(Х1 \
II х II \_ X
Х2 / II X II ’
IIX Ц 1
(69.19)
Далее, учитывая совпадение при условиях (69.14) решения е(Л х) уравнения (26.6) при краевом условии (26.10) с решением ё (У, х) уравнения (69.8) при краевом условии (69.13), можно
304
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. XII
повторить для движений x[t, t0, xQ, /7°] и x[t, f0, x0, P°] с понятными изменениями все те рассуждения и наглядные картины о мостах Wt и Wt, которые были приведены в конце § 26 для движений х[/, t0, х0, t/°] и х[/, t0, х0, V0] и мостов W® и W^. Что же касается содержательной интерпретации полученных сейчас решений (69.9) — (69.12), (69.15) — (69.19) в виде вероятностных аппроксимационных схем, то их аккуратную интерпретацию отложим на будущее, а пока, следуя предварительным соображениям из § 67, скажем лишь следующее. При формировании вероятностных ломаных Эйлера хда)р, t0, х0, 0°, v[ • ]] первый игрок, оказавшись в момент / = т|1) в позиции {/, Хд(1)[И) =	М'0]} из области (69.16), должен выбрать
в качестве управления |ы)2 = (и1, и2] вектор {й0}2 = «“[т’.’ф, направленный из точки х==хд(1)[т(|>] прямо на точку х = 0 и имеющий длину || [й°}21| = б; а для выбора третьей компоненты и3 управления и он должен выполнить случайное испытание, доставляющее значения ц0) = —а* или и(2)_,а^ с вероятностями Р(ц<|) = — а.) = '/г и Р(и<2> = а,)= ‘/г, и выбрать в качестве управления й^т*.0] реализацию этого случайного испытания. При формировании вероятностных ломаных Эйлера хд(2) [Л t0, х0, Уо, -й [ • ]] второй игрок, оказавшись в момент t = т’.2) в позиции {/, хд(2) [/]} = {т<2), хд(2)[т<2)]| из области (69.16), должен выбрать в качестве управления {и}2= {и,, ц2| вектор {б°)2 =	['г/2)]>	направленный из точки х=хд(2)[т(2>] в сто-
рону, прямо противоположную направлению на точку х = 0, и имеющий длину || jv°}21| = jj; а в качестве третьей компоненты у3 управления v он должен выбрать реализацию 53 [т*2,| случайного испытания с вероятностями Р(и^ = — ₽,)= ‘/г и Р(у(2) = р.) = 1/2Ч Выбор управлений й°[т,] = й°(т., x[tz]) и й°[т1] = й°(тг, х[тг]) в области (69.17) остается произвольным. Описанный способ действий обеспечивает первому игроку-союзнику приведение точки хд(1> [О] = xA(i)[O, tQ, х0, U°, v [ • ]] в состояние
|| Хд(1> 1^>] || < ё (/0, х0) + в	(69.20)
с любым наперед выбранным 8 > 0 и любой наперед заданной вероятностью р, сколь угодно близкой к единице, если только шаг d = sup. — tW) разбиения Д<!) будет достаточно мал. При этом второй игрок-противник может действовать произвольным образом в пределах ограничений (69.5). Важно лишь, чтобы выполнялось условие стохастической независимости или хотя бы
§ 70]	ПРОГРАММНЫЕ КОНСТРУКЦИИ	305
слабой коррелированности управлений йд[/] и на малых интервалах [tV*, Точно так же, описанный способ действий обеспечивает второму игроку-союзнику приведение точки хд(2)['&] = Хд(2)['&, t0, х0, V0, й[ • ]] в состояние
*о)~е	(69.21)
с любым наперед выбранным 8 > 0 и любой наперед заданной вероятностью р, сколь угодно близкой к единице, если только шаг б == sup. — т<2)) разбиения будет достаточо мал. При этом опять важно, чтобы выполнялось условие стохастической независимости или хотя бы слабой коррелированности управлений 5дИ и U[t] на малых интервалах времени [т |2),
§ 70. Программные конструкции. В этом параграфе мы дадим краткую сводку результатов, в которые преобразуются утверждения из главы VI при переходе к программным конструкциям, отвечающим смешанным стратегиям. Относительно характера изложения здесь следует иметь в виду те же замечания, которые были сделаны в начале § 68.
Программными управлениями tv, как и в § 30, будем именовать функции т) = гр (du, dv) (tQ t < ft), значениями которых являются вероятностные меры x\t(du, dv) на Р X Q; будем предполагать, что эти функции удовлетворяют условию слабой измеримости по t, указанному в § 30. Далее, будем также рассматривать программные управления vt и цг (to^t<$)—слабо измеримые функции, значениями которых являются вероятностные меры ixt(du) и vt(dv) на Р и Q. Оказывается, что тогда и мера-произведение (см. [35*] стр. 143; [26*] стр. 27)
(du, dv) — (du) vt (dv) (tQ < t < ft) (70.1)
также будет программным управлением тр (tQ t < ft), удовлетворяющим всем нужным условиям. На доказательстве этого утверждения, которое вытекает из известных результатов теории меры [15*], мы здесь останавливаться не будем.
Программные движения определим так же, как и в § 30. Однако элементарную программу [/*, ft); V(.)}n второго игрока определим теперь несколько иначе. Именно, будем называть элементарной программой {?р.), [^, ft); v<.>} п второго игрока на полуинтервале [/#,ft) всякое множество управлений т|(.), которое может быть построено следующим образом. Пусть (dv)} (k=l, 2, ...) есть какая-либо последовательность, слабо сходящаяся к какой-то слабо измеримой*по t функ-Ции-мере V()(du). Составим множество,, складывающееся из всех
396
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. XII
пределов v\()(du, dv), отвечающих всем возможным слабо сходящимся последовательностям {т^} (& = 1, 2, ...) управлений т/*> вида
(du, dv) = pW (du) v<*> (dv) (/*</< fl). (70.2)
Из построения указанного множества выводится, что оно является выпуклым. Слабое замыкание этого множества, которое, стало быть, будет и слабо компактным в себе, мы и будем именовать элементарной программой {?](.), [£*, fl); v(.)} п второго игрока.
Заметим, что в число слабо сходящихся последовательностей {?](*)}> определяющих элементы программы, войдут все последовательности вида {ц*) • v(*>] (k = I, 2, ...), где ц*о) — какая-либо слабо измеримая по t фиксированная функция-мера p^(du). Последовательность вида {!*(*)(Л = 1, 2, ...) слабо сходится к пределу т]*} — р*} v(>), где v(o) есть как раз слабый предел для
В частности, минимальной элементарной программой !У*> А))п будем называть множество всех программных управлений (/*<^/^А) вида (70.1) при зафиксированном управлении vt(dv) и всех возможных управлениях pt(du), Это согласуется с предыдущим определением элементарной программы, ибо из известных результатов теории меры [7*] выводится, что множество всех управлений гр вида (70.1), которые получаются как слабые пределы при выборе в последовательности всех v((^ = v(>) при каком-то фиксированном управлении V/ (dv), являются множеством, слабо замкнутым.
Вспомогательные программные задачи 34.1 и 34.2 трансформируются в следующие задачи. Определим функции p(t, х) и pt(x,Mc), как и в § 34, в соответствии с равенствами (34.1) — (34.3).
Задача 70.1. Определено значение fl, при котором множество M(fl) из (34.1) непусто. Задана начальная позиция {f#, хJ (f* fl) и выбрана элементарная программа {лн, [/*, А;
Среди программных управлений )	О); v(t)}n тре-
буется найти минимизирующее управление которое удовлетворяет следующему условию:
p(fl, x(fl, С, х*, г]® )) = min р (О, х(А, хш, и Л). (70.3)
Задача 70.1 имеет решение при всяком задании начальной позиции {/*, х*} и при всяком выборе элементарной программы {т|<-),R*» А)> v()}n» ибо, как и в случае задачи 34.1, всякая эле
3 70]	ПРОГРАММНЫЕ КОНСТРУКЦИИ	307
ментарная программа {?](.), [/*, '&); V(.)}n является множеством, слабо компактным в себе.
Вторую вспомогательную программную задачу сформулируем следующим образом.
Задача 70.2. Дана начальная позиция {/*, х*} и отрезок времени [/*, О], причем множество М (О’) непусто. Требуется найти максимизирующую элементарную программу [/*, О); v^]n= = и в ней максиминное управление которое удовлетворяет следующему условию:
р(а, х(О, х„ г)(.°)))= min р(О, х(О, t„ х„ п(.))) = ’V)® {Мп
= max min р(О, х(О, t„, х,, ц,)) =» е0(/,, х„, &).	(70.4)
iWn ”(->е (Мп
Задача 70.2 также имеет решение при всяком задании начальной позиции {f*, х,} и отрезка [/», О] (при условии, что множество Af (О) непусто). Для того чтобы убедиться в этом, достаточно, подобно тому, как это сделано в § 34, взять максимизирующую последовательность минимальных элементарных программ	[/., 'O'JJh» (&=1, 2, ...)} выделить подпо-
следовательность {v((*/)} (7=1, 2, ...), слабо сходящуюся к некоторому управлению а затем убедиться, что минимальная элементарная программа {р(.) v®.( [/,, 0')}п и будет оптимальной максимизирующей программой для задачи 34.2. После этого остается только для этой программы v®e), [/,, •0)}п решить задачу 34.1. Решение этой задачи ц° и определит максиминное управление т],0 = ц® v® (f, t < О) для задачи 70.2. Итак, решение задачи 70.2 действительно существует и притом, если надо, то в форме минимальной элементарной программы (|х(.) v®(, [/„, O)jn, содержащей оптимальное максиминное управление вида =	^.t <.ty.
Минимизирующее управление из задачи 70.1, в которой выбрана минимальная элементарная программа {ц(.) V(.j, [^, O)j удовлетворяет следующему принципу минимума, который в данном случае выражает принцип максимума Л. С. Понтрягина (см. замечание в § 34).
Лемма 70.1. Минимизирующее управление f\oj = n°tvt < О) из задачи 70.1 и порожденное им программное движение х°(/) = х(/, t,, х,, t]^) при условии
р (О, х° (О)) > с	(70.5)
308
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. XII
удовлетворяют равенству
/ J" s'(t)f(t, x°(t), и, v)p°t(du)vt(dv) — р Q
= min J J s' (t)f(t, x°(t),u, v)pt (du)vt (dv) (70.6) Ц P Q
при почти всех значениях t из отрезка [/0, О].
Здесь s(t)— такое же решение уравнения вида (36.3), о каком шла речь и в лемме 36.1, с той только разницей, что теперь П? = И? • vr
Правило максимина из §37 трансформируется здесь в следующее условие. Будем говорить, что элементарная программа {т^, [/ш, О); vz)n регулярна для данной позиции {/», xj, где ё0(/», х», О) > с, если задача 70.1 для данной позиции {/*, xj при данном О и при выборе этой программы [т1(.)> К> O);v(t)] имеет единственное по существу решение r\°t (t, t < О) и значение /п°, минимизирующее величину <о в условии (34.1) при t = О и х = х°(О), также единственно.
Справедливо утверждение.
Лемма 70.2. Пусть максимизирующая элементарная программа {Л(.)>‘К> 0); vOJ из задачи 70.2 для данной позиции {/,, xj, где
ё0(/., х., О)>с,	(70.7)
регулярна. Пусть и x00(f) суть оптимальное максиминное управление и порожденное им оптимальное максиминное движение, разрешающие эту задачу. Тогда справедливо равенство
П»° = цОуО (^ </<&),	(70.8)
где ц®(</«) и v^(du) — некоторые управления, и выполняется еле-дующее условие максимина-.
/ J s'(t)f(t’ x?°(f), и> v)p°(du)v°(dv) = Р Q
= max min f f s' (t)f(t, x°°(f), u, v) ц (du) v (dv) = V 11 p Q .
= min J J s'(t)f(t, x00(/), u, v) p (du) (dv) =
“ P Q
= max j J s'(t)f(t, xw (t), u, v)itf(du)v(dv). (70.9)
V P Q
§ 71]
РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ В МОМЕНТ »
309
Здесь s — такое же решение уравнения вида (36.3), о каком шла речь в лемме 37.1, с той разницей, что теперь —
функция ё0(/,, х,, А), как и в случаях из главы VI, является функцией, непрерывной от позиции {/,, х,}. Отсюда следует, что множества = [{/, х): tQ^.t <]&, ё0(/, х, А)<^е]и $1#)+ = ==[(/, х):	ёо(/, х, А)>е] при всяком е>с суть мно-
жества замкнутые. В частности, при выборе р (t, х) = р; (х, Л1С)'4- с множества ==[{/, х): tQtА, ё0(/, х, А)^е] будем, как и в главе VI, именовать множествами программного (смешанного) е-поглощения цели Мс в момент А. Так, множество Н7(#) = [[/, х}:	ё0(/, х, А) = с] при выборе р(/, х) =
==р,(х, Ме) + с будем именовать множеством программного (смешанного) поглощения цели Мс в момент А. Очевидно, это замкнутое множество будет складываться из тех и только тех позиций (/,, х.) (/.<А), каждая из которых удовлетворяет следующему условию поглощения из нее цели Мс в момент fl'. Каково бы ни было программное управление vt (tt,^t<'&) второго игрока, найдется для него программное управление (/,	< А) первого игрока, такое, что программное движение
х (0 — х(t, t*, х,,	v(.() (f, ^/s^fl), порожденное управлением
= удовлетворит включению
{А, х (fl)] е Ме.
(70.10>
Как и выше, в главе VII, для нас основной дальнейшей задачей будет выяснение условий «-стабильности множеств, программного е-поглощения цели Мс в момент fl, а также — множеств программного е-поглощения	цели Мс к моменту fl,
которые определяются из условия	=	х]: ^o^^^flv
ёо(/, х)<8], где
ё0(/, х)— min ё0(/, х, fl),	(70.11)-
re7(i)
причем T(i) — множество значений t из отрезка [/о, А], для которых множества M(t) (или Л4Д/)) непусты. Обсуждению этих вопросов и будут посвящены следующие три параграфа.
§ 71. Регулярная игра сближения в момент А. В этом параграфе мы рассмотрим регулярный случай игры сближения; в момент А в классе смешанных стратегий О 4- p,(du\t,x) и If 4- v(do|i, х), когда, функция eo(t,x, А) (70.4) оказывается функцией, дифференцируемой в области с < ё0 (/, х, А) < с р„ и> стало быть, ее можно использовать в качестве функции ®V’ X) из теоремы 68.1. Рассмотрим игру, отвечающую задаче ‘o-l, поставленной в классе смешанных стратегий O-^-p,(du[i, х)_
310
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. XII
По аналогии с материалом из § 38 и в соответствии с материалом из предыдущего параграфа назовем эту игру регулярной в классе смешанных стратегий при выбранных с, р > 0 и о(х) = = р(Ф, х) (34.1), если для всякой позиции {t*, х#} из области с<е0(^, хш, '&)<с + р (71.1) задача 70.2 имеет единственное по существу решение — максиминное управление = и ТОчка т00, минимизирующая со(/, х, т) в (34.1) при t — х = хоо(О’), также единственна. (Заметим, что единственности оптимальной максимизирующей программы {rjH, Ф); v^Jn при этом не требуется, хотя, очевидно, в каждой такой программе управление должно быть одним и тем же.)
Как и в случае из § 38, справедливо утверждение.
Лемма 71.1. Если при выбранных значениях с и р > 0 игра* отвечающая задаче 18.1 при
а(х) = р(О, х),	(71.2)
является регулярной в классе смешанных стратегий, то в области (71.1) функция Eo(t, х, *0) (70.4) имеет непрерывные частные производные d&ddXi (i — l,...,n), d&Jdt, и эти производные в каждой позиции {£*, х*} из области (71.1) определяются равенствами
(71-3>
-^7- = —max min [ [ s'(t>, t.)f(tt, х„ и, v) ц (du) v (dv),	(71.4)
01	'	p Q
где —такое же решение дифференциального уравнения (38.5), о каком шла речь в лемме 38.1, где только следует полагать	vQt.
Составим выражение
J Х' U' = Р Q
= J J $'(#, t)f(t, х, и, v) ц (du) v (dv)— р Q
— max min s'(®, f)f(t, x, u, v)n(du)v(dv). (71.5) V 11	* v
и P Q
Из (71.3) и (71.4) немедленно вытекает, что при выполнении условия регулярности рассматриваемой игры, отвечающей за
§ 71]
РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ В МОМЕНТ О
31Г
даче 18.1 в классе смешанных стратегий, в области (71.1) функция ео(/, х, Ф) будет удовлетворять условию
( d&Q\
min max I—77-1	=0.
ц, v \ at '[I, V
(71.6>
Это означает, что функция &o(t, х, О) удовлетворяет всем условиям теоремы 68.1. Отсюда вытекает следующее утверждение.
Теорема 71.1. Пусть игра, отвечающая задаче 18.1 при выборе о(х) (71.2) и выбранных с и 0 > 0, регулярна в классе смешанных стратегий. Тогда экстремальная смешанная стратегия UQC V?(du ]/, х), заданная условием
max J J f (f, х, и, v) р° (du 1t, x) v (dv) =
v p q X
= min max J J ["^7] x> v) H (du) v (dv) (71.7> ц v p Q
в области (71.1) и продолженная любой слабо измеримой по х функцией p,Q(du\t, х) вне этой области, обеспечивает неравенство
о (х [й]) = р (О, х [О] X max (с, 80 (/о» *о, О))	(71.8}
для всякого решения х [£] = x[f, /о, Хо, t/Я
Из этой теоремы сразу вытекает следующее следствие.
Следствие 71.1. Пусть игра сближения с множеством Мс-в момент О регулярна в классе смешанных стратегий. Тогда экстремальная стратегия 0°с -ь (du 11, х), заданная условием (71.7) в области (71.1) и продолженная произвольной слабо измеримой по х функцией вне этой области, обеспечивает встреч# всех движений х[/] = х|7, /о, хо, U^\ с множеством Мс в момент О, если только 8о(/о, х0, ft) = с.
Далее из теоремы 68.2 и леммы 71.1 вытекает справедливость следующего утверждения.
Теорема 71.2. Пусть игра, отвечающая задаче 18.1 при выборе а(х) (71.2) при с = а0 = inf о (х) и с + p = a° = supo(x)>
X	X
регулярна в классе смешанных стратегий. Тогда экстремальные-смешанные стратегии 0° + ц°(du\t, х) и V°c -ь v°(du\t, х), заданные условиями (68.11) и (68.12), где надлежит полагать-ё = ё0 (/, х, О), образуют седловую точку (Wc, этой дифференциальной игры. При этом цена данной дифференциальной.
312
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. XII
игры определяется равенством
Yo = Y° — ёо (to, x0, О).	(71 .*))
§ 72. Собственно линейная система. Обратимся теперь к случаю собственно линейной системы, движение которой описывается уравнением
x = A(t)x + f(t, ut v)t	(72.1)
где A(t)— непрерывная матрица-функция, a f(t9u,v)— функция, непрерывная по всем своим аргументам. Управления и и vf как обычно, будем полагать стесненными ограничениями
ие Р, о е Q.	(72.2)
Покажем, как трансформируются результаты из § 40 при рассмотрении задачи сближения с множеством 7ИС для системы (72.1) в классе смешанных стратегий.
Как и в §'40, ограничимся случаем игры сближения с множеством Afc в момент &, когда Мс (О) — сечение этого множества — есть множество выпуклое. При этом снова будем предполагать множество Л1С(Ф) цилиндрическим в направлении осей последних (п— пг) координат фазового вектора х. Тогда опять удобно предполагать, что исходное векторное уравнение (72.1) подвернуто неособому линейному преобразованию (40.3), и в новом уравнении оставлены только первые пг координат, которые составляют новый яг-мерный фазовый вектор {х*}т (см. выше § 40). Переобозначим этот новый фазовый вектор снова буквой х, а вектор, составленный из первых яг компонент преобра^ зованного вектора f из исходного уравнения (72.1), переобозначим снова символом f(t, и, у). Тогда придем к задаче о приведем нии в момент t = О’ яг-мерной фазовой точки х, изменяющейся в соответствии с уравнением
' x = f(t, я, v)	(72.3)
на выпуклое множество {Л4С(О)} 771, заданное в яг_мерном векторном пространстве. При этом, разумеется, ограничения на и и v остаются прежними, т. е. (72.2). Будем опять предполагать множество {Л1с(О)}т ограниченным (см. § 40, стр. 161).
Построим для рассматриваемой задачи множество программного 8-поглощения Исходя прямо из условий поглощения, указанных в конце § 70, и повторяя с незначительными изменениями рассуждения из § 40 на стр. 164, придем к выводу, что позиция {/*, xj (t*	О’) содержится в1Г^} тогда и только тогда,
когда выполняется неравенство	'
max (Гх + р (t*, О, I) +	(/)) <	(72.4)
a / 11=1
§72}
СОБСТВЕННО ЛИНЕЙНАЯ СИСТЕМА
313
где о
р (t., ъ, I) = J t.
max min v |
iin J J I'f (t, u, v) p (du) v (dv) dt, (72.5) И P Q
Pai(/)= min Гх. ~х^{мс
(72.6)
• Отсюда вытекает, что величина 80(Z*, х*, ft) при &о(1^х^) с определяется равенством
ё0(С ft) = max (Гх + p(Z„ ft, Z) + Рм (0) + £•	(72.7)
и i ii=i
• Не обсуждая здесь те условия регулярности, которые получаются для данного случая собственно линейной системы (72.1) из общего случая регулярности для нелинейной системы, обратимся сразу к тем, несколько более общим условиям регулярности, которые отвечают условиям регулярности из § 41. В соответствии с этим скажем, что рассматриваемая игра сближения с.выпуклым, множеством {Afc('0i)}rn для системы. (72.3) регулярна в классе смешанных стратегий, если для всякой позиции {£*,**} (f*<ft), в которой 8o(Z*, х*, ft) > с, максимум в правой части (72.7) достигается на единственном векторе /°. В свою очередь условием этой единственности максимизирующего вектора /°. является выпукл ость по / функции
X (/„ а, I) = - [р (t„ &, I) + рм (/)].	(72.8)
Справедливо следующее утверждение.
. Лемма 72.1. Пусть игра сближения с {Мс({})}т для системы (72.3) регулярна в классе смешанных стратегий. Тогда в области 8o(t х, О’) > с (/<«) функция &0(t, х, &) .имеет непрерывные частные производные, для которых справедливы равенства
/_дЁ2_\	_ ?0
= —min max [ f Z°7(C v) p, (du) v(dv), (72.9)
1 m	V p Q
где 1° — максимизирующий вектор из условия (72.7).
Следствием леммы 72.1 и теоремы 71.1 является, таким образом, следующее утверждение.
Теорема 72.1. Пусть при всех значениях	ft] функ-
ция n(t^ ft, Z) (72.8) выпукла no Z. Тогда экстремальная
314
ЭФФЕКТИВНЫЕ МОСТЫ
(ГЛ. ХП
стратегия 0е ус (du |Z, х), определенная при ёо (/, х, О) > с условием
maxj j l°'f(t, и, v)pc (du It, x)v(dv) —
v p Q
= min max | | l°'f(t, u, v)y,(du)v(dv), u v J •/
и P Q
(72.10)
а при &o(tt, x,, O) = c— продолженная любой слабо измеримой по х функцией nc(du |Z, х), обеспечивает встречу всех движений x\t, t0, хо, £7С] системы (72.3) с множеством {Ме(&))„,, если только ё0 (t0, Хо, О) = с.
Теперь остается только вернуться от новых обозначений, которые мы использовали, преобразовав исходное уравнение (72.1) в уравнение (72.3), к первоначальным обозначениям. В этих первоначальных обозначениях величина &o(t*, х*, •&) в области eo(t„ х», О) > с будет изображаться равенством
e0(Z., О) = max[/'{X(0,Z,)xJm + p(Z„ О,/) + pM(Z)] + с,(72.11)
II111=1
где pM(Z) снова определяется равенством (72.6), а величина p(Z„ ft, I) будет теперь изображаться равенством
Р (t., О, Z) =
о
и
min max u	V * **
и Р Q
1'{Х(Ъ, t)f(t, и, v)}miL(du)v(dv) dt, (72.12)
причем символ Х($, t) обозначает фундаментальную матрицу решений однородного уравнения (41.10).
Экстремальная смешанная стратегия (7с-5-рс((/м|/, х) (72.10) в исходных переменных {/, х} будет теперь определяться в области ё0(/, х, О) > с из условия
max J J s'(О, t)f(t, и, v)[ic(du\t, x)v(dv) —
v p Q
= min max f [ s'(O, t)f(t, u, v)p.(du)v(dv), (72.13) “ V p Q
где вектор s(O, ZJ определен равенствами (41.13), (41.14), в которых лишь следует заменить вектор /° на вектор /°, максимизирующий правую часть (72.11). § *
§ 73. Стабильность для игры сближения к моменту О. В этом
параграфе мы обсудим связь программных задач 70.1 и 70.2 с позиционной игрой для случаев задачи сближения с множеством
§ 73]
СТАБИЛЬНОЕ СБЛИЖЕНИЕ К МОМЕНТУ О
315-
Л1С к моменту 0 в классе смешанных стратегий. Не останавливаясь на регулярной ситуации для такой задачи, аналогичной той, которая рассмотрена в § 42 (с учетом материала из параграфа 71 соответствующие результаты получаются здесь почти автоматической переформулировкой утверждений из § 42) г перейдем к обсуждению ситуации, аналогичной случаю из § 43. Как и в § 43, начнем со следующей вспомогательной программной задачи. Пусть <о(/, х, т) и р(^,х)— снова функции, описанные соотношениями (34.1). Множество М в условиях (34.1) будем опять полагать ограниченным и замкнутым в пространстве {t, т} и обозначим опять символом Т (/«) множество тех значений t е [/*, '0], для которых сечения М (/) непусты.
Задача 73.1. Дана позиция {/., х,| (/0«Сt$). Требуется найти минимизирующий момент т0^/(/,), максимизирующую элементарную программу {т](<), рш, т0); vJ’.J и в ней минимизирующее управление ц™, удовлетворяющие условию:
min max min р(т, х(х, t,, х., п .))==
’s!Wh)iI .)}п
= max min р(т0, х(т0, х„ ть .)) = (Мп’нНМп
= min р(т0, х(т0, i„ х„ д.,)) = Р (т0, х(т0, х„ 1$)). (73.1) V)е ->)п
В дальнейшем используются следующие обозначения: max min р(т, х(х, t, х„ п ,)) = ёп(/., х,, т), (Мп %)е (Мп k V
min ё0(/., х,, т) = ёо(/„, х,). теТЩ)
Как и задача 43.1, задача 73.1 также имеет решение. Предположим, что для всякой позиции {/., х,} (/0 < /. < О)» удовлетворяющей условию
С < ёо (/., X.) < с + Р,	(73.2)
найдется минимизирующий момент т0 такой, что во всякой максимизирующей элементарной программе^.,, [/„, т0); будет существовать лишь единственное минимизирующее управление т]®!’) и единственное значение параметра т°°, которое обеспечивает минимум (34.1) при t = то и х = х°°(т0) = х(т0,	х., тЭД.
Множество всех минимизирующих моментов то, отвечающих данной позиции {/*, х»} из области (7-3:2) и удовлетворяющих указанному условию, обозначим символом 7’(/», х»). Согласно
316
ЭФФЕКТИВНЫЕ МОСТЫ -
[ГЛ. ХП
лемме 70.2, при всяком то <= Т(t*, х») оптимальное минимизирую' .щее управление т)?° (t,^t < т0) удовлетворяет при почти всех i е [/*, т0) условию максимина
J J s'(t0, f)f (t, х°°(0, и, v)v{^(du, dv) =	/'
Р Q	'
— max min f [«'(tq, t) f (/, x°°(/), «, v) ц (du) v (dv), (73.3) v 11 PQ	:	:
где вектор-функция s(tq, t) является решением дифференциального уравнения вида (42.4), (42.6) при краевом условии (42.5). Как и в § 43, для позиции {/*, х*} из области (73.2) обозначим символом S(/*,.**, то) при Toe T(t*, х*) множество всех векторов s = s(to,t*), которые могут встретиться в условии максимина (73.3).
Условие 73.1. Будем говорить, что выполнено это условие, если для всякой позиции {/*, х»} из области (73.2) при условии t* <. то для всех то из (73.1), при всяком выборе вероятностной меры v*(dv), найдется по крайней мере один момент ro^T(i*, х*) и по крайней мере одна вероятностная мера p,(du), такие, что для всех векторов se S(/*, х#, т0) будет справедливо
| J s'ffe х»> и> (du) v,(dc»X	1 .
р Q
max mm 1 ^'f(t,, х,,и, v) p (du) v (dv). (73.4) v u i.
p Q
Как и в § 43, справедливо утверждение:
Лемма 73.1. Пусть выполнено условие 73.1 и {/*, х»} (/0 t* < &) есть позиция, удовлетворяющая условиям с < < ё0 (t*. х*) = 8 < с 4- ₽, /* < т0 для всех то из (73.1). Тогда при всяком выборе вероятностной меры v*(dv) для всякого а:> 0 найдется число1 6>0 такое, что по крайней мере одно программное движение x(t) = x(t, t*, х*, p(.>-v«) удовлетворит неравенству
ё0(/, x(t, t„ х„ P(.)V,)) в 4- а (t — О	(73.5)
при- всех.	4-6].	....	' . ..
Доказательство этой леммы, повторяющее в общих чертах доказательство леммы 43.1, мы опустим.	.
Из леммы 73.1, как и в § 43 из леммы 43.1, получаем следующие утверждения, аналогичные теореме 43.1 и следствию 43.1.
Теорема 73.1. Пусть выполнено условие.73.1. Тогда при всяком в (с 8 < с 4- 3) смешанная стратегия Ос -г Цо(7«)7, х), экстремальная к множеству йИ01 f= I{/, х}: to t 6', во (t, х) в],
§ 73]	СТАБИЛЬНОЕ СБЛИЖЕНИЕ К МОМЕНТУ «		317
гарантирует для всякого движения х[Z] = x[t, tQ, х0, £7с] выполнение условия
min p(t, х[/])<в,	(73.6)
если только ёо(/о, х0) е.
Следствие 73.1. Пусть для функции p(t,x) = pt(x, Afc) + с выполнено условие 73.1. Тогда смешанная стратегия ue-t-
pc(du\t, х), экстремальная к множеству IFt#l = [{/, х}: t0^t^ ё0(Лх)== с\ программного поглощения цели Мс к моменту О, гарантирует для всякого движения х[/] == x[t, t0, х0, Пс] встречу с множеством Мс к моменту Ф, т. е. выполнение условия
(т, х[т]} е Мс при т^Ф,	(73.7)
если только ёо(^о> х0) — с.
Наконец, в собственно линейном случае уравнения (72.1), no* лагая опять'замкнутое множество Мс цилиндрическим в направлении осей последних (п — пг) координат xjf а проекции {Mc(f)}m его сечений Mc(t) на подпространство {х]т выпуклыми и ограниченными множествами, получим следующие результаты.
Обозначим
®о(£.,*.)== m>n max |7'{Х(т, f.)xjm + т е Т (t.) II111=1 *
+ р(<», Т,/) + pM(/)4-cl= min ё0 (/., х„, т) + с, (73.8)
где величины р и рм определены равенствами (72.12) и (72.6).
Условие 73.2. Будем говорить, что выполнено это условие, если для всякой позиции {/„ х,}	c<sQ(t,, х.) <
<с + Р, f. < т0 для всех т0 из (73.8), при всяком выборе ве-роятностнрй меры v,(dv), найдется, по крайней мере один момент тое T(tJ и по крайней мере одна мера ц, (du) такие, что для в^ех.векторов s = s(x0,tt) (41.13) (41.14), где /э = /°—любой вектор из множества максимизирующих (73.8) векторов l°^L°(t„ х., т0),будет справедливо неравенство
/ /	v)p,(du)v,(dv)^.	-
р Q
'	<;maxmi.n | \ s'f(tt,.u, v)p(du)v(dv). (73.9)
•v LI J
и Р Q
Справедливо утверждение:
Теорема 73.2. Пусть выполнено условие 73.2. Тогда смешанная стратегия U.e.-^Vke(du\tf х), экстремальная к множеству х):	ёо(/, х) = с], гарантирует для всякого
318
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. Х1Г
движения x[t] = x[t, to, х0, Uc] собственно линейной системы (72.1) встречу с множеством Мс к моменту б, т. е. выполнение условия (73.7), если только ё0(А)> х0) — с.
§ 74. Стабильность для задачи об уклонении. В этом параграфе мы обсудим связь программной задачи 73.1 с позиционной игрой в смешанных стратегиях для случаев задачи об уклонении от множества Мс вплоть до момента •&. Не будем останавливаться на регулярной ситуации для задачи уклонения, аналогичной той, которая рассмотрена в § 44, а перейдем сразу к обсуждению ситуации, подобной случаю, разобранному в § 45.
Обратимся к задаче 73.1 при тех же предположениях в ее постановке, которые были сделаны в § 73, полагая еще дополнительно, что в пределах множества Г(/*), где сечения M(t) непусты, эти сечения меняются непрерывно с изменением t. Теперь, однако, мы откажемся опять от того требования из § 73, характеризующего решения (t.t^t< т0) задачи 73.1, что во всякой максимизирующей программе р„, т0); х.}п существует лишь единственное оптимальное минимизирующее управление т|У° = vnt (t, «С t < т0). Далее, как и в § 45, для каждой позиции {/», х»} (to &) из области с <Z £o(t*, х») < с 4- р, для каждого отвечающего ей минимизирующего значения то t„ и для каждого оптимального максиминного управления л™ и работающего с ним в паре минимизирующего значения т°° составим дифференциальное уравнение (42.4), (42.6) и выберем его решение s(t, то), удовлетворяющее краевому условию (42.5). Таким путем мы построим множество S(t«, х»), складывающееся из всех возможных векторов s = s(to, t), получающихся описанным сейчас способом.
Условие 74.1. Будем говорить, что выполнено это условие, если для всякой позиции (/,, x.j (to^t, <•&, с < ёо(/„ х,) < < с + р) при всяком выборе меры ц, (du) найдется по крайней мере одна мера v, (dv), для которой будет справедливо неравенство
/ /	х,> и> ^)^(du)v,(dv)^>
р Q
max min I | s'f(t*, х„, и, t>) p (du) v (dv) (74.1)-V и Jp J
при всяком выборе вектора seS(f„х#).
Справедливо утверждение:
Л е м м а 74.1. Пусть выполнено условие >74.1 и {/*, х,} — позиция из области to-^t^ft, с < ёо(^<>х#) < с + р. Тогда при
$ 74]
СТАБИЛЬНОСТЬ ДЛЯ ЗАДАЧИ ОБ УКЛОНЕНИИ
319
всяком выборе меры p.*(du) для всякого а > 0 найдется число $ > 0 такое, что по крайней мере одно программное движение x(t) = x(t, t*, х»; h*V(.j) удовлетворит оценке
ё0 (t, х (/, t„ х,; ц. vH)) > ё0 (/., х.) — a (t — /.)	(74.2)
при всех t е [/., Z, + б].
Оценка (74.2) гарантирует й-стабильность каждого множества = [{/, х):	ё0(/, х)^е]-(с < е^с + Р). От-
сюда вытекает справедливость следующего утверждения.
Теорема 74.1. Пусть выполнено условие 74.1. Тогда при всяком е (с<е^с + Р) смешанная стратегия Vc -t- vc(dv \ t, х), экстремальная к множеству = [{t,x\:	e0(t, x)^e],
гарантирует для всякого движения x[Z] = x[£, t0, х0, Vc] выполнение условия
min р(/, х[/])>е,	(74.3)
если только e0(t0, х0)^е.
В собственно линейном случае (72.1) для задачи уклонения от множества Мс при условиях на множество Мс, предваряющих условие 73.2, условие 74.1 можно трансформировать следующим образом.
Условие 74.2. Будем говорить, что выполнено это условие, если для всякой позиции (/», xj (t0 t &, с<ёо(/*, х») < <с4-Р). где величина ёо(/*, х*) определена равенством (73.8) при всяком выборе меры p*(d«), найдется по крайней мере одна мера v*(do), такая,_что для всех векторов s = s(ro, М (41.13), (41.14), где /° =/°— любой из максимирующих векторов /° из (73.8), отвечающих всем возможным минимизирующим моментам т0 из (73.8), будет справедливо неравенство
J f и, v) (du) • v. (dv) >
р Q
^minmax f f s'f (/., u, o)p (du)  v(dv). (74.4)
U	у J J
И	P Q
Справедливо утверждение:
Теорема 74.2. Пусть выполнено условие 74.2. Тогда смешанная стратегия Vc-i-vc(dv\t, х), экстремальная к множеству = [{/, х}:	ё0(/, х)>е] (c<e<c + P), гаран-
тирует для всякого движения х [Z] = х{/, /0, х0, Рс] собственно линейной системы (72.1) уклонение от множества Мс вплоть до момента &, если только ёо(/о, х0) е.
320
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. XII
* Далее, как и в § 46 для случая линейной системы (40.1), для рассматриваемого здесь случая собственно линейной системы (72.1) можно применить способ построения уклоняющего управления Ve+ve(dv |/, х) в форме смешанной стратегии обобщенного экстремального прицеливания.
При этом предполагается, что множество Мс является выпуклым и цилиндрическим в направлении оси t и осей последних п — т координат вектора х. Предполагается также выполнение следующих двух условий.
Условие 74.3. При всех t е [^, т] и т е [/о, 'в'] функция
И (<,. Т, Z) = — [р (Z„ т, I) + рМс (/)]
выпукла по' I. Здесь функция р(/», т, /) определена соотношением (72.12) при О = т.
Условие 74.4. Для всякой меры p(du)^ {ц} можно указать меру v(dv)e{v} такую, что для всех /е[/0, т] и т <= [7о, Ф] и для всех m-мерных векторов I будет справедливо неравенство J	t)f(t, и, v))mp(d«)v(ifo)>
Р Q
> min max i f Г (Х(т, t)f(t, и, v)]mp.(du) • v(dv). u e {Ц} v e {v) J J
Стратегию V(e) -ь v(e> (dv 11, x) определим соотношением
min [ f s*'(t, x)f(t, u, v)p(du)v^(dv\t, x) —
= max min f [ s’' (t, x)f(t, u, v) ц (du) v (dv).	(74.5)
V<={V}|xe{n} J '
r 4.
Здесь
»
$*(/, x) = j (e0(/, x, т) — c)~2 X' (t, t)l°*(t, x, x)dx, t
где функция eo(Z, x, x) определена, соотношением (72.11), l°*(t, x, x)— «-мерный вектор, последние (n — tn) координат которого суть нули, а первые т координат образуют вектор l°(t, х, т), доставляющий минимум в (72.11) при О — х. Отметим, что стратегия v<c)(du|Z, х) определена соотношением (•74.5) лишь в области G = [(/, х): min s0(t, х, х) > с], вне области G v<e)(da|Z, х) — любая слабо измеримая по х функция. Справедливо следующее утверждение.
Теорема 74.3. Пусть выполняются условие 74.3 и условие 1^А. Тогда смешанная стратегия A-v^(dv\t, х) (74.5)
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
321
§ 75]
обеспечивает уклонение всех движений х [/] — х [/, /0, Хо, Р(е)] от множества Мс на промежутке [to, ft], если только min ё0(/0, Хо, т) > с.
§ 75. Априори стабильные мосты. В этом параграфе мы приведем сводку результатов, в которые преобразуются утверждения'из главы VIII при переходе к смешанным стратегиям. Стабильная дорожка {t, х = w(t)} (to^t^ft) для первого игрока строится здесь как решение дифференциального уравнения в контингенциях
	x(=H(t, х),	(75.1)
где	Я (t, х) = П (t, х, v),	(75.2)
причем SF\U	v) = со	[f} 1 f = J f (t, x, u, v) v (dv), и s Pl, (75.3) Q	J
так как всякое решение x = w(t) уравнения (75.1) уже по самому способу построения этого уравнения априори образует й-стабильную дорожку. Стабильная дорожка {/, x = w(t)} (to^t ft) для второго игрока определяется решением дифференциального уравнения в контингенциях
	X E G (t, x), -	(75.4)
где	5 (t, x) = f"|	(t, X, p),	(75.5)
причем	P-	
x, ц) = co	{Fl : F = j* f (t, x, u, v)n(du), не Q p	, (75.6)
так как всякое решение x — w(t) уравнения (75.4) уже по построению этого уравнения образует й-стабильную дорожку.
Таким образом, как и в § 48, приходим к следующим утверждениям.
Теорема 75.1 Пусть множества R(t,x) (75.2) непусты для всякой позиции {/, х} из некоторой области D в пространстве К х} и пусть существует по крайней мере одно абсолютно непрерывное решение x=w(t) (to t &) дифференциального уравнения в контингенциях (75.1), проходящее в области D и удовлетворяющее условиям
w(to) = Xo, {t,w(t)}^Nc при t0<t^ft,
{О, w (&)} е Мс.	(75,7)
11 Н. Н. Красовский, А. И, Субботин
322
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. ХП
Тогда смешанная стратегия Ос-+- [ic(du\t, х), экстремальная к дорожке fi? = [{/, х}: tQ t О, х = й>(/)], обеспечивает перемещение всех позиций {/, х [/, tQ, х0, Ос]} по этой дорожке вплоть до встречи с Мс в момент О, как бы ни действовал второй игрок.
Теорема 75.2. Пусть множества G(t,x) (75.4) непусты для всякой позиции {/, х} из некоторой области D в пространстве {/, х} и пусть существует по крайней мере одно абсолютно непрерывное решение х = w(t) (t0 t О) дифференциального уравнения в контингенциях (7ЪА), проходящее в области D, удовлетворяющее начальному условию w(to) = Xo и не встречающееся с множеством Мс при t <Cft до выхода из Nc. Тогда смешанная стратегия Рс 4- vc(dv|/, х), экстремальная к дорожке W = [{/, х}: tQ t ft, х — £>(£)], обеспечивает перемещение по ней всех позиций {t, x[t, to, Хо, Гс]} и, таким образом, исключает встречу с Мс вплоть до момента ft, как бы ни действовал первый игрок.
Аналитическое описание множеств H(t,x) (75.2) и G(t, х) (75.5) определяется следующими условиями.
Лемма 75.1. Вектор h тогда и только тогда принадлежит к множеству H(t,x), когда он удовлетворяет условию
max max min f [ l'f(t, x, u, a) p (du) v (dv) — l'h 0.	(75.8)
iun=i[ v 11 p q	J
Вектор g тогда и только тогда принадлежит к множеству G(t, х), когда он удовлетворяет условию
max max min I* f l'f (t, x, u, v) p (du)v (dv) —	(75.9)
II /11=1	v p л
Далее, как и в § 49, справедливы следующие утверждения.
Лемма 75.2. Пусть множество G(t, х) (75.5) непусто и функция
й(/, х, l) = — max min f f l'f(t, x, u, v) p (du) v (dv) (75.10) » v P Q
выпукла no l. Тогда пересечение G(t,x) с любым из множеств ^u(t,x,v) (75.3) непусто.
Пусть множество H(t,x) (75.2) непусто и функция
й (t, х, I) — — max min f (* l'f (t, x, u, v) p (du) v (dv) (75.11)
V U J J и P Q
выпукла no l. Тогда пересечение H(t, x) с любым из множеств &„ (t, x, ц) (75.6) непусто.
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
323
§ 75]
Пусть для некоторой открытой области D, содержащей {/о, хо} и множество Ne, функция H{t,x,l) (75.10) выпукла по I. Рассмотрим пучок SB {t0, х0, D, Мс) решений x(t, t0, х0) уравнения (75.4) (см. § 49, стр. 214) (волна в обозначении этого пучка отмечает, что этот пучок будет использован при решении игровой задачи в классе смешанных стратегий). На базе этого пучка определим множество (см. § 49, стр. 215); тогда из леммы 75.2 вытекает, что это множество будет й-с т а б и л ь н ы м. Аналогичным образом можно утверждать, что множество W%, порожденное пучком ^ = ^(t0, х0, D, <ВН) решений x{t, to, х0) уравнения (75.1), будет и-стабильным (здесь D — некоторая открытая область, которая содержит {/0, х0} и Nc и в которой функция ic{t,x,l) (75.11) выпукла по I, <ВН—граница некоторой окрестности H{NC) множества Nc). Отсюда, как и в § 49, но теперь уже опираясь на теоремы из главы XI, получаем, например, следующие утверждения.
Теорема 75.3. Пусть для всех позиций {/, х} из некоторой открытой области D, содержащей Nc, выполнено первое условие леммы 75.2 и {to, х0} е D. Если при этом существует решение x = w{t,t0,x0) уравнения (75.4), для которого позиция {£, w(t, to, х0)} минует Мс до выхода из Nc или вплоть до момента &, то смешанная стратегия Рс ~ vc(dv\t, х), экстремальная к дорожке {Z, х = w{t, to, х0)} (t0 t &), гарантирует для всех движений x[t, t0., Xq, Гс] уклонение позиций {t, x[t, t0, х0, Vc]} от Mc до выхода из Nc или вплоть до момента &. В противном случае смешанная стратегия Ue-i- p,c{du\t, х), экстремальная к множеству W%, порожденному пучком SB (t0, х9, D, Мс) решений уравнения (75.4), гарантирует сближение с Мс к моменту времени &.
Теорема 75.4. Пусть для всех позиций (#, х} из некоторой открытой области D, содержащей множество Nc, выполнено второе условие леммы 75.2 и {/0, х0] е D. Если при этом существует решение x=w(t, t0, х0) уравнения (75.1), для которого позиция {/, w{t, t0, Хо)) встречается с Мс при t — x^.®, не выходя до встречи с Мс из Nc, то смешанная стратегия Uс Нс {du 11, х), экстремальная к дорожке {/, х = w{t, t0, х0)} (^о^^^’О'), гарантирует для всех движений х[Л t0, х0, 0с] встречу позиций {/, х[/]} с Мс к моменту t = ft. В противном случае существуют открытые окрестности G {Мс) и Н (Nc) такие, что смешанная стратегия Ус 4- vc(dv |/, х), экстремальная к множеству №%, порожденному пучком $В = 8В(^, х0, D, <ВН) решений уравнения (75.1), гарантирует уклонение от G(MC) до выхода из Н {Nc) или вплоть до момента времени Ф.
324
ЭФФЕКТИВНЫЕ МОСТЫ
(ГЛ. XII
§ 76. Программные конструкции априори стабильных мостов. Обсудим теперь совсем кратко построение априори стабильных мостов для случая смешанных стратегий на основе программных конструкций, подобным тем, какие были рассмотрены в § 50. Построение соответствующих интегральных многообразий будет теперь несколько отличаться от построений из § 50. Будем в этом параграфе называть программой первого игрока функцию	v)}, которая всякой паре {/,v (da)} ставит в со-
ответствие некоторое множество мер p,(du\t,v). Далее, для выбранной начальной позиции {/*, х*}, имея программу {ц (du | /, v)} и какую-нибудь реализацию v[.](dv) = (dv) (/*^/^'0’) программного управления второго игрока, мы можем построить ломаные. Эйлера хд[£] == хд[/,	х*,	v), vN] как решения
следующего дифференциального уравнения:
*д И = J J f (Л *д ПК и, О) ц (du I тр	(dv) (76.1)
Р Q	1
(тг</< r/+I).
Пусть D — некоторая открытая область в пространстве {/, х}, содержащая Nc. Рассмотрим пучки х„, D, Мс, V}]) движений х[/,(,, х„ отвечающих выбранной программе (Н{/, V}} и продолженных до первого выхода позиции {?, х[ф на Мс или из D. Тогда множество W&, порожденное таким пучком, будет й-стабильным.
Программой второго игрока будем называть в этом параграфе функцию {v(do|f, ц)}, которая всякой паре (/, p(d«)) ставит в соответствие некоторое множество мер v{t(lj(dt>). Для выбранной начальной позиции {/*, х„), имея программу {v{(> (dt»)} и какую-нибудь реализацию p,[t](du) = (du) (/,^/^6) программного управления первого игрока, мы можем построить ломаные Эйлера хд [f] — хд [/, х/, v{. g), p(.j] (x[£j = x.) как решения следующего дифференциального уравнения:
*дШ = J / f(t, хд[Ц, и, v)n[b](du)v(dv\r{,	(76.2)
Множество W^, порожденное пучком 36 = 33 (t., х,, D, Мс, н)}) Движений х[^>	х.> v{.,u}]> будет о-стабильным.
Теперь можно рассмотреть вспомогательные задачи, подобные задачам 50.1 и 50.2.
Задача 76.1. Даны позиция (/,, х.), момент О'> и функции со (/, х, т) и p(t х) (34.1), удовлетворяющие условиям, ука-
ПРОГРАММНЫЕ КОНСТРУКЦИИ
325
§ 76]
данным в § 34. Требуется найти величину
ё<*> (t., х.) = min { mf max р (т, х (т, t„ х., {р{.( v)})).	(76.3)
Задача 76.2. Даны позиция {/*, xj, момент Ф >/* и функции <о(Л х> т) и х) (34.1). Требуется найти величину
е(2) (С xj= sup minminp(r, х(т, х* {vf. Л)).	(76.4)
Мы не обсуждаем здесь вопрос о существовании минимизирующей программы {м^, у}) или максимизирующей программы {v^f|l}} Для задач 76.1 и 76.2 соответственно, так как можем построить нужное оптимальное интегральное многообразие следующим образом. Пусть {ptk)(du\t, v)} (fe=l, 2, ...) — минимизирующая последовательность для задачи 76.1, a {v{k}(dv\t, р)} (6=1, 2, ...) — максимизирующая последовательность для задачи 76.2. Тогда будем рассматривать пучки хж, D, МС9 ц), 9S (tt, x,f D, Ме, v), которые складываются из всех возможных пределов для равномерно сходящихся подпоследовательностей х К, х., Ц(.%У], х[л х„ {v<*/>}}] соответственно. Множества W& порожденные пучками & (t„ х„, D, Мс, р) и х„ D, Мс, v), являются соответственно «-стабильными и «-стабильными.
Справедливы следующие утверждения, которые являются прямым следствием «-стабильности и «-стабильности этих множеств W%.
Теорема 76.1. Пусть р (/, х) = pz (х, Мс) + с, для данного *& > tQ справедливо неравенство ё(|) (/0, х0) с и среди решений задачи 76.1 для (<0, х0} имеется такое, представляемое пучком 36 (t0, D, Мс, р)°, для которого все множество W% лежит в Nc. Тогда смешанная стратегия Uc + p.c(du\t, х), экстремальная к этому й-стабильному множеству Wg,, обеспечивает встречу всех движений x\t, t0, х0, Д] с Мс к моменту &.
Теорема 76.2. Пусть р (/, х) = р, (х, Мс) + с и для начальной позиции {/0, х0) при некотором значении О > 4 решение задачи 76.2 дает ё(2)(/0, х0) = 8 > с. Тогда смешанная стратегия Vc 4- Vе (dv | Л х), экстремальная к v-стабильному множеству W%, порожденному пучком 36 (t0, х0, D, Мс, v)°, который отвечает решению задачи 76.2, обеспечивает уклонение всех движений ЛР> ^о> х0, Vc] от Мс вплоть до момента &.
Обсудим в заключение этого параграфа связь между построением интегральных «-стабильных и «-стабильных множеств
326
ЭФФЕКТИВНЫЕ МОСТЫ
[ГЛ. Х[Г
на базе решений x(t,to, х0) дифференциальных уравнений в контингенциях (75.1) и (75.4) с построением интегральных «-стабильных и й-стабильных множеств, которые порождаются пучками <&, отвечающими решениям задач 76.1 и 76.2. Эту связь можно пояснить, например, на следующей ситуации. Пусть вектор-функция f(t, х, u,v) в правой части уравнения движения (2.1) имеет вид
f [t, х, и, v) = f<’> (t, х) +	(t, и, v).	(76.5>
Предположим, что для некоторой функции р(/, х) выполнены следующие условия. Множество H(t, х) = f<l)(t, х) -[- R(t),
H(t)=[\^a(t,v),	(76.6>
V
(A v) = со pF) : F — j f(2) (А и> р)' v(dt>), и е Р L Q
(76.7>
при всех АХХО, непусто; функция х(/, х, I) (75.11) выпукла, по I, по'крайней мере для одного решения х = w (t, t0, х0)> уравнения (75.1) позиция {/, w (/)} встречается при/ = т^<Ь
с множеством
МСа = [{/, х} :АХХ^> Р(А х)<со1,	(76.8>
и притом ни.одно из движений х = х(/) из того же пучка при АХ^^Ф не встречается с множеством
Afc=»[{A х}	р(А	(76.9}
при с < с0. Тогда величина ё(2) (t0, х0), доставляющая решение задачи 76.2 для позиции {/0, х0) при данном выборе О и функции р(А х), удовлетворяет равенству
ё(2) (t0, х0) = с0.
(76.10>
В самом деле, величина ё(2> (t0, х0) (76.4) не может быть больше, чем величина cQ. Если бы выполнялось неравенство’ ё<2) (t0, Хо) > Со, то смешанная стратегия Vе 4- ve (dv |/, х), экстремальная к множеству Wg,, построенному на базе решения задачи 76.2, обеспечивала бы уклонение всех движений x[t, t0„ х0, Vе] от множества Мс (76.9) при АХ и при ё(2) (t0, х0)= — с > с0. Но это невозможно, так как при перечисленных выше условиях смешанная стратегия 4- ne(du |/, х), экстремальная к й-стабильной дорожке {/, x = w(t)} (АХ^^^Ь обеспечила бы для всех движений x[t, t0, х0, Vе] встречу при с множеством МСл (76.8), где с0 < ё(2) (t0, х0). Итак, ё(2) (t0, хоХсо-Теперь мы можем построить некоторую программу {v(dv |/, р.))
76]	ПРОГРАММНЫЕ КОНСТРУКЦИИ	327
•следующим образом. Задаваясь каким-нибудь моментом 0] и какой-нибудь мерой ц(с1м), поставим им в соответствие все возможные меры v(dv), удовлетворяющие условию
j j p(t, и, v)n(du)v(dv) = f^	(76.11)
р Q
При наших условиях согласно материалу этого параграфа при всяком Ф] и всякой мере p(du) найдется по крайней мере одна мера v(dv)9 удовлетворяющая условию (76.11).
Множества всех таких мер v(dv) и составят нужную нам программу {v(dv\t9 р)}. Можно проверить, что пучок складывающийся из движений x\t9 tQ9 x0, {v{< будет содержать только решения х(/,£0, х0) уравнения (75.1). Но отсюда по выбору числа с0 следует, что справедливо неравенство
minminp(r, x\t9 xQ, {V{/. И}}]) minminp(r, x(t, Zo, x0)) = c0.
Вследствие неравенства ё(2)(/о, x0) c0 неравенство (76.12) означает, что ё<2)(/о, х0) = Со и, более того, построенная нами программа	второго игрока является в данном случае
максимизирующей программой для задачи 76.2. Далее, величина е(1)(/о, Хо), доставляющая решение задачи 76.1 для позиции {^о, Хо} при данном выборе 6* и функции р(^,х), также удовлетворяет равенству
/ е^Ц/о, х0) = с0.	(76.13)
В самом деле, величина ё(1)(/0, х0) (76.3) не может быть меньше, чем величина с0. Если бы выполнялось неравенство ^н(^о,Хо)< со, то смешанная стратегия Vе 4- ре (du |/, х), экстремальная к множеству W&9 построенному на базе решения задачи 76.1, обеспечивала бы сближение всех движений х[/,	х0, 0е] с множеством Мс при с =ё6)(/0) %0) < с0 в какой-
то момент t = то < Но это невозможно, так как при перечисленных выше условиях смешанная стратегия Ve~ve(dv\t9 х)9 экстремальная к и-стабильному множеству W&, порожденному лучком решений уравнения (75.1), обеспечила бы для всех движений х [t /о, х0, Vе] уклонение при /о t 'б от каждого множества Мс при всех с < с0. Итак, с0	х0). Будем пола-
гать, что функция w(t) имеет кусочно непрерывную производную w(t). Тогда мы можем построить некоторую программу (и(cZu | Z, х)} следующим образом. Зададимся каким-нибудь моментом '&] и какой-нибудь мерой v(dv) и поставим им в
328
ЭФФЕКТИВНЫЕ МОСТЫ
(ГЛ. ХП
соответствие все возможные меры n(du), удовлетворяющие условию
[ j f(t, w(t), и, v) ц (du) v (dv) — f — w(t).	(76.14)
p Q
При наших условиях при всяком t е [/о, и всякой мере v(dv) найдется по крайней мере одна мера fi(du), удовлетворяющая условию (76.14). Множества всех таких мер fi(du) и составляет нужную нам программу p(d«|/,x). Можно проверить, что пучок 3?, складывающийся из движений t0, xQ, {ftp убудет совпадать с движением х = w(t). Но отсюда по выбору числа с0 следует, что справедливо равенство
max р(т0, х[т0, t0, xv {и{., v})]) = Р(т0. ™(т0)) = сй, (76.15)
Я [•]
где to ft— момент встречи позиции {t, w(t)} с множеством Л4С. Но неравенство (76.15) вместе с условием в^^/о, х0) с0 означает, что е№(1о,хо) = Со. Более того, построенная нами программа	первого игрока является в данном случае ми-
нимизирующей программой для задачи 76.1,
Глава XIII
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
§ 77. Стохастическое управление с поводырем. В этой главе рассматриваются вероятностные процедуры управления и порожденные ими случайные движения, которые аппроксимируют решения дифференциальных игр, найденные в главах XI и XII в рамках идеальных движений x[t,t^x^O\ и х [t, to, х0, Эти стохастические процедуры управления раскрывают, таким образом, содержательный смысл результатов из глав XI и XII.
Как отмечалось выше (см. § 67), важным условием, при котором возможна содержательная аппроксимация решений, полученных в классе смешанных стратегий, является предположение о взаимно независимом либо слабо коррелированном выборе случайных управлений игроков на малых интервалах времени. Напомним, что в § 67 это предположение о независимости элементарных актов управления в условиях теорем 67.1— 67.3 было принято в качестве постулата. Там же в форме эвристического соображения указывалось, что реальной предпосылкой этого предположения может служить наличие помех в измерении текущей позиции игры^В этой главе будем исходить из предположения о наличии информационных помех и покажем, что из этого предположения уже в рамках формальных понятий теории вероятностей выводится нужное свойство слабой коррелированное™ случайных управлений игроков. В данном и последующих параграфах рассматривается стохастическое управление с поводырем, аппроксимирующее в общем случае решения задачи о сближении 64.1 и задачи об уклонении 64.2.
Итак, перейдем к описанию стохастического управления с поводырем, которое составляет предмет этого параграфа. Начнем для определенности с построения управления с поводырем Для первого игрока-союзника в задаче 64.1 о сближении. Обозначим через [х° = [kQ(du\tt х, ш) и v* = v*(dv 1t, х, ад) функции, которые позиции {/, х} и вектору ад ставят в соответствие меры iiQ(du\t, х, ад)^ {ц} и v* = v*(dv\t, х, ад) е {v}, удовлетворяющие
330
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. ХИГ
условиям
min max f I (x— w)'f(t9 x9 u9 v) ц (du) v (dv) =
|X e {ц} V e {v) £ J
— max f I (x— w)' f (t9 x9 u, v)iiQ(du\t9 x, w)v(dv)9 (77.1> Q
max min | | (x — w)' f (t9 x9 u9 v) ц (du) v (dv) =
V€={V}	*
= min I I (x — w/f(t9 x9 u9 v) p (du) v (dv \t9 x9 w).	(77.2>
Предположим, что в соответствии с материалом из глав XI—XII для рассматриваемой задачи о сближении найден й-стабиль-ный мост W® с: Nc, обрывающийся к моменту t = О на множестве Мс. Выберем некоторую систему Д полуинтервалов [т;, Тг+i) (i = 0, 1, ...), покрывающих отрезок [/0, 'О’].
На первом полуинтервале [то, ti) выбор управлений первого игрока определим следующим образом... Пусть {/0, w0}—некоторая точка из множества IFn, ближайшая к точке {/о, xj)^ где Xq— результат неточного измерения первым игроком фазового вектора х в начальный момент времени. Обозначим через-цо(^) значение функции ц0 = ix0(du\t9x9 w)9 которое она принимает при t — t09 x = Xq9 w = Wq. Полагая, что вероятностное распределение случайных векторов uQ^P задается мерой ц0>. осуществим испытание по выбору случайного вектора й0. Получившаяся реализация й0 этого случайного вектора и$ выбирается в качестве постоянного управления первого игрока на участке tQ t < ть т. е. движение хд[/] при п) задается уравнением
*д И = f (Л Хд [* 1. «О’ v [И) (Хд ро] = х0),	(77,3>
где	— некоторая измеримая реализация управления
второго игрока; она может выбираться детерминированным образом или формироваться некоторым стохастическим способом. О построении этой реализации v [/] вторым игроком речь пойдет ниже. Отметим также, что тильда в обозначении движений хд|7] введена для того, чтобы отличать эти случайные движения от детерминированных ломаных Эйлера хд|7] = = Хд [/, /о, хо, О, v[•]], определенных в главе XI.
Итак, движение ХдИ рассматриваемой конфликтно управ-* ляемой системы определено на первом полуинтервале [/0, п). Одновременно с реализующимися на деле движениями хд[0 будем моделировать в системе управления первого игрока дви-
§ 771
СТОХАСТИЧЕСКОЕ УПРАВЛЕНИЕ С ПОВОДЫРЕМ
331
жжение поводыря w&(t). На первом участке [/о, ?i) движение ws(t) определяется следующим образом. Полагая vj(du) = = v*(dv\t, х, и») при t = t0, х = Xq,w = wq, рассмотрим уравнение в контингенциях
й>д (0 е= (Л №д (/), vj), w (Q = wv
9~и G» v) = Со
f: f — j f (/, w, и, V) v (dv), u<= P Q
(77.4)
Среди решений уравнения (77.4) выделим то, которое удовлетворяет условию
{/, й>д(/)}ее1^ при	(77.5)
где т = Ti, если точка {/, w^(t)} при to t п не попадала на Мс\ в противном случае т — момент времени, когда впервые выполняется условие {t,	(/)} е Мс. Существование такого ре-
шения w&(t) вытекает из условия {/о, $о} №йй свойства «-стабильности моста 1Гй. Указанное решение w^(t) возьмем в качестве движения поводыря на отрезке (70, tJ.
Рассмотрим /теперь построение движений хд|7] и w&(t) на участке [тг-, тг+1] (i = Ь 2, ...). Выделим некоторую реализацию случайного движения хд [/]; пусть ей отвечает реализация дижения поводыря w&(t), которая формировалась одновременно с реализацией этого движения хд[(|. Предположим, что при /е[/0) точка {t, w^(t)} не попадала на множество Л4С, причем построение движения w\(t) на предыдущих участках {tj, Tj-f-i] (/ = 0, 1, ..., f) обеспечило выполнение условия
(77.6)
Для построения движения Хд[/] при ti t r,+i осуществим испытание по выбору случайного вектора ц, с= Р, полагая, что вероятностное распределение случайных векторов Hi задается мерой ц° (du) = (du 11, х, w) при t = х{, х = хд [tJ, w — wд (rf), где %д[т.]— результат неточного измерения Первым игроком фазового вектора хд[т{], реализовавшегося в момент t=X{. Получившаяся реализация й, случайного вектора ы» выбирается в качестве управления первого игрока на полуинтервале [ti, ti+i), т. е. движение хдИ описывается уравнением
*д[И = /(Л *Д[Н, «р »[/])	(77.7)
где v [/] Q — по-прежнему некоторая измеримая реализация управления второго игрока, которая формируется либо детерминированным, либо стохастическим образом.
332
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
Движение поводыря на промежутке [тьТг-м] определим как решение уравнения в контингенциях
й-д W е	(0. vj) (т, < t < TZ+I), (77.8)
удовлетворяющее условию
{/, wд (/)} €= W* при т. < t < т,	(77.9)
где т — Tt-+1, если точка {/, Фд(/)} не попадает на Мс при t^[xh т/ + 1]; в противном случае т — момент времени, когда впервые выполняется включение {/, шд(/)}^7Ис. В уравнении (77.8) vt — значение функции v* — v*(dv\t9 х, w), которое она принимает при /==тр х = хд[т;], до = шд(т.). Существование нужного движения шд(0 (т. *О^т/+1) вытекает из свойства й-стабильности множества IF? и условия (77.6).
Указанная процедура формирования реализаций случайных движений %д[/] и соответствующих им реализаций движений поводыря йд(/) осуществляется в каждом случае до тех пор, пока точка {/, йд(/)} не попадет на множество Мс.
Как и выше в § 57, здесь надлежит отметить следующее обстоятельство. Движение поводыря йд(0, которое является решением уравнения (77.8) при т; t < Ti+i (i = 0, 1, ...),для более конструктивного его описания удобно представить как решение уравнения
“’д(0 = { J f(t, й>д(0, «, v)iiW(du) v*{(dv),	(77.10)
р Q
где (du)(r{ t < тг+1) — некоторая слабо измеримая функция. При этом здесь важно подчеркнуть, что выбор мер y,°(du\t, х, аг»),	|
v*(du\t, x,w) из условий (77.1) и (77.2) может быть выполнен так, что будет обеспечена слабая измеримость функций H°(du\t,x,w), v*(dv|f, х, w) по х и w (см. выше замечания в конце § 65). Кроме этого, движения й»д(?) можно выбирать так, чтобы величина й»д(т,+1), как функция от параметров х = — хд[тг] и w = й»д(тг), была измерима. Это утверждение, которое позволяет определить в принципе вероятности рассматриваемых ниже случайных событий в рамках стандартных понятий, мы примем здесь без доказательства. Отметим только, что доказательство опирается снова на слабую полунепрерывность сверху по включению соответствующих множеств по изменению пары {х, w} со ссылкой опять на результаты из ([20*], стр. 603).
Поясним содержание предложенного стохастического способа управления. Движения поводыря, которые моделируются в системе управления первого игрока, остаются каждое на й-ста-
§ 77]	СТОХАСТИЧЕСКОЕ УПРАВЛЕНИЕ С ПОВОДЫРЕМ	333
бильном мосту IFa вплоть до встречи с множеством Мс. Смешанные управления (dv) в уравнении (77.8) и случайные управления щ е Р в системе (77.7) выбираются первым игроком так, чтобы движения шд(/) и хд[/] взаимно отслеживались, т. е. мера v\(dv) выбирается из условия максимального сдвига движения йд(т.) (т.	в направлении на точку хд [т*]
(см. (77.2)); мерац? (du), которая задает вероятностное распределение случайных управлений u[t] = Ui (тг-< тг+1), выбирается так, чтобы обеспечить максимальное значение математическому ожиданию случайного сдвига движения [/] в направлении на точку	Ниже, после уточнения некоторых
деталей, будет показано, что при условии {/0> *о}	при
разбиении отрезка [/о, 'О’] достаточно малыми полуинтервалами [тг, Тг+1) и при достаточно малых помехах Дхд [tJ —х\ [т.]— —указанная процедура обеспечиваетсохранёние случайных движений Хд[/] вблизи соответствующих движений поводыря ws(t) с вероятностью, сколь угодно близкой к единице. Таким образом, стохастическое управление с поводырем может гарантировать 8-сближение с множеством Мс внутри 8-окрестности множества Nc с вероятностью, сколь угодно близкой к единице.
Приведем теперь соотношения, которые определяют стохастическое управление с поводырем для второго игрока-союзника в задаче об уклонении 64.2. Отличие приведенных ниже соотношений от соответствующих им соотношений (77.1), (77.2), (77.7) — (77.9) состоит в основном лишь в перестановке местами букв и и v. Итак, условиям (77.1), (77.2), задающим функции [i^(du\t, х, w) и v*(dv\t,x, w) в стохастической процедуре управления первого игрока, теперь отвечают соотношения
min max f f (x — w)'f(t, x,u, v) p (du) v (dv) — ve{v} |AS{|A} J J
= max [ I (x — w)'f(t, x, u, v)^(du)v^(du\t, x, w)» (77.11) £
max min | | (x — w)' f(t, x, u, v) p, (du) v (dv) — lASftl) VG={V}^ J
== min [ [ (x — w)'f(t, x, u, v)yL*(dii\t, x, w)v(dv), (77.12)
которые определяют функции vQ(dv\t, x, w) и \T(du\t, x, w)9 задающие движения хд[/] и w^(t) в реальной системе и в
334
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
модели соответственно. Случайные движения хд[/] теперь описываются уравнением
=	«Ш, б.)	(тг<^<т/+1),	(77.13)
где вероятностное распределение случайных векторов Vi^Q задается мерой v? (dv) = v° (dv 1t, x, w) при t = т., x = x\ [t.], w = й)д(т.). Соответствующее движение поводыря определяется как решение уравнения в контингенциях:
й>д(0е#-о(Л Фд(0, И;)	(гг</<тж),	(77.14)
удовлетворяющее условию
{Л wд(/)}<= W? при тг</<т,
где IFs — некоторый б-стабильный мост в задаче об уклонении; т = т,+1, если при t е [тг, т;+1] точка {/, й»д(0} остается в выбранной окрестности H(NC) множества Nc; в противном случае т — момент времени, когда впервые точка {/, й»д(/)} выходит на границу H(NC)-, ц* (du) = ц* (du 11, х, w) при < = т,-, х = хд[т;], да = й)д(т;). Наконец, более конструктивное, чем (77.14), описание нужного движения w^(t) (т/^/<Т£+1) определяет его как решение уравнения
®д(0 = / / f(t, w^(t), и, v)n'((du) v^(dv),	(77.15)
р Q
где yW(dv) (x.^t < т/+1) есть подходящая функция.
§ 78. Альтернатива для стохастических позиционных управлений. Продолжим рассмотрение стохастического управления с поводырем. В этом и в следующем параграфах будет доказано, что это управление при определенных предположениях доставляет корректное аппроксимационное решение игры сближения— уклонения в классе смешанных стратегий. Дополним сначала предварительные соображения из § 67 следующими предположениями.
Примем, что реализующийся в процессе игры фазовый вектор системы [/] измеряется каждым из игроков неточно, причем примем сначала для определенности, что результаты этого неточного измерения суть случайные величины	равно-
мерно распределенные в сфере радиуса £г- (Z = 1, 2) с центром в точке Хд [£], где ХдИ — реализовавшееся на деле значение фазового вектора системы, £1(£г)—оценка погрешности измерения для первого (второго) игрока. (Выбор равномерного рас
§ 78]	АЛЬТЕРНАТИВА ДЛЯ СТОХАСТИЧЕСКИХ УПРАВЛЕНИЙ	335
пределения Хд [П(0 вокруг хд[/] не является обязательным. Как будет видно из дальнейшего, это распределение можно заменить каким-либо другим, не слишком вырожденным распределением, подходящий параметр которого £ будет тогда играть роль радиуса £ равномерного распределения.)
При рассмотрении стохастического управления с поводырем первого (второго) игрока-союзника будем сначала полагать, что его противник — второй (первый) игрок — использует стохастическую процедуру, отвечающую некоторой позиционной смешанной стратегии V v(dv\t,x) (О 4- [i(du\t, х)) в соответствии с описанием таких процедур из § 77. Обсуждение случая, когда оба игрока придерживаются некоторых стохастических процедур с поводырями, приведено ниже (см. § 79, стр. 347).
Рассматриваемые в дальнейшем функции p°==p,°(du|/, х, ш) и v* = v*(dv\t,x,w) или функции v° = vQ(dv |/, х, w), р* = = p*(du|f, х, до), которые задают вероятностные распределения в стохастической процедуре управления с поводырем, а также функции ц = ц(б/и|/, х) и у = v(dv\t, х), которые могут использоваться игроком-противником в качестве закона вероятностного распределения случайных управлений, отвечающих той или иной смешанной стратегии О или Р, в соответствии с на-* шей формализацией дифференциальной игры в смешанных стратегиях предполагаются слабо измеримыми похиш. Предполагается также, что выбранная процедура с поводырем такова, что	как функции параметров х = Хд[т.], w —
= ^д(т0 измеримы (см. выше § 77, стр. 332).
Наконец, будем предполагать выполнение следующих соот-* ношений:
sup. (^1 - ^’) < « suPi (*П1 - T<i2)) < “	(78.1)
Здесь и т(2) (/ = 0, 1, ...) — моменты времени, в которые выбираются случайные управления первого и второго игроков соответственно, а > 0— некоторая достаточно малая постоянная. Смысл условия (78.1) состоит в том, что каждый из игроков имеет возможность выбора настолько мелких разбиений Д оси времени t на промежутки постоянства его случайных управлений, что он может сделать эти промежутки достаточно малыми по сравнению с оценкой погрешности измерений противника.
Таковы предположения, при которых будут рассматриваться далее аппроксимационные решения для дифференциальной игры сближения — уклонения в классе смешанных стратегий.
Отметим, что информационные возможности для каждого из игроков ослаблены условиями (78.1) по сравнению с гибкостью управляющих возможностей его оппонента. Отметим
333	СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ	(ГЛ. XIII
также, что указанные условия, разумеется, допускатот и использование игроками детерминированного позиционного управления.
Способы формирования управлений игрока-противника, удовлетворяющие перечисленным выше условиям, будем называть в этой главе допустимыми. При этом в случае первого игрока-союзника требуется обязательное выполнение первого из условий (78.1), в случае второго игрока-союзника — второго из условий (78.1).
Будем говорить, что стохастическое управление с поводырем гарантирует игроку-союзнику некоторый результат, если этот результат имеет место при выборе указанного стохастического управления с поводырем в паре с любым допустимым способом управления противника.
Перейдем теперь к формулировке альтернативы, справедливой для стохастических процедур управления. Пусть задан некоторый й-стабильный мост Определим для этого моста стохастическое управление первого игрока с поводырем, т. е. будем формировать движение поводыря w&(t) в соответствии с условиями (77.2), (77.10), а вероятностное распределение слу* чайных управлений и^Р зададим функцией ц°= \xQ(du\t,x,w') у выбранной из условия (77.1). Заметим, что выбор разбиения f = 0, 1,...} и параметр погрешности измерения здесь пока не фиксируется, поскольку в дальнейшем нас интересуют предельные возможности этого способа управления при ^->0 и sup.
Будем говорить, что выбранное первым игроком стохастическое управление с поводырем доставляет аппроксимационное решение задачи сближения к моменту t — ft, если для любых чисел р < 1 и 8>0 можно указать числа £(е, р) > 0, 6(8, р) >0 и а (в, р) > 0 такие, что рассматриваемое стохастическое управление первого игрока, реализованное при выборе параметров и б^эирДт'»! — T(‘>)<min[S(e, р), а(е, р)£2], гарантирует с вероятностью, не меньшей числа р, попадание случайных движений Хд [t] к моменту t = ft в 8-окрестность множества Мс при сохранении их в 8-окрестности множества Nc вплоть до встречи этих движений с 8-окрестностью множества Мс.
Рассматривая стохастическое управление с поводырем второго игрока, будем говорить, что этот способ управления доставляет аппроксимационное решение задачи об уклонении до момента t = ft, если существуют открытые множества G(A4C) и H(NC), содержащие множества Мс и Nc соответственно, для которых при любом выборе числа р < 1 можно подобрать чис-
АЛЬТЕРНАТИВА ДЛЯ СТОХАСТИЧЕСКИХ УПРАВЛЕНИЙ
337
§ 78]
ла £(р), б(р) и а(Р) такие» что рассматриваемое стохастическое управление с поводырем, реализованное при
С2 <? (Р) и S2 = sup,, (т® f — т®) < min[д(р), а (р)?,], гарантирует с вероятностью, не меньшей числа /?, уклонение случайных движений хд[/] от попадания в С(Л4с) при либо выход этих движений из H(NC) прежде, чем произойдет попадание в G(MC).
Справедливо следующее утверждение.
Теорема 78.1. Для любой начальной позиции {/0, *о} и для любого числа ft либо существует стохастическое управление с поводырем первого игрока, которое доставляет аппроксимационное решение задачи о сближении к моменту t = ft, либо существует стохастическое управление с поводырем второго игрока, которое доставляет аппроксимационное решение задачи об уклонении до момента
Отметим, что из доказательства этой альтернативы будет видно, что стохастическое управление с поводырем первого (второго) игрока, доставляющее аппроксимационное решение задачи о сближении (об уклонении), существует тогда и только тогда, когда в классе смешанных стратегий первого (второго) игрока разрешима задача 64.1 о сближении в ее идеальной формализации (задача 64.2 об уклонении в идеальной формализации). Таким образом, сформулированную здесь альтернативу можно рассматривать как содержательную трактовку альтернативы, доказанной в § 65 для смешанных стратегий.
Опишем схему доказательства теоремы 78.1.
Как показано в главе XI, справедливо одно из следующих двух положений: либо начальная позиция {/0, *о} принадлежит й-стабильному мосту который содержится в Nc и обрывается к моменту t = ft на множестве Мс, либо точка {/о, *о} принадлежит й-стабильному мосту ITg, который не пересекается с G*(A1C) и обрывается в гиперплоскости t = $ или при выходе из (Напомним, что G*(MC) и — некоторые открытые окрестности множеств Мс и Nc-)
Рассмотрим первую из этих двух возможностей. Пусть первый игрок формирует свои управления в соответствии со стохастической процедурой с поводырем, определенной для этого й-стабильного моста 1^#. Таким образом, случайное движение хд[/]	формируется первым игроком одновременно со
случайным движением поводыря йд(£)	В следующем
параграфе доказано, что с вероятностью, сколь угодно близкой к единице, расстояние между реализациями случайных движений хд[/] и соответствующими им реализациями движений поводыря йд(/) можно сделать сколь угодно малым при всех t
338
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
вплоть до встречи соответствующей реализации {/, йд(/)} с множеством Мс. Поскольку всякое движение йд(/), оставаясь в Nc, попадает на Мс к моменту t = ft, то получаем, что для пучка случайных движений хд[/], отвечающего стохастическому управлению с поводырем первого игрока, с вероятностью, сколь угодно близкой к единице, выполняется условие сближения с 2ИС при сохранении вблизи Nc. Итак, в случае, когда {/о, хо} справедливо первое из двух положений, сформулированных в теореме 78.1.
Если же {/о, хо} е W®, то_ случайное движение поводыря йд(0	которое формируется вторым игроком, на от-
резке [/о, О] уклоняется от попадания в G*(MC) вплоть до выхода его из	Поскольку и здесь доказывается, что реа-
лизации случайных движений хд [/] (t to) с вероятностью, сколь угодно близкой к единице, остаются вблизи соответствующих им реализаций движений w\(t) опять при всех t вплоть до выхода соответствующей реализации w&(t) из H*(NC), получаем, что в этом случае стохастическое управление с поводырем гарантирует второму игроку уклонение от встречи с Мс с вероятностью, сколь угодно близкой к единице, т. е. здесь выполняется второе положение, сформулированное в теореме 78.1.
Итак, для доказательства теоремы 78.1 остается показать, что с вероятностью, сколь угодно близкой к единице, реализации случайного движения хд [/] остаются вблизи соответствующих им реализаций вспомогательного случайного движения поводыря й5д(/).
§ 79. Основная оценка. Будем рассматривать стохастическое управление с поводырем первого игрока. Такими же, как приведенные ниже, выкладками, с понятной переменой ролями букв и и v, можно оценивать результат стохастического управления с поводырем второго игрока.
Пусть ДО)— выбранное первым игроком разбиение полуоси [/0, оо) полуинтервалами TJ+i) =	1, •••)’, *Д(1)И
(/	/0)— некоторое случайное движение, порожденное стоха-
стическим управлением с поводырем первого игрока в паре с каким-нибудь допустимым способом управления второго игрока. Пусть, далее,	— случайное движение пово-
дыря, которое моделируется первым игроком одновременно с организацией движения хдо)[/]. Для удобства дальнейших выкладок будем полагать, что движения хд(1)[/] и ©дц)(0 продолжены до момента t = т. е. после попадания точки {/, ^д(1)(0} на множество Мс движения ^дн)(0 и %д(1)[/] по-преж
« 79]
ОСНОВНАЯ ОЦЕНКА
339
нему задаются соотношениями (77.1), (77.2), (77.7), (77.10), однако уже не требуется, чтобы после попадания на Мс точка
Фдн)(0} Двигалась по мосту 1Г?.
Пусть на промежутке [/0, т*/’) (т(гп реализовались некоторые случайные управления игроков й[/] и v[t], этим управлениям отвечает реализация движения [/] и реализация движения поводыря йд(1)(0, которая моделировалась одновременно с реализацией движения хд(1)[/]. Полагая s[/] = ==Хд(1)[/] — ®д(1) (f), рассмотрим величину
/,(*[•]; ^°)=
если
если
max [ || s [т<> >] ||, 0 < f < Z] < е/2, max[||s[T^]||, 0 </</]>е/2,
(79.1)
где т(1) — первый из моментов т^, неравенство || $	||	е/2.
Будем полагать, что выбрано ние А(1) и выполняется условие
II $[/'] — 5 [Г] IK 8/2 при
для которого выполняется достаточно мелкое разбие->' I" S W. тЦ,].
Следовательно, из неравенства гЕ (s [ • J; t0, &) < е/2 выте-
кает оценка
шах ||Хд(1)[П — й>д(1)(0||<8. /о <
(79.2)
Напомним, что для любого движения поводыря wд(п(0 найдется момент	когда {т, й>д(|> (т)}<=ЛГс и {/, йу д(1) (/)]<=7УС
при	Поэтому для случайного движения xA(p[H,
удовлетворяющего оценке (79.2), справедливы соотношения
{т, Хд(1)[т]}б=/И®,	{/, хд(1)[/]} е= Л7® при
Итак, если неравенство re(s[-]; Zo, ft) < е/2 будет выполняться с вероятностью, не меньшей чем р, то для случайных движений хд(1)[/] с вероятностью, тоже не меньшей р, будет выполняться условие встречи с Мс при сохранении этих движений в Nc. Доказательство первого положения, сформулированного в теореме 78.1, сводится, таким образом, к проверке следующего утверждения.
Лемма 79.1. Пусть точка {/0, *о} принадлежит й-стабильному мосту W%, содержащемуся в Nc и обрывающемуся на Мс к моменту / = ft. Тогда для любых чисел 8 > 0 и р < 1 можно
340
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
указать числа £(8, р) >0, 6(8, р) >0 и а(е, р) >0 такие, что соответствующая этому мосту стохастическая процедура управления с поводырем первого игрока будет гарантировать выполнение неравенства ге ($[•]; /о, Ф) < е/2 с вероятностью, не меньшей числа р.
Заметим прежде всего, что вследствие подходящих свойств измеримости управляющих воздействий игрока-союзника (см. выше § 77) и свойств соответствующих измеримости допустимых воздействий игрока-противника, а также вероятностных свойств информационных помех, все рассматриваемые далее вероятности действительно имеют смысл в рамках стандартной аксиоматики теории вероятностей ([15*], стр. 24; [26*], стр. 17).
Для доказательства леммы 79.1 воспользуемся неравенством Чебышева ([15*], стр. 19; [26*], стр. 17)
Р [г8 [ • ]; /о, О) < е/2] = 1 - Р [re (s [ • ]; /0, О) > 8/2] >
> 1-4/8^.	[.];/,, #)].	(793>
Здесь Р[г<8/2] и Р[г^е/2]—вероятности выполнения неравенств г<8/2 и е/2, Л4[г2] — математическое ожидание случайной величины г2.
Требуется показать, что величину, стоящую в правой части неравенства (79.3), можно сделать сколы угодно близкой к единице, т. е. требуется доказать выполнение предельного соотношения
Al[r2(s[ •]; /0, О)]->0 при 6j->0, ^->0 и а->0, (79.4) равномерного для всех допустимых способов управления второго игрока.
В основе доказательства последнего положения в свою очередь лежит следующая оценка:
м[г’(»1  I '» IМ  1. '« v [’!"!. M’l"). ° И] < .
+WiР) + ф(«,.179.6)
З'десь в левой части неравенства (79.5) стоит математическое ожидание случайной величины (s [ • ];/0, т^), вычисленное при условии, что на промежутке р0> реализовалось некоторое рассогласование s [f] = хд(1) [/] — йд(1)(<), а в момент г‘ = т(г|) реализовались векторы хд<1) [т^], доДт)0) и некоторое управление второго игрока vв правой части неравенства (79.5) s[ - ] — зафиксированная реализация рассогласования «[/]== = *Д(1)И — ®д(1)(0	0 — некоторое положительное
число, ф(61, £1, а)->0 при {6i,$i, а}->0, выбор величины р в функции ф(дь а) определяется лишь начальной позицией
ОСНОВНАЯ ОЦЕНКА
341
§ 79]
{/о, хо) и отрезком [/0, '&]. (Так как в нашей схеме функции u[t] и б[/] суть кусочно постоянные функции времени /, то/ определение условного математического ожидания М | s [ • ], /0, тФ; хд[т^.1)], йд[т^], v [т<.0]] при допустимых способах управления не вызывает каких-либо принципиальных трудностей).
Следует сказать, что набор переменных (s[ • ],/0» 41)>*a0) [4°!’-в условном математическом .ожидании в левой части (79.5) обеспечивает подходящую марковость и тем самым обеспечивает эффективную оценку этого условного математического ожидания и затем использование формулы повторных математических ожиданий естественным образом.
Вывод оценки (79.5) приведен ниже. Покажем пока, что из оценки (79.5) вытекает соотношение (79.4). Для этого по формуле условных математических ожиданий ([15*], стр. 362;. [26*] стр. 52) получаем в силу (79.5):
• 1; *0.	[М[гц5[ • ]; t0, <)|з[ . ]; t0, т<»,
хД(1>	№д(1)(т<»), V ЦН]]<М [i(s [•]; /о. ^n)] (1 Ж+> -	₽)+
+ <р(др £р	(79.6).
Используя неравенство (79.6), как и в аналогичном случае в § 15, приходим к оценке
•]; *0. <>)]<
< {М[ ||х0 — ш0||2] + (1 4-(О-/о))ф(дь Si, а))ехрР(^-/0). (79.7).
Поскольку величина, стоящая здесь в фигурных скобках, стремится к нулю при £1~>0, 61 -> 0, а->0, то из оценки (79.7) вытекает доказываемое соотношение (79.4).
Итак, остается доказать оценку (79.5). Будем рассматривать случай, когда re(s[ • ]; i0, т(Д < е/2. В противном случае», когда r8(s[-]; i0, т(°)^е/2, оценка (79.5) будет выполняться очевидным образом, поскольку по определению величины ге (79.1) в .этом случае будет справедливо равенство г8 ($ [ • ]; i0, тД1) = ге(5[ • ]; /0, тД для всех случайных реализаций $[•], которые совпадают на промежутке [i0, тД с реализацией $[•].
Ниже для упрощения обозначений полагаем = t, = — t*. Пусть, стало быть, хд[/*] — значение фазового вектора системы (77.7), которое реализовалось при выборе управлений' и* [/] и у* [£] (io t < ^*),	(/*)— соответствующее значение
фазового вектора поводыря. При условии re(s[-]; /о, i*)<s/2: для всех случайных реализаций u[i], v [i], совпадающих при
'342
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. ХП1
io t < it с реализациями «*[•], £»*[•], величина re(s[-], to, t*) определяется равенством
re(s[ ]; to, f) = ||s[f]||,	(79.8)
где s[f] = xjd- йд(Л, /•
Хд[Л = хдК] + / f(t, Хд [/], йд[^], v[t])dt,
(79.9) йд(Г) = йд(О+ J f (t)dt.
t.
Здесь йд[/] = йд[Ц (t* t <. t*)— случайное управление первого игрока, постоянное на рассматриваемом промежутке. Условное вероятностное распределение случайных векторов _йд[Ц^Р задается мерой p°(d«), выбранной из условия min max f Г (х‘д J — й>д (/,))' f (f,, х* [ZJ, и, v) ц (du) v (dv) =
Г
= max I f (х‘д [f,] — wд (O)' f (t„ x* [/J, u, v) p° (du) v (dv), (79.10) Q
где x’Kl — результат неточного измерения первым игроком фазового вектора х[/„]. Измеримая функция f*(t) удовлетворяет включениям
f*(t)<=SFu(t, w&(t), v‘(<M)	(t^t<f),
-а мера v*(dv) определяется условием
max min f f (Гд [/J — й>д (Q)' f(tt, Гд[^], и, v) ц (du) v (dv) =
"V S (v) Н Ы p Q
= min f f (х’д [ZJ — w (0)' f (t*, x* [/J, u, v) ц (du) v (dv). (79,11) ; £
В выражении (79.9) u[/] — реализация случайного управления второго игрока. Напомним, что в соответствии с принятыми в § 78 (стр. 335) предположениями, управления v|7] реализуются в виде кусочно постоянных функций, т. е.
o[/] = u/eQ, xf^t < tJ2},	(/ = 0, 1,...).
Используя известные уже оценки (см. стр. 245), получаем:
Л о I • I; iQ> О=II * ЮII2 < II s WII2 (1 + 2 -1.] М +
+ 2(Г-ОФ + (Г-Оф.(61> &)• (79.12)
5 79)
ОСНОВНАЯ ОЦЕНКА
34?
Здесь X — постоянная Липшица функции f(t,x,u,v) по х в' области, содержащей все рассматриваемые движения хд[(|, wtSt), и.
Ф*(6|> Ci)-*0 при {дь £1} ->0,
Ф = (**дК] —йд(О)'
Ll-nt
(79.13}
где
«дШ- */)•
Г = / f f(t*’ ч [/J, ы, и) И, (du) v*(dv), Р Q
p.t(du)— некоторая мера (/е[т<2> ., т<2>), Ге Гт'2’, у* I т— 1’	т}'	L I ’
т + 2, ..., L — 1), т. е.
на Р, =	— а/ = Г —т'2>
^>))> а/ = т}+1“ т/2) (/ = «+ U
«у 0,
2 а/ = Г — i=m
Заметим, что в (79.12) ||s[/,]||2 = r2(s[ • ]; t0, Q. Поэтому оценка (79.5) будет доказана, если удастся показать, что математическое ожидание случайной величины ф (79.13) оценивается следующим образом:
А1[ф]<ф^(б,,а),	(79.14}
где Ф„(б1, а)->0 при 6i~>0, а->0.
Итак, будем доказывать оценку (79.14). Рассмотрим случайную величину
й’дСоуг^ здл «дМ» vi)
(j = т 4- 1, т + 2, ..., /),
где случайное управление первого игрока йд|7*] и векторы ВД, w д(/„) полагаем пока фиксированными. Пусть-V 4- v (dv |/, х)— смешанная стратегия, которая задает стохастическую процедуру выбора управлений второго игрока. Итак,, условное вероятностное распределение случайных управлений v.eQ задано мерой v(dv) = v(dv \t, х) при / = т<2’, х — ^д2[т/2,]>-где %дДт<2)] — результат неточного измерения вторым игроком текущей позиции игры. По предположению, сделанному в § 78, случайный вектор Хдг[-г<2’] распределен равномерно в шаре-
344
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
радиуса £2 с центром в точке х = ЯдД^2*]. Поэтому
-М[Ф/|«[и {°*’ "*+!<&</}, Хд[/.], йд(О] =
х\ [М — Wд (О)' f (/*, х*д [fJ, и [/J, о) V (dv |
т<2>
dx
(«+!</</),
(79.15)
тде X(S)— объем шара
$ = [х: х==Хд[т®] +Дх, || Ах || < у,
внешнее интегрирование в (79.15) осуществляется по этому шару (эта операция обоснована, поскольку функция v(dv) = — v(dv\t,x) слабо измерима по х).
Введем следующее обозначение:
-Х^Зу J v (dv | х) dx = v*(do),
полагая, что мера v*(do) определена равенством ([15*1 стр. 355, J26*], стр. 28)
хЬг J I J g(v)v(dv |x)|dx= J g (v) v* (dv), s 'q	J Q
которое должно выполняться для любой непрерывной на Q функции g(v). Такое определение меры v*(dv) корректно, если функция v(dv |х) — слабо измерима по х.
Используя это обозначение, соотношение (79.15) можно записать в виде
I«КЬ {vk> /п+!<&</•}, ХдК], й»дЮ] =
= f (х\ W — ® д (О)'} (t„ Хд [/и, v) vt (dv),	(79.16)
Q
где
V] (dv) = j" v (dv 1t, x) dx при t — t<2).	(79.17)
s
Однако воспользоваться соотношениями (79.16), (79.17) для дальнейших оценок сразу еще не совсем удобно, поскольку мера y$(dv) здесь может зависеть от выбора случайных управлений [Ц и vk (m+ I k -< /). Поэтому покажем сначала, что
справедливо следующее представление:
v. (dv) = (1 - © (6J) vj (dv) + со (d{) vf (dv),	(79.18)
ОСНОВНАЯ ОЦЕНКА
345>
§ 79]
где мера vj(dv) не зависит от выбора случайных управлений и vk (т + 1	</), величина со (Sj) > 0 и <о(б)->0 при
д->0. Для доказательства равенства (79.18) представим шар S в виде суммы
S»S.US«, где
S. = [х: х = [/J + Дх, II Дх || < £],
5W = S\S..
Отметим, что |хд[/»] —	Wi» поэтому из предположе-
ния 6, <1 а?2 вытекает неравенство > 0, т. е. при достаточно малом значении а>0 указанное разбиение шара S на сумму множеств S, и действительно можно осуществить. Получаем теперь
v;- (dv) — J v (dv (/, x) dx — s
= xJ v(dv |/, x)dx+ J v(du |/, x)dx =
__X (•$*) ♦ / j \ i X («S**) ** / j \ X(S)~v/+ X(S) v/
где
v* (dv) — -x	) J v(dt>U, x)dx,
s«
vT (dv) == -у Л . I v (dv 11, x)dx
<$*♦
(здесь t = Замечаем теперь, что по построению мера Vj(dv) не зависит от выбора управлений «[£„], vk (т + 1 k < j). Из соотношения < а£2 вытекает, что при а—>0, б1-*0
Итак, представление (79.18) доказано. Поэтому получаем Лф^йдК], ХдК], йд(О]<
< / (х1К1 —й>д(О)'/(/„ x*A[U йд [ZJ, w)v‘(du) + <p/(a, 5,), Q
(79.19) где фу (a, di) -> 0 при Si —> 0, а —* 0.
346	СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ	[ГЛ. ХП1
Рассмотрим теперь случай j — tn. Здесь случайное управление	выбирается вторым игроком не позже, чем выб-
рано управление первого игрока, поэтому здесь справедлива запись
-М[Фда|Йд1и *дК1> йд(и] =
= /	[/J — Wд (О)' f (t„ Хд PJ, йд &], о) vm (dv), (79.20)
Q
где мера vm(dv) не зависит от выбора управления первым игроком (если т(Д* < то vm(dv) сосредоточена в единственной точке vm е Q).
Из соотношений (79.19), (79.20) получаем
г i
= /	—йдО7(^> *дК1. «IU v) v*(dv) +	(a, dj),
Q
I
где <р,»(а, б,)-*0 при б1-*0, а—>0 и v,(dv)=S afv^(do); еле-j—ГП 1 J
довательно, эта мера не зависит от выбора управления «д[/Д.
Поэтому (см. (79.13))
М[ф|Хд[Ц] =
= J J (xaUJ —*д W, и, v)n° (du)v„(dv) —
р Q
— j j (х*д[Ц —ХдЮ» и, v)n.(du)v*(dv) + <f>vt(a, fy).
Р Q
Учитывая теперь соотношения (79.10), (79.11), где минимакс совпадает с максимином, приходим к оценке
Af[4> 1^дк]]<Ф,»(а> 6,)-
Поскольку эта оценка справедлива для любого случайного вектора Хд [/,,], то окончательно имеем
<<₽*,(“, 6i), Ф**(“, 6i)~>0 при б1->0,
т. е. соотношение (79.14), а вместе с ним и лемма 79.1 доказаны.
В заключение этого параграфа обсудим кратко случай, когда расширяются допустимые способы формирования управлений

ОСНОВНАЯ ОЦЕНКА
347
§ 79] противника и он так же, как и игрок-союзник, может использовать некоторую процедуру управления с поводырем.
В этом случае мы изменяем характер информации. Именно, не будем предполагать, что х* [£] есть случайная величина, распределение которой определяется только вектором х[/], а полагаем, что %*[/] есть результат некоторой случайной операции над всей предыдущей историей процесса (х[т], до[т], т^/). Мы -не будем уточнять конструкцию этой операции, но примем, что при ее использовании получаются такие случайные величины %*[/], что при обосновании теоремы, аналогичной теореме 78.1, и леммы, аналогичной лемме 79.1 (где в число аргументов условного математического ожидания войдет предыстория), для меры игрока-противника (для определенности — первого игрока) на шаге его разбиения оказывается возможным разложение, аналогичное (79.18):
p>.(du) = (\ —до (S)) рЛ (du) + со (S) р,** (du),	(79.21)
где мера pj(du) не зависит от выбора случайных управлений и uk(m + 1 < k < /), величина co(S)>0 и со(б)->0 при д->0 (см. стр. 344, 345).
Операцию, для которой имеет место это разложение (79.21), назовем допустимой. Частным случаем такой информационной операции является операция, использующая результаты измерения x[tj], проводимого в моменты tj, число которых на каждом шаге разбиения ограничено, причем все погрешности измерения независимый распределены равномерно.
Отметим, что переход к неограниченному числу моментов измерения в предположении независимости погрешностей отдельных измерений в силу действия закона больших чисел может привести к недопустимой информационной операции. Однако в конкретных задачах в силу неизбежной корреляции ошибок измерения такая информационная операция вряд ли осуществима.
Пусть противник использует какой-либо способ управления (позиционный или по схеме с поводырем), опираясь на допустимую информационную операцию. Тогда для любой начальной позиции {/о, Хо} и любого числа О либо существует стохастическое управление с поводырем первого игрока, доставляющее аппроксимационное решение задачи о сближении к моменту t = -ft, либо существует стохастическое управление с поводырем второго игрока, доставляющее аппроксимационное решение задачи уклонения на отрезке [/0, '&].
При обосновании последнего положения используются, в основном, выкладки, подобные приведенным выше на стр. 337—346, поэтому на доказательстве этого факта останавливаться здесь не будём/
348
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. ХП1
§ 80. Примеры. Рассмотрим конкретные примеры игровых задач сближения — уклонения, решение которых требуется определить в классе смешанных стратегий. Опишем сначала решение задачи сближения — уклонения, в которой динамика конфликтно управляемой системы задана уравнением (21.15), управления игроков стеснены условиями (21.13), (21.14), фазовое ограничение отсутствует, а множество Мс задается соотношением
=	х1=х2 = 0].	(80.1)
Для решения задачи о сближении воспользуемся материалом из § 72. Учитывая, что для системы (21.15) фундаментальная матрица Х(0’, t) задается соотношением
X(ft, i) =	1 0 ft-t 0 0 1	0. ft-Z 001	0 000	1
получаем, что здесь
l'\X($,t)f(t, и, o))m = (ft — /)к (-!-(«! cosо3 — w2sino3) —
—	(vt COS «3 — Vi sin v3)) + /2 (Д- («1 sin v3 + m2 cos u3) —
—-^-(Pisin«3+t»2cos«3))]. (80.2)
Далее, можно вычислить величину р(/„, ft, /) (72.12) и получить
о
р ((,, ft, Z) = f min max [ f I' {X (ft, t) f (Z, «, o))m p. (du) v(dv) dt —
J и	V </ J	J
t* L И P Q	J
__	^*)2 ( COS P2 _ ^2 C°S Pl \ i f Г2 t Г2
—	2	\	m2
Здесь ц и v — вероятностные меры на цилиндрах Р и Q:
Р = [{Ир М2’ из}:
V2> Уз}: 1 “Ь	| V3 |	^2]’
Ниже будем предполагать,выполнение соотношения ic„sP!>icoS1),.	(80.3)
При этом условии функция n(tt, ft, Z) (72.8), которая здесь определяется равенством
«(/.. о, о -	VFHT •
ПРИМЕРЫ
349
§ 80]
будет выпукла по I, т. е. рассматриваемая задача сближения будет регулярна (см. § 72). Выражение (72.11) для определения величины ёо(А»> х„ имеет в данном примере вид
«о (7*> х*> = J1}** [liqi х*’ + Z^2 (Z*’ х*' ~
_ (»~Q.	- -2+0А)	+ с, (80.4)
где
qi (tt, xt, V = хи + (« — Q ^3> <72 (7„ х„ fl) = х,2 + (fl — О xti.
(80.5)
Учитывая, что максимум в (80.4) достигается на векторе
1° М х„ О) = <7 (7„ х„ fl)/|| q (t„ xt, fl) ||,	(80.6)
получаем
«о (7., х*> Ф) =
-II <7 (7*. х„ fl) || - (-~^2 (А^1Ё2_ _	+ с (8о.7)
в области, где первая часть равенства (80.7) не меньше числа с. Наконец, для определения искомой стратегии 67с-5--7-nc(du\t, х) рассмотрим соотношение (72.13). Поскольку
s'(fl, 7)/(7, и, = х,	и, v))m
и эта величина определяется здесь равенством (80.2), то можно получить, что искомая мера \i,e(du\t,x) сосредоточена в двух точках
«(|) ={-М,(7, х, $)l\\q(t,x,®)\\, -M2(7,x,fl)/U(7,x,fl)||,+₽,} «(2) = {-Mi (7> х, fl)/|| q(t, х, fl) ||, - М2 (t, х, fl)/|| q(t, x, fl) ||, -0^ (80.8) причем веса этих точек равны, т. е.	'
М+17, х) = М«1|7,*) = 1/2.	(80.9)
Отметим, что соотношения (80.8), (80.9) определяют стратегию в области, где ео(7, х, fl) > с, вне этой области vc(du\t, х)е {р} — любая слабо измеримая по х функция. В качестве параметра fl в соотношениях (80.8) можно выбрать наименьший корень fl = flo(7o, Хо) уравнения e(t0, х0, fl)=c (fl^/o), тогда смешанная стратегия Oc-i-nc(du\.t, х) (80.8), (80.9) обеспечит наведение на множество Мс к моменту 7 = flo(7o, х0).
Рассмотрим теперь решение задачи об уклонении от множества Мс (80.1) для системы (21.15). Используя приведенные выше выкладки, это решение получим в форме смешанной стратегии Ve-r-ve(du\t, х), построенной в конце § 74. Общее
350
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
соотношение (74.5) конкретизируется здесь следующим образом:
s*(t, х)= J (ё0(Л х, т) — c)~2l°(t, х, x)dx, (80.10) t
где величина eo(t, х, т) и вектор l°(t, х, т) определены соотношениями (80.7), (80.6). Получаем, что мера ve(df|/, х) сосредоточена в двух точках
=	x)/\\s*(t, х)||, -A2s;(Z, х)/||з*(/, х)||, +р2),
t>< •> = {- V’ *)/Us* (*> x) H’ — W &	s* (*> x) II, — ₽2), (80.11)
причем
ve (»(')] t, x) = ve(v<2>|/, x)== 1/2.	(80.12)
Этими соотношениями стратегия Ve определена в области, где min ё0(/, х, т) > с, вне этой области ve(dv\t,x) — любая ела-
А»
бо измеримая по х функция. В качестве параметра О в соотношении (80.11) можно выбрать любое значение, меньшее числа ^(/о, Хо). Таким образом, смешанная стратегия вида (80.11), (80.12) обеспечивает уклонение до момента О, сколь угодно близкого к моменту t == Оо(^о, х0). Пара стратегий Ое (80.8), (80.9) и Ре (80.11), (80.12) доставляет ситуацию типа седловой точки рассматриваемой игры сближения — уклонения.
Отметим, что решение задачи об уклонении можно получить также, используя подход к решению задач об уклонении, предложенный в § 62. Опишем кратко это решение.
Введем в рассмотрение поводыря w(t), движение которого задается уравнениями
WX = W3, Щ2 = И>4, ®3 = JJ [-^-(MiCOSy3~“2SinO3)~
Р Q
----— (о, cos «3* — v* sin «з)1 ft* (du*) v* (dv*),
(80.13) I
W4 = J J («; Sin u*3 + U*2 cos «;) —	:
P Q
----— (v*. sin v3 + v2 cos u~)l ц* (du*) v* (dv*).	\ tn 2 ' * d	д' J
Из соотношений (77.11), (77.12) получаем, что в данном случае меры v°(rfu|Z, х, w) и |t*(dw*|f, х, w) сосредоточены в точках
v(1> = {V3/II s ||, v(2) = {х2Зз/|| з ||,
и‘(2) = {Мз/11«Н,
WII* II, +Р2} V4/II 5 II» — 02) Wlsll, +Р1) WISH, -01).
(80.14)
(80.15)
$ 80]
ПРИМЕРЫ
351
где s = x — w, II s II = [(х3 — ш3)2 + (х4— ®4)2]Vi» причем
v0(n(l,|i, х, w) = v°(u<2>| t, x, w)=l/2,	(80.16)
p’(u’(1)|t x, w) = n,(«‘(2>k, x, ay)=l/2.	(80.17)
Решение w(t) уравнения (77.14) выбирается так, чтобы точка {t, w(t)} не попадала на Мс при i<0o(/o,xo). Для этого в соотношениях (80.13) достаточно выбрать меру v*(dv\t,x,w), сосредоточенную в точках
v‘(l> = M|s|l, WIMI, +р|, «*<2)=={Мз/||8||, ММ -₽},	(80Л8)
с весами
v'(v*w |i, х, w) = v’(n‘<2) |/, х, w) = 1/2.	(80.19)
Тогда движение w(t) будет удовлетворять уравнениям
K)! = w3, w2 = w4, w3 — alt w4 = <j2, f~9. i ~v\'h ^1C05 Pa	X2 cos Pi	(80.20)
( 1 “r 2/	mi	m2
Поскольку To = $o(to, x0)—to, где	x0)— наименьший ко-
рень уравнения g0 (io, x0, ft) = c (cm. (80.7) ), совпадает с временем оптимального быстродействия в задаче о переводе системы (80.20) из позиции {i0, Хо} на множество Л4С, то при выбранных смешанных управлениях ц* и v* поводырь не попадает на Л1с при t < •&o(io, Хо). Отметим далее, что выбор смешанных управлений v* и ц* обеспечивает взаимное отслеживание движений x[i] и w(i), поэтому предложенная процедура управления будет обеспечивать уклонение точки {i, x[i]} от попадания на Мс при t < #о (to, Хо).
В заключение приведем аппроксимационное решение задачи об успокоении осциллятора, движение которого описывается уравнениями
Х[ = х2, х2 = — X! + М] + (ы2 — и)2—1,	(80.21)
где uit и2— управления первого игрока, v — управление второго игрока, выбор этих управлений стеснен ограничениями |ui|^l, |«2|^ 1, |и|^ 1. Фазовое ограничение в данной задаче отсутствует, а множество Мс задано соотношением
Mc = [{i, хь х2] : i>0, Xj = х2~0].	(80.22)
Для решения задачи об успокоении воспользуемся материалом из § 75. Можно показать, что в данном примере множество R(t, х) (75.2) определяется следующим образом:
H(t, х) = [{Ль Л2): hi = x2, | h2 + xi К 1]
352
СТОХАСТИЧЕСКОЕ ПОЗИЦИОННОЕ УПРАВЛЕНИЕ
[ГЛ. XIII
т. е. всякое решение уравнения
= — а>1 + о,
|а|<1
(80.23)
мационной схеме формирования
образует «-стабильную дорожку {t, x = w(t)} (t to). Поэтому решение задачи об успокоении доставляет здесь смешанная стратегия Ое -г- ue(du\t, х), экстремальная к дорожке {t, х = — w°(t)}, где х = w°(t)— решение уравнения (80.23), которое попадает на Мс (80.22) из {/о, х0} за наименьшее возможное время. Определяя для системы (80.21) стратегию 0е,	экстрем а ль-
ную к дорожке {t, х = = w°(t)} (t>t0), полу, чаем, что при х2—й^(/)>0 мера |л(е) (du 11, х) сосредоточена в единственной точке и° — {—1,0}; при Х2 — w°(t)^.O мера И**) (du 11, x) сосредоточена в двух точках = =={+1, +П, «<2>={+1, —1}, причем |л<в>(и<*>| х) = = i№(u&\t,x)= 1/2.
Построенная смешанная стратегия £7<е> была реализована в аппрокси-кусочно постоянных слу
чайных управлений йд[/]. На рис. 80.1 представлена одна из случайных реализаций хд [/], полученная при моделировании стратегии Ое на ЭВМ в паре со смешанной стратегией второго игрока Р* Н- v» (dv 11, х) следующего вида: при х2 — )t > 0) мера v, (dv 11, х) сосредоточена в единственной точке v° = 0; при х2 — ш2(0^0 мера v*(dv[t,x) сосредоточена в двух точках = и р(2) = —1, причем v«(t»<0|/, х) — v»(u<2)|/( х) == 1/2.
Глава XIV
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
§ 81. Минимаксная игра, стратегии, контрстратегии, движения. В этой главе продолжено изучение дифференциальной игры сближения — уклонения в случае, когда маленькая игра не имеет седловой точки в классе чистых воздействий и и vt т. е< когда не выполняется условие (12.3). Этот случай уже рассматривался в трех предыдущих главах, где решение дифференциальной игры было определено в классе смешанных стратегий. Напомним, что содержание предложенной там конструкт ции раскрывается в стохастических процедурах формирования управлений, которые обеспечивают тот или иной исход игры с вероятностью, сколь угодно близкой к единице. При этом важным условием было предположение о взаимно независимом, либо слабо коррелированном выборе управлений игроков на малых интервалах времени.
Возможны также другие постановки задач, составляющих дифференциальную игру сближения — уклонения в случае, когда не выполняется условие (12.3). Ниже описано детерминированное решение этой игры, отвечающее ее постановке, которую будем именовать минимаксной. В этой главе рассмотрена следующие два случая информированности игроков. В первой случае предполагается, что игроку-союзнику известна лишь реализующаяся позиция игры, а игрок-противник, кроме этой информации, может использовать любую мыслимую информацию. В частности, он может знать дополнительно и управление, реализуемое игроком-союзником в каждый текущий момент времени, т. е. имеет место так называемая информационная дискриминация игрока-союзника. Это есть постановка задачи для союзника из главы II. Во втором случае допускается информационная дискриминация противника, т. е. для игрока-союзника предполагаются известными реализующаяся позиция игры и управление, выбираемое противником. Например, игра сближения — уклонения может складываться теперь из двух задач: из задачи сближения для первого игрока-союзника, решение которой требуется определить в классе чистых стратегий U ~ u(t, х), и задачи об уклонении для второго игрока-союзника, которая, однако, будет решаться им в классе контр стратегий Vй 4- v(t, х, и) (точный смысл этого понятия определен ниже) при условии дискриминации
12 Н.* Н. Красовский, А. И. Субботин
354
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
первого игрока-противника. Или игра сближения — уклонения может состоять из задачи сближения для первого игрока-союзника, которая будет решаться им в классе контрстратегий Uv-+-u(tf х, v) при условии дискриминации второго игрока-противника, и задачи об уклонении для второго игрока-союзника, которая должна решаться им в классе чистых стратегий х). В соответствии с этим будем в дальнейшем называть минимаксной такую игру, в которой объединяются противоположные задачи, каждая из которых в соответствии с нашим общим правилом ставится для игрока-союзника (см. главу 11, стр. 45). Но одна из этих задач ставится теперь в классе стратегий, а другая — ей противоположная — в классе контрстратегий.
Таким образом, при постановке задач, составляющих минимаксную игру, игроки-союзники из противоположных задач наделяются неравными информационными возможностями.
Полезно в связи с этим напомнить, что неравные информационные возможности предполагались уже и в первой части книги, но там только внутри каждой из задач. В самом деле, там нигде не исключалось, что противник может использовать знание реализаций управления союзника. При этом там, однако, в каждой из противоположных задач, составляющих игру, игрок-союзник имел в своем распоряжении только чистые стратегии. Но в главах II—X при условии (12.3) седловой точки маленькой игры (12.1), (12.2) указанное информационное неравенство внутри одной задачи стиралось. Более того, оно стерлось бы там и в объединенной игре сближения — уклонения, если бы в одной из составляющих задач была допущена дискриминация противника. В самом деле, как мы видели из материала главы III, при условии (12.3) дополнительная информация о реализующемся управлении того или иного партнера не позволяет его оппоненту улучшать для себя исход игры. Это прямо следует из теоремы 17.1 об альтернативе. При условии (12.3) наилучший возможный для каждого партнера исход игры сближения — уклонения или игр из §§ 18—20 достигается уже в классе чистых стратегий. Здесь же при невыполнении условия (12.3) неравенство информационных возможностей игроков оказывается уже существенным. Отметим также, что указанное выше распределение информации между игроками в пределах минимаксной игры диктуется стремлением опять составить такую игру, в которой существует ситуация типа седловой точки.
Перейдем теперь к формулировкам рассматриваемых здесь задач. Первой задачей будет задача о сближении, решение которой требуется определить в классе чистых стратегий U 4-4-н(/, х). Постановка этой задачи известна (см. задачу 9.1).
в QI1	СТРАТЕГИИ, КОНТРСТРАТЕГИИ, ДВИЖЕНИЯ	355
§ 01|
Отличие задачи 9.1, рассмотренной в главе III, от рассматриваемой теперь проявляется не в постановке проблемы, а в ее решении, которое в § 17 было дано при дополнительном условии (12.3), а теперь это решение надлежит искать без указанного дополнительного предположения. Задача, рассматриваемая здесь в одной игре с задачей 9.1, — это следующая ниже задача 81.2 об уклонении, решение которой требуется, однако, найти уже в классе контрстратегий Vй-v-v(t, х, и). Определим поэтому понятия контрстратегий и движений, которые порождаются этими контрстратегиями.
Контрстратегии второго игрока Vй 4- v (t, х, и) будем отождествлять с функциями v — v(t, х, и), которые определены для всех позиций {/, х} и векторов ивР а удовлетворяют условию v(t, х, u)<= Q.
Пусть Д— система полуинтервалов [т?,Тг+1) (г = 0, 1, ...), покрывающих полуось [/*, оо), и Vй 4- v (t, х, и) — некоторая контрстратегия второго игрока. Назовем ломаной Эйлера [/] — Хд [/, t*, х*, Vй] абсолютно непрерывное решение дифференциального уравнения в контингенциях
хд[/], у(т., хд[т.], •)),	(81
/ = 0, 1,	хд[^] = х„
где
х, п(т., хд[т.], •)) =
= со [f : f = f (f, x, a, v (т., хд [tz], а)), и Р].	(81.2)
Заметим, что выпуклые и замкнутые множества в правой части соотношения (81.1) изменяются непрерывным образом с изменением переменных /, х, поэтому существование решений уравнения (81.1) вытекает из известных результатов теории дифференциальных уравнений с неоднозначной правой частью (см. выше § 7, стр. 41 и снова ссылку на [11*, 33*, 37*, 40*]).
Движением х[/] = х [/,/*, х#, Vм], порожденным контрстратегией Vй -т- v (t, х, и) из позиции {/*, х4, будем называть всякую функцию х[£] (х[/#] = х*), для которой найдется последовательность ломаных Эйлера x^k) [Л = хд(^)[/, /*, х^\ Vй] (^=1,2,...)^ сходящаяся равномерно к х [/] на каждом конечном отрезке [4, О’] при условии sup^r^j — T<fe))->0 (£->оо).
Можно показать, что определенные здесь движения х[/] = = х [/,	х*, Vй], порожденные контрстратегией Vй ~ v (/, х, и) ,
обладают теми же свойствами, которые были указаны в §§ 6 и 7 для движений, отвечающих чистым позиционным стратегиям. В частности, если определить движения х [/,/*, х*, U, Vй] как равномерные пределы ломаных Эйлера (6.3) х (&)[/, x(fe\
12*
356
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
С/,	• ]], где реализации [•] =	t) формируются
вторым игроком как кусочно постоянные функции при выбираемых им разбиениях А* (*} = {т,(fe)) по правилу
^[/]=у(т!, хд[т*], «[/]) (?;</< т*+1),	(81.3)
то для таких движений будет справедливо следующее заключение, аналогичное лемме 6.2.
Для любой позиции {t*, х*} и для любой пары U-^-u(t,x) и Vй 4- v(/, х, и), состоящей из чистой стратегии первого игрока и контрстратегии второго игрока, все движения х [/,/*, х*, U, Vй] содержатся как во множестве всех движений х[/] = — x[t, /*, х*, {/], так и во множестве всех движений х[/] = = х [/,£*, х*, 7й]. Это положение снова позволяет объединять задачу для первого игрока в классе стратегий и задачу для второго игрока в классе контрстратегий в одну игру. Контрстратегии первого игрока Uv 4- u(t, х, v) будем отождествлять с функциями u = u(t, х, v), определенными при всех {/, х} и v Q и удовлетворяющими условию u(t, х, v) е Р. Ломаные Эйлера хд[Н = хд|7,	х*, при этом определяются как Аб-
солютно непрерывные решения дифференциальных уравнений в контингенциях
*Д [Л е (t, Хд Ш. « (тр Хд [т,], • )), т,</<т/+1, t = 0, 1, .... Хд[/.] = х., где
^v{t, X, и fa, Хд[т.], •)) =
= со [f : f = f(t, X, и fa, x4[tJ, и), v), ueQ]. (81.5)
Движением х[/] = х[/, /*, x*, Uv]t порожденным контрстратегией Uv + u(t, x, и) из позиции {/*, х*}, будем называть всякую функцию х [/] (х[/*] — х*), для которой существует последовательность ломаных Эйлера х (^[/] =хд(&) [/, x{k\ Uv] (k = = 1, 2,...), сходящихся равномерно к x[t] на всяком конечном отрезке [£*, $] при условии sup.^t^— V/0)—>0 (k—>оо).
Здесь также для всякой пары {Uvf'V} можно определить движения х[/,/*, х*, Uv, V] и проверить, что все такие движения содержатся как во множестве всех движений x[t,t*,x*, Uv], так и во множестве всех движений х [/,/*, х*, I/]. Это положение в свою очередь позволяет объединить задачу для первого игрока в классе контрстратегий и задачу для второго игрока в классе стратегий в одну игру.
Задача о сближении, рассматриваемая в классе контрстратегий Uv + u(t, xtv), формулируется следующим образом.
81]
СТРАТЕГИИ, КОНТРСТРАТЕГИИ, ДВИЖЕНИЯ
357
Задача 81.1. Требуется найти контрстратегию Uvc + uc(t,x,v), для которой всякое движение х[/] = х[/,/0,*о, £/*] удовлетворяет условию встречи
{т, х[т]}	{t, x[t]\e=Nc при	(81.6)
где т — первый момент времени, когда точка {/, х[/]} впервые попадает на множество Мс.
(Отметим, что ниже рассматривается главным образом случай, когда контрстратегия обеспечивает сближение к заданному моменту t = ft, т. е. для любого движения х[/] = x[t, х0, Uc\ момент т удовлетворяет оценке т ft.)
Задача об уклонении, рассматриваемая в классе контрстратегий Vй ~~ v(t, х, и), формулируется следующим образом.
Задача 81.2. Требуется найти контрстратегию Vuc-^ —	которая на заданном отрезке времени |70, ft] ис-
ключает встречу, т. е. для которой всякое движение х[/] = = x[t, ^о, *о> V'c] удовлетворяет условию
{/, х[/]} ф G(Me) при
где т = ft, если при всех	ft] выполняется условие
{t, х [£]} е H(NC), в противном случае т есть первый момент времени, когда позиция {/, лф]} покидает открытую область Ж).
Как и всюду выше, множества Мс и Nc замкнуты, a G(Afc) и H(NC) — некоторые открытые окрестности этих множеств.
Задача 81.1 будет рассматриваться в одной игре вместе с задачей об уклонении, решение которой требуется определить в классе чистых стратегий V ~ v(tt х). Формулировка этой задачи известна (см. задачу 9.2). Опять следует сказать, что отличие задачи об уклонении 9.2, рассмотренной в главе III, от рассматриваемой теперь, состоит не в постановке проблемы, а в ее решении, которое в § 17 было дано при дополнительном условии (12.3), а теперь это решение надлежит искать уже без указанного дополнительного предположения.
Ломаные Эйлера хд[Л х*, Uv] и хд[/, /*, Vй] мы определили формально как решения соответствующих дифференциальных уравнений в контингенциях (81.1) и (81.4). Из конструкции этих уравнений, опирающейся на контрстратегии U° и Vй, можно усмотреть, что здесь определенным образом формализуется возможность использовать информацию о реализующихся управлениях и(7] в случае уравнения (81.1) или использовать информацию о реализующихся значениях управления гф] в случае уравнения (81.4). Если речь вести об использовании контрстратегий игроком-противником, то, пожалуй, можно не заботиться далее о содержательном раскрытии
3"8
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
(ГЛ. XIV
данного понятия контрстратегии и порождаемых ею движений. Можно просто принять тогда, что данное определение контрстратегии в пределах нашей формализации игры описывает образ действий удачливого противника, которому мы не можем отказать в праве мгновенно узнавать или угадывать реализующиеся управления игрока-союзника. И результат, достигаемый игроком-противником на базе контрстратегии, имеет тогда только смысл оценки предельных возможностей способов действий противника. При этом, поскольку речь идет о противнике, можно не отягощаться заботой о переходе от идеальных движений x[t, t*, х*> Vй] или х[/,/*, х*, Uv] к осуществимым на практике способам управления v или и соответственно. При таком подходе к делу основным случаем трактовки дифференциальных игр в классах стратегия — контрстратегия будет следующая схема. «Настоящий» игрок-союзник, решающий ту или иную задачу, осуществляет управление на базе чистых стратегий в соответствии с определениями из § 6, а «настоящий» игрок-противник может реализовать при этом любые интегрируемые реализации v[t\^Q на основе любого мыслимого способа их формирования. Однако для более ясной оценки того, какой исход игры может обеспечить себе при этом противник, мы ставим его временно на роль союзника в противоположной задаче в пределах единой схемы минимаксной игры и наделяем его правом выбора любой контрстратегии, т. е. такого способа управления, который учитывает и реализующиеся позиции, и управления, реализуемые игроком-союзником. При такой трактовке теоремы из этой главы приобретают смысл равновесия между предельными возможностями игрока-союзника и его партнера в схеме позиционной игры этого союзника с предельно информированным партнером. Подчеркнем, что при таком основном для этой книги подходе к делу мы предпочитаем если и дискриминировать одного из игроков, то делаем это по отношению к «настоящему» союзнику, т. е. мы предпочитаем здесь недооценить возможности игрока-.союзника и переоценить возможности его партнера. Однако можно подойти к делу иначе, полагая, что «настоящий» игрок-союзник имеет возможность использовать при формировании своего управления реализующиеся значения управления «настоящего» игрока-противника. Тогда следует принять, что уже «настоящий» игрок-союзник формирует свое управление на базе контрстратегий, а его противник ставится временно на роль игрока-союзника в противоположной задаче для оценки исхода игры, который он может обеспечить уже только на базе чистых стратегий. Но тогда, поскольку речь идет об использовании контрстратегий «настоящим» игроком-союзником, мы должны дать содержательную интерпретацию соответствующих идеальных движений, которая
§ 82)	АЛЬТЕРНАТИВА ДЛЯ МИНИМАКСНОЙ ИГРЫ	359
приводит к осуществимым на деле законам управления в подходящих аппроксимационных схемах, учитывающих реализующиеся управления противника. Такие схемы будут описаны ниже в § 83.
§ 82. Альтернатива для минимаксной игры. В этом параграфе мы изучим дифференциальную игру сближения — уклонения, которую составляют задача 9.1 и задача 81.2, а также дифференциальную игру сближения — уклонения, состоящую из задачи 81.1 и задачи 9.2. Эти две игры характеризуются следующими альтернативными утверждениями.
Теорема 82.1. Для любой начальной позиции {^0, х0} и для всякого числа ft t0 либо существует стратегия первого игрока Uс -г- uc(t, х), которая доставляет решение задачи 9.1 о сближении к моменту t =/&, либо существует контр стратегия второго игрока Vc -s- vc(t, х, и), которая доставляет решение задачи 81.2 об уклонении от встречи на отрезке [/0, О].
Теорема 82.2. Для любой начальной позиции {/0, х0} и для всякого числа $ t0 либо существует контрстратегия первого игрока Uc + uc(t, х, v), которая доставляет решение задачи 81.1 о сближении к моменту t — либо существует стратегия второго игрока Vc 4- vc(t, х), которая доставляет решение задачи 9.2 об уклонении от встречи на отрезке [/0, '&].
Прежде чем переходить к доказательству этих теорем, отметим, что предлагаемую ниже экстремальную конструкцию можно использовать для исследования структуры не только игры сближения — уклонения, но и других типов дифференциально-игровых задач, подобно тому как это было сделано в главе IV в случае выполнения условия (12.3) седловой точки маленькой игры (12.1), (12.2), от которого мы теперь отказываемся. Именно, повторяя с понятными изменениями рассуждения из главы IV и опираясь уже на теоремы 82.1 и 82.2, можно показать, что рассмотренные там дифференциальные игры, но поставленные теперь для классов стратегия — контрстра^егия, характеризуются ситуацией равновесия между стратегиями одного игрока и контрстратегиями другого игрока.
Порядок доказательства теорем 82.1, 82.2 такой же, как и порядок доказательства альтернативной теоремы 17.1 в главе III. Поэтому ниже приводятся лишь формулировки основных положений и указываются основные отличия доказательств от Доказательств соответствующих положений из главы III.
Рассмотрим сначала решение задачи 9.1 о сближении. Определим для этой задачи свойство и*-стабильности множества W. В исследуемом случае, когда не выполняется условие (12.3), это понятие вводится иначе, чем в главе III.

360	МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. XIV' Ж
Пусть v = v(u) есть некоторая функция, заданная на мио- J жестве Р и принимающая значения на множестве Q. Эта функ- •  ция определяет контрстратегию Vй. Для того чтобы выделить i такие контрстратегии V™~v(u) среди контрстратегий Vй + F -~v(t,x,u) общего вида, будем называть их контруправления- + ми. В соответствии с общим определением, движения х(/)= -= x(t, t*, х*, Vй), отвечающие контруправлению Vu + v(u), бу* дут абсолютно непрерывными функциями x(t) x(t*) = х*)г которые при почти всех t I* удовлетворяют уравнению в контингенциях
х(0, ^(-)),	(82.1>
где
$~и (/, х, V (. )) = со [/ : f = f (/, х, и, V (u)), и & Р]. (82.2)»
Пусть в пространстве позиций {/, л} задано некоторое множество W. Будем говорить, что это множество Нестабильно,. если, каковы бы ни были контруправление Vu-t-v(u), позиция { {/*, х*} е W и число	существует движение x(t) =
= x(t, t*,x*, Vй) — решение x(t) уравнения (82.1), удовлетворяю- л щее одному из условий альтернативы:
или {Г, х(Г)}е1Г,
Г /мл/	Г. .*1 “	(82.3))
или (т, х (т)} е Мс при некотором t J,
Аналогичным образом, но с перестановкой местами букв и и и, дается определение ^-стабильности множества W для задачи 9J2. При этом условие (82.3) заменяется условием:
{/*, х(Г)} е Г или {т, х(т))	(82.4> /
Далее, при исследовании задачи 9.1 вводятся стратегии | Ue~ ue(t, х), экстремальные к заданному множеству W. Опре- | деление этих стратегий полностью переносится из главы IIL 1 Основное свойство экстремальных стратегий формулируется 1 здесь следующим образом.	|
Лемма 82.1. Пусть замкнутое множество W является i нестабильным, Ue~ ue(t, х)—стратегия, экстремальная к этому | множеству, и пусть {/0, *о) Тогда для всякого движения 1 x[t\ = x[t, tQ, xQ, Ue] будет справедливо соотношение	|
{t, х [/]} W при	I
где т — момент времени, когда точка {t, %[/]} впервые попадает | на множество Мс. Если же для некоторого движения %[/]= Ц = x\t, to, х0, Ue] точка {/,%[/]} не попадает на Мс .при всех И t t0, то для такого движения {t,	при всех t^tQ.. Ц
Это утверждение — аналог леммы 15.1. Напомним4 что при я доказательстве леммы 15.1 использовалась оценка (14.6), вы- я
82]	АЛЬТЕРНАТИВА ДЛЯ МИНИМАКСНОЙ ИГРЫ	351
©од которой, опирался на предположение о существовании седловой точки маленькой игры —условие (12.3). В исследуемом случае опять имеет место неравенство (14.6), но теперь для другой пары движений и х<2ф). Первое движение х<1ф] удовлетворяет уравнению
x<‘) [/] = /(/, хаф], v[t])>
где гф]— некоторая интегрируемая реализация управления второго игрока. Второе движение x&(t) при почти всех t t* удовлетворяет уравнению в контингенциях
х<2ф), и*(-)).
Предполагается, что эти движения удовлетворяют начальным условиям x(OpJ = x(J) и = а управление	и
контруправление V*u -J- v*(u) выбраны из условий -
min max s'JH, х<°, иу =	x(I), u*, v\ (82.5)
u^P ve=Q x	7 0f=Q v	7
maxs'f(/., x<p, и, v) = s'J(t,, u,	(82.6)
где s. = x<1)— х®. Обозначим через p(f) расстояние между -точками х°ф] и x<2)(i); тогда равномерно для всех позиций {/., х<°} и {/,, х<2>) из каждой наперед выбранной ограниченной области G в пространстве {t, х} будет выполняться неравенство
Р2(^ + б)<Р2(О(1 +0 • 6) + ф(б)6	(б>0),	(82.7)
где р — некоторое число, величина <р(6) стремится к нулю при «5->0.
Основное отличие 'вывода оценки (82.7) от доказательства диалогичной оценки (14.6) состоит в том, что вместо условия •седловой точки маленькой игры (12.4) в классе управлений •меР, v^Q, которое использовалось в § 14, здесь при выводе неравенства (82.7) следует использовать соотношения
х<‘>, и*,	х<», м*, V’ («•))<
х"\ и, »*(«)) (ые=Р, о («)«=(?),	(82.8)
которые означают существование седловой точки маленькой игры в классе управлений «еР и контруправлений h(u)gQ.
Отметим, что именно в построении оценки (82.7) проявляется -специфика рассматриваемой здесь игры сближения — уклонения. Пользуясь случаем, подчеркнем, что при решении игры сближения — уклонения в классах стратегий U-rii(t, х) и V~v(t,x) рассматривались маленькие игры в классе управлений иеР, и е Q, для которых седловые точки (12..4)
362
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[гл. xiv
постулировались; при решении игры сближения — уклонения в классах смешанных стратегий О 4- p(d«| /, х) и Рч- v(dv\t, х) при выводе оценки (65.6) мы исходили из известного факта существования седловой точки маленькой игры в классе смешанных управлений p(d«), v(dv); здесь же решение игры сближения— уклонения в классах стратегий U-i-u(t,x) и контрстратегий Vй Ч- v(t, х, и) опять сводится к некоторой последовательности маленьких игр (82.5), (82.6), рассматриваемых в классе управлений и^Р и контруправлений v (и) и характеризуемых седловой точкой (82.8).
Вернемся к доказательству леммы 82.1. Так же, как при доказательстве леммы 15.1, справедливость леммы 82.1 вытекает из оценки (15.1). При выводе оценки (15.1) в данном случае вместо максиминных векторов (см. стр. 65) следует рассмотреть контруправления V[®u 4- v(k} («), выбранные из условия (82.6) при /* = т(.й),	xW = w{k), а ссылки на усло-
вие «-стабильности множества W и оценку (14.6) следует заменить ссылками на условие «^-стабильности этого множества и такую же оценку (82.7). Все остальные рассуждения из § 15 переносятся на случай доказательства леммы 82.1 без существенных изменений.
Считая лемму 82.1 доказанной, перейдем теперь к заключительному этапу доказательства теоремы 82.1. Определим максимальный «^-стабильный мост W^*, содержащийся в Nc и обрывающийся к моменту t = О на множестве Мс. С этой целью из пространства {/, х} выбросим те позиции {/*, х*}, для которых разрешима задача 81.2 об уклонении. Обозначим оставшееся множество позиций {/, х} символом Wu*. Оказывается, что это множество является искомым мостом. При доказательстве этого положения используются в основном такие же рассуждения, как и в § 16. Обратим внимание лишь на проверку свойства «^-стабильности множества wt*. В § 16 при доказательстве от противного «-стабильности моста Wu рассматривались движения х[/] = х [/,/*, х**, V*], порожденные некоторыми стратегиями V*4-v*(t х). С помощью этих движений был определен ^-стабильный мост Wv для задачи об уклонении. Затем была построена стратегия Ve-h ve(tfx), экстремальная к мосту 1РГ, которая обеспечила уклонение на отрезке [/*, ft] для всех движений х[/] = х[/, /*, х*, Ve], где {/*, х*} — некоторая точка из множества Wt. Это противоречило определению множества wt> дачному в § 16.
В рассматриваемом случае в эти рассуждения следует внести следующие изменения. При доказательстве «*-стабильно-сти множества Wu* от противного вместо стратегий Р*ч-у*(/, х),
3 82]	АЛЬТЕРНАТИВА ДЛЯ МИНИМАКСНОЙ ИГРЫ	363
порождающих движения “х[/] = х [/,/*, х**, V*], вводятся контрстратегии уклонения V*w -4- v*(t, х, и). Затем так же, как и в § 16, строится ^-стабильный в смысле определений из § 11 мост Wv для задачи об уклонении. Проверяем далее, что контрстратегия 4-	(f, х, и), экстремальная к этому мо-
сту Wv, доставляет решение задачи 82.2 об уклонении для некоторой позиции (/*, х*} е Wu*- Это противоречит, однако, определению множества и тем самым доказывает ^-стабильность этого множества.
Отметим еще, что контрстратегия V^-r-ve(t, х, и), экстремальная к заданному замкнутому множеству W, определяется следующим образом. Пусть {£*,х*} — какая-то позиция, и-+- вектор из Р. Если сечение W(t*) множества W пусто, то в качестве ve(t*, х*, и) можно выбрать любой вектор v е Q. Если же сечение W(t*) множества W непусто, то определяем одну из точек {/*, w*} е W, ближайших в евклидовой метрике к позиции {/*, х*}. Затем вектор ve(t*,x*,u) выбираем из условия max(w*— xj'f(f*, х*, и, v) =
= (Wa — X*Y f(t*> **, И, ve(t*9 **, и)).	(82.9)
Основное свойство экстремальной контрстратегии V" •*--±-ve(t, х, и) формулируется следующим образом:
Лемма 82.2. Пусть замкнутое множество Wv является v-стабильным, V“	х, и) — контрстратегия, экстремаль-
ная к этому множеству, и {to, х0} е Wv. Тогда для всякого движения х [/] = х [/,/о, *о, будет справедливо соотношение
[t, х [f]} е Wv при to^t^x,
где т — момент времени, когда точка {/, х [/]} впервые покидает область H(NC). Если для некоторого движения х[/] = — x[t, to, Хо, Ve] точка {t, х[7]} (t /0) не покидает область H(NC), то для этого движения условие {t, х [/]} е	выпол-
няется при всех t t0.
Напомним, что свойство и-стабильности множества Wv было определено в § 11. Доказательство этой леммы не содержит новых по существу элементов, поэтому приводить его не будем.
Вернемся к рассмотрению определенного выше и*-стабиль-ного моста Из определения этого моста вытекает, что множество Wt* содержится в Nc и обрывается к моменту t = ft на множестве Мс. Поэтому в силу леммы 82.1 заключаем, что стратегия Ue 4- ue(t, х), экстремальная к множеству W'u*, доставляет решение задачи 9.1 к моменту t = $ для любой позиции {/0, Хо}, принадлежащей этому множеству
364
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV"
С другой стороны, если {/0, х0} то непосредственно* из определения множества вытекает существование открытых окрестностей G(Afc), H(NC) множеств MCi Nc и существование контрстратегии V" 4- ue(t, х, и), которая доставляет решение задачи 82.2 об уклонении до момента t = О. Таким образом, справедливость теоремы 82.1 установлена.
Заметим, что решение задачи 81.2 можно определить в форме контрстратегии V“ ve (/, х, а), экстремальной к некоторому ^-стабильному мосту Wv. Построение такого моста приведена в § 16 (см. стр. 68).
Аналогичным образом с понятной инверсией некоторых элементов экстремальной конструкции можно доказать теорему 82.2. В заключение параграфа отметим, что максимальный нестабильный мост можно определить рекуррентной процедурой, основу которой составляет построение множеств-Эти множества определяются как совокупность позиций {/*,**} (^^'6), для которых при любом выборе контруправления Vu-i-v(u) существует решение х(/) =х(/,х*, Vй) уравнения (82.1), удовлетворяющее условию {т,х(т)}ей при некотором т т Заменяя в соотношениях (66.1) множества множествами после выполнения операций (66.2), (66.3) получаем максимальный нестабильный мост Wu*r содержащийся в Nc и обрывающийся на Мс к моменту времени t = #. § *
§ 83. Аппроксимация в классе контрстратегий. В этом пара* графе приведена содержательная трактовка теорем 82.1 и 82.2, в которой вместо формально определенных идеальных движений х[/], порожденных стратегиями и контрстратегиями, рассматриваются практически реализуемые аппроксимирующие движения хд|7], порождаемые процедурами управления, которые раскрывают содержание этих стратегий и контрстратегий и полученного в § 82 решения игры сближения — уклонения.
При обсуждении этого вопроса будем исходить из возможности аппроксимации идеальных движений х[/] соответствующими ломаными Эйлера хд [/]. Напомним, что для ломаных Эйлера хд[/] = Хд[Л х*> v [ * ]]’ отвечающих чистой стратегии U х), справедлива лемма 6.1, из которой вытекает, что решение задачи 9.1, полученное в форме стратегии 1/^-н 4-н^(/, х), экстремальной к нестабильному мосту Wu*, можно содержательно истолковать в аппроксимационной схеме, формируя кусочно постоянные управления
§ 83]	АППРОКСИМАЦИЯ В КЛАССЕ КОНТРСТРАТЕГИЙ	365
При этом получаем, что для любого в > 0 можно указать такое б > О, что для всякой ломаной Эйлера хд И = хд [/, t0, х0, [7<е), t»[-]] .удовлетворяющей условию т,+1 — т<-Сб (i = 0, 1, ...), не позже чем в момент Ф произойдет встреча с е-окрестностью Мс* множества Мс при сохранении указанных выше движений в е-окрестности множества Nc. Аналогичное положение имеет место для стратегии V<e> 4- v^(t, х), доставляющей решение задачи 9.2. Идеальные движения, отвечающие этой стратегии, также можно аппроксимировать ломаными Эйлера на основе процедуры выбора кусочно постоянных управлений
= хд[тг]) (т.</<т.+1, Z = 0, 1, ...).	(83.2)
Перейдем теперь к вопросу об аппроксимации идеальных движений хИ, порожденных контрстратегиями. Будем для определенности рассматривать решение задачи 81.2. Заметим сначала, что для ломаных Эйлера хдИ = Хд[£, /*, х», Vй], где Vй-т-v(t, х, и)—произвольная контрстратегия второго игрока, справедливо следующее общее положение — аналог леммы 6.1.
Лемма 83.1. Пусть К, х*}—некоторая позиция, Vй 4-4- v (/, х, и) — произвольная контрстратегия, О' — некоторое число. Тогда для любого числа е > 0 найдется число б > 0 такое, что для всякой ломаной Эйлера хд [/] = хд \t, t*, х*, Vй], удовлетворяющей условию т<+1 — т, б (i = 0, 1, ...), найдется движение x[t] = х [£, t*, х*, Vй], для которого
—*дИ||<е при
Однако эту лемму нельзя использовать непосредственно для содержательной аппроксимации решения задачи 81.2. Дело в том, что ломаные Эйлера хдр] = хд[/, t„, х,, Vй], отвечающие контрстратегии Vй 4- v(t, х, и), определены в большой степени формально, так как в определении этих ломаных хд [/] указано лишь соотношение (81.1), которому должны удовлетворять движения хдИ, но не указан способ выбора реализации управления V.
Поясним обстоятельства, которые не позволяют при определении этих ломаных Эйлера сразу указать способ формирования управления и. Дело в том, что содержанию рассматриваемой задачи отвечает следующий аппроксимационный способ управления:
цд[/] = v(х{, хд[тг]«[/]),	< т/+1, / = 0, 1, ... (83.3)
Однако решение задачи 81.2 по ее постановке, отвечающей определению контрстратегий Vй из § 81, может достигаться на контрстратегии Vй, заданной разрывной функцией v = v(t, х, и)
366
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
произвольной природы. Поэтому реализация [/] (83.3) может оказаться неизмеримой даже в том случае, когда управление u\t\ непрерывно. Использовать такое управление в динамической системе, описываемой уравнением (6.1), нельзя.
Поэтому, как и в § 65, нам удобно здесь сузить класс, контрстратегий Vй х, и) и оставить в нем лишь такие контрстратегии, которые задаются допустимыми функциями и(/, х, и), измеримыми по переменной и в смысле Бореля ([9*], стр. 279, [20*], стр. 595). Тогда, какова бы ни была функция u[t] (/^ /0), измеримая в смысле Лебега, реализация %[/] (83.3) будет измерима по Лебегу ([9*], стр. 280). При этом следует проверить, что такое сужение класса контрстратегий Vй 4- v(t, х, и) не сужает возможностей второго игрока, т. е. нужно убедиться, что в классе контрстратегий, удовлетворяющих указанному условию измеримости, по-прежнему достигается такое же решение задачи 81.2 и остается справедливой теорема 82.1. Сделаем это. Как показано в предыдущем параграфе, решение задачи 81.2 можно искать в форме контрстратегий, экстремальных к мосту Wt- Поэтому достаточно проверить, что всегда можно построить такую экстремальную контрстратегию V* + ч- v{e\t, х, и), удовлетворяющую указанному условию измеримости. Эта проверка основывается на следующих обстоятельствах. Пусть W — произвольное замкнутое множество в пространстве позиций {/, х}. Обозначим через х*, и) совокупность векторов v(t*,x*,u)f удовлетворяющих условию (82.9), если сечение W(t) множества W непусто; в противном случае полагаем х*, u) = Q. Контрстратегия Vue + v[e\t, х, и) будет экстремальной к множеству W тогда и только тогда, когда для всех позиций {/, х} и всех векторов и^Р выполняется вложение
х, u)'^T[e\t, х, и).	(83.4)
Поэтому рассматриваемую теперь задачу можно формулировать следующим образом: среди функций v = v^(t, х, и), для которых выполняется вложение (83.4), требуется выделить функцию v* = v*(t, х, и), удовлетворяющую указанному выше условию измеримости по переменной и в смысле Бореля. Однако определенные-нами множества F(e)(Z, х, и) являются множествами, полунепрерывными сверху по включению (см. выше стр. 38, 39) по изменению и. Но тогда существование подходящей функции v*(t, х, и) е х, и) является известным фактом теории функций действительного переменного (см., например, [37*], стр. 397). Этим и завершается нужная нам проверка. Итак, мы можем предположить, что построена контрстратегия V“ ч- v(e> (t, х, и), которая является решением задачи 81.2 и удов*
§ 83}	АППРОКСИМАЦИЯ В КЛАССЕ КОНТРСТРАТЕГИЙ	357
летворяет условию измеримости. Тогда при любой измеримой реализации u\t\ (t t0) управление
и<де>и = и«е)(тр хд[т(.], «[/]) при Tt.</<Ti+1	(83.5)
будет также измеримым. Измеримая функция
fw = f(f, *д[Л> «И» о(Х’И) при Tz<f<T/+I, очевидно, содержится во множестве
*дИ> у(е)(т- хдЫ’ •)) =
= co[f:f = f(f, хд[/], и, и(е>(тр Хд[тг], «)), MSP].
Поэтому движение Хд[/], порожденное реализациями u[t} и будет совпадать с одной из ломаных Эйлера (см. (81.1)). Воспользуемся теперь леммой 83.1, из которой получаем, что управление (83.5) доставляет аппроксимационное решение задачи 81.2. Дополняя это положение приведенным выше (см. стр. 365) аппроксимационным свойством управлений [/] (83.1), приходим к следующей аппроксимационной форме теоремы 82.1.
Теорема 83.1. Для любой начальной позиции игры {/о, *о} и для любого числа ft Аз либо существует стратегия первого игрока 4- u<e)(t,x), доставляющая решение задачи 9.1 о сближении к моменту ft, и тогда для любого числа е > 0 можно указать такое 6 > 0, что для всякого движения Хд[И (%д (М ~	отвечающего управлению и(£ [/] (83.1).
где тг+1 — Xi 6 (i = 0, 1, ...), и любой измеримой реализации v [/] е Q (/	/0) не позже чем в момент t — ft произойдет
встреча с г-окрестностыо множества Мс при сохранении этих движений в г-окрестности множества N\.\ либо разрешима задача 81.2 об уклонении до момента t = ft; решение этой задачи доставляет контрстратегия второго игрока Ve + v{e}(t,x, и)> удовлетворяющая условию измеримости, и тогда существует число 8 > 0 такое, что при достаточно малом 6 > 0, какова бы ни была измеримая реализация u[f]<=P	выбор управления v^} [/]	(83.5) (t /0) при условии тгч-1 —ь
(/= 0, 1, ...) обеспечивает на отрезке [/0, ft] уклонение движений хд[/] (хд[/] = х0,	попадания в г-окрестность мно-
жества Мс до выхода их из s-окрестности множества Nc.
Аналогичные рассуждения можно использовать для определения экстремальных контрстратегий первого игрока, заданных измеримыми по v в смысле Бореля функциями u^(t, х, v), для которых реализации
«W=«(еЧтр хдKb уTz^/<T<+i’ i = 0> 1.............. <83-6>
368
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
будут измеримыми при любом выборе измеримой реализации управления второго игрока. Построение такой стратегии позволяет получить аппроксимационную форму теоремы 82.2.
Теорема 83.2. Для любой начальной позиции {/0, xQ} и для любого числа ft tQ либо существует контрстратегия первого игрока Ue 4- и{е} (/, х, v), которая доставляет решение задачи 81.1 о сближении к моменту ft и удовлетворяет условию измеримости, и тогда для любого числа 8 > 0 можно указать число 6 > 0 такое, что, какова бы ни была измеримая реализация v[t\ е Q (t^t0), выбор управления (83.6) при условии Тг+1 — ti С 6 (I = 0, 1, ...) обеспечивает для соответствующих движений хд{/] (хд[£о] = хо, t to) попадание в ^-окрестность множества Мс при сохранении их в s-окрестности множества Nc; либо существует стратегия второго игрока V& 4-4-^(е)(/, х), доставляющая решение задачи 9.2 об уклонении до момента t = $, и тогда существует число 8 > О такое, что при достаточно малом 6 > О, какова бы ни была измеримая реализация u[t]t=P (t^tQ), выбор управления (83.2) при условии Тг+1 — Xi 6 обеспечивает на отрезке f/0,0] уклонение движений [d (хд [М хо» ^о) от попадания в s-окрестность множества Мс вплоть до выхода их из s-окрестности множества Nc,
В заключение параграфа рассмотрим процедуры управления с поводырем, которые доставляют корректное решение задач 9.1 и 9.2 в случае, когда не предполагается, как это было в главе IX, выполнение дополнительного условия (12.3).
Опишем сначала управление с поводырем первого игрока в задаче 9.1 о сближении. Предположим, что определено некоторое и*-стабильное множество Wu* содержащееся в Nc и обрывающееся к моменту t = О на множестве Мс. Выберем некоторую систему А полуинтервалов [т;, тг+1), покрывающих полуось Ко, оо). Предположим, что движение реальной системы лф] и движение поводыря w(t) построены на отрезке [Лъ тг], причем выполняется условие
[t, ау(О) Wu*> {Л МО) при	(83.7)
Тогда для построения движения поводыря w(t) на следующем участке [т^, Тг+i] выберем контруправление v{t)(u) из условия max(x*[Tj — w(Xi))'f (xh	y) =
veQ
= (x* [tJ — w (r;) )' f (tp x* [TJ, u, («)),	(83.8)
где x*[tJ — результат неточного измерения фазового вектора х[тг]. Движение поводыря определим теперь так, чтобы оно
$ 83]
АППРОКСИМАЦИЯ В КЛАССЕ КОНТРСТРАТЕГИЙ
369
удовлетворяло уравнению в контингенциях ш(/), ^(-)),	(83.9)
и для него выполняется условие {/, w (0} е U7M>,	'
где т = Тг+ь если при t е[т<, тг+1] точка {t, w (£)} не попадает на множество Мс, в противном случае т т,+1 — момент времени, когда впервые {t, w(t)} е Мс. Существование такого движения w(t) является следствием «.-стабильности множества Wu, и условия [ъ, w(xi)}<^Wut (см. (83.7)).
Управление первого игрока «[/] = «(') (т, t < ri+1) движением x[t] выбирается из условия
minmax(x’[Tj] — да (rz))'f (тг, х*[тг], и, v) = u^Pv&Q
= тах(х*[т;] —	(xz, х*[т,], иУ\ v).
veQ
Это постоянное управление первого игрека в паре с некоторой измеримой реализацией	определяет движение x[t\ на
рассматриваемом отрезке fa, Тг+i], т. е.
=	fa</<Tf+1).	(83.10)
Указанная процедура формирования , движений до(/) и х[/] начинается из начальных позиций {/0, ^о} и {/0, Хо}, где {/0, ^о} — точка множества Wu*> ближайшая к точке {/0, х*[/0]}. Построение движений w(t) и х[/] проводится последовательно на участках тг </<Тг+1 (/ = 0,1, ...) до тех пор, пока точка {/,&>(£)} не попадет на множество МС) что произойдет не позже чем в момент t — 'ft.
Справедливо следующее положение.
Теорема 83.3. Пусть [tQ, х0} 1ГИ1к, где Wи*— нестабильное множество, содержащееся в Nc и обрывающееся на Мс к моменту t — -0. Тогда предложенная процедура управления с поводырем доставляет решение задачи сближения, устойчивое по отношению к информационным помехам.
Доказательство этого положения осуществляется по схеме, описанной в § 57 (см. стр. 251, 252), при этом следует при выводе оценки вида (57.10) воспользоваться неравенством (82.7).
Опишем теперь совсем кратко управление с поводырем второго игрока в задаче 9.2 об уклонении. Здесь предполагается заданным ц#-стабильный мост Wv*, движение по которому обеспечивает уклонение от попадания в область G(MC) до момента t = -ft, либо до выхода из области H(NC). Пусть движение w(t) и x\t\ определены при /0 t ь, причем {/, w (/)} ge Wv*, ^H(NC) при	Тогда движение поводыря
370
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
при п t Тг+1 определяется как решение уравнения в контингенциях
w(t)^^0(t, w(t), «<«(•)),	Tz<^<*z+i>	(83.11)
для которого выполняется условие
{/, WV',	(83.12)
где т = Ti+i, если {/, w(t)} е H(NC) при т,- t •< т<+ь в противном случае т — момент времени, когда точка {/, ш(/)} впервые покидает область H(NC). В уравнении (83.11) контрупрап-ление UMv ч- и*” (и) выбирается из условия
тах(х*[тг] — ®(т,))'/(тг, x’[tz], и, v) = ugP	\
= (х* [т«] - w (Ti) )' f (xi> [Ti]> м(.°(y)> u)-	(83-13>
Управление u[Z] = v(i> (x{ t < tz+1) определим условием minmax(x‘[T,J — w(x{))' f (xt, x*[tz], u> v)~
= тах(х'[тг] —	(xz, x’[rz], u, vu>).	(83.14)
Это постоянное управление второго игрока в паре с некоторой измеримой реализацией управления и[1] осуществляет движение х[/] при Т/ t < Ti+b т. е.
= М «[/], о(/»)	(tz</<tz+1).
Сказанные построения осуществляются до момента t = либо до момента t = т, когда точка {/, w(t)} впервые покидает область H(NC), при этом имеет место следующая теорема.
Теорема 83.4. Пусть {f0, х0) где Wv* — некоторое v ^-стабильное множество в задаче 9.2 об уклонении. Тогда описанная процедура управления с поводырем второго игрока доставляет решение задачи об уклонении, устойчивое по отношению к информационным помехам.
Доказательство этого положения можно осуществить по известной схеме, и здесь приводить его не будем.
Наконец отметим, что соотношения (83.9), которые задают движение поводыря, можно представить в виде
W (0 = j f (t, w (/), и, (и)) (du) (xt < t < T;+1), p
где функция ^‘'(u), выбранная из условия (83.8), является измеримой, (тг t < тг+1)— некоторая слабо измеримая функция, значения которой суть вероятностные меры на Р. Ана
§ 841
ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
371
логичным образом вместо соотношения (83.11) можно использовать уравнение
w (0 = J f (t, w (t), ti<i} (и), и) v‘tt} (dv) (т(. < t < T.+l), • Q
где измеримая функция м<г)(и) выбрана из условия (83.13), — некоторая слабо измеримая функция.
§ 84. Динамическое программирование. В этом параграфе п:ы сформулируем теоремы, в которые преобразуются утверждения из главы V и из § 68 при отказе от условия (12.3) о седловой точке маленькой игры (12.1), (12.2) и в то же время — при отказе и от использования смешанных стратегий. Прежде всего следует заметить, что поскольку при доказательстве теоремы 23.1 условие (12.3) седловой точки для маленькой игры (12.1), (12.2) нигде не использовалось (см. замечание на стр. 103), то эта теорема сохраняет полностью свою силу и для рассматриваемого теперь случая.
Теорема 25.1 трансформируется в следующее утверждение.
Теорема 84.1. Предположим, что удалось найти непрерывную в области	функцию е(/, х), которая удов-
летворяет краевому условию
е(й,. х) = а(х),	(84.1)
имеет непрерывные частные	производные de./dt.	де/дхг.
(/=!, ..., п) в области		
а0 < 8 (/, х) < а0,	to < t < О',	(84.2)
причем		
а0 = inf а (х), X	ст9 — sup ст (х), X	(84.3)
и удовлетворяет в этой области (84.2) условию
min max f(t, x, и, y) + “^’)===0-
(84.4)
Пусть, далее, стратегия U° 4- w° (/, х) и контрстратегия Vo4-y°(f, х, и) определены в области (84.2) условиями max^-|^-J f(t, х, u°(t, x), v)j = minmax([^-] f(^, и, (84.5) и
[й-] x>u’ x' M»=moax([-Srw.<84-6) а в областях е(/, x)^oo, е(/, x)^o°— любыми допустимыми функциями uQ(t,x) и vQ(t,x,u).
372
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
Тогда пара {(7°, Vo} образует седловую точку дифференциальной игры из § 18 на минимакс — максимин функционала <р (18.1), складывающейся из задач вида задач 18.1 и 18.2, сформулированных, однако, теперь первая — опять в классе стратегий U-±-u(t,x) для первого игрока-союзника, а вторая — уже & классе контрстратегий Vu + v(t,x,u) для второго игрока-союзника. При этом цена данной дифференциальной игры определяется равенством
YC=Y° = ®(/0,x0).	(84.7)
Простой модельный пример приложения теоремы 84.1 доставляет снова задача конфликтного управления безынерционной точкой пг, подобная задачам из §§ 26, 69, но теперь при условии, что первый игрок формирует управление и в виде функции от Позицйи {/, xit х2} точки пг, а второй игрок строит управление и на основе информации и о текущей позиции {/, Х1,Хг} точки пг, и о реализующихся значениях «[/]={«i[/], «2 И, «зШ) управления и. Не обсуждая этот пример подробно, так как это обсуждение повторило бы с понятными изменениями материал из §§26 и 69, отметим лишь, что в обозначениях из § 69 при условии
a cos 0, > 0	(84.8)
величина е(/, х) для теоремы 84.1 определяется здесь равенством
е (t, х) — (х2 + х|)'/2 — (a cos 0, — 0) (ft — t),	(84.9)
а оптимальные управляющие воздействия u°(t, х) и v°(t,x,u\ в области е (t, х) > 0 — равенствами
«о(/, х) = -а1§г, «»(/, x) = -a1gr, ««(/, х) = 0	(84.10)
(по условию (84.5) в данном случае годится любое значение u^(t, х), выбираем u°3(t, х) = 0),
V°(t,X, u)==p x.cos^ + ^sin^.,
Оо(/, х, «) = 0 X2COS"3~||X1Si-?-,	(84.11)
о°(Л х, п) = х(ф),
где ф— угол между векторами {и}2 и s = причем |ф|^л и ф > 0 (ф < 0), если поворот от вектора {и} г к вектору s осуществляется против (по) часовой стрелке; х(ф)= {—Р* при —л ф гС ~НЗ*. Ф при —р* ф <С 0*, +Р* при 0* -Сф л}.
§85]	  ПРОГРАММНЫЕ КОНСТРУКЦИИ	37J-
§ 85. Программные конструкции. Мы не будем разбирать программные конструкции для минимаксной дифференциальной игры и обсуждать для данной игры базирующийся на этих конструкциях способ экстремального прицеливания для задач сближения и уклонения в об.щих случаях нелинейных систем столь же подробно, как это было сделано в главах VI—VIII при условии седловой точки маленькой игры или в главе XII для класса смешанных стратегий. Ограничимся лишь формулировкой понятий программы или элементарной программы, так как при наличии этих понятий . соответствующие регулярные случаи и отвечающие им утверждения и способы экстремального управления конструируются по аналогии с материалом из глав VI— VIII и XII с понятными изменениями. Ограничимся лишь одной теоремой об экстремальном прицеливании в регулярном нелинейном случае в качестве образца. Однако регулярные случаи минимаксных игровых задач сближения и уклонения для собственно линейных систем Мы рассмотрим более подробно, так. как там соответствующие способы экстремального прицеливания уже приобретают характер более или менее эффективных алгоритмов.
Итак, дадим определение программы второго игрока для случая минимаксной игры сближения с множеством Л1С. Будем называть такой программой на полуинтервале [£«, О) всякое слабо замкнутое множество {тН), [/*, $)}п программных управлений i\t (du, dv) (t*-*Ct <&), удовлетворяющее условиям:
(1)п Какова бы ни была слабо измеримая функция ^(du) (t*^t<.$), среди элементов т](.) из {"По, [^, #)}п найдется по крайней мере одно управление i\t(du,dv)	<$), согласо-
ванное с m(du) (t*^t < &) условием
J fit (du, dv) = Ц/ (du)	(85.1>
Q
при почти всех fe[/t,O).
(2)п Пусть r)p (du, dv) (t, t < 0) — некоторая слабо измеримая no t функция-мера, согласованная с мерой ^(du) условием (85.1), Т — измеримое множество из полуинтервала [/„, &) и {т1(.)> [£*>	— программа второго игрока, содержащая
^9,(du, dv). Обозначим символом ^(du,	множество
Слабо измеримых функций-мер (du, dv) (t е Т), каждая из которых согласована с мерой \i^(du) условием (85.1) и является отрезком для t <^Т управления ) (du, dv) е {т]( (, [/„, <►)} совпадающим с v^(du, dv)wpnt&T. Каковы бы ни были слабо измеримые функции (du)p (du) (t*^t <&), совпадающие на некотором измеримом множестве Т с: [/*, О), и каковы
374	МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. XIV
-бы ни были управления т)<” (du, dv) и п(2) (du, dv) (/,</< ft) из f^.)» K> ft)}n> согласованные c p,*n (d«) и p)2*(d«) соответствен-тю условием (85.1), множества {т)(-> (du, do)}1*1, т и {T](.)(d«, du)|2|,r «будут совпадать.
Элементарные программы [/„, ft))n можно конструировать следующим образом. Выберем во множестве всех слабо измеримых функций nt(du) (t.^t<ft) слабый счетный базис •<[7*], стр. 459) {ц’*’(du)} (k=l, 2,...). Пусть, далее, вы--брана какая-нибудь последовательность программ {т]и, [/„ ft)}(^ Х/==1, 2, ...). На основе каждой из таких программ построим матрицу /f) (/=1, 2, ...; k=l, 2, ...), где — элемент из /-й программы, согласованный условием (85.1) с функцией р.}**. При этом будем полагать, что в пределах каждого J-ro столбца r|j*’ й сохранено условие согласованности (2)п. Далее, проредим матрицу {л'Дл} по / так, чтобы при каждом -фиксированном значении k последовательность [и'*- 6} (/=1, 2,...) слабо сходилась. (Для новой матрицы мы сохраним старую нумерацию по /.) Слабое замыкание для совокупности всех -возможных слабых пределов для всевозможных сходящихся последовательностей элементов г](.) из слабых замыканий множеств {'nJ*' /() и образует элементарную программу
К, Ф))п.
Вспомогательная программная задача, отвечающая здесь задачам 34.2 и 70.2, будет формулироваться следующим образом.
Задача 85.1. Дана начальная позиция {/*, х*} и отрезок времени [£*, О], причем множество М(О) непусто. Требуется найти максимизирующую программу {?]н, [/*, О1)}^ = {л(.)}д и в ней максиминное управление которое удовлетворяет следующему условию:
iP(ft, x(ft, t„ х„ 31“))= min р(ft, X(ft, t„ x„ 7],.))) =
= max min p(ft, x(ft, tt, x,, rj .)) —е°(^, x„, ft). (85.2) (M ^(Mn
При выбранных значениях с и р > 0 ситуацию в минимаксной игре из § 18, складывающейся из задачи 18.1 и задачи, аналогичной задаче 18.2, но поставленной для второго игрока-союзника в классе контрстратегий Vй Н- v(t, х, и), и все это при выборе <>(х) = р('О’, х) (34.1), назовем регулярной, если для всякой позиции {/*,х*} из области
/о < t < О’, с < 8° (/*, х*, О) < с + р	(85.3)
ПРОГРАММНЫЕ КОНСТРУКЦИИ
37!>-
§ 85]
задача 85.1 имеет единственное по существу решение — оптимальное максиминное управление т]“°	и точка т!\
минимизирующая ®(/,х, т) в (34.1) при t = & и х = х00(д). также единственна.
В регулярном случае оптимальное управление т]°° (^ t < 0^. и оптимальное движение х00 (/), разрешающие задачу 85.1, удовлетворяют следующему условию минимакса:
| J s' (0 f (t, х00 (t), и, v) pg° (du, dv) =
p Q
= min max [«'(/) f (t, x°°(/), u, v)J (85.4> U V
при почти всех О). Здесь s(i) — то же самое решение-уравнения вида (36.3), о котором шла речь в лемме 37.1, с той разницей, что теперь т]”0 и х°°(^) суть решения задачи 85.1, а не решения задачи 34.2, как в § 37.
Справедливо утверждение.
Лемма 85.1. Если при выбранных значениях с и р > 0 ситуация в минимаксной игре из § 18 при выборе
а(х) = р(ф, х)	(85.5)-
является регулярной, то в соответствующей области (85.3) функция z°(t,x,b) (85.2) имеет непрерывные частные производные де°/дХ{ (i= 1, ..., г]), dtf4dt, и эти производные в каждой позиции {t*, X*} из области (85.3) определяется равенствами
= — min max [s' (#, tj f (t„ xt, u, o)],	(85.7>
где есть то же решение дифференциального уравнения (38.5), о котором шла речь в лемме 38.1, где только следует понимать под и х00(/) решения задачи 85.1, а не решения задачи 34.2.
Из (85.6) и (85.7) немедленно вытекает, что при выполнении условия регулярности минимаксной игры из § 18 в области (85.3) функция 8°(/, х, ft) удовлетворяет условию (84.4). Стало быть, в частности, если с = о0 и с + Р = <?0 из (84.3), то эта функция 8°(/, х,'&) будет в регулярном случае удовлетворять всем условиям теоремы 84.1. Следовательно, в таком случает рассматриваемая игра будет иметь седловую точку, определяемую парой стратегия — контрстратегия [t/°, Vo)^ где [7° и Vo определены соответственно функциями а°(/, х) щ
376
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
и), которые в области (84.2) находятся из условий inin[s'(<>, х, u°(t, х), v)] =
= min max [s'(•d, x, u, v)], (85.8)
s'(ft, t) f (t, x, u, v°(t, x, w)) = max [s'(0, f) f (t, x, u, »)], (85.9) V
я вне этой области могут быть произвольными. Цена этой игры определяется при этом следующим равенством:
Yo=Y°u==eO(i, х, О).	(85.10)
В заключение этого параграфа остается сказать, что на случай минимаксной игры в общем случае нелинейной системы полностью переносятся также теоремы из §§ 43, 45, 73, 74 о сближении к моменту времени ft и теоремы об уклонении до момента времени ft, данные в упомянутых параграфах для игры сближения— уклонения в классах стратегия — стратегия и смешанная стратегия — смешанная стратегия. Здесь уже задачу сближения надлежит рассматривать в классе стратегий	х),
а задачу уклонения — в классе контрстратегий Vй 4- v(t9 х, и). Для получения теорем, аналогичных упомянутым теоремам из §§ 43, 45, 73, 74, достаточно в соответствующих программных конструкциях использовать то понятие элементарной программы, которое приведено в начале этого параграфа, и изменить понятным образом условия 43.1, 73.1 и 45.1, 74.1 теперь уже в соответствии с минимаксным характером игры сближения — уклонения. Мы не будем формулировать здесь эти измененные условия в общем нелинейном случае, так как ясное представление об их характере дают такие же условия 86.1 и 86.2, сформулированные в § 86 для той же минимаксной игры сближения — уклонения, но только в случае собственно линейной системы.
§ 86. Минимаксное прицеливание в собственно линейной системе. Обратимся к случаю собственно линейной системы, движение которой описывается уравнением (72.1) при обычных ограничениях (72.2). Будем, как и в других случаях, относящихся к подобной системе, рассматривать задачи о встрече или задачи об уклонении в предположении, что множество Nc совпадает со всем пространством {/, %}, а множество Мс является цилиндрическим в направлении оси t и осей последних (п — т) координат Xj (/= m + 1, ... ,.п) фазового вектора х. Направляющее сечение {А4с}т множества Мс в подпространстве первых т координат, как и раньше, будем полагать замкнутым, выпуклым и ограниченным. Для разнообразия в этом параграфе мы
§86]	. , СОБСТВЕННО ЛИНЕЙНАЯ СИСТЕМА	^7Т
сформируем программные конструкции не на основе, программ {По, к*» '0))п> складывающихся из программных управлений — мер гр (du, dv), а на базе подходящих контрстратегий-программ Vй -±-T(t, и). При этом, однако, программные движения х (t,t*, х*, Т) будем строить не переходом к пределу от ломаных Эйлера хд[/,	х*, 7й], а как решения подходя*
щего дифференциального уравнения в контингенциях. Именно,, в пределах этого параграфа будем именовать допустимой контрстратегией-программой Vй функцию T(t, и), которая всякой паре {/, и} ставит в соответствие множество T(t,u)<z:Qr причем множества T(t,u) должны быть полунепрерывны сверху относительно включения по изменению t и и. Программными движениями x(t, t*, х*, Т) будем именовать решения дифференциального уравнения в контингенциях
 х(/)е= A(t)x(t) + $~u(t, Г),	(86.1>
где
дги (/, т) = со {/ : f = f(t, и, v),	и), и fe PJ. (86.2)
Итак, начнем с задачи о встрече с множеством Мс,в момент t — ft для системы, описываемой уравнением (72.1) при ограничениях (72.2) и при условии, что первый игрок-союзник формирует свое управление и на основе позиционной стратегии (7 4- u(t, х). Подходящая к этому случаю вспомогательная программная задача может быть сформулирована следующим образом.
Задача 86.1. Дана начальная позиция {/*,**} и отрезок, времени [/*, -ft]. Требуется найти максимизирующую контрстратегию-программу Vo -5-F°(/, и), которая удовлетворяет следующему условию:
р(й, х°(й, х„ Г0)) = minp (&, х(о, t*, х„, Г°)) =
*(•)
= maxminp(fl, х(О, х„ Т)) = е°(^, х„ <►), (86.3> Г X (•)
где максимум вычисляется по всем возможным когггрстрате-гиям-программам	k)cQ, а символ p(f>, х) обозначает величину	...
рС&, х)= min- 1|{х — т]тП,	(86.4>
т. е. р(Ф,х) есть расстояние от точки {х}т до множества {Мс}т-Найдем выражение для величины х#, Ф) и выясним условия, определяющие оптимальную контрстратегию-программу Уо и)- В соответствии с формулой Коши [10*] имее^ж
1378	МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. XIV
.для программного движения x(t) = х(/, /*, х*, F) (86.1) равенство
{а	1
/ х(е, /)f(/)d/l . (86.5)
I*	' т
где измеримая функция f(/) удовлетворяет включению
f(/)s^„(/, F)	(86.6)
«при почти всех ft). Совокупность точек q = {x(ft)}m, отвечающих всем возможным движениям x(t) = хх*, F) (86.1), при фиксированной программе j^(t, и) составит в w-мерном подпространстве {х}т область достижимости <?(/,, х», б', ^), которая, как можно проверить, является ограниченным, выпуклым и замкнутым множеством. Читало быть, эта область G совпадает с пересечением своих -опорных полупространств n»(G,/) (см. выше, •стр. 163 и [8*], стр. 781), определенных неравенствами
# )
i'q > min/'</ = min/' X(fh /*) x* + [ Х(ф, t) f (t) dt r —
<7G=G	f(.)	•>
fl
= 1'{X($, OxJw+ f[ min l'{X($9t)f}m]dt. (86.7)
Но в таком случае, повторяя рассуждения из § 40, мы придем к выводу, что величина 8°(^, х*, Ф) (86.3) изображается равенством
х*, ft) — max max \l' UxJm +
r iuim L
fl
+ f[ min l'{X(b> t)f}m]dt + pM(l)]. (86.8)
«если правая часть этого равенства положительна, иначе e°(G, х*, Ф) = 0. (При сравнении равенств (40.16) и (72.7) с равенством (86.8) следует учесть, что здесь, в § 86, мы полагаем
= 0.) При этом мы, правда, молчаливо предполагали, что «стратегия F0(/,«), разрешающая задачу 86.1, существует. Пока это существование оптимальной стратегии TQ(t, х) не доказано, •« в равенстве (86.3) и в равенстве (86.8) вместо операции max, строго говоря, надлежит использовать операцию sup. Однако тиы этого не делаем, так как из последующих выкладок будет ^сно существование оптимальной стратегии ^®°(/, и). Две one-
§ 86]	СОБСТВЕННО ЛИНЕЙНАЯ СИСТЕМА	37<>
рации max и max в правой части (86.8) можно переставить местами. Тогда получим
е° (/*. Ф) = max (/' (X (О, /,) х,]т + о	\
+ max min I' [X(0, t)f}m]dt+ pM(l) . (86.9> r t,	)
Теперь нетрудно проверить, что последний максимум в правой части равенства (86.9) доставляет стратегия V“ 4- Ti (t, и), которая определяется множествами ^i(t, и), складывающимися; из всех векторов vt е Q, удовлетворяющих условию
max/'{X(fl, и, v)}m = l'{X(b, и, vt)}m. (86.10>
В самом деле, с одной стороны, контрстратегия-программа V/ Т\ (/, «), определенная условием (86.10), является допустимой, ибо множества	оказываются полунепрерыв-
ными сверху относительно включения по изменению t и il С другой стороны, неравенство о-	$
f[ min /'{Х(О, f)f]m]dt> fl min I' {J(0, f) f]m]dt,
tJ fS^ua.r)	(J
очевидно, невозможно вследствие равенства
min I'{Х(Ъ, t)f}m= min I'{X(f>,	=
= min max/'{X(0, /) f (/, u, v)}m, (86.11)
и e= P V e Q
которое прямо вытекает из определения множеств 7°i(t, и) согласно (86.10).
Пусть теперь / =/°— какой-либо максимизирующий вектор из (86.9). Предыдущие соображения, изложенные, впрочем, не вполне аккуратно, показывают, что для позиции {/*, х*}, где е0(/#, х», О) > 0, оптимальной контрстратегией-программой V“ Должна служить стратегия Vo 4-F°(f, n) = Fr>(/, и), а величина е°(/*, х», О) изображается равенством
е°(/„ х„ О) = max [/' (X(О, Qxjm +
Ш=1 L
+ f (minmax/'jX(O, f) f (/, u, v)}m]d/+ р,и (/)1. (86.12) • / U V	-i
380
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
Аккуратная проверка этого утверждения получается обратным движением от равенства (86.11) к соотношению (86.8). Эти рассуждения, однако, мы здесь приводить не будем.
Итак, мы вывели формулу для величины 8° (/*,х*, О) (86.3) и установили существование максимизирующей контрстратегии-программы Z;o(/, и).
Теперь по аналогии с. материалом из §§ 42 и 72 скажем, что ситуация для задачи сближения с Мс в момент t = О для соб-* ственно линейной системы (72.1) регулярна, если для всякой позиций {/*,**} (/*<'&), в которой 8° (/*, х*, tf) > 0, максимум в правой части (86.12) достигается, на единственном векторе /°.	.	,	-	'
Справедливо следующее утверждение.,
Лемма 86.1. Пусть ситуация для задачи сближения с
<для системы (72.1) регулярна. Тогда в области 8°(/, х, О) > 0 (/< О) функция 8°(f, х, fl) имеет непрерывные частные производные, для которых справедливы равенства
’[^Т =*>(<>> О.	(86.13)
= — min max s'(О, /.) [ Дх, + f (t*, и, о)], (86.14)
' 01	и V
•где
s(®, =	7O* = [Zo°],	(86.15)
•причем 1° — максимизирующий вектор из (86.12).
Следствием теоремы 23.1 и леммы 86.1 является следующее утверждение.
Теорема 86.1. Пусть ситуация для задачи сближения с мно* жеством ЛТс('О’) для собственно линейной системы (72.1) регулярна и e°(io, Хо, '&) = 0. Тогда экстремальная стратегия Uc-h -i- uc(t, х), определенная при e°(Z, х, О) > 0 условием
min max s'(ft, t) f (t, и, и) = max s'(ft, uc(t, x), o)> (86.16) « s p V e Q	v e= Q
-а при s°(t x, fl) = 0 любой функцией uc(t,x), обеспечиваем встречу всех движений х [Д t0, х0, Uc] системы (72.1) с множеством Afc('O').
Условия стабильности для минимаксной игры сближения с множеством 2ИС для системы (72.1) к моменту 6', аналогичные условиям из §§ 43 и 72, принимают здесь следующий вид.
Обозначим	-
«° &»*.) = min тахГГ {Х(т, O*Jm +
lull—1 L	: ,
'	+p(t, t, Z) + p^w(O]/ (86.17)
88]	СОБСТВЕННО ЛИНЕЙНАЯ СИСТЕМА ...	381
где 
т
p(Z„, т, /)= I min maxZ'{X(-r, Qf(t„ и, v)}mdt, (86.18) u е Р О s Q
Рм (T)(0 = min/'(— g), {*, g}e=Me(x). (86.19) c	s
Условие 86.1. Будем говорить, что выполнено это условие, «ели для всякой позиции {/,, х,} (г0 I* < *6, 0 < е°(/*, х«) < р) при всяком выборе функции у (и) найдется по крайней мере один момент то е [/*, О) и по крайней мере один вектор ft е co[f : f — f(t, и, v(u)), ue Р] такие, что для всех векторов s = s(xo, t*) (86.15), где О = То и /° — любой из максимизирующих векторов, будет справедливо неравенство
«7*^ min max$7(^> и, v).	' (86.20)
и е= Р V е Q
Справедливо утверждение.
Теорема 86.2. Пусть выполнено условие 86.1. Тогда стратегия Uc-r- uc(t9x)9 экстремальная к множеству /0 ft, 8°(/, х) = 0], гарантирует . для всякого движения х [/] = х |7, /0, *о, ^с] собственно линейной системы (72.1) встречу с множеством Мс к моменту ft, если только е°(£о, х0) = 0.
Условие стабильности для контрзадачи уклонения от встречи с множеством Мс к моменту ft для собственно линейной системы (72.1) принимает следующий вид.
Условие 86.2. Будем говорить, что выполнено это условие, если для всякой позиции {/*, х*} (io^X^ft, 0 < 8°(/, х) < р), где величина 8°(/#,х#) определена равенством (86.12), при всяком выборе вектора и^Р найдется по крайней мере один вектор f* <= co[f : f — f(t, и, и), v е Q] такой, что для всех векторов s==s(t0, U (86.15), где /° — любой из максимизирующих векторов /° из (86.15) и ft = То, причем то — любой, из минимизирующих моментов из (86.17), будет справедливо равенство
s'f* = тах$7(^ и>	(86.21)
v е Q
Справедливо утверждение.
Теорема 86.3. Пусть выполнено условие 86.2. Тогда контрстратегия V“ + .ve(t, х, и), экстремальная к множеству ITb>j+== = {{/, х}: ' t0 t О, 8°(/, х) ^гё] (ОСе^р), гарантируёт для всякого движения х[Г] = х[/,/0, х0, И“] собственно линейной системы (72.1) уклонение от множества Мс вплоть до момента О, если только е°(Го, х0)^ е.
Далее, как и в § 46 для случая линейной системы (40.1)., для рассматриваемого здесь случая контрзадачи уклонения к
382	МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. XIV
минимаксной задаче сближения с множеством Мс к моменту ft для собственно линейной системы (72.1) можно применить способ построения уклоняющего управления Vй 4- v(t, х, и) в форме контрстратегии обобщенного экстремального прицеливания. При этом предполагается выполнение следующих условий.
Условие 86.3. При всех t е [/0, т] и при всех т е [/0, 'О'] функция
X x,l) = — [Р Т, /) +	(т) (/)]	(86.22)
выпукла по /. Здесь функции р(/„т,/) и рм (т) (/)—определены соотношениями (86.18) и (86.19).
Условие 86.4. Для всякого вектора и^Р найдется вектор f*t есо[f: f = f(t, и, v), u^Q] такой, что для всех гб е [/, 4] и для всех zn-мерных векторов / будет справедливо равенство
I' {X (т, 0	u}m = max I' {X (т, t) f (t, и, v)]m.	(86.23)
Контрстратегию обобщенного экстремального прицеливания V“ -ь ve (t, х, и) мы определим соотношениями
s*'(t, x)f(t, и, ve(t, х, «)) = maxs*'(t, x)f(t, u, v). (86.24) V <= Q
Здесь
&
s* (t, x) = j (e° (t, x, т))~2 X' (t, t) l°* (t, x,x) dx, (86.25) t
где функция 8°(/, x, т) определена соотношением (86.12), /°* (/, х, т) — n-мерный вектор, последние п — т координат которого суть нули, а первые т координат образуют вектор /°(/, х, т), доставляющий максимум в (86.12) при '& = т. Отметим, что контрстратегия V“ + ие (/, х, и) определена соотношениями (86.24), (86.25) лишь в области, где min е°(/, х, т) > /о < t < о-
> 0, вне этой области u6(/,x,w)eQ— любая функция. Справедлива теорема:
Теорема 86.4. Пусть выполняются условия 86.3 и 86.4. Тогда контрстратегия Vue ч- ие (/, х, и) (86.24), (86.25) обеспечивает уклонение всех движений х[/] = х[/, /о, Хо, V“] от попадания на множество Мс на промежутке [/0,0], если только min 8° (Zo, х0, т) > 0.
§ 87. Априори стабильные мосты. В этом параграфе мы приведем совсем кратко некоторые соображения, относящиеся к построению априори стабильных мостов для случая мини
§87]
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
383
максной игры сближения — уклонения, отвечающих построениям из §§ 48—52 и §§ 75, 76. Стабильная дорожка х — (to t •&) для первого игрока-союзника, формирующего управление и на основе позиционной стратегии U -т- u(t,x), экстремальной к этой дорожке, строится здесь как решение следующего дифференциального уравнения в контингенциях:
istfJU),	(87.1)
где
/Ш *) = №>.(*, х, «(•)),	(87.2)
V (•)
причем
(/, х, v (•)) = со [f : f = f (t, x, и, v («)), и е= Р], (87.3) и пересечение в (87.2) берется по всем возможным функциям v = v(u)^Q (и<=Р). Уже по построению уравнения (87.1) всякое его решение х — w*(t) образует ««-стабильную дорожку. Стабильная дорожка {t, х — ы>«(/)} (to t 0) для второго игрока-союзника, формирующего управление v на основе позиционной стратегии V-t-v(t, х), экстремальной к этой дорожке, строится как решение дифференциального уравнения в контингенциях
хеСД/, х),	(87.4)
где
ад *)= П^ад х, «(•)),	(87.5)
и (•)
причем
&~v(t, х, и (•)) = со[f : f — f (t, х, и (v), v), v г QJ, (87.6) и пересечение в (87.5) берется по всем возможным функциям м = ы(о)еР (t'sQ). По построению уравнения (87.4) всякое его решение х = w*(t) образует ««.-стабильную дорожку. Стабильные дорожки {t, x = w(t)}	для игроков, ве-
дущих игру на базе контрстратегий Uv + u(t, х, v) или Кич--т- v(t, х, и), экстремальных к этим дорожкам, строятся как решения уравнений (48.3) или (48.7), ибо согласно материалу из § 48 решения x-=w(t) этих уравнений по их построениям образуют «-стабильные или «-стабильные дорожки соответственно, что и требуется для построения нужных контрстратегий Uv или Vй.
Как и в §§ 48 и 75, приходим далее к следующим заключениям. Если множества H*(t,x) (87.2) непусты для всякой позиции {/, х) из некоторой области D и существует по крайней мере одно решение х = ©,(/) (t0 t fl) уравнения (87.1),
384
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
проходящее в области D и удовлетворяющее условиям
Ч(^о)=^о, {t>	при /0<^<ft’, {ft, wjft)} е Мс, (87.7)
то стратегия Uc 4- uc(t, х), экстремальная к дорожке W = = [U х}:	ft, х, = w* (/)], обеспечивает перемещение всех
позиций {/, x[t, to, х0, Uc]} по этой дорожке вплоть до встречи с Мс в момент t = ft, как бы ни действовал второй игрок. Если множества Н (/, х} (48.4) непусты для всякой позиции {/, х} из некоторой области D и существует по крайней мере одно решение x=w(t) (t0 t ft) уравнения (48.3), проходящее в области D и удовлетворяющее условиям (48.5), то контрстратегия Uc + ис (t, х, у), экстремальная к дорожке № = [{/, х}: /о ft, х = ау(О], обеспечивает перемещение всех позиций {/, х[/, /о, *о, £/?]} 'по этой дорожке вплоть до встречи с Мс в момент t ft, как бы ни действовал второй игрок. Такого же сорта заключения с понятной заменой задачи сближения на задачу уклонения и отвечающие здесь теореме.48.2 справедливы и для подходящих решений х = w*(t) и х r^.w(i) уравнений (87.4) и .‘(48.7) .	.	\	: "
. Аналлтическре.описание множеств H*(t, х) ‘ (87.2,), и G*(i, х) (87.5) определяется следующими, условиями, которые отвечают здесь условиям (48.10), (75.8) и (48.12), (75.9).
Вектор h тогда и только тогда принадлежит к H*(t, х), когда
max [min max[/'f(^ х, и, v) — l'h]]^0.	(87.8)
!|/||=1 izePreQ	, ,
Вектор g тогда и только тогда принадлежит к G*(Z, х), когда
max [min max [/'/((, х, ц, v) —	(87.9)
||Z||==i‘ «б‘Р ’	*
Дал,ее справедливы следующие утверждения..
Лемма 87.1. Пусть. множество G.{t,x) (87.5) непусто и функция ,	. .
... .	(/, к, /) — — min max [l'f (t, x, и, :p)J,	(87.10)
’«ё р
выпукла no l. Тогда пересечение• O*(t,x) с любым множеством v) (49.2) Непусто: Пусть множество H‘*(t,x) (87.2) непустой функция" ’	' ,j •
х,(t, х,,Т) — — min maxJZ'f^» х» u> ®)1-	(87.11)
и €=' р V ё Q
' выпукла по\1. Тогда пересечение>.H*(t, х) с любым множеством ^^(t,x9u) (48.9) непусто. /
Лемма =87.2. Пусть. множество G(/, х) .(48.8)t непусто и функция кЦ^ х, Ту (49.3) выпукла .НоJ. Тогда переселение G(t, x)
АПРИОРИ СТАБИЛЬНЫЕ МОСТЫ
385
5 87]
с любым множеством ^и(1, х, «(•)) (87.3) непусто. Пусть множество	(48.4) непусто и функция	(49.4) вы-
пукла по I. Тогда пересечение H(t,x) с любым множеством &\а,х,и(-)) (87.6) непусто.
Очевидно, для множеств H(t,x) (48.4), R(t,x) (75.2), (87.2) и для множеств G(t,x) (48.8), G(t,x) (75.5), G*(t, х) (87.5) справедливы соотношения
Я. (t, х) с Н (t, х) с Н (t, х),	(87.12)
О. (/, х) с G (t, x)<=G (t, х).	(87.13)
Пусть D — некоторая открытая область в пространстве {/, х), в которой множества H*(t,x) или G*(t, х) непусты. Обозначим символом ^„(Z*, х», D, ^н) пучок всех решений х (/,/„, х„) уравнения (87.1), каждое из которых продолжено до момента т встречи позиции {/, х (/,/*, х„)} с границей множества D U Я; символом ^»(/*, х„, D,MC)—пучок всех решений х(/,/*, х„) уравнения (87.4), каждое из которых продолжено до момента т встречи позиции {t, хх„)} с множеством Afc или с границей множества D (см. § 49, стр. 214, 215).
Каждая дорожка {t,x = w(t)}, где w(t) — решение уравнения (48.3) или (48.7), образует соответственно «-стабильную или «-стабильную дорожку, а каждое решение х = w*(t) уравнений (87.1) или (87.4) образует соответственно ««-стабильную или «„-стабильную дорожку. В то же время леммы 87.1 и 87.2 указывают условия «„-стабильности множества W&, порожденного пучком 38 (t*, х», D, Мс) решений уравнения (48.7), ««-ста-бильности множества W&, отвечающего пучку ЗЕ (t*, х„, D, <8Н) решений уравнения (48.3), а также — условия «-стабильности множества порожденного пучком	х», D, Мс) и
«-стабильности множества W%t, порожденного пучком ^*(^*, х„, О, й’н). (Напомним, что множество W , порожденное пучком 36, было определено в § 49 (см. стр. 215).) Комбинируя эти условия различным образом, можно получать различные заключения о решениях дифференциальных игр, где тот или иной игрок будет вести позиционную игру, базирующуюся на стратегиях Я4-.м(/, х) или V — v(t, х), а другой игрок будет вести игру, базирующуюся на контрстратегиях Vй 4-4- о (/, х, ы) или Я® -т- и (t, х, о).
Приведем здесь для образца два заключения подобного рода.
Теорема 87.1. Пусть для всех позиций {/, х} из некоторой открытой области D, содержащей множество Ne, выполнено второе условие леммы 87.1 и {/0, х0} е D. Если при этом по крайней мере для одного решения x = w*(t) уравнения (87.1) позиция {t, встречается с Мс при t = т ft, не выходя до встречи с Ме из Пс, то стратегия Uc + uc(t, х), экстремальная
13 Н. Н. Красовский, А. И. Субботин
386
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
к дорожке {/, х = (tQ t т), гарантирует встречу всех движений х [/, /0, Gc] с Мс в момент t = т О. В противном случае существуют открытые окрестности G(MC) и H(NC) множеств Мс и Nc такие, что контрстратегия + vc(t, х, и), экстремальная к множеству W&*, порожденному пучком
х*,	гарантирует для всех движений x[fl tQ,xQ, Vuc}
уклонение позиций {t, x[fl} от попадания в G(MC) до момента ft, либо до выхода на границу множества H(NC).
Теорема 87.2. Пусть для всех позиций {/, х} из некоторой открытой области D, содержащей множество Nc, выполнено второе условие леммы 87.2 и {f0, *о} D. Если при этом по крайней мере для одного решения x = w(t) уравнения (48.3) позиция [t,w(t)} встречается с Мс при t = т ft, не выходя до встречи с Мс из Nc, то контрстратегия Uc ис (t, х, v), экстремальная к дорожке {/, х = w(t)} (to t т), гарантирует встречу всех движений x[flfl, Uvc] с Мс в момент t = т О’. В противном случае существуют, открытые окрестности G(Mc) и H(NC) множеств Мс и Nc такие, что стратегия Vc-t- vc(t, х), экстремальная к множеству W&, которое порождено пучком Я? (t*,x*,	решений уравнения (48.3), гарантирует для
всех движений х [/, /0, *о, VJ уклонение позиций {t, х [/]} от попадания в G(MC) до момента О, либо до выхода на границу множества H(NC).
В заключение этого параграфа обсудим вопрос о построении априори стабильных мостов для минимаксных игр на основе программных конструкций, подобных тем, какие были рассмотрены в § 50 при условиях (12.3) седловой точки маленькой игры (12.1), (12.2) и в § 76 для случая смешанных стратегий. При этом ограничимся здесь только описанием конструкций соответствующих программ, так как после определения таких программ все остальные построения из §§ 50 и 76 переносятся на рассматриваемый теперь случай минимаксных игр понятным образом. Итак, нужные здесь программы можно определить следующим образом. Программу первого игрока можно определить как функцию {иу,ю (•)}], которая всякой паре {fl у(-)} ставит в сооответствие некоторое множество векторов и е Р. Здесь &(•) есть любая функция v = v(u)^Q, и^Р. Далее, для выбранной начальной позиции {/*, х*}, имея программу {иу, v(•)}), мы можем построить ломаные Эйлера
[A — [fl fl» {U{.t V (.)}}» ^|.J ( • )] (ХД [fl] = *♦) как решения следующего дифференциального уравнения:
*дИ = fto}))’ <87,14)
§ 881	ПРИМЕРЫ	387
для всевозможных выборов реализаций У[(](-) функций vt(u). Всевозможные пределы х[/] = х[/, Z*, хф, {«(.,»(.)}}]
для равномерно сходящихся последовательностей ломаных Эйлера хд[/] и образуют пучок й?*, который порождает «„-стабильное множество Wset. Программу второго игрока можно определить как функцию (о{/, « »), которая всякой паре {/,«(•)), где и(-) есть любая функция и = м(и)е Р, v <= Q, ставит в соответствие некоторое множество векторо’в aeQ. Далее, для выбранной начальной позиции {/*, х*}, имея программу {иц, «(.)}}>. мы можем построить ломаные Эйлера
*дК1 = хдр> А,»	«(•))}’	(хд1^»] = х»)
как решения дифференциального уравнения
Л1<1 = /((. хд[<1.	(87.15)
Т/ t Т, +!,
для всевозможных выборов реализаций «[<](•) функций ut(v). Всевозможные пределы x[t] = x[t, х*, {о{.,«<.»}] (/„ ^ / ^ О) для равномерно сходящихся последовательностей ломаных Эйлера хд И и образуют пучок который порождает ^-стабильное множество Wa?,.
§ 88.	Примеры. Рассмотрим сначала решение задачи 21.5 о преследовании. Для решения этой задачи воспользуемся теоремой 86.1. Учитывая соотношение (80.2), получаем
tninmax/'(X('f)', и, u))m = и V
=	<88Л
В данном примере будем предполагать выполнение неравенства
При выполнении этого условия функция %(/, О, /) (86.22) будет выпукла по I, и поэтому минимаксная игра сближения с Л4С будет регулярна. Величина ео(/», х„, &) (86.12) здесь задается равенством
х„ ^) = max[/!9i(^, xt, О) + /2<72&, х„ О) —
1/1=1
- (тг “s ^т+ч] • «ад
13*
388
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
где величины qit q2 определены соотношениями (80.5). Нетрудно заметить, что в области, где 8o(t«, х», О) > 0, максимум в
(88.3) достигается на векторе
х„, 0) = </(t., х., О)/|| q(tt, xt, О)||, поэтому получаем
е0 (К, хф, О) = || q (t„ х., О) || -	(-£- cos р2 - -Ь.).
Определяя теперь экстремальное управление uc(t, х) из
(88.4)
(88.5)
7,


f-2JX Я -t— ft ft
вия (86.16), имеем
_ ^i<7i	х*, О)
II <7 (<». х., О)|| ’ Мг (*,. Xt, О) Н<7 (<.. х„ О)|| ’
«1с (t, х) =
«2с (t> X) —
U3c(t> x) = 0.
усло-
(88.6)
f-Ш
Заметим, что условие (86.16) значно определяет лишь первые две компоненты ^экстремального управления uc(t, х), третья компонента может быть произвольной в пределах ограничения |«з|<^р1; для определенности полагаем Изе = 0. В качестве параметра О в соотношениях (88.6) выбирается наименьший корень О = O°(to, *о) уравнения 8° (to, х0, &) = 0	(6	t0),
где величина 8°(t, х, ft) определена равенством (88.5). Тогда, как показано в § 86, построенная стратегия (7С4--t-uc(t,x) обеспечит попадание точки {t, x{t]} на множество Мс к моменту t = tf>(t0,X0).
Стратегия L/cuc(f, х) (88.6) была испытана на ЭВМ. При этом были выбраны ные данные:
*4 = 3, 0! = О,
|(2)0 _ j,
Напомним, что и /п2(см. стр. 92).
На рис. 88.1 штриховыми линиями изображен процесс преследования, когда оба игрока выбрали стратегии экстремаль-
. &

as

О
\\
/?<?•
Рис. 88.1.

1,г 4
одно-
следующие
A2 = V2,
P2 == n/3, £(O 0 = 1, t](2) 0 = 0,
значения
«11 = 1.
to = O, г|(1)0 = 0, |(2) 0 = 0,
{£(2), Л(2)) — координаты точек mi
параметров и началь-
m2 = L
g<»> о == 0
т,(2) 0 = -03/2.
ПРИМЕРЫ
389
§ 88]
кого прицеливания, т. е. управление и формировалось по закону (88.6), а управление v — по закону {v}2 = -^М/ЙН, Р {из = +0г} = Р {v3 = —р2} = 1/2, причем в представленной реализации случайное управление о3 выбиралось в моменты Тг = 0, Oli. Встреча в этом случае произошла в момент т = 2. Сплошными линиями изображен процесс преследования в случае, когда первый игрок по-прежнему использует стратегию (88.6), а второй игрок полагает {щ[/],	о3[/]} = {0, 1/2, л/3}
{t to). Встреча здесь осуществляется в момент т= 1,45.
Рассмотрим теперь контрзадачу об уклонении, решение которой требуется определить в классе контрстратегий Vйч--г- v (t, х, и). Учитывая, что условия 86.3 и 86.4 в данном примере выполняются, воспользуемся теоремой 86.4. Определяя экстремальное управление ve(t,x,u) из условия (86.24), получаем
vle (t, х,и) — — Л2 [s, cos и3 + s* sin u3] || s* ||-1,
»2е (*’ Х> “) ~ ~ Л2 [— sin Ы3 + S2 C0S «з] II S* 1Г1’	(88-7)
V3e (t, X, и) = % (ф),
где ф— угол между векторами {и}2 и s*, причем |ф|^л и ф>0 (ф<0), если поворот от вектора {и}2 к вектору $* осуществляется против (по) часовой стрелке; х(ф)={—02 при —Л < ф < —02, Ф ПрИ —02 ф 02, 02 При 02 -С ф < л}.
В соотношениях (88.7) вектор s* = s*(t, х) определяется равенством а
s* (t, х) = J [е° (t, х, т)Г2 (т — f)q (t, х, т) || q (t, х, т) Ц-1 dx, (88.8) t
где величина е° и вектор q определены равенствами (88.5) и (80.5). В качестве параметра О в (88.8) можно выбрать любое значение О С 0°(/о, *о)-
Таким образом, пара {ис, V“), состоящая из стратегии Uc (88.6) и контрстратегии V“ (88.7), доставляет ситуацию типа седловой точки в игре, которая складывается из задачи 21.5 и контрзадачи об уклонении, рассматриваемой в классе контрстратегий {Vй}.
Приведем еще решение задачи об уклонении 21.6 на основе процедуры управления с поводырем. Обратимся сначала к рассмотрению задачи о преследовании для системы (21.15), решение которой требуется определить в классе контрстратегий первого игрока. Решение этой вспомогательной задачи используется при исследовании интересующей нас задачи об уклонении.
390
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
Покажем, что всякое решение уравнения = о,з = °г1(0> w4 — a2(t),
образует u-стабильную дорожку Wu = [{/, t^tQ] предполагается, что К\/т\—(cos Pi)X2/m2 > 0). Пусть
$~и К) = СО [f (u, vj: и е Р] (v, G= Q),
— («1 cos v#3 - и2 sin v#3) - — (o$I cos u3 - v#2 sin w3),
1	,	.	.	X	1
где
где
(88.9> ]
(88.10> :
(здесь.
Г(«. ».) =
_	(«1 sin 0,3 + «2 cos »,з)
т2 (0.1 Sin «3+0.2 cos ил) _
(88.11> а множества Р и Q заданы условиями (21.13) и (21.14). При любом выборе вектора в» s Q множество SF*U (п,) содержит круг Ku{v*) радиуса г — ki/mt с центром вточке б* = |—^-(cosP^v.,^ — -jjj-(cos Pj) t>.2|. Для того чтобы убедиться в этом, заметим, что*
V' = — / (».1 cos и3 —1>.2 sin м3) и* (d«3),
х	й’ = — / (v„ sin и3 + 0.2 cos w3) ц* (du3),
где мера	сосредоточена в точках = и «<2) = —рв
с равными весами ц (и^ — р, (^2)) = 1/2. Поскольку ||и*|| <(cos Pi)X2/^2, то всякий вектор о = {сц, о2}, удовлетворяющий условию Holl^OiMi—(cos Pi)X2/m2, будет содержаться в круге Кы(с^)с:£Гд(^). Следовательно, всякое решение уравнения. (88.9) будет удовлетворять соответствующему уравнению в контингенциях вида (11.2) при любом выборе вектора v* е Q, т. е. дорожка Wu = [{/, w(/)}; t /0] действительно является ц-ста-бильной.
Пусть №«==[{/, w°(/)}: to t < Оо]—дорожка, которая образована решением уравнения (88.9) и соединяет начальную позицию {/о, *о} с множеством М = [{/, х}: Xj == х2 = 0], причем Оо — to — наименьшее время, при котором для системы (88.9) (88.10) возможен переход из {to, xQ} на множество М. Тогда контрстратегия Uo, экстремальная к этой дорожке для всякого движения x\t, tQ, х0» #о] обеспечит попадание позиций {/, х [/]} на множество М к моменту t = Оо.
Обращаясь теперь к интересующей нас задаче об уклонении,, покажем, что можно построить такой позиционный способ управ
ПРИМЕРЫ
391
-§ 88}
ления, который обеспечивает второму игроку уклонение от встречи на промежутке [/о, Ф], где параметр ф < Фо можно выбрать сколь угодно близко к числу ф0. Поэтому такой способ управления доставляет второму игроку результат, сколь угодно близкий к оптимальному.
Воспользуемся процедурой управления с поводырем, описанной в § 83. Из определения момента Фо видно, что любое из движений системы (88.9) не попадает на М раньше чем в момент t = Фо. Поэтому процедура управления с поводырем обеспечит требуемое уклонение от встречи, если движение поводыря •будет формироваться так, что оно будет удовлетворять уравнению (88.9), и при этом движение реальной системы (21.15) и движения поводыря будут взаимно отслеживаться. Итак, приведем соотношения, определяющие указанный способ управления.
Для рассматриваемой системы (21.15) общие соотношения (83.13), (83.14), которые определяют выбор управления v в реальной системе (21.15) и контруправления Uv в идентичной ей системе для поводыря, принимают следующий вид:
-max I (х3 (тг] — w3 [тг]) Ц- (щ cos v3 — и2 sin о3) —
41 t	L
—-J-(V1COS м3 —o,sinu3)] +(х4[тг] —w4[t,.]) X III 2	J
X [-Jr («1 sin v3 + m2 cos v3) —— (v, sin u3 + v2 cos m3)1 ! =
L ''4	••1'2	J I
= (X3	] — W3 [Tz] ) [-^-(“1° (°) C0S V3 — U2l) (y) Sin °з) —
— (v, cos u«> (v) — v2 sin (v))] 4-
4- (x4 [tJ — w4 [tJ ) [-^- («<<> (v) sin v3 4- up (v) cos v3) -
— sin “3’ (°) + v2 cos «3 * (v))] > (88.12) tnin tnaxl(x3[rz]— ау3 [тг]) f—(и, coso3—tz2siny3)— ceQ aeP I	L
— -JJ- (Oj cos u3 — v2 sin M3)l 4- (x4 [tz] — W4 [tz]) X
X [-Jr («1 sin v3 4- u2 cos v3) — -JJ- (Vi sin u3 4- v2 cos м3)11 =
L ''4	m2	J J
= max{ (x3	— w3 [tJ) [^(m, cos — u2 sin ) -
-	(p(i° cos мз —	sin «3)] +
+ (X< hl - W4 hD [-^7 (“1 Sin °3} + «2 COS -
” i (V<1° sin “з + v2 ’cos мз)]} • (88.13)
392
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
(ГЛ. XIV
Из условий (88.12), (88.13) получаем следующие выражения для контруправления ию(я) и управления v(i>:
„{i) , A _ MS3[TdCOS03+S4№int,3)
1	( } Olrd + Hw)7’
„w (T,x — ММ^а-Мь]81" рз)
2	( )~ №d + slM/s
H(0 (0) = X (ф),
M — Z2s3lTd
1	OiKl+sW’’
,(*) = X2S4[Td
2	(«зЫ+^ГМГ’
(88.14)
(88.15)
(по условию (88.13) годится любое значение v^, выбираем о<0 = 0). Здесь s3[t(] = x3[tJ — ayjrj, s4[tJ = x4[tJ-а>4|тг], ф— угол между векторами {о}2 — {оь о2) и — s,l> — {— $3[т/], — причем | ф |=С л и -ф > 0 (ф < 0), если поворот от вектора {v}2 к вектору — s(/) осуществляется против (по) часовой #	стрелке; X (ф) = {—Pi при —л^
Рис. 88.2.
(рис. 88.2), причем длины от =	|Л,С| = |Д2С| = |(
|О£>| = Xi/mi — (cos рОХгМг-
<ф< —Pi, ф при — Р1<Ф<Р2, + Р1 при Р] <ф<л}.
Для построения движения поводыря рассмотрим множество ^(«<0(;)) =
=со[/’(и(,)(о), о): v е Q], (88.16) где функция	задана ра-
венством (88.11). Из определения функции иЮ — иЮ(и) вытекает, что множество (и{‘\ •)) будет сегментом Д1Л2В, дуга которого ^AiA2B = 2л — 2pt гзков на рис. 88.2 таковы | ОСА = 3| = Х2/т2. |ДС| = (cos Поэтому вектор
(0 _ (
(xi/mi ~ (cos Pl) хг/та) $4 W )
(«з[тЛ + 51ГЧ)1/г	)
(88.17)
принадлежит множеству (ы<° (•)) (88.16). Выберем теперь в качестве движения поводыря как раз то, которое удовле
88]
ПРИМЕРЫ
393
творяет уравнению
[/] = w3[/], w2[H = ^4[/J, ^3[И = ог(Л w4[/] = a^ (88.18) (rz</<Tf+1).
По выбору управления v&) (88.15) и контруправления (88.14) движение реальной системы (21.15), отвечающее управлению = (тг-< тг-+1, i = 0, 1,...), и движение поводыря w[/], порожденное управлением o[f] = о<г’) е ^\(«(*)(.)) (тг ^ t < Тг, i = 0, 1, ...), будут взаимно отслеживаться. При этом ||о|7]|| = M/wi—h2(cos pi)/zn2, следовательно, точка К^[/]} не встречается с множеством М раньше чем в момент t = fy). Поэтому при реализации построенного способа управления с достаточно мелким шагом д = (тг-ы — Тг) (i = 0, 1, ...) второму игроку будет обеспечено уклонение от встречи на отрезке Ко, '&], где д < 'О’о — сколь угодно близко к Фо-
Итак, указанный позиционный способ управления второго игрока в паре с контрстратегией Uq первого игрока образуют си-» туацию типа седловой точки в данном примере игры преследования— уклонения, рассматриваемой в классе контрстратегий первого игрока и позиционных способов управления второго игрока. • •/	—
В заключение приведем решение одного простого примера задачи 19.2 об уклонении. Пусть движение конфликтно управляемой системы описывается собственно линейным уравнением (72.1) и множество Мр} (см. стр. 80) содержится в гиперпло,-скости	,
*	L* = [х: /'х = О],
где /*— некоторый n-мерный вектор. Будем предполагать, что в рассматриваемом примере матрицы А (/) и вектор таковы, что
l[A(t)x — 0 при всех	(88.19)
т. е. гиперплоскость L* инвариантна относительно линейных преобразований, заданных матрицами 4(/). Примем для определенности, что /'хо^О, и предположим сначала выполнение неравенства
max min/'/(/, и, v) > 0	(88.20)
и е Q И^Р
Покажем, что при указанных предположениях существует стратегия Vго, которая исключает встречу (19.2) для всякого движения х[/, t0, х0, V0], если только Хо ф М{Ху. Эту стратегию определим из условия .
max	и, v) = minZ'f (/, и, о°(/)).	(88.21)
oeQ и^Р	иер
394
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
Отметим, что условие (88.21) определяет функцию у°(/) (/^=/о)>-не зависящую от переменной х. Как и выше в § 83 (стр. 366)». из известных результатов теории функций действительной переменной выводится, что эту функцию можно выбрать так, чтобы она была измерима по Борелю. Поэтому при желании движения системы (72.1), отвечающие стратегии можно определять не предельным переходом от соответствующих последовательностей ломаных Эйлера, а просто как решения уравнения
% = Д (0* + f (f, u[t]y v°(0).
Итак, проверим, что стратегия V°~vQ(t) исключает встречу (19.2). Поскольку Л4{х} cz L*, то достаточно показать, что для: всякого движения %[/] = х[/, /о,	V0]' при t > t0 выполняется
условие x[t]^L*. Рассмотрим сначала случай, когда х$фЬ*. Предположим от противного, что некоторое движение х [/] = = х[/, /о, XQy V0] при / = Г* впервые попадает на гиперплоскость L*. Тогда в силу предположения (88.19) при t = t* будет выполняться соотношение
/'Л(Г)х[Г]=--0.	(88.22>
Рассмотрим функцию р [/] = /' х [/]. Эта функция абсолютно непрерывна. Поэтому при почти всех t to существует производная этой функции, причем из условий (88.19) — (88.21) вытекает,, что почти всюду на некотором отрезке [/*, /*] (to t* < /*) будет справедливо неравенство р [/] > 0, из которого получаем оценку р [/*] > р [/»]. Поскольку р р01 = 1*х0 >0, a t* — момент-времени, когда впервые р[/] = /:х[/] — 0, то p[/J = l'x[t] > 0_ Следовательно,
/>[Л==р[Г]>р[и = ^К]>0,
т. е. точка х [/*] не принадлежит гиперплоскости Л», что противоречит определению момента t*. Полученное противоречие показывает, что в случае, когда Xq ф L*, всякое движение-х(7, to, Хо, V0] уклоняется от попадания на гиперплоскость L» и^ следовательно, не попадает на множество A4(X}.
Рассмотрим случай, когда Хо е L*. Используя соотношение /#Л(^о)хо = О и условия (88.20), (88.21), можно показать, что почти всюду на отрезке [/0, to + б] (б > 0 достаточно мало) будет справедливо неравенство р [/] > 0, из которого вытекает,, что всякое движение х [/] = х [£, to, Xq, V0] при t > to покидает гиперплоскость L* и не успевает при этом при to t to + б-попасть на Л4{Х). Повторяя затем приведенные выше рассуждения, убеждаемся в том, что и в этом случае стратегия V°-M>°(f) исключает встречу (19.2) для всех движений x[t, to, х0, V0] при всех t to.
<§ 88]
ПРИМЕРЫ
395
Поставим теперь такую же задачу об уклонении, но уже в классе контрстратегий Vй. Тогда условие (88.20) можно ослабить и заменить предположением
min max и, v) > 0 при	(88.23)
ЦЕ? U f= Q
Контрстратегия V" ч- v0(t, и), которая исключает встречу (19.2), для всех движений х[/, t0, х0, У“]> где 1'хХо^-О, в этом случае определяется из условия
max I'J (t, и, v) = I'J (t, и, v0 (t, и)).	(88.24)
Отметим, что функция v0(t,u), t ta и иеР, которая задает «онтрстратегию Vo, не зависит от переменной х, причем множество y"o(t,u) векторов о0, удовлетворяющих условию (88.24), является полунепрерывным сверху относительно включения по изменению переменных {Z, и}. Поэтому можно показать (см. аналогичное замечание в § 83, стр. 366), что функцию v0(t,u)^ и) ( t t0, и еР) можно выбрать так, чтобы она удовлетворяла следующему условию измеримости: для любой измеримой по Лебегу реализации и [/] е Р (t t0) функция =	«И) будет измерима по Лебегу. Учитывая это за-
мечание, движения х [/,/0, х0, VqJ, порожденные такой контрстратегией Vq 4- Vo(t, и), можно определять не предельным переходом от соответствующих последовательностей ломаных Эйлера (см. § 81), а просто как решения уравнения
х [Z] = 4 (Z) х [/] + /((t u\t\, МЛ
где и [Z] — произвольные измеримые по Лебегу реализации управления первого игрока.
Как и в рассмотренном выше случае, устанавливается, что здесь вблизи гиперплоскости L* для функции р[/] = С*И вы’ лолняется неравенство р [/] > 0, т. е. контрстратегия V“ «отталкивает» движения x[t] = х|7, t0, х0, Ио] от гиперплоскости тем самым исключая встречу с множеством Мщ.
Итак, стратегия V°-—v°(t) (88.21) при выполнении неравенства (88.20) и контрстратегия И“ ч- v0(t, и) при выполнении неравенства (88.23) обеспечивают уклонение от встречи для всех движений х [Z, to, Хо, V0] и х [/, t0, х0, V©], выходящих из любой начальной точки ХофМщ, лежащей в области Z'xo^O. Повторяя приведенные выше рассуждения, можно установить, что при выполнении неравенства
max min (— IJf (t, и, v) > 0 при Z^Z0 (88.25) . oeQ ueP
396	МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. XIV
стратегия V0-ь о0 (/), выбранная из условия
max min (—/»)'/(/, «, о) = min (—/.)'f (/, и, (88.26) oeQ мер	мер
будет обеспечивать уклонение при любом выборе начальной точки хофМ{Х}, лежащей в области /'хо^О. Если же выполняется неравенство
min max (— I,)' f (t, и, о) > 0 при t t0,	(88.27)
цеР v е Q
то контрстратегия V„ ч- v0(t, и), выбранная из условия max	и, и) =	и, v0(t, и)),	(88.28)
ueQ
также будет гарантировать уклонение от встречи при1всяком выборе начальной точки xQ ф лежащей в области Z'xo^O.
Предположим теперь, что неравенства (88.20) и (88.25) выполняются одновременно, тогда, как установлено выше, для всякой точки Хо^М{Х) существует стратегия V04-y0(Z), которая для всех движений х[/,/0, *о> Vе] (t > Zo) гарантирует уклонение от встречи с множеством 7И{Х}. При этом стратегию можно выбирать из условия (88.21), если 1*хо^О, и из условия (88.26), если Z'xo^O. В случае одновременного выполнения неравенств (88.23) и (88.27) для всякой начальной точки х0 ф М {х} можно указать контрстратегию уклонения, выбирая ее из условия (88.24) при Z'xo^O и из условия (88.28) при /'х0<0.
Отметим, что при таком решении задачи выбор стратегии или контрстратегии уклонения зависит от положения начальной точки относительно гиперплоскости L*. Рассмотрим теперь решение задачи об уклонении, не зависящее от выбора начальной позиции. Полагая сначала выполненными неравенства (88.20) и (88.25), построим позиционную стратегию V0 4-v°(f, х), которая обеспечивает уклонение при любом выборе начальной точки ХофМ{Х}. Эту стратегию определим следующими соотношениями:
min I'J (f, и, v° (Z, х)) = max min I'J (Z, и, у) при ‘ Z'x > 0, меР	о е Q меР
nun (— iy f (i, и, v° (/, x)) =	(88.29)
— max min (— Q'f(t, u, v) при /'x < 0. v €= Q мер
Нетрудно видеть, что соотношения (88.21), (88.29) в полупространстве /'х>0, а соотношения (88.26), (88.29) в области 1',х < О определяют одни и те же функции, поэтому из приведенных выше рассуждений следует, что стратегия У°<-ц°(/, х) (88.29) будет обеспечивать требуемое уклонение, т. е. какова бы ни
§ 88]
ПРИМЕРЫ
397
была начальная точка х0&М[Х), для любого движения х[/] = = х[/, /0, х0, V0] при всех t t0 будет выполняться соотношение x[t]&M{X).
Обсудим некоторые свойства полученного решения. Рассмотрим сначала вопрос о содержательной аппроксимации этого решения, основанной на ломаных Эйлера. Непосредственно из определения идеальных движений, как пределов соответствующих последовательностей ломаных Эйлера (см. § 6, стр. 32—35), получаем следующее положение. Каковы бы ни были начальная позиция {/0, х0} (хо^Мр)) и момент времени Т > /о, существует такое число 6 > О, что для всякой ломаной Эйлера Хд |7] = Хд[/, tQ, Х0, Vo, «[•]], ГДе А = {[Ti, Ti+i), i = 0, 1,...}, Тг+! — п 6, отвечающей стратегии Vo 4- ^o(t х) (88.29) и любой измеримой реализации управления и [/] Р, будет выполняться условие Хд[/] при всех	Т].
Перейдем теперь к исследованию устойчивости построенного решения и укажем содержательную процедуру управления, обеспечивающую уклонение от встречи при всех t to. Заметим сначала, что гиперплоскость L* является поверхностью разрыва по переменной х функции у°(/, х) (88.29). В связи с этим содержательная реализация стратегии V°4-^°(/, х) (88.29) может оказаться неустойчивой по отношению к информационным помехам. Дело в том, что наличие ошибок в измерении фазовой точки Хд [тг] может привести к неправильному определению положения этой точки относительно гиперплоскости L*, и вместо управления, «отталкивающего» ломаную Эйлера хд [/] от гиперплоскости L*, второй игрок выберет управление, «притягивающее» движение хд [/] к поверхности L*. При этом указанная ситуация может осуществиться многократно и ломаная Эйлера, порожденная таким управлением, будет оставаться вблизи гиперплоскости L*, пересекая ее на каждом из промежутков [ti, Ti+i], в результате чего движение хд[/] попадет на множен ство Л4{х}.
На рис. 88.3 изображена одна из таких ломаных Эйлера, реализовавшаяся в системе
xt = v, х2=и, |а|*С1, |v|<l,
где множество Af{Xj = [{хь х2}: х2 = 0, |xi|^ 1]. Эта ломаная Эйлера построена для случая, когда первый игрок выбрал постоянное управление «[/]==! (t^to), а второй игрок реали-зует управление о[/] = о°(тг, хЦт,]) (тг < т/+1, т|+1 — = В 6,1 = 0, 1, причем ошибки измерения таковы, что в каждый из моментов времени t = п фазовая точка хд [т<] и результат ее неточного определения — точка Хд [tJ — оказываются по разные стороны от гиперплоскости L* = [{xi, х2}: х2 = 0].
398
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
Для того чтобы исключить такие скользящие режимы и получить устойчивое решение задачи об уклонении, в систему
управления введем поводыря, движение которого зададим уравнением
а»д Ш = А (0 о>д [f] + f (Л и, [т.], vt (rj)
i=^0, 1, ...), (88.30)
WA Ко] = ХЛ Ko]'
Здесь x\ [f0] — результат неточного измерения начальной точки х0, управления мф[т>] и о„[тг] выбраны из условий
v.h] = 0°(Ti’	<88-31)
(<[тг]-шд[тг])7(тг> « [т,], ».[т4]) =
= т^х(хд[т4] —а>д[т4)7(тр и, [т.]), (88.32)
гДехд[т/] — результат неточного измерения фазовой точки хд[/) в момент t — xt. Движение исходной системы описывается уравнением
*д1Н = А(0хд[Л + ДЛ «М. ф|]) (Tf</<TZ+1, i = 0, 1, ...),
(88.33)
где управление выбирается из условия
max (хд [tJ — шд [tz] )' f (тр и, v [т,]) =
= min max (хд [rz] — шд [tz] )' f (rt, и, v). (88.34)
Выбор управления v* [/] = п* [tJ (т, t < Ti+i, i = 0, 1, ...) (88.31) обеспечивает уклонение точки W&. [/] от попадания на
5 88]
ПРИМЕРЫ
399
множество Л1{Х} на любом, сколь угодно большом промежутке времени, если только шаг б = Ti+i— т, и погрешность измерения достаточно малы. С другой стороны, выбор управлений и*[тг] (88.32) и v[ti] (88.34) гарантирует взаимное отслеживание движений и»дИ и хд|7]. Поэтому движение хд[/] также будет уклоняться от встречи с множеством М{Ху.
Таким образом, указанная процедура управления с поводырем доставляет решение задачи об уклонении из любой начальной точки хофМ{Х}, устойчивое по отношению к информационным помехам, т. е., каковы бы ни были начальная позиция {<о, Хо} (х0 ф Л4(х}) и момент времени Т > to, можно указать такие числа б > 0 и £ > 0, что при реализации управления v [/] = = u[xi] (т, ^7 <t/+i) (88.34), где r,+i — т, б (i' — 0, 1, ...) и ошибки измерения оцениваются неравенством]! хд [т4]—хд [тг]
£, всякое движение хд|7] системы (88.33) будет удовлетворять соотношению хд М(Х> при t0 t Т.
Итак, описанная здесь процедура управления с поводырем обеспечивает уклонение точки хд [/] от попадания на Л4{.} на любом конечном отрезке [/о, Л- Обсудим теперь вопрос об устойчивом решении задачи об уклонении на всей полуоси [/'о, °°). Заметим сначала, что построение процедуры с поводырем было осуществлено выше в соответствии с общим подходом, описанным в §§ 57, 83. Однако в рассматриваемом примере, где уклонение от встречи сводится к простому «отталкиванию» движений от гиперплоскости £*, эту процедуру управления можно упростить, полагая, что движение поводыря задается уравнением (88.30), где управление о, [т,] по-прежнему выбрано из условия (88.31), а управление u*[xi] — м, (/ = 0, 1, ..., и*— произвольная точка во множестве Р); движение реальной системы определяется уравнением (88.33), где
ВМ = Р.Ы = О<,(Т|- Мт<])-	(88-35)
В этом случае управление и* [/] = и» [т,] (т, sC t < т<+1, i = = 0, 1, ...) выбирается так, чтобы «отталкивать» поводыря о>д[/] от гиперплоскости а управление у[/]=о[т,] (88.35) в реальной системе (88.33) копирует это управление поводыря.
Ниже будет построено покрытие Д* = {[т;, r,+i], i = 0, 1, ...} полуоси [Ль 00) и доказано следующее положение: какова бы ни была начальная позиция {/0, х0} (х0<£М{Х}), существует такое число С > 0, что при условии |] х0 — х* || = J хд, [/0] —	[/0] J <
для любого движения хд [/] системы (88.33), порожденного управлением o[/] = v[t,] (xt t < tj+ь ( = 0,1, ...) (88.35) и любой измеримой реализацией	(/^/о), при
всех t t0 будет выполняться условие хд< [/] ф Л4(х}.
400	МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА	[ГЛ. XIV
Итак, опишем построение этого разбиения Д*. Пусть
r1(Z) = max min и, v), veQ ueP
r2(t) = max min (— IJ'fft, u, v).
v e Q usp
Точки т0, rb ... определим рекуррентно, полагая, что т0 = /0 и тг+1 = min {т(Др т®]}, где — нижняя грань чисел t > тр для которых равенство
min I'J (t, и, v° x)) = f| fe-ueP	i
выполняется хотя бы для одного из векторов х, лежащих в полупространстве Z'x^O, а т®, — нижняя грань чисел t > тр для которых равенство
min (— Z,)' f(t, и, о0 (тг, х)) = Гг
U^P	z
выполняется хотя бы для одной из точек х, лежащих в области Z' х < 0.
Покажем, что совокупность полуинтервалов [тй тж) (i = 0, 1, ...) образует покрытие всей полуоси [/0, <*>). Предположим от противного, что Тг -> < оо при k -> оо. По определению момента тг+ь существует вектор Vi е Q, удовлетворяющий либо условиям
minZ'f(Tp u, uj = max minZ'f(Tp и, =
ткН7(т<+1> и, Ог) = А£1, либо условиям
min (— Z.)' f (ti, и, Vi) = max min (— Z.)' f (тг, и, v) = r2 (rz), u<e=P	v <== Q weP
min(— l,)'f (t(+i, u, vt)=
Пусть для определенности существует бесконечная подпоследовательность векторов Vt (i = 1, 2, ...), для которых выполняются первые два соотношения, и пусть о» — предельный элемент этой подпоследовательности. Тогда в силу непрерывности функции f(t,u,v) получаем соотношения
min I'J (/., и, vj — max min I'J (Z„ u, v) = r1 (/,),
«еР	и e Q u^P
min IJ (Z„ u, vj = ueP	z
ПРИМЕРЫ
40 L
§ 88] из которых вытекает равенство гх (/*) = 1/2Г1 (£*), т. е. = = max min/'f (f*, u, v) = 0, что противоречит предположению v е Q и<=Р
(88.20). Полученное противоречие показывает, что совокупность полуинтервалов [тЛ, т,--н) (i = 0, 1, ...) покрывает всю полуось [/о, <»)•
По построению точек т, получаем теперь, что, какова бы ни была точка и е Р, при всех t е [т,, Tt+i] для всех векторов х выполняется либо неравенство
I'J (/, и, v° (т/, х)) у ^1 (т,) > 0, если 1',х	0, (88.36)
либо неравенство
(— I,)' f (t, и, и0 (tz, х))	j г2 (тг) > 0, если /'х < 0. (88.37)
Из этих неравенств известными рассуждениями (см. стр. 394) выводится, что управление v* [/] = п° (tz, [тг]) (т, t < тг+ь i = 0, 1, ...) «отталкивает» движение поводыря от гиперплоскости £*, исключая тем самым встречу точки о»д И с множеством М{х}.
Рассмотрим теперь движение хд [/], порожденное управлением	= аудДтг]) (г{	< т/+1) (88.35). Пред-
положим сначала, что точки хдД/0] и w. [Zo] лежат по одну сторону от гиперплоскости Тогда из неравенств (88.36), (88.37) вытекает, что управление о [/] (88.35) будет «отталкивать» от гиперплоскости L движение хд [/] так же, как и движение ш»д [/], обеспечивая тем самым уклонение х^[1]фМ^ при всех Если же точки хдД/0] и шд* ]70] лежат по разные стороны от гиперплоскости L*, то в силу малости величины ||хд [/0] — а»д [f0]|| можно утверждать, что в течение малого промежутка времени р0> + ₽] управление о|7] (88.35) переведет систему (88.33) в точку хд .['о+Ч. лежащую вместе с точкой шд [)0 + 0] по одну сторону от гиперплоскости L*, причем на отрезке [/0,/0 + ₽] точка хдД/] не попадает на множество Л1(х). Начиная с момента / = /0 + Р, управление t»[fj (88.35) будет «отталкивать» движение хд [/] от гиперплоскости L , обеспечивая тем самым уклонение хд |7] ф Л1(х} при t^t0. Таким образом, доказано сформулированное выше положение и показано, что управление с поводырем (88.35) обеспечивает устойчивое уклонение от встречи при всех t^t0.
Пусть теперь выполняются неравенства (88.23) и (88.27). Построим контрстратегию V“ ч- v0 (t, х, и), которая обеспечивает уклонение при любом выборе начальной точки Ха^ДИ^
1/213 Н- Н. Красовский, А. И. Субботин
402
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
Эту контрстратегию определим соотношениями
rj (/, u, vQ (t, х, и)) = max I'J (/, и, v) при Z'x 0,	(88.38)
UE Q
= max (-—/.)' f(t, u,v) при Z'x < 0, UEQ
причем предполагается, что функция х, и) выбрана так, чтобы выполнялось условие измеримости (см. § 83, стр. 366); возможность выбора такой контрстратегии показана в § 83. Отметим, что соотношения (88.24), (88.38) в полупространстве Z'x >0, а соотношения (88.28), (88.38) в области Z'x < 0 определяют одни и те же функции, поэтому из приведенных выше выкладок (см. стр. 394, 395) следует, что контрстратегия V“ ч--т- Vo (Л и) (88.38) будет обеспечивать уклонение х [/] 0 Л4(Х} при t t0 для всех идеальных движений xfZ] = x[f, f0, х0, выходящих из всякой начальной позиции {Zo, х0}, x0^A4{X}.
Решение задачи об уклонении, полученное в рамках формализации, основанной на идеальных движениях, допускает содержательную аппроксимацию, в которой рассматриваются движения Хд|7] = Хд [/, to, х0, а[-], v0[-]], порожденные произвольной измеримой реализацией управления u[f\^P и управлением
»ои = °о(тг хд[т«]> ЫИ)	7 = 0, 1, ...). (88.39)
При этом из материала § 83 сразу получаем справедливость следующего положения: какова бы ни была начальная позиция Ко, *о} (х0 ф Л/{Х)) и момент времени Т > /0, существует число б > 0 такое, что для любой измеримой реализации управления u[t]eP	выбор управления ОоИ (88.39) обеспечит
уклонение движения хд|7, t0, Хо, «[•],	при
если Ti+i — Xi б.
Перейдем теперь к исследованию устойчивости полученного решения и построению содержательной процедуры управления, обеспечивающей уклонение на всей полуоси [Zo, оо). Отметим сначала, что реализация контрстратегии V„ -ь v0 (t, х, и) (88.38) может оказаться неустойчивой по отношению к информационным помехам, поскольку здесь, как и в разобранном выше случае (см. стр. 397), вблизи гиперплоскости L* могут возникать скользящие режимы, приводящие к встрече движений хд|7] с множеством Мдо. Поэтому для стабилизации полученного решения можно ввести в систему управления поводыря, движение которого задается уравнением (88.30), где управления и* [я] й
§ 88]	ПРИМЕРЫ	403
[tj] выбираются из условий
“.KI’ v) =
= max min (x^ [тг] — a>A [tz])' f (т., и, v), (88.40)
0.Ы = по(тр®ДЫ>“.К])-	(88-4l>
/
Движение исходной системы хд[/]	порождается неко-
торым измеримым управлением u[t] (t tQ) первого игрока и управлением второго игрока
= У**(тг, хЦт,], и»д[тг], «•[/])	(т;</<тг+1, z=0, 1, ...),
(88.42) где функция v**(t,x,w, и) выбрана из условия
(х — w)' f (t, и, и” (t, х, w, и)) = min (х — w)' f (t, и, v) (88.43) и удовлетворяет условию измеримости (см. § 83, стр. 366), т. е. функция v р] (88.42) измерима по Лебегу при любом выборе измеримой по Лебегу реализации и*[/]. Здесь ц*[/] = п[(| + + Ди И, Ди [/] — информационные погрешности в определении управления противника.
Для построенной процедуры управления справедливо следующее положение: каковы бы ни были начальная позиция {/о, *о} (хо^А1{Х}) и момент времени Т > to, существуют числа 6 > 0 и £ > 0 такие, что при выполнении условий тг-+1 — тг 6 (i = 0, 1, ...), ||хдИ-х!Ш||<£, 11иИ-и*И1|<£ (/>м движения [/] = хд [/, tQ, х0, и [•], v [•]], порожденные любым измеримым управлением и [/] е Р (/ ^ to) и управлением v [/] (88.42), будут уклоняться от встречи с множеством М{х} на отрезке времени [/о, П- Выкладки, необходимые для доказательства этого положения, здесь опускаются, поскольку они сводятся в основном к известным уже оценкам (см. § 57, стр. 252 и § 82, стр. 361). Отметим лишь следующее обстоятельство: в приведенной здесь формулировке предполагается выполнение равномерной оценки (||и[/] — и* [£]||	£ при t tQ) погрешно-
сти в определении управления первого игрока, однако можно показать, что это утверждение остается справедливым и при Других типах ограничений на эту помеху, например, при ограничениях интегрального типа.
Укажем теперь устойчивую процедуру управления, обеспечивающую уклонение от встречи на всей полуоси [/о, оо). Как и при решении позиционной задачи об уклонении, здесь удобно ввести в рассмотрение модификацию общей процедуры с поводырем, полагая теперь, что движение поводыря ^д[Л
]/213*
404
МИНИМАКСНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
[ГЛ. XIV
определяется уравнением (88.30), где управление и*[тг] по-прежнему определяется соотношением (88.41), a и#[тг] = и* (i = 0,1,...)— произвольная точка в компакте Р. Движение лд[/] исходной системы при этом порождается некоторой измеримой реализацией u[t]^P (t tQ) и управлением
o[/] = v0(tp “МЧ’ и*И) (тг</<^+1, 1 = 0, 1, ...); (88.44)
напомним, что v0(t,x,u)—функция, определенная соотношениями (88.38). Данную процедуру управления будем рассматривать, полагая, во-первых, что при всех t tQ выполняются неравенства
min max Z'f (/, u, v) a > 0,
ue=P v et Q
min max (— /') f (t, u, v) a > 0, ueP v s Q
где a — некоторая константа, во-вторых, что функция f(t, и, v) не только непрерывна по совокупности переменных, но по переменным t и и равномерно непрерывна, т. е. для всякого 8>0 можно указать такие числа 6 > 0 и £ > 0, что для любых чисел Z* и /*, лежащих на полуоси [Zo, оо), и для любых векторов zz* и и*, принадлежащих компакту Р и удовлетворяющих условиям \t* — t* | б, IIu* — w*|| £, неравенство
II/U., «.> —	U*, o)||<8
будет справедливо при всяком выборе вектора v s Q.
При выполнении этих предположений можно доказать следующее утверждение: какова бы ни была начальная позиция игры {Zo. х0}	можно указать такие числа 8>0 и
£ > 0, что при выполнении условий
т/+1	(i —0, 1, ...), |хд[Zo] л-лРо]||==
= II хл К] шд Poll ?»
И«И-«,И11<$
движения хд[Z] = хд[t, t0, х0, «[•], и[-]], порожденные любой измеримой реализацией u[t]^P и управлением o[Z] (88.44), будут уклоняться от встречи с множеством М(Х} при всех t Zo-
Для доказательства этого положения заметим сначала, что при выполнении указанных здесь предположений можно подобрать числа 6 > 0 и £ > 0 так, чтобы выполнялись неравенства
I'J (Г, «*, Vo х., «.)) > а/2 при /'х. > 0,
(— О' f V*. и’> о0 (Z,, х., и,)) > а/2 при /'х. < 0,
ПРИМЕРЫ
405
§ 88]
где /*, t* — точки на полуоси [/0, оо), удовлетворяющие условию р»— S, и*, и* — точки компакта Р, удовлетворяющие условию ||и* — и*||^^, Vo(t,x, и) — функция, определенная соотношениями (88.38). Тогда при таком выборе чисел 6 и £ для функции v [/] (88.44) будут выполняться следующие соотношения:
u[t], гф]) J>a/2 при т/</<т/+1,
если /'а>д[тг]^0,
(— l,)'f(t, up], up]) ^а/2 при тг</<т/+1,	(88.45)
если l'w& [т;] < 0.
Из этих неравенств следует, что в случае, когда точки Хдр0] и Додро] лежат по одну сторону от гиперплоскости L*, управление v р] (88.44), начиная с момента t = t0, «отталкивает» движение Хдр] от гиперплоскости L*, исключая тем самым попадание его на множество Мщ. Если же точки х\ ро] и о>д р0] лежат по разные стороны от гиперплоскости £*, то из неравенств (88.45) и в силу малости величины Нхдро] — зуд Ро]П получаем, что в течение малого промежутка времени р0, to + И движение Хдр] перейдет на ту сторону от гиперплоскости L*, где находится точка а>д Р], причем на отрезке р0, to + Р] точка хд р] не встретится с множеством Мдо. Начиная с момента t = t0 + 0, управление v р] (88.44) будет «отталкивать» движение Хдр] от гиперплоскости L*, исключая тем самым встречу с множеством Таким образом, доказано, что указанное управление с поводырем обеспечивает устойчивое уклонение от встречи при всех t to-
Глава XV
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
§ 89. Постановка задачи (содержательный аспект). Постановка информационной игровой задачи управления для системы, описываемой обыкновенными дифференциальными уравнениями, была намечена в § 5. Теперь мы разовьем соображения, которые были приведены там. Итак, будем рассматривать задачу об управлении системой (6.1) по принципу обратной связи при условии, что информация, поступающая в регулятор, позволяет только оценивать области G|7] в фазовом пространстве {%}, содержащие текущее значение х[/] фазового вектора х системы, но эта информация недостаточна ни для точного вычисления значения ни для его удовлетворительного статистического описания. Будем следовать тому способу исследования этой проблемы, который сводит ее к задачам «обычного» позиционного управления с полной информацией, причем, однако, роль позиций системы возлагается на подходящие функции которые описывают области G[/]. Изменение этих функций gt(l) со временем t трактуется при этом как управляемое, движение gt(l) в подходящем функциональном пространстве.
Рассмотрим управляемую систему, описываемую векторным дифференциальным уравнением (6.1) при обычных ограничениях (6.2) на управления и и и. Обратимся к задаче для первого игрока о сближении с множеством Мс, т. е. к задаче о приведении системы (6.1) в состояние х[т] (т^/о), удовлетворяющее условию
{т, х[т]} ^Мс.	(89.1)
При этом для упрощения будем полагать, что множество Nc совпадает со всем пространством {/, х}.
Примем в соответствии со сказанным выше, что в каждый момент времени t tQ управление и = и [/] надлежит строить, опираясь только на информацию о той области G [/] фазового пространства {х}, в которой содержится действительно реализовавшееся значение х[£] вектора х. Вопрос о том, как формируются области G [7] на основе, того или иного способа наблюдения системы (6.1), мы здесь оставим в стороне. Примем просто, что информация, поступающая в регулятор к моменту
§ 89]	ПОСТАНОВКА ЗАДАЧИ (СОДЕРЖАТЕЛЬНЫЙ АСПЕКТ)	407
позволяет игроку-союзнику при помощи каких-то операций определить область G[fl, причем у нас нет возможности уточнить эти данные в момент t так, чтобы найти более узкую область G*[/]czO[/] (один из способов построения таких операций наблюдения описан, например, в книгах [10*], стр. 270 и [11*], етр. 250). Таким образом, искомый закон управления — стратегия U— должен ставить в соответствие реализующейся в тот или иной текущий момент времени t области G И подходящее значение u[t] управляющего воздействия и. Но тогда целесообразно подменить задачу об управлении фазовым вектором х[/] задачей об управлении областью G [/]; причем условие (89.1) успешного завершения процесса сближения с целью Мс заменится тогда условием
{т, С[т]} аМс,	(89.2)
гарантирующим, очевидно, выполнение исходного требования (89.1). Этот известный подход к задачам управления с неполной информацией мы изложим в форме, которая позволяет единообразным способом ввести довольно большую серию различных информационных игровых задач в рамки той теории позиционных дифференциальных игр, которая составила основной предыдущий материал книги. Предмет данной главы, однако, составит в качестве образца только одна игровая задача сближения с заданным множеством Ме и только для линейной системы (40.1). Однако описанная методика, как это будет ясно из нижеследующего материала, позволяет рассмотреть и другие задачи игрового управления областью G И, которые можно свести к той или иной из проблем игрового позиционного управления из. предыдущих глав.
Поскольку задача управления системой (6.1) будет трактоваться нами как проблема управления информационной областью G[Z], надлежит оговорить некоторые условия, которые будут стеснять допустимые изменения области СИ с изменением времени. Прежде всего, ограничимся лишь случаями, когда информационные области суть ограниченные, замкнутые и выпуклые множества в пространстве {х}. Далее, в допустимом изменении СИ со временем t мы отразим факт накопления информации о системе по ходу процесса. При этом будем исходить из выполнения одного из следующих двух условий.
Первое условие предполагает, что каковы бы ни были моменты ti < t2, первый игрок-союзник, решающий, задачу о сближении с Мс, получает в момент t2 полную информацию о реализовавшихся управлениях «[/] и о И </2), своих и противника. Тогда, поскольку он знал информационную область G[6], примем, что в качестве информационной области G[/2] он
408
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
[ГЛ. XV
будет получать лишь такое множество G [f2], которое удовлетворяет условию
G[/2]czG {G[^], t2i u[.]> и[.]},
(89.3)
где символ G{G[G], /2, «[•], и[-возможных точек х = х(/2, G, х*,
]}	обозначает	множество	всех
«[•],£/[•])	при	x#eG[/i],	причем	x(t,	X*, «[•],	£>[•])
есть	решение уравнения
(6.1) при и = u[t] и v = v |7] (рис. 89.1).
Другое условие предполагает, что каковы бы ни были моменты t\ < /2, первый игрок-союзник, решающий задачу о сближении с Мс, получает в момент t2 полную информацию только t о своем реализовавшемся управлении u[t] (/i^/<72). Тогда, поскольку он знал
информационную область
*G[/i], примем, что в качестве информационной области G[t2] он будет получать лишь такое множество G[f2], которое удовле-
творяет условию
G[t2]^G{G[t{l t2,u[-]]f
(89.4)
где символ G{G[/i], t2i «[•]} обозначает множество всех возможных точек x = x[t2i tu х*, [/-?«[•]] при x*^G[/i], причем
x[f, t\, х*, U ~и[-]] есть любое движение, порожденное стратегией U-~ + u[t] (рис. 89.2).
Кроме одного из этих условий, примем* также, что факт накопления информации о системе проявляется еще и в том обстоятельстве, что размеры всех возможных информационных областей G[/] (t to) оцениваются сверху некоторой скалярной величиной ф(/),
точный смысл которой мы определим ниже. Факт накопления информации будет проявляться в том, что переменная ф(/) будет, вообще говоря, убывающей функцией от времени t.
§ ад	ПОСТАНОВКА ЗАДАЧИ (ФОРМАЛЬНЫЙ АСПЕКТ»	409
Отождествим теперь стратегию U с функцией u=u(t, G)^P (точнее гойоря —с функционалом u~u(t, G)). Определяя должным образом движения G [/] (t > t0) с учетом того или другого из условий (89.3) или (89.4) и исходя из начальной позиции {/0, G[/o]=Go}, мы можем поставить задачу о сближении с Мс, т. е. задачу о выборе стратегии G, которая для всякого порождаемого ею движения G[Z] = G[/, t0, Go, U] гарантирует встречу (89.2) с целью Мс.
Таков содержательный аспект задачи о сближении, которая будет формализована в следующем параграфе.
§ 90. Постановка задачи (формальный аспект). Основным пуктом, определяющим формализацию задачи, которая была охарактеризована в предыдущем параграфе, является описание выпуклых информационных областей G [/] их о п о р-ными функциями'	которые трактуются как эле-
менты подходящего функционального пространства, достаточно удобного для того, чтобы конструкции из предыдущих глав книги можно было перенести естественным образом в это пространство, а вытекающие отсюда способы управления можно было перевести на язык алгоритмов, реализуемых на ЭВМ.
Пусть движение управляемой системы описывается векторным линейным дифференциальным уравнением (40.1), где управления и и v стеснены обычными ограничениями (40.2), причем Р и Q суть ограниченные, замкнутые и выпуклые множества. Обратимся к описанию информационных областей G [/] в n-мерном фазовом пространстве {%} их опорными функциями gt(l), которые, как известно ([27*], стр. 43), определяются для всякого n-мерного вектора I равенством
gt (l) = max Гх при xeG[/].	(90.1)
X
Эти функции gt(l) будем считать элементами Л(-) некоторого линейного пространства {h} скалярных функций h(l), заданных на единичном шаре
Ц/|Г = 4+ ... +£<1	(90.2)
в n-мерном пространстве векторов I. При этом мы ограничимся лишь пространством однородных функций h(l), которые при всяком скалярном значении а 0 удовлетворяют условию
Л(а/) = ай(1).	(90.3)
Для определенности примем пока, что мы рассматриваем гильбертово пространство Н интегрируемых по Лебегу с квадратом ([9*], стр. 372) на шаре (90.2) функций й(/), норма
410
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
1ГЛ. XV
которых в этом пространстве ||А||н=(й, Л)’/2 определена скалярным произведением
(ftO, Л<2>) = J h^(l)h^(l)d(l}, -	(90.4)
ПЛК1
где символ d {/} обозначает элемент объема в пространстве {Z}. В дальнейшем, если не будет специальных оговорок, в записях, устанавливающих те или иные соотношения для функций Л(/), следует иметь в виду, что эти соотношения предполагаются выполненными при почти всех I.
Будем называть обобщенной позицией (короче — просто позицией) р всякую пару р = {/, h}, где h есть элемент из Н. Сле-дует заметить, что не всякий элемент h из Н является опорной функцией для какой-либо информационной области G. Таким образом, мы обращаемся к множеству обобщенных позиций {t, h} более широкому, чем множество всех возможных пар {t,G}. Однако движения gt(l) нам удобно будет определить как раз в таком расширенном пространстве обобщенных позиций {/, h}. Величину
d (А) = vrai^max (h(l) + h (— I))	(90.5)
будем называть диаметром элемента А(-)еЯ. Если функция h(l) имеет смысл опорной функции для какой-либо информационной области G, то значение d(h) совпадает с диаметром этой области в евклидовом пространстве {х}, понимаемом обычном образом.
Теперь надлежит определить движения gt(-)^H (£>f0) в пространстве Н, связанные удобным образом с движениями системы (40.1) в пространстве {х}. Примем сначала, что деформация информационных областей G [/] удовлетворяет условию (89.3), и, стало быть, первый игрок в каждый текущий момент времени снабжается довольно богатой информацией, которая включает данные о реализовавшихся в прошлом управлениях u[t] и (t0 t <Z t*). Для упрощения выкладок будем, как и в § 40, предполагать, что в исходном уравнении (40.1) переменные х, и, v и f подвергнуты преобразованиям, отвечающим, например, преобразованию х* — X(^,t)x (см. выше, стр. 160), в результате чего уравнение (40.1) приняло вид
х = и-|- и 4-/(0.	(90.6)
При этом ограничения (40.2) преобразуются в соотношения «еР(0, »eQ(l),	(90.7)
где P(t) и Q(t) суть снова ограниченные выпуклые и замкнутые множества, изменяющиеся непрерывно с изменением вре-
ПОСТАНОВКА ЗАДАЧИ (ФОРМАЛЬНЫЙ АСПЕКТ)
411
$ 90]
мени Л (Для новых переменных х, и, v и f и для множества Afc, которое тоже преобразуется, как и в § 40, мы сохраняем здесь прежние обозначения.) Итак, без ограничения общности будем полагать, что уравнения движения и ограничения на и и v заданы сразу в виде (90.6) и (90.7).
Пусть оговорена некоторая непрерывная скалярная функция ф(0 (/>/#>/о)уЛ — какой-нибудь элемент из 7/, удо-* влетворяющий условию d(h) ^ф(/), и выбрана какая-нибудь реализация ц|7]еф(/) (/;>/*) управления и. Пусть, далее, g*f (/) — какая-нибудь зависящая от параметра t функция, которая при всяком значении t (t /*) является элементом пространства Н и удовлетворяет следующим условиям:
d (g*) < Ф (0 при t >	(90.8)
£,(/) = Л (0,	(90.9)
при t2 >/!>/..	(90.10)
Определим функцию t
St G; h)v н = g; (I) + /' f (v [t] + f M) dx, (90.11)
которую будем именовать допустимой функцией gt (I; h) v. Тогда при выборе какой-нибудь реализации u[t\ е P(t) (t /*) управления и будем называть движением gt(l) = g(l', t,t*, h, «[•], g[.j) функцию gt(/), определенную равенством
t
gt (0 = gt (1-, h)v + J l'и [т] dx.	(90.12)
h
Назовем стратегией U правило, которое каждой позиции p = {t, h} ставит в соответствие вектор u(/,/i)eP(/); иначе говоря, стратегию U мы отождествляем с функцией u(ty h) (точнее говоря — с функционалом	ибо аргумент h = h(l)
уже сам является функцией, заданной на шаре (90.2)). Движением gt(l) = g[l\ t, t*, h, U, gi.j], порожденным стратегией Uч--r-u(t9h), из позиции = {/0, gh — А} при Д-разбиении {то, Ti, то = /о} оси tt назовем всякую функцию gt(l), зависящую от параметра t, определенную при всяком t tQ на шаре (90.2), являющуюся элементом пространства Н и удовлетворяющую равенству
t
gtV = gt(l> S.t)v + l' J «дМЛ (90-13)
412
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
[ГЛ. XV
при	Здесь
«Д М = «Д h] = « (ТР £Т/)	(т, < Т < Ti+1).	(90.14)
Ограничимся лишь таким определением, по сути дела, аппроксимационного движения gt(l), которое, очевидно, отвечает понятию ломаной Эйлера из §6. Переходить к предельным движениям gt(l) в этой главе не будем.
Поясним содержательный смысл введенных сейчас абстрактных понятий в связи с нашей исходной задачей управления из предыдущего параграфа. Как уже говорилась выше, каждой информационной области G [fl можно поставить в соответствие ее опорную функцию gt(l) (90.1). Каждую такую опорную функцию gt(l) при фиксированном значении t мы можем трактовать как элемент пространства Я, ибо она удовлетворяет всем нужным свойствам элемента h(l) из Н, (В этом нетрудно убедиться, исходя прямо из определения (90.1) опорной функции gt(l)-) Но тогда равенство (90.13) с учетом равенства (90.11) описывает изменение со временем опорной функции gt(l), отвечающей изменяющейся области G[fl. Это изменение вызывается, с одной стороны, воздействием управлений ид[т], у[т] и силы / [т], сдвигающих область G [fl, а с другой стороны, — уточняющей информацией, которая деформирует область G[fl, вообще говоря, сжимая ее со временем. На языке описания информационных областей G[fl их опорными функциями gt(l) сдвиг области G[fl управлениями ид[т], у[т] и силой /[т] выражается в (90.11) и (90.13) слагаемыми, которые содержат интегралы. На этом же языке деформация области G [fl определяется в (90.11) членом gj(/), причем условия (90.8) — (90.10) отвечают условию (89.3) и, стало быть, отмечают как раз то обстоятельство, что в более поздние моменты времени t мы можем получить именно уточняющую информацию об области G [fl: если в момент t\ мы имели информационную область G[fl], то в момент /2 > мы будем знать информационную область G [/2], которая будет содержать в себе только такие точки х==х(/2), в которые можно прийти в момент /2 согласно уравнению (90.6) только из точек х — x(fl) е G [fl] и под действием именно тех реализаций управлений u[t] и и [fl и силы f[t], которые работали на полуинтервале t\ t < /2. Следует признать, что это довольно сильное предположение о качестве информационной системы, которая доставляет данные об областях G [fl. В данной интерпретации член ^*(/)в (90.11) трактуется как опорная функция области G* с: G [fl, которая состоит из всех точек %, из которых мы придем в точки z = x(f), составляющие • G [fl при работавших на деле управлениях а[т], у[т] и силе f [tJ
; 90]	ПОСТАНОВКА ЗАДАЧИ (ФОРМАЛЬНЫЙ АСПЕКТ)	41$
Отметим еще, что условие (90.12), благодаря условие (90.8), означает, что в каждый момент времени t диаметр области G И, определенный для этой области обычным образом в метрике евклидова пространства {*} не превышает <p(Z).
Итак, мы определили движение gt{l) (90.13), порожденное стратегией U -±-u(t,h), в предположении, что деформации информационных областей G [Z] удовлетворяют условию (89.3).
Примем теперь, что деформации информационных областей G И удовлетворяют условию (89.4) и, стало быть, первый игрок в каждый текущий момент времени t снабжается такой информацией, которая включает данные о оеализовавшемся в прошлом его собственном управлении ы[т] <Zt), но не знает реализовавшегося в прошлом управления противника v [tJ (Z,^t<Z). Будем по-прежнему исходить из уравнения (90.6) при ограничениях (90.7) на управления и и v.
Обозначим символом р* (Z) опорную функцию множества Q(t), т. е.
pf(/) = max l'v.
ое<3(0
При выбранных значениях t*^to и элементе h^.H, который удовлетворяет условию d(h) <^<p(Z«), будем теперь именовать допустимой функцией всякую зависящую от параметра t функцию gt(l’,h)v, являющуюся при всяком t t* элементом из Н и удовлетворяющую условиям
d(gt{l\ A)vX<p(Z) при Z>Z„,	(90.15)
^(Z; Л)Р = Л(/),	(90.16}
h)B^gtt(l; h)B+ J (pt(Z) + Z7[T])dT при t2 > tv (90.17} ti
Тогда при выборе какой-нибудь реализации u[/]eP(1) (Z Z,) управления и будем называть движением gl(l)== = g(l; t, t*, h, «[•], g[.j) функцию gt(l), определенную опять равенством (90.12), но уже при условиях (90.15) — (90.17) на допустимую функцию gt(l; h)v.
По-прежнему будем именовать стратегией U правило, которое каждой позиции р = {Z, h} ставит в соответствие вектор h(Z, A)sP(Z). Движение gt(l) = g[l', t,t*,h, U,g[.}], порожденное стратегией U-z-u(t, h) из позиции Ро = {to, gt0 = h} при Д-раз-биении {то, ti, ...; т0 = Zo} оси Z, определим снова равенством" (90.13), где допустимая функция gt(l‘,h)v удовлетворяет условиям (90.15)—(90.17).
Поясним опять содержательный смысл равенства (90.13) при условиях (90.15) — (90.17). Равенство (90.13) при этих условиях.
414
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
[ГЛ. XV
описывает изменение со временем t опорной функции g>(/), отвечающей изменяющейся области G [/]. Это изменение вызывается, с одной стороны, воздействием управления [т] и силы /М (т</), сдвигающих область G [/], а с другой стороны,— уточняющей информацией, которая деформирует область G [/]. Возможность появления такой уточняющей информации проявляется в неравенстве (90.15) и в наличии в (90.17) наряду со знаком равенства также и знака неравенства. Без этой уточняющей информации благодаря неизвестному теперь управлению v [т] (т < t) первый игрок был бы способен лишь на такую оценку функции gt(l), описывающей информационную область G[/], которая составляет правую часть в неравенстве (90.17). Именно,, величины, стоящие в правой части этих неравенств, имеют смысл предельно допустимых деформаций области G[/] в том или ином направлении I при самом неблагоприятном для этого направлении I действий у(т). Итак, равенство (90.13) при условиях (90.13) — (90.17) на языке опорных функций gt(l) областей G [£] описывают такую деформацию G[/] со временем, которая отвечает условию (89.4) и притом обеспечивает то условие, что в каждый момент времени t диаметр области G [/] не превышает <р(0- При этом член
t
gt(l)u = Г - u[x]dx	(90.18)
t*
определяет сдвиг информационной области G [/] под действием управления и[т] первого игрока, а допустимая функция gt(l\ h)9 характеризует деформацию информационной области G[t] под действием обстоятельств, не подчиненных первому игроку.
Итак, мы определили движение gt(l) (90.13), порожденное стратегией U +	h), в предположении, что деформация ин-
формационных областей G[/] удовлетворяет условию (89.4).
Теперь нам надлежит дать на языке опорных функций запись условия попадания области G[/] в какой-то момент т в це* левое множество Л4с(т). Это условие записывается весьма просто в форме неравенства
(90.19)
которое должно выполняться при почти всех I из шара (90.2). Здесь цт (/) — опорная функция множества А4с(т), которое является сечением множества Мс гиперплоскостью t = т = const. Это множество А1с(т) мы полагаем множеством выпуклым.
Теперь уже можно сформулировать задачу о сближении в строгих терминах.
Обозначим символом Lx замкнутое множество в пространстве Ht которое складывается из всех элементов Н*
стабильный мост
415
5 911
удовлетворяющих условию
h (/) < щ (/)	(90.20)
при почти всех I. Символом обозначим замкнутую е-окрестность множества Lx, определенную в метрике пространства Н.
Задача 90.1. Пусть деформация информационных областей G [/] подчинена условию (89.3) (условию (89.4)) и дана начальная позиция {/0, Требуется найти стратегию Uc-t--i-uc(t,h), удовлетворяющую следующему условию: каково бы ни было положительное число е, найдется положительное число б такое, что для всякого движения gt	(90.13), поро-
жденного стратегией Uc из позиции (/0, gt°] с шагом разбиения Д, удовлетворяющим неравенству
sup(ri+I— т()<б,	(90.21)
будет выполняться условие
М'М8'	(90.22)
при каком-то т tQ.
Слова «всякое движение gty> в формулировке задачи 90.1 означают, что в процессе управления мы можем столкнуться с любыми движениями gt(l) = g[l; t, /0, gt^ UCi gH] (90.13), определенными допустимыми функциями gM = gt{l\ gx^)vi стесненными только условиями (90.8) — (90.11) или (90.15) —(90.17) соответственно.
Для окончательного выяснения связи нашей математической задачи 90.1 с исходной проблемой управления остается еще отметить только один пункт. Мы требуем приведения опорной функции gx (/) в 8-окрестность Lx} функционального множества Lt, измеряемую в метрике пространства Н. Опираясь на известные результаты выпуклого анализа, можно проверить, что множество элементов h(l) из Ht которые могут оказаться одной из таких опорных функций gx(l), включается в некоторое компактное подмножество непрерывных функций Л(/) (см., например, [27*], стр. 105); поэтому условие (90.22) при достаточно малом 8 > 0 означает также, что область G[t] попадает обязательно в достаточно малую, но уже евклидову окрестность множества Мс [т].
§ 91. Стабильный мост. Ограничимся лишь тем случаем задачи 90.1, когда множество Мс лежит в заданной гиперплоскости t = О’. Иначе говоря, будем обсуждать задачу о сближении с множеством Мс в заданный момент времени -0. Решение*
416
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
[ГЛ. XV
задачи позиционного управления о сближении в случае полной информации о реализациях х[/] согласно материалу из главы III сводится к построению в пространстве позиций {/, х} стабильного моста W, который связывает начальную позицию {/0, %о} с целевым множеством Мс. Стратегия 4- i№(t, х)9 экстремальная к такому u-стабильному мосту, удерживает на нем всякое движение х [/] = х [/, /0, х0, ^(е)] вплоть до встречи с 2ИС, как бы ни действовал второй игрок — противник. В рассматриваемой сейчас задаче управления с неполной информацией в той ее трактовке, которая описана в двух предыдущих параграфах, место обычной позиции {/, х} занимает ее аналог — обобщенная позиция {/, h}. Стало быть, имея в виду привлечь к решению этой задачи те же конструкции, какие использовались в предыдущих главах для обычных дифференциальных игр, здесь надлежит строить стабильный мост W уже в пространстве обобщенных позиций {/, h}. Поэтому начнем обсуждение задачи 90.1 с обсуждения возможности перенести понятие u-стабильного моста Wu и понятие экстремальной стратегии на рассматриваемый случай.
Итак, определим понятие u-стабильного множества W.
Пусть W — некоторое замкнутое в пространстве {t, h} множество позиций {/, h}9 причем метрика в пространстве {t, h} пусть определена расстоянием
р ({/<*>, А(1>}, {/(2>, А<2>}) =|/2 —Л | + || А(2) — А(1)|| д. (91.1)
Выберем какую-нибудь позицию {/», А} е IF (Z» < О), допу* -стимую функцию gt(l',h)v, удовлетворяющую условиям (90.8) — (90.11) или (90.15)— (90.17) соответственно, и момент t* ф.
Скажем, что множество W является и-стабильным, если, каковы бы ни были позиция \t, gt = А] е IF, моменты t», t* (t* и допустимая функция gt(l; h)v найдется программное управление и(т)еР(т) (Z*^t •</*), которое является интегрируемой по Лебегу функцией и для порожденного им и функцией go = {gt(l-, h)v,	t*} движения g((/) =
= g (/; t, h, h, и (•), g(.)) обеспечивает выполнение условия
£.(/)<== IF (Г),	(91.2)
где символ W(t), как обычно, обозначает сечение множества W гиперплоскостью t = const.
Содержательный смысл этого понятия стабильности тот же -самый, как и в случаях обычных позиционных дифференциальных игр. Множество W является стабильным тогда и только тогда, когда можно распорядиться управлением и(т) (Z, т < < t* О) так, чтобы при условии {Z4, gt = А) е W удержать позицию {t, gt} на множестве W к моменту t — t*, если в мо
§ 92}
ЭКСТРЕМАЛЬНЫЙ БАРЬЕР
417
мент 4 нам заранее сообщат, как именно преобразуется к моменту /* та составляющая gt* (1-, h)v движения gt (/), которая не подчиняется управлению и.
Наконец, замкнутое множество W в пространстве {/, h} будем называть стабильным мостом WZ для задачи 90.1 о встрече с Мс в момент О’, если это множество будет удовлетворять следующим условиям:
1.	Множество W является и-стабильным.
2.	Множество W содержит начальную позицию {Zo,
3.	Множество W в момент t — О обрывается на 7ИС, т. е. сечение IT('O) множества W гиперплоскостью Z = O содержится во множестве L$ (90.20).
§	92. Экстремальный барьер. В этом параграфе мы опишем способ построения стратегии 1№ 4- u^(t9 Л), экстремальной к стабильному мосту которая удерживает порождаемые ею движения gt(l) в малой окрестности этого стабильного моста WZ вплоть до момента О’. Эта экстремальная стратегия £7^4-
Л) строится следующим образом. Поскольку сечение И7! (/о) стабильного моста WZ непусто, то из свойства и-ста-бильности множества прямо вытекает, что непусты и все его сечения WZ (t)	Пусть, далее, {/, h} О)) —
какая-нибудь позиция. Найдем в сечении WZ (t) элемент w^Hr ближайший в метрике пространства Н к элементу h. (Для упрощения рассуждений мы примем, что такой ближайший элемент w е WZ (t) существует. Отказ от этого априорного предположения не является важным, а только загромождает изложение несущественными деталями. Кроме того, если не предполагать для всякой позиции {/, h}& WZ существование ближайшей позиции {/, оу} W%, можно перейти к построению управления и по схеме управления с поводырем (см. выше, § 57).) Построим, далее, элемент rj (Z), который определим равенством
( h(l) — w(l)9	если	Л(/)>ш(/),
0,’	если	/z(Z)<ay(Z),	(92.1}
и вычислим вектор
s= J /г)	(92.2)
II/«‘<1
Тогда стратегия 4- i№(t, Л) определяется из условия s'u{e’ (t, h) = min s'u.	(92.3)^
ueP (t)
418
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
1ГЛ. XV
Справедливо утверждение:
Теорема 92.1. Пусть множество WZ образует стабильный мост для задачи 90.1 о встрече с Мс в момент &. Тогда стратегия Ис — экстремальная к этому мосту WZ> разрешает данную задачу 90.1.
Доказательство теоремы 92.1 следует плану рассуждений, которые были использованы в § 15 в аналогичном случае обыкновенной позиционной дифференциальной игры. Как и в указанных рассуждениях, основу доказательства и здесь составляет оценка, подобная оценке из § 14. В данном случае эта оценка принимает следующую форму. Пусть Zi(Z) и w(l) — элементы из Н, определяющие элемент ц(/) в соответствии с (92.1). Рассмотрим на отрезке Z, t < t* Два движения gt(T) и Первое движение g’i(Z) пусть порождается из пбзиции {Z*, gt*}— = [Z*, /г] какой-то допустимой функцией gt{l’,h)v и управлением «==«* = const, которое удовлетворяет условию

s'tz* — min s'u,	(92.4)
ue Р(/,|
где s есть вектор (92.2), подсчитанный для позиций {Z», h} и {Z«, w}. Второе движение wf(l) пусть порождается из позиции j = wj, допустимой функцией g*t(T, w)v, которая связана с допустимой функцией gt{l, h)v соотношением
g] (l\ < = gt (Z; h)v - т] (Z) (Z > ZJ, (92.5)
и каким-то произвольным программным управлением «(Z) е eZ'(Z) (Z* < Z < Z*). Итак,
gtV = gtil\ h\+ J I’u.dx,	(92.6)
t* t
wt (I) = g’t (T, w)0 + J l'и (т) dx.	(92.7)
Вычислим изменение нормы разности IlgJZ)—а>«(/)11н вдоль движений gt(l) и wt(l) со временем Z. Имеем (t
П(/)+ / l'{u,-u{x))dx t.
2 \ I
I dt = .н’ I
= 2 ( л (Z) + J I' («, — « (t)) dx, I' (m. — и (Z))) =
=	Z(«.-«(Z))) +
+ 2 [ || l ||д («, — и (т)) («. — и (Z)) dx < О (t — Z.),	(92.8)
4
ПРОГРАММНОЕ ПОГЛОЩЕНИЕ ЦЕЛИ
419
§ 93]
где символ 0(6) обозначает величину, которая стремится к нулю при 6->0. Интегрируя неравенство (92.8), получаем нужную нам оценку
II gt, (О - (/) |РН < I gh (/) - wtf (/) + о (Г -1J, (92.9) где символ о (б) обозначает бесконечно малую более высокого порядка, чем бесконечно малая б. Оценка (92.9) равномерна по t и t](Z) из любой ограниченной области пространства {/, h}. При наличии оценки (92.9) доказательство теоремы 92.1 идет по известному плану (см. § 15) и поэтому мы здесь это доказательство опустим.
§ 93. Программное поглощение цели. Теорема 92.1 говорит, что для решения задачи 90.1 о встрече с множеством Мс в момент $ достаточно уметь построить в пространстве позиций {/, h} ^-стабильный мост обрывающийся на Л4С в момент t = th Как и в обычном случае, для эффективного построения' этого моста W можно иногда использовать конструкцию программного поглощения цели Lb момента управление, диктуемое экстремальной стратегией, сводить к процедуре экстремального прицеливания. В этом параграфе мы и рассмотрим вопрос о построении в пространстве {/, h} множеств W) программного поглощения цели L.
Скажем, что процесс {gt(/)} (/*^/^'0) (90.12) поглощает множество L позиций {0*, h} из позиции [f*, если, какова бы ни была допустимая функция gt(l\ gt^v (t* t f>), найдется программное управление u(t) (интегрируемая по Лебегу функция	(/*^/<$)), такое, что порожденное данной
допустимой функцией gt(l- gt^ и этим управлением u = u(t) движение
t
gt (0 = gt (!> gt)v + 1' J u (*) dx	(93. 0
удовлетворит включению
g^D^L.	(93.2)
Назовем множеством программного поглощения WW цели L в момент 6“ множество всех позиций {/., h ~ gt } (/.гСФ), для каждой из которых процесс {§;(/)} поглощает L в момент О.
Смысл этого условия поглощения таков. Если в начальный момент /* < 6' для позиции {?*, h} нам станет известной па будущее та деформация области G[/] (Z* с: / sg: &), которая определяется обстоятельствами gt(l; h)v, не-зависящими от управления и, то мы сможем так распорядиться программным
420
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
(ГЛ. XV
управлением и(0еР(/) (/* ^ / < О), чтобы осуществить вложение 0[0]сА1с(0)-
Для аналитического описания множества	которое
является сечением множества UW гиперплоскостью t = const, потребуются некоторые обозначения. Пусть //+— совокупность всех элементов h из Н, удовлетворяющих неравенству

(93.3)
и пусть S*—множество всех элементов из Я+, имеющих единичную норму ||/г||н = 1.
Справедливо следующее утверждение.
Лемма 93.1. Элемент h(l)^H содержится в W^(t) (/^0) тогда и только тогда, когда для него выполняется неравенство
sup ( max g) + pu01. Л ^) + <П. Р»<0,	(93.4)
nss* e=e^(i-.h.)v где ь
РиОъ Л<0=[ min [f f	{/}^«(T)ldT	(93.5)
t “ерК[\11Л1<1	/ J
и
p. (/) = min I' • x.	(93.6)
-XsAfJ»)
Лемма 93.1 доказывается рассуждениями, подобными тем, какие мы проводили в аналогичных обыкновенных случаях (см. главу VII, § 40), и поэтому на ее доказательстве здесь останавливаться не будем.
Условие (93.4) позволяет, как и для обыкновенных позиционных дифференциальных игр (см. выше, глава VII, §§ 40, 41), выделять регулярные случаи игры, когда нужные для теоремы 92.1 стабильные мосты складываются из множеств WW(f) (t0^t^V), определенных соотношением (93.4). Однако следует сказать, что вследствие функциональной природы величины г] (/), фигурирующей в (93.4), ^теперь построение таких регулярных случаев требует более аккуратного исследования. В следующем параграфе мы рассмотрим один, наиболее простой регулярный случай.
§ 94. Регулярная информационная задача сближения. В этом параграфе мы приведем два условия регулярности информационной игры сближения, отвечающие тем условиям регулярности, которые были даны в § 41 в случае обыкновенной позиционной игры сближения для линейной системы (40.1). Условие (93.4) является необходимым и достаточным условием для поглощения цели L (90.20) в момент t = б процессом {g(} из позиции {t,h} (/^0). Точно так же можно убедиться, что не
РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ
421
§ 94]
обходимым и достаточным условием для поглощения цели £<8>, которая является замкнутой 8-окрестностью в метрике Н множества L в момент t = й, является выполнение неравенства
sup ( max (n, g) + р„ (n, t, + (п. И» < «.	(94.1)
nes> g=g^(l;h)0
Отсюда следует, что величина &o{t,h, О) (/^Oj, доставляющая наименьшее значение е О, при котором еще множество £(е) поглощается в момент / = О процессом {gt} из позиции {/, h} (/ ^ 0), определяется равенством
е0 (t, h, &) = sup ( max <т], g> + pB(t], t, &) + (т), р»,	(94.2)
ties* g=g0 (I. h)0
если правая часть этого равенства положительна, иначе е0(/, h, 0) = 0.
Как и в § 41, назовем здесь ситуацию для задачи 90.1 регулярной, если для всякой позиции {t,h} (/<&), для которой е«(/, h, &) > 0, максимум в правой части (94.2) достигается на единственном (по существу) элементе
Справедливо утверждение:
Лемма 94.1. Если ситуация для задачи 90.1 является регулярной, то всякое множество ъ-поглощения 1Гев>=[{#,
eo(t, h, Ф)-^е] (е^О) является и-стабильным как для случая движений (90.12), (90.8) — (9.11), так и для случая движений (90.12), (90.15) —(90.17).
Доказательство леммы 94.1 мы опустим. Оно отличается от доказательства аналогичного утверждения для обыкновенного случая (см. теорему 41.1) только деталями, связанными здесь с функциональным характером максимизирующей величины в отличие от конечномерной природы максимизирующего вектора 1° там.
Следствием из теоремы 92.1 и леммы 94.1 является следующее утверждение.
Теорема 94.1. Пусть ситуация для задачи 90.1 является регулярной, и для начальной позиции {70, ft0) (£0 < •&) имеем eo(to, ho, &) — (). Тогда стратегия U^~u(e>{t,h), экстремальная к множеству программного поглощения WW, разрешает задачу 90.1, т. е. при всяком выборе е>0 она обеспечивает для всех движений gt(l) = g[l; t, t0, ho, l№, g[.]] включение
(94.3) если только шаг sup (xt+i — т,) = б соответствующего ^-разбиения оси t будет удовлетворять неравенству
б<б(е),	(94.4)
еде 6(e)— подходящее положительное число.
422
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
(ГЛ. XV
Вследствие функциональной природы величины т)°(/) использование теоремы 94.1 для эффективного построения управления 1№	u^(t, h) при решении задачи 90.1 даже и в рассматри-
ваемом сейчас регулярном случае может вызвать затруднения.
Приведем еще один регулярный случай информационной игры сближения, определение которого также опирается на соотношение вида (94.2) и который при этом допускает весьма наглядную интерпретацию, связывающую этот случай со случаями позиционной регулярной игры с полной информацией из § 41.
Для описания этого регулярного случая нам, однако, будет удобно использовать еще одно функциональное пространство {ft} функций ft(/), отличное от пространства Н. Именно, будем полагать теперь, что в качестве базового пространства функций ft(Z) выбрано уже не гильбертово пространство Н с нормой ||ft||H, определенной скалярным произведением (90.4), но пространство С однородных непрерывных функций ft(/) с нормой
II h Ид = max | ft (/) |,	(94.5)
где I — снова векторный аргумент, изменяющийся в пределах шара (90 2). Выбор этого пространства С также закономерен, так как все опорные функции gt(l), отвечающие всем возможным в нашей задаче ограниченным, замкнутым и выпуклым информационным областям G(t), суть однородные непрерывные функции й(/) на шаре (90.2). Замена пространства Н на пространство С не меняет в принципе рассуждений, приводящих к соотношению (94.2). Это соотношение изменится лишь в той части, что в этом соотношении под величиной т] надлежит понимать элемент пространства С*, сопряженного к пространству С (см. [16*], стр. 196), а символ (т], ft) будет означать тогда в (94.2) линейный функционал на ft, порожденный на С элементом г). Итак, пусть указанная замена Н на С произведена. Предположим, что в условии (94.2), составленном для пространства С, для всякой позиции {t,h}, для которой левая часть (94.2) положительна, максимум по т] достигается на элементе rf е С*, который удовлетворяет условию
(т]°, й(/)) = й(/°).	(94.6)
Иначе говоря, элемент n’eS’cC’ имеет характер импульсной 6-функции.
При таком предположении выражение (94.2) при т] = г]0 принимает вид
е0 (/, ft, О) = max g (1°) + ры (1°, t, й) + рм (/°), (94.7) (/; л)0
$ 94]
РЕГУЛЯРНАЯ ИГРА СБЛИЖЕНИЯ
423
где
*
ри(1, t9'&) = f min I' -и dx.	(94.8)
* UG=P(T)
Но из усчовий, наложенных на допустимую функцию
((90.8) — (90.11) или (90.15) — (90.17)), выводится, что величина maxg(/°) определяется равенством
5	о
max g (Z°) = р0 (/о, t, fl) + рА (/о) + f /°7[т] dr, (94.9) d- h)„	“
где
о
p0(Z, t, fl) = [ max I'vdr,	(94.10)
* iisQ(T)
Ph(D = h(l),	(94.11)
Pm (Z) = max I' • m = p. (Z).	(94.12)
 — Mc (O)
Соотношение (94.7) имеет простой геометрический смысл. Пусть h(l) есть опорная функция для некоторой информационной области G*. Тогда величина 8° есть наименьшее значение 8^0, для которого при всяком выборе точки G# и интегрируемого программного управления v(t)gQ(t) (t т < О) найдется интегрируемое программное управление м(т)еР(т) (/ х <Z '&), такое, что программное движение х(т) = = х(т, /,	u(-), которое является решением уравнения
(90.6), удовлетворит включению х(Ф) е M^O). Подчеркнем, однако, что такой геометрический смысл выражение (94.2) принимает, вообще говоря, только в случае (94.7), т. е. при условии, что максимум в левой части (94.2) достигается на элементе т]° указанной выше структуры, отвечающей условию (94.6).
Назовем ситуацию для информационной задачи 90.1 регулярной, когда максимизирующий элемент т]0 при /&)>0 удовлетворяет условию (94.6) и единствен. В этом случае, так же как и в предыдущем регулярном случае из этого параграфа, при всяком 8^0 множество программного 8-поглощения = h\ :	е0(/, /г, $)<>] является и-стабильным
мостом, обрывающимся на множестве А4с *(<>), являющемся замкнутой 8-окрестностью множества A4C('6). Правда, в этом случае мы не можем без дополнительного обоснования сослаться на теорему 92.1, утверждающую, что экстремальная к WW стратегия LW 4-	h), построенная согласно материалу из
424
ИНФОРМАЦИОННАЯ ИГРОВАЯ ЗАДАЧА
[ГЛ. XV
§ 92 при достаточно малом шаге разбиения Д, обеспечивает для всех движений gt(l)-g[l\ /Ло, fto, U<e\ glj] вложение (90.22). В самом деле, в теореме 92.1 в качестве базового пространства было выбрано пространство Н, а теперь работаем с элементами й(/) из пространства С. Мы не будем здесь, однако, обсуждать переход от пространства.// к пространству С для экстремальных стратегий 4- t№(t, ft) в общем случае. В рассматриваемом же сейчас частном регулярном случае (92.7) разрешающая задачу 90.1 стратегия U<e> 4- ft) строится прямо из условия
/°'^(/,ft) = min /°Ч	(94.13)
и&Р (Л
где /° — максимизирующий вектор из условия
«о (t h, ft) = max (p0 (/, t, •&) 4- p„ (/, t, ft) 4- pA (/) 4- Pm (0)> (94.14) Ш=1
отвечающего в рассматриваемом регулярном случае условию (94.7).
Условие экстремального управления и&(1, h) (94.13) совпадает с обычным условием экстремального прицеливания (см. выше главу VII, § 41) для исходной позиции {I, х*} в подходящую позицию {ft, х*}.
Данный результат позволяет решать задачу 90.1 о сближении эффективно для тех игр с неполной информацией, для которых размеры множества Л4С и оценка q>(t) приводят к разобранному регулярному случаю игры.
Глава XVI
ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
§ 95. Постановка задачи. В предыдущих главах для различных типов дифференциальных игр было доказано существование ситуаций типа седловой точки. При этом предполагалось,, что игрок-союзник располагает информацией о реализующейся позиции игры, иногда допускалось, что он знает также управление, выбранное партнером (см. главу XIV). Однако для некоторых типов функционалов, задающих плату игры, такая информированность игроков о ходе игры оказывается недостаточной для того, чтобы состыковать возможности противоборствующих сторон и получить ситуацию типа седловой точки дифференциальной игры. Построения ситуаций равновесия в таких играх можно достигнуть расширением информации., предоставленной игрокам.
В данной главе рассматриваются игровые задачи динамики, в которых предполагается полная информированность игрока-союзника об истории игры, т. е. здесь выбор управления игрока-союзника опирается не только на информацию о позиции игры {t, х(Л), сложившейся в текущий момент времени t, но используется также информация о движении системы х [т], реализовавшемся на отрезке времени [/о, Л- Как и в предыдущих главах, решение игровых задач определяется в форме стратегий, экстремальных к некоторым стабильным мостам, однако в отличие от решения позиционных дифференциальных игр здесь — в случае информированности об истории игры — стабильные мосты определяются не в конечномерном пространстве позиций {/, х}, а в функциональном пространстве движений х[Л (/>/0).
Перейдем к формулировкам рассматриваемых задач. Будем по-прежнему предполагать, что движение конфликтно управляемой системы описывается обыкновенным дифференциальным л уравнением (6.1). При этом правая часть уравнения (6.1) удовлетворяет условию Липшица (11.1) и условию (6.4) равномерной продолжимости движений. Начальную позицию {/0, *о) полагаем зафиксированной. Определим понятие стратегии первого игрока в случае информированности его об истории игры.
Обозначим символом x[-,Z0, Л функцию х[т] (/о<т^/). Будем называть такие функции х[-,/0, Л историями игры. Пусть и = и(х[-, t0, Л) — некоторый функционал, принимающий
14 Н. Н. Красовский, А, И. Субботиа
426
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
(ГЛ ХУГ
значения из множества Р и определенный при всех значениях числового параметра t /0 и для всех непрерывных вектор-функций х[«, /о, = [х[т], tQ т /] — историй игры. Будем говорить, что такой функционал задает стратегию первого игрока U -т- ц(х[-, ^о> d) в случае информированности его об истории игры.
Движения, порожденные стратегией U 4- и(х[-, tQ, Д) и отправляющиеся от той или иной истории х*(-,/0, Ц, определяются опять предельным переходом от соответствующей последовательности ломаных Эйлера. При этом построение ломаной Эйлера хд[/] = Хд[^, х*[-Ло, Ц, U, и[-]] осуществляется следующим образом. Пусть А — некоторое покрытие полуоси [/*, оо) системой полуинтервалов [тг-, Ti+i) (i = 0, 1, ...); *»[-, Ц == [*И,	— история игры, реализовав-
шаяся к моменту времени t = t*\ U 4- и(х[-, tOi /])—стратегия первого игрока, которая определяет выбор управления первого игрока при	v [/] — некоторая измеримая реализация
управления второго игрока. Тогда ломаная Эйлера хд[/, %#[•, /о, /*], J7, £>[•]] определяется как абсолютно непрерывное решение Хд [/] уравнения
«[*,]>	т«'1 <Ti+i> z = 0> 11 •••>
где И [Ti] = и (Хд [ •, to, Тг]) , Хд [ •, t0, Ti] = [х [/], to < t Ti] — история игры, которая реализовалась к моменту t — п, т. е. х[/] (to t тг)—непрерывная вектор-функция, совпадающая на отрезке [/о,/*] с вектор-функцией х*[(|, а на отрезке [/», тД— с ломаной Эйлера Хд [/].
Движением x[t] = x[t, х»[-, /0, Ц, £/], порожденным стратегией U 4- и(х[-, to, t]) и отвечающим истории игры х»[-ДоД*]. назовем всякую функцию х[/], для которой существует сходящаяся к ней при t t* последовательность ломаных Эйлера Хд(й)[/; <‘>[- , t0, (J, U, • ]], k = 0, 1, .... удовлетворяющая условиям
lim supz (т)^] — т'й) = 0,
lim max l|x(ft,[d — х [/]||==0 при fe->oo. (95.1)
Аналогичным образом определяются стратегии второго игрока V-г- t»(x[-,	/]), которые задаются функционалами
v = о(х[-, to, /]), принимающими значения из множества Q. Движения x[t] = x[t; х*[-,^оЛ*], П, порожденные стратегией V 4- у(х[-, to, /]) и отвечающие истории игры х»[-,/о, Ц, определяются предельным переходом от последовательности ломаных Эйлера р, x<ft)[ • , tn, /J,	• ], V] (k=l, 2, ...), удовлет-
воряющей условиям (95.1). При этом ломдные Эйлера Хд[/] =
§ 95]	ПОСТАНОВКА ЗАДАЧИ	427
= Хд[/, Х*[-До, U, w[*], V] (V-Т- а(л'[-, /о, Ф) определяются как абсолютно непрерывные решения уравнения
*4M = f(U4[<]. «И, 4TJ)’	/ = 0’
где y[Tz] = v(xA[ • ; t0, tJ).
Как и в случае использования позиционных стратегий U 4-+ u(t, х), Vs-v(t, х) (см. § 6, стр. 35, 36), здесь рассматриваются также движения х[/] — *[/; х,[•, Zo, /*], U, V], порожденные парой стратегий 47 4- и(х[-; t0, ф, V 4- »(х[-; /0, ф. Эти движения можно определить предельным переходом от последовательностей ломаных Эйлера хд(й> [/] = хд'й> [/, x<ft> [ •; t0, tJ, U, v{k} [ • ]] (k = 1, 2, ...), для которой выполняются условия (95.1), и реализации управления второго игрока формируются по закону
v<fe)[/] = vlk} [т^>] = v(хд<а [ • ; t0,	^t < xtW,
i = 0, 1, ....
где	—полуинтервалы постоянства управления, выбранные вторым игроком, причем lim sup.	= 0 при
k-^oo. Нетрудно показать, что и здесь множество движений x[t, х»[-; 40, М, U] содержит все движения x\t, х»[-; t0, <*], U, V], и множество движений x[t, х, [•; to, /»], V] также содержит все движения x[t, х*[-;/оЛ], U, V].
Движения x[t, х*[-; t0, 4J, U] и x[t, х#[-; t0, /*], V], порожденные стратегиями U 4- w(x[-; t0, ф и V 4- о(х[-; /0, Ф, обладают всеми свойствами, указанными в § 7 для движений, порожденных позиционными стратегиями U-±-u(t,x) и V + v(t, х). Следует отметить лишь, что свойство полунепрерывной зависимости от начальных условий (см. лемму 7.3) формулируется теперь следующим образом: если x<fc)[ • ; /0,	->х [ •; tQ, /J
при /г->оо, причем сходимость историй понимается как равномерная сходимость функций [/] к х, [/] на отрезке [Zo, t*\, а последовательность движений х [Л =х[/, х<?> [	'.] Ч
при t^t* сходится к некоторой функции х*[/] (и эта сходимость уже необходимо будет равномерной на каждом конечном отрезке [/», &]), то эта предельная функция будет одним из движений x[t, х, [•; to, /*], 47].
При t*=to история игры х»[-;/о, 4*] задается начальной позицией {/о, х0}, поэтому при t* = to для обозначения движений, порожденных стратегиями Uч-и (х[•; to, ф и Уч-v (х[ •;/0, ф, используются символы x[t,to, х0, 47] и x[t, to, Xq, V].
Введенные выше понятия стратегий игроков и порожденных ими движений позволяют перейти к постановке исследуемых в этой главе задач. Пусть функционал ф = <р(х[ф, te^.t<oo)
14*
428
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ. XVI
определен для всех непрерывных функций х [fl, рассматриваемых на полуоси [/о, оо). Не уточняя конкретный вид функционала ф, будем предполагать лишь, что этот функционал либо полунепрерывен снизу, либо полунепрерывен сверху. При этом полунепрерывность снизу (сверху) функционала ф определяется здесь следующим образом: если последовательность непрерывных функций (t tQi k= 1, 2, ....) сходится равномерно на любом конечном отрезке [/о, '&] к некоторой функции х* [fl (/ to) и если при этом ф(х&[/]; to t < оо)-> ф* при &->оо, то ф (х*[fl; to t < оо) ф* (ф(х* [fl; < 00 ) ф*) •
Задача для первого игрока-союзника формулируется следующим образом.
Задача 95.1. Требуется найти стратегию f7°4-u°(x[-; to, fl), удовлетворяющую условию
зирф(х[/, t0, х0, £7°]; to^t < оо) = * [•]
= min sup ф (х [fl to, Xq, tfl; t0 t < оо). (95.2) U *[•)
Если же такой стратегии не существует, то требуется найти последовательность стратегий U°<h> 4- u°W(x[-; to, fl) (k— = 1, 2, ...), удовлетворяющую условию
lim sup ф (x [t, to, Xq, U0{k}]-,	< oo) =
->oo x[-i
= inf эирф(х[/, tQ, Xq, U]; to^t<<x>).	(95.3)
U XH
Здесь верхние грани вычисляются по всем движениям, порожденным соответствующими стратегиями, нижняя грань в (95.3) и минимум в (95.2) вычисляются по всевозможным стратегиям U 4- u(x[-; to, fl).
Полагая союзником второго игрока, приходим к следующей формулировке игровой задачи.
Задача 95.2. Требуется найти стратегию V°4-a°(x[-; to, fl), удовлетворяющую условию
inf ф(х[А to, Xq, V0]; to^t < оо) =
= max inf ф (х [fl t0, х0, V]; to < t < оо).
V
Если же такой стратегии не существует, то требуется найти последовательность стратегий V°(ft)-M/°W(x[-; to, fl) (k = 1, 2, ...), удовлетворяющую условию
lim inf ф (x [fl to, Xq, V°(fe)]; to < / < °°) =
= sup inf <p(x[f, t0, x0,	oo).
V x[-J
АЛЬТЕРНАТИВА
429
«§ 96]
Задачи 95.1 и 95.2 образуют рассматриваемую в этой главе дифференциальную игру с полной памятью, т. е. игру, в которой предполагается информированность игроков об истории игры. Отметим, что в отличие от функционалов ср, которые рассматривались выше (см. главу IV) в качестве платы дифференциальной игры, здесь не оговаривается условие окончания игры. Однако это не означает, что ниже будут исследоваться только задачи со свободным концом. Напротив, здесь не исключаются из рассмотрения случаи, когда значение функционала <?(*[/]; to<t<oo) определяется по существу некоторым отрезком движения %[/] (to^t^x), где момент х задается каким-то условием окончания игры, например, условием попадания позиции {/, х[/]} на множество М. Заметим также, что предположение о полунепрерывности функционала ср (*[/]; io t < 00) выполняется для .многих типов дифференциальных игр. Поэтому игровые задачи, которые были сформулированы в предыдущих главах для позиционных дифференциальных игр и которые включали условия окончания игры в форме условий попадания позиции {/, х[/]} на те или иные множества, также можно было бы сформулировать без явного упоминания этих множеств, а лишь в форме, включающей условия на функционалы ср, построенные должным образом. Однако при постановке задач мы, как правило, уклонялись от этого пути из соображений наглядности. Во всяком случае, все функционалы ср (кроме функционала (19:8)), которые приведены в главе IV в качестве примеров платы дифференциальной игры, можно отнести к рассматриваемому здесь типу полунепрерывных снизу функционалов ф(х[/];	< оо).
Прежде чем переходить к исследованию поставленных задач, отметим еще, что предлагаемые ниже построения без существенных изменений переносятся на случай, когда динамика конфликтно управляемой системы описывается дифференциальным уравнением с последействием
*[/] = /(Л *[ •; /оо» /], и, у) (/>/0),	(95.4)
где f—некоторый непрерывный функционал, определенный при всех t to, для всех непрерывных функций х[т] (/оо^т^/) и для всех векторов u е Р, v е Q. Движение х [/] описывается уравнением (95.4), начиная с момента t = to, а на отрезке [/оо, /о] задается начальная функция х°[/]. Предполагается, что функционал f является липшицевым относительно переменной Xе; too, /] и движения системы (95.4) равномерно продолжимы.
§ 96. Альтернатива. В этом параграфе доказана альтернатива, которая характеризует игры, складывающуюся из задач 95.1 я 95.2. При этом здесь рассматривается случай, когда правая
430
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ. XVF
часть уравнения (6.1) удовлетворяет условию (12.4) седловой точки маленькой игры (12.1), (12.2). Используемый ниже способ доказательства в основных чертах совпадает с построениями из главы III, где доказана альтернатива для позиционной дифференциальной игры сближения — уклонения.
Отметим, что в случае нарушения условия (12.4) исследование дифференциальной игры с полной памятью в классе смешанных стратегий р (du|х[•; tQi fl), V — v(dcflx[-; /0, fl),, либо в классе стратегий U -4~ и(х[-; /0, fl) и контрстратегий Vй 4- у(х[«; /о, fl, и) сводится к изменениям приведенной ниже экстремальной конструкции, которые подобны тем модификациям экстремальной конструкции из главы III, что были изложены в главах XI и XIV.
Итак, докажем следующее утверждение.
Теорема 96.1. Пусть правая часть уравнения (6.1) удовлетворяет условию (12.4) седловой точки маленькой игры (12.1), (12.2), <p(x[fl; /о^Д<°°1—полунепрерывный (сверху’ или снизу) функционал. Тогда для любой начальной позиции {/о, Хо} и для любого числа с (—оо<с<оо) либо существует стратегия первого игрока Uc ~ ие(х[*; /о, fl), которая обеспечивает выполнение неравенства
ф(х[/, /0, х0, Uc]'t < °°Х^
для всякого движения х [/До, Хо, t/c], либо существует стратегия второго игрока Vc4-ус(х[-Д0Д]), для которой неравенство
ф (х [/, /0, х0, V J; t0 < t < о°) > с
будет справедливо для всякого движения х[/До, х0, VJ-
Доказательство этой теоремы проведем для случая, когда? функционал ф полунепрерывен снизу. В пространстве непрерывных функций x(t) (t$ t < °о) выделим множество Л1с, заданное условием
Alf = [x(-): ф(х(О; /о<К°о)<с].	(33.1>
Отметим, что из предположения о полунепрерывности снизу' функционала ф вытекает замкнутость множества Мс (96.1), т. е. из включений xh(-)^Mc (k—\. 2, ...) и сходимости х^(•) —> х*(•) при £->оо, равномерной на любом конечном’ отрезке [/0, /*], вытекает включение x*(-)eAfc.
Рассмотрим задачу о сближении с множеством Л4С-(96.1). Эта задача состоит в построении такой стратегии f/c~--4- ис(х[-; /0, fl), которая обеспечивает выполнение условия* х[-]еЛ1с для всякого движения х [/ До, х0, Uc] (/о ^Д < оо).. Решение данной задачи определим в форме стратегии, экстремальной к некоторому ^-стабильному мосту Wu. При этом по-
АЛЬТЕРНАТИВА
43!
<§ 96} пятая стабильного моста и стратегии, экстремальной к нему, вводятся следующим образом.
Выделим в пространстве непрерывных функций х(т) (fl^ подмножество	которое составляют решения
jc(t) {tQ т t) уравнения в контингенциях
dxldx е (т, х) (to^x^t*, *(fl) = *o)»	(95.2)
где 8Г(х, х) = co[f(т, х, и, v)\ и^Р, v е Q]. Можно показать, •что каждое из множеств <3?o[fl, fl (t fl) является компактным в себе в метрике сходимости, равномерной на отрезке [fl, fl]. (Заметим, что здесь и в дальнейших рассуждениях начальная позиция {to, хо} полагается зафиксированной.)
Пусть каждому значению параметра t (t^st*^ to) поставлено в соответствие некоторое множество Wu(t) с: <2?0[А, fl. Будем говорить, что совокупность этих множеств
/>fl[
образует и-ст обильный мост, если выполнено следующее условие: каковы бы ни были вектор v*^Q и моменты времени fl, fl (A fl fl), всякую функцию х#[-; fl, fl]^ Wfl(fl) можно продолжить одним из решений х(1) уравнения в контингенциях (11.2) так, чтобы функция
./n==fx«^l ПРИ X I x(f) при
принадлежала множеству Wu(t2).
Аналогичным образом с понятной переменой местами букв и и v определяется свойство v-стабилъности моста Wv = {Wv(t)cz <=^o[fl, fl, t fl}. Заметим, что в определении свойства стабильности не требуется, чтобы множества Wu(t), Wv(t) были-замкнутыми, однако можно проверить, что операция замыкания сохраняет свойство стабильности, поэтому в дальнейшем можно всегда полагать рассматриваемые множества Wu(t), Wb(t) замкнутыми в метрике сходимости, равномерной на отрезке [fl, fl (см. аналогичное замечание в § 11, стр. 55). Отметим еще, что множества Wu(i) и Wv{t), составляющие мосты Wy и WVt можно рассматривать как сечения этих мостов, если трактовать Wu и Wv как некоторые совокупности функций x[fl, определенных на различных отрезках, а «сечение» моста Wu или Wv «гиперплоскостью» t = const — как выделение всех •функций х[-], принадлежащих множеству Wu или Wv и определенных на отрезке [fl, fl.
Пусть Wu = {Wflfl) ,t fl} — некоторый u-стабильный мост. Стратегию Ue 4- ие(х[-; fl, fl) назовем экстремальной к .этому мосту, если для любой непрерывной функции х[-;А, fl вектор
432
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ XVJi
ие = ав(х[«; /о> Л) удовлетворяет условию min maxes'?(6 и> fl) = max $7 ив, о).	(96.3>
U&P tie Q	v&Q
Здесь $ = к [fl — Шо [fl; “’о [ •; io, fl — некоторый элемент множества Wv(t), ближайший к функции х[-;/0, fl в метрике пространства С функций, непрерывных на отрезке [/о, fl; a>0[fl » х[fl — значения функций wo[-;/o, fl, х[-;/0, fl, которые они принимают на правом конце отрезка [/о, fl- Существование элемента K’ots^o, fl вытекает из компактности в себе множества Отметим, что соотношением (96.3) функция ие(х[-', to, fl) определяется при t Z, и при условии, что множество №u(fl непусто, в противном случае вектор Ue(x[-;(o, fl) выбирается в множестве Р произвольным образом.
При определении стратегии Ve-r- oe(x[-; to, fl), экстремальной к о-стабильному мосту = {Wv(t), t t*} функция Vc-определяется соотношением
max mins'fCfl x[fl, u, v) = mins'f(t, x[fl, u, ve), (96.4> ue Q u&P	u^P
где s = ay0[fl —x[fl и юо[-;^о, fl — элемент множества ближайший к функции х[-; to, fl.
Справедливо следующее утверждение.
Лемма 96.1. Пусть Wu-={Wu(t), t^t^} — и-стабильный мост-, Uе+ие(х['-, to, fl)‘— стратегия, экстремальная к этому мосту,, и х»[-; to, fle K(Q. Тогда для любого P'&t* всякое движение х[/, х*; to, /,], Ue (to^t t*) содержится во множестве-WU(P).
Аналогичным образом формулируется барьерное свойство-стратегии Ve+ve(xl-; to, fl), экстремальной к о-стабильному мосту W,.- Отметим, что при рассмотрении движений' x[t, х* [•;/<), fj, Ue] на отрезке [£о, **] полагаем, что при /0 ^ts^t, эти движения совпадают с историей игры *#[•; А»,/«К а при /«t t* определяются предельным переходом от соответствующих последовательностей ломаных Эйлера (см. § 95)..
Итак, перейдем к доказательству леммы 96.1. Пусть x[fl== = x[t, х»[•;/<>, £*], Ч-]— произвольное движение, порожденное стратегией t/e; x<k) [fl = xA<fe> [/, х^[ •; /0, /J, Ue, o(ft)[ • ]| (k = 1, 2, ...)—последовательность ломаных Эйлера, сходящаяся к рассматриваемому движению х [fl. Покажем, что в этой последовательности для каждой из ломаных Эйлера x<k)[fl справедлива оценка
г2(х*>[ •; to, т])<
<r2(x,fel [ •; to, О)(1 + О“ 40₽) + (т“ТН- <96-5>
<§ 96]
АЛЬТЕРНАТИВА
433
Здесь г(х[ •; 10, т]) — расстояние от функции х[ •; Iq, т] до множества Ц7а(т), т. е.
г(х[ •, tQ, т]) = min max ||х[/] — ш[Л||, wl-i
где минимум вычисляется по всем функциям w[ • ; t0, т]е Wu(x); § > 0 — некоторое число, -> 0 при k -> оо; т е [/,. /*] Q [тр1, Т/+1) {/ = 0,1,...)— полуинтервалы покрытия
Пусть — экстремальное управление, выбранное в момент/—	• > /й,	— соответствующий ему элемент множества	ближайший к реализовавшейся ломаной Эйлера
,х(к> [/] (/0 С t В силу условия «-стабильности моста Wa •функцию , /а, т^] можно продолжить решением x(t) уравнения (11.2) так, чтобы функция
(t) =
wff* И ПРИ
х(/) при
/й
Т*й) t т
(96.6)
«содержалась во множестве IFu(t). При этом будем полагать, что вектор o’eQ в уравнении (11.2) выбран из условия
max mins7(^ft)»x<ft)[rlfe*j, м, vj — ппп$7(т<Л> и, o’), где s =	— <>[?<*>].
Воспользуемся оценкой (14.6), из которой получаем, что на отрезке [т(*>, т] расстояние между ломаной Эйлера х<йф] и функцией х(/) из (96.6) можно оценить следующим образом:
max || х<*> [/] — х (0II2
+(т-т^)₽) + ф(«(т-^).	(96.7)
Поскольку функция w(h)(•;/о, т) (96.6) содержится во множестве IFu(t), то
max || х<*’ [0 — а/*’ (0||> г (х<*> [ •; t0, т]).	(96.8)
*С другой стороны, jx'fc) [т^| —	[т^]I < max |х<*> [/] — w^>[/]|| = г(х<й[ •; t0, т<6)]).
'о*'*’!*’	(96.9)
Если максимум в левой части неравенства (96.8) достигается яри t е т], то оценка (96.5) вытекает из неравенств
434
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ. XVF
(96.7)	— (96.9). В противном случае имеем
•;/о» max IIx(fe)[/] — (ОII =
Zq t T
= max j x(ft) [/] — w(ok> [/] || = r (x<*>[ •; t0, t^>])>
т. e. и здесь справедлива оценка (96.5).
Используя оценку (96.5), можно Доказать, что рассматриваемая последовательность ломаных Эйлера x<ft>[Z] (Л=1, 2, ...). удовлетворяет соотношению
г2(х<*>[ ; А,, ЛХГ2(^Ч-;/оЛ.]) +
+ (1+(Г-О)ф(й)]ехр₽(Г — О	(£ = 1,2,...). (96.10>
Заметим теперь, что x<ft)[ •; t0, /.]-**. [ •, t0, /,] при /г—>оо и. х, [ •; t0, /J е Wu(t.), следовательно, г2 (х^>[ •; t0, /„] )-*0 при £->оо^ напомним также, что ф(й)->0 при £->оо. Поэтому из (96.10) получаем, что г(х<А> [•; /0, ^*])->0 при £->оо. В силу замкнутости, множества Wi(t*) отсюда вытекает, что движение х[/, х»[-; t0„ /*], (to^t ^Г), которое является пределом выделенной последовательности ломаных Эйлера, будет содержаться ва множестве Wu(t*). Итак, лемма 96.1 доказана.
Определим теперь максимальный «-стабильный мост, движение по которому приводит на Мс (96.1). Обозначим через; Wu(O совокупность функций хД-;6>, А], принадлежащих компакту S5o[to, 4] и удовлетворяющих следующему условию: какова бы ни была стратегия V-t-v(x[--, t0,t]), существует движение x[t, х*[-;А>, А], И (to^t<.°°), принадлежащее множеству Мс. Рассмотрим мост
Wcu={Wcu(t),i^t0}.	(96.11>
Можно показать, что этот мост является «-стабильным (при этом используются, в основном, рассуждения, приведенные в § 16 при доказательстве «-стабильности моста Wu, с непринципиальными изменениями, которые связаны с переходом от случая конечномерных множеств Wu к рассмотрению мостов Wu> заданных в функциональных пространствах).
Используя это свойство моста Wcu (96.11) и лемму 96.1, докажем следующее положение.
Лемма 96.2. Пусть Uc 4- мс (х [ •; t0, ф — стратегия, экстре,-мальная к мосту Wcu (96.11). Если {/о, Хо} е Wu (А>), то всякое-движение x[t,to,xo,Uc] (to t < 00) содержится во множестве Мс.
Пусть th>to (k— 1, 2, ...)—некоторая неограниченно возрастающая последовательность чисел, х [/, to, х0, Z7C] (to t <i
СТРУКТУРА ИГРЫ
435
« 97]
< оо) — произвольное движение, порожденное стратегией Uc. Из леммы 96.1 вытекает, что для всякого tfl (£=1, 2, ...) движение х [/, /0, х0, £4], рассматриваемое на отрезке [/0, 6J, содержится во множестве Wcu (/*). Из определения моста Wu (96.11) вытекает, что функцию х [/, /0, х0, £4]	при-
надлежащую множеству Wcu{tk), можно продолжить на полуось [/0, °°) так, чтобы функция
t ( xlt, to, Xq, £/J При tQ C t tk, x^[t =	, °	„	(96.12)
L ( x'k) (t) при tk t < oo	'	7
принадлежала множеству Mc (96.1). Замечаем теперь, что последовательность функций	равномерно на
.любом конечном отрезке времени сходится к рассматриваемому движению х [t,t0, х0, Uс]. Поэтому в силу замкнутости множества Мс заключаем, что движение x\t, to, xq, Uc] (/o*^<°°) содержится в Mc (96.1), что и требовалось доказать.
Теперь нетрудно завершить доказательство теоремы 96.1. Возможны два случая {f0, хо} е Wcu(to) и {/о, хо} ф Wcu(to). В первом случае из леммы 96.2 вытекает выполнение первого положения альтернативы, сформулированной в теореме 96.1. Пусть {/0, х0} 0 1Г£(/о) (заметим, что в этом случае множество Wcu(to) пусто, поскольку Wcu (/о) с= ЗВ [fo, to} = {/о, Хо}). Тогда непосредственно из определения множества 1Г«(/о) вытекает существование стратегии Vc4- ас(х[-; to, /]), для которой ни одно из движений x[t, to, Xq, Vc] (/o t < оо) не попадает на множество Мс, т. е. здесь будет выполнено второе положение альтернативы. Таким образом, теорема 96.1 доказана.
§ 97. Структура игры. Используя доказанную выше альтернативу, можно установить существование ситуации типа седловой точки в дифференциальной игре, складывающейся из задач 95.1, 95.2, которые рассматриваются при выполнении условия (12.4) седловой точки маленькой игры (12.1), (12.2).
Рассмотрим сначала случай, когда функционал ф полунепрерывен снизу. Пусть Wu — максимальныый м-стабильный мост, приводящий на Мс (96.1). Как отмечалось выше, множество 1Ги(/о) либо состоит из единственной точки {/0, *о}» либо пусто. Обозначим через Cq точную нижнюю грань чисел с, для которых Wcu(to)= {/о, хо} (если при любом с множество Wu(to) пусто, то полагаем с0 = оо). Покажем, что Wu (to) = = {to, хо} (если Cq < оо). Пусть последовательность ck > с9 (k=l, 2, ...) сходится к Со справа V 4-и(х[-;/о, Л)—некоторая стратегия второго игрока. Поскольку Wcuk (уо) = хо}» то
436
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ XVF
по определению множества Wcu (to) существуют движения %(*) [/] = %(*) [/До, %0, V] (k—lt 2, ...), для которых выполняются неравенства
ф(AT(fe)[/]; /0</ < oo)<efe (k = 1, 2, ...).
Всякий предельный элемент х*[-] последовательности движений x(ftfl-] (в смысле сходимости, равномерной на всяком конечном* отрезке [/о, П) также будет одним из движений х [/, /0, х0, V],. причем из условия ck -> с0 при k -> оо и в силу полунепрерывности снизу функционала ф получаем неравенство ф(х*[/]; /0
t < оо) со. Итак, для любой стратегии V 4-v(x[-];/0, О существует движение х [/,	х0, V], удовлетворяющее соотноше-
нию ф(х[/, /0, х0, V]; /о t < °°) Со, т. е. (/о) = {/о, хо}.
Теперь нетрудно показать, что в игре, складывающейся из задач 95.1, 95.2, существует цена, равная величине с0. Действительно, в силу леммы 96.2 из соотношения WCu(to) — {/о, хо} получаем
supф(х[/, /0, х0, Vq]> < °°ХСо» хН
где (704- и0(х[ •; fl)— стратегия, экстремальная к мосту Wu.. С другой стороны, по определению числа с0 множества Wu(t$ пусты при всяком с < с0, поэтому из определения множества ТГм(^о) вытекает существование стратегии Vc 4- иДх[ • ; /0, /]),. для которой
inf ф (х [/; /0, х0, V J; /0 < t < оо) > с.
X [-1
Следовательно, для любых стратегий U 4- и(х[-; /0, fl) и V — 4- и (х [•; /о, t]) справедливы следующие соотношения:
Ф(х[/, tQ, х0, (/0, V]; /0<t < оо)<с0<
<Ф(х[/, /0» Uy Vc]; /0<^<°°) + е, (97.1>
где е = с0 — с>0 сколь угодно мало.
Итак, соотношение (97.1) означает, что в игре, складывающейся из задач 95.1, 95.2, существует ситуация типа седловой точки. Заметим, что в случае, когда функционал ф полунепрерывен снизу, решение задачи 95.1 достигается на стратегии Uq 4- Ио(х[-; ^о, fl),' экстремальной к мосту Wcu\ а решение задачи 95.2 доставляет последовательность стратегий k= 1, 2, ... (где Cfe->c0 при fe->oo), причем стратегии Vc также можно определить как экстремальные к некоторым у-ста-бильным мостам.
§ 97]
СТРУКТУРА ИГРЫ
437
Аналогичным образом можно рассмотреть случай, когда функционал ср полунепрерывен сверху, и доказать существование ситуации типа седловой точки
ф(х[Л *о, Uc, V];	< оо) — е<с°<
< Ф (х [Л	xQ, U, Vo]; k < t < °°)>	(97.2)
где 8 = с — с° сколь угодно мало. В соотношении (97.2) Vo 4- v0(x [ •; /о, fl)— стратегия второго игрока, экстремальная к u-стабильному мосту Wv = {F{f(fl, /о], здесь IV£(/J —совокупность функций х*[-; *о, М ЗДо, Ц, для которых выполнено следующее условие: какова бы ни была стратегия t/4-4- u(x[-; tOt fl), функцию х*[-;Аъ Ц можно продолжить одним из движений x[t, х#[-; t0, ^*], (7] (t t*) так, чтобы для функции x*[fl = {x*[fl при to t x[ty %*[•; to, /Д, U] при t* t < оо} выполнялось условие ф(х* [fl, t < оо) с, причем с° — наибольшее из чисел с, для которых выполнено соотношение Г‘(/о) = {/о, хо).
Наконец, в случае, когда функционал ф является непрерывным, игра, складывающаяся из задач 95.1, 95.2, обладает седловой точкой {Uo, Vo}, где оптимальные стратегии можно определить как экстремальные к w-стабильному мосту и я-ста-бильному мосту W° соответственно. Для этих стратегий выполняется соотношение
Ф (х[/, /о» Хо, Vo, V]; to < t < о°)< с0 = с° <
< ф (х [/, to, х0, U, V0J; to < t < °°).
(97.3)
Отметим, что при рассмотрении соотношений (97.1) — (97.3) предполагалось выполнение условий с0 < оо, с° > —оо.
Если Со — оо, то решение задачи 95.2 доставляет после-» довательность стратегий VCk (k = 1, 2, ...), где <?&-> оо при k -> оо, а «оптимальной» для первого игрока будет любая стратегия 1/4- и(х[-; to, fl); если же с° = —оо, то решение задачи 95.1 доставляет последовательность стратегий UCk (k = 1, 2, ...), где —оо при fe->oo, а «оптимальной» для второго игрока будет всякая стратегия V4- v(x[»; to, fl).
Обсудим теперь совсем кратко вопрос об аппроксимации построенных решений с помощью ломаных Эйлера. Напомним, что из определения движений х[/, to, х0, U] и стратегии Uo вытекает следующее положение: всякий предельный элемент x*[fl (t^to) последовательности ломаных Эйлера x(fe) [fl = x^k [/, /0, x0, £/0>
[ • 1] (k = I, 2, ...), sup (t^j —	->0 при k -> оо) удовлет-
воряет неравенству ф(х* [fl; t0 t <Z оо) <c: co. Аналогичным об
438
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ. XVI
разом можно сформулировать свойство всякого предельного элемента x*[f] (/ tQ) для ломаных Эйлера x^k [/, tOf Xq, Vo, Для иллюстрации этих положений ограничимся рассмотрением случая, когда ф — непрерывный функционал и продолжительность игры ограничена, т. е.
Ф (хш [Л; to t < °°) = <р (х<2> [/]; to t < °°)
для любых двух функций и х(2) [Z], совпадающих на некотором наперед указанном отрезке [/о, '&]. В этом случае нетрудно установить справедливость следующего утверждения: для любого е > 0 можно указать такое б > О, что при T;+i — б (f=0, 1, ...) для любых ломаных Эйлера хд[/, /0, Хо, Uo, *>[•]] и хд [/,/о, *о, К), и[-]] будут справедливы соотношения
ф (хд {t\ to, х0, Uo, V [ • ]]; to < t <,oo) — e < c0 = c° <
<ф(хд [f, to, Xq, Vq, u[- ]]; to<t < 00) 4- e.
В заключение параграфа опишем построение стабильных мостов с помощью попятных процедур, которые аналогичны конструкциям из § 66 (см. стр. 292) и § 82 (см. стр. 364). При этом ограничимся построением и-стабильного моста Wcu в случае, когда продолжительность игры ограничена некоторым моментом &, т. е. можно полагать, что множество Л4С (96.1) составляют функции х[(|, определенные на отрезке [/о, Ф].
Пусть Dc^o[/o,l*] — некоторый компакт; обозначим символом W (tt, D) совокупность функций х*[-, t0, Me SSo\to-, 4], для которых выполнено следующее условие: каков бы ни был вектор »*eQ, функцию х*[-;/0Л*] можно продолжить до момента t = t* одним из решений x(Z) (/, sg f t*) уравнения (11.2) так, чтобы функция х*[/] = {х, [/] при to < М, х(0 при t /*} содержалась во множестве D. Пусть т(),• = /о+
/(-Q. — t)2~h, i = 0,1,..., I = 2k, k= 1,2,... Полагаем
Di, z—1 = W (xz, z-i» A. z).
Dl, 1-2 = W (Tz, Z-2> A,z-i).
Dz. 0 ~ W (xi, o> Di, i)-
Пусть ft], D(l,t) — то множество Ditj, для которого индекс / определен как наименьший среди индексов I, удовлетворяющих условию т;, i t. Можно показать, что Wcu (/) = lim £>(/,/) при /-»оо, при этом х[ •; t0, /]е lim D(l, t) тогда l	l-too
ПРИМЕР
439
$ 98] и только тогда, когда существует последовательность функций %(*)[•]еD(l, t) (1=2, 4, 8, ...), сходящаяся на отрезке [/0, к функции х[ -; to, /].
§ 98. Пример. Рассмотрим конкретный пример дифференциальной игры, в которой ситуация равновесия достигается, если кроме информации о текущей позиции предоставить игрокам возможность запоминать реализовавшееся движение системы. Отметим, что в основе этого примера лежит конфликтная, ситуация, описанная в § 3, поэтому исследуемая ниже игра близка по своему содержанию к игре на перехват из § 20.
Приведем сначала неформальное описание задач, составляющих эту игру. Пусть движения двух управляемых объектов описываются уравнениями
у = f(1) (ti у, и), z = fW(tiZ,v)y и^Р, v^Q,
Второй игрок, который распоряжается выбором управления иг стремится приблизить объект z к некоторому замкнутому множеству L в пространстве {z}. Первый игрок, управляющий объектом у, имеет целью воспрепятствовать этому приближению z к L и он преследует объект z, стремясь захватить его в некоторую область захвата 8(у), после чего объект z перестает функционировать. При этом в пространствах {г} и {#} оговорены области G и N, которые объекты z и у соответственно не должны покидать во время своего движения. Если же условие z[t] е G нарушается раньше, чем произойдет перехват, то объект z прекращает функционировать, как только точка z\t} выйдет из этой области G. При нарушении фазового ограничения y[t]^N прекращает функционировать объект у. Если фазовое ограничение y[t]^N нарушается раньше, чем произойдет перехват, и раньше, чем объект z покинет допустимую для него область G, то в дальнейшем перехват произойти не может и объект 2 функционирует до тех пор, пока точка z\t\ остается в области G, но не дольше некоторого заранее указанного момента времени t = ft, ограничивающего продолжительность игры.
Ниже будет уточнена постановка задач, стоящих здесь перед первым и вторым игроками, и показано, что эти задачи составляют игру, в которой при полной информированности игроков об истории игры существует ситуация типа седловой точки. Хотя эта игра близка по своёму содержанию к игре на перехват из § 20 (см. стр. 86), однако рассматриваемую здесь игру не удается свести к решению позиционных задач сближения и уклонения так, как это было сделано в § 20. Это обстоятельство связано с наличием здесь фазового ограничения
440
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ XVI
y[t]^N, которое отсутствовало при постановке игры на перехват в § 20. Дело в том, что в процессе игры второму игроку важно знать, продолжает ли преследовать его первый игрок или же к текущему моменту времени объект у прекратил существовать, поскольку фазовая точка y[t\ выходила из множества Л/. Заметим, что второй игрок сможет различать указанные две ситуации, если он будет располагать возможностью запоминать реализовавшееся движение противника.
Итак, уточним постановку задач. Пусть r(z)=p(z,L)—некоторая непрерывная функция, характеризующая расстояние от z до L, Тогда исход игры будет оцениваться функционалом
Ф (*[/]; /0^^^) = —	(98.1)
т. е. величина <р(хИ; to t &) есть минимальное расстояние, на которое для реализации движения х[/] = {z/|7], z[tj} (to^C ^ / ^ &) объект г успевает приблизиться к цели L на промежутке времени от момента t — to до момента t = т, когда он прекращает функционировать. Знак минус в правой части равенства (98.1) поставлен для того, чтобы согласовать содержание рассматриваемых здесь задач с принятым в данной книге общим предположением о том, что первый игрок имеет целью минимизировать, а второй игрок—максимизировать значение платы игры. В соответствии с описанным выше содержанием рассматриваемой игры момент ее окончания т = т(х[>]) формально определяется следующим образом.
Пусть
=	х}:	2Е5(г/))7(/а</<д, z&G)V (у<==
z s {z}, t = f>],
M2 = [{t х}:	z<£G) V (г/s {г/}> zs{z}, A==O)].
Полагая, что множества Mi и М2 замкнуты, определим функционалы, заданные на непрерывных функциях х [/] — {у [/], z [/]} to),
Т!(х[ • ]) = min[/: t^t0, {t, x[/]} sAfJ,
r2(x[ • ]) = min[/: />/0> (Л ^M2].
Определим также функционал
т3(х[ • ]) = max[f: t^t0> г/[/]е=Л/];
множество N предполагается замкнутым. Отметим, что функционалы ti, т2 полунепрерывны снизу, а функционал т3 полунепрерывен сверху. Функционал т (момент окончания игры)

% 98]
ПРИМЕР
441
определяется теперь соотношением
Т,(х[-]) при т, (х[ • ])<т3(х[ • ]),
Ts(x[J) при Т| (х[ • ]) > т3(х[ • ]).
(98.2)
Можно проверить, что функционал т(х[-]) (98.2) является полунепрерывным снизу. Поэтому плата рассматриваемой игры — функционал ф (98.1) — также будет полунепрерывным снизу функционалом. Следовательно, как показано в этой главе, в данной игре в классе стратегий U 4- н(х[-; /0, fl), V 4-4- v (х[-; /0, fl) существует ситуация типа седловой точки, причем решение задачи, стоящей перед первым игроком, доставляет стратегия UQ 4- w°(x[«; /0, fl), экстремальная к максимальному ц-стабильному мосту где <?о— точная нижняя грань чисел с, для которых Wcu (t) — {to, хо}.
Таким образом, для любого движения х[/, to, х0, U°] справедливо неравенство
Ф (х [/, t0, х0, t/0]; to < t < flX Co	(98.3)
и для любого с < Со существует стратегия Vc 4- vc(x[-; t0, fl) такая, что всякое движение х [/,/0, х0, Vc] удовлетворяет неравенству
Ф (х [/, tQ, х0, Vc]; /0 < t < $) > с.	(98.4)
Поясним содержание формального утверждения о существовании ситуации равновесия в игре, платой которой является функционал ф (98.1). Пусть р0 = — с0, тогда по смыслу величины ф(х[/]; t0 t '&) (98.1) получаем, что стратегия {7° 4- ц°(х[«; to, fl) препятствует сближению объекта z с целью L на расстояние меньшее, чем число ро, т. е. при выборе этой стратегии перехвата J70 объект г прекращает функционировать прежде, чем он приблизится к цели L на расстояние, меньшее числа ро- С другой стороны, каково бы ни было число р > р0, можно указать стратегию Vp 4- Ор(х[«; to, fl), при выборе которой объект г успевает приблизиться к цели L на расстояние, не меньшее числа р, как бы при этом ни действовал первый игрок.
Отметим теперь, что существование указанной ситуации равновесия установлено пока в рамках формализации, опирающейся на идеальные движения. Для того чтобы раскрыть содержание этого факта для реализуемых на практике процедур управления, перейдем к рассмотрению ломаных Эйлера. Как известно, идеальные движения аппроксимируются ломаными Эйлера, поэтому, если бы функционал ф (98.1) был непрерывным, то согласно материалу из §§ 96—97 было бы справедливо следующее положение: для любого а > 0 можно указать такое
442
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
[ГЛ. xvr
6 > О, что при выборе разбиения Д, удовлетворяющего условиям Тг+1—Тг^б (/ = 0,1,...), реализация первым игроком управления вида
«д[/] = и°(хд[ • ;£o, г,]), Ti</<Tz + b / = 0, 1,..., (98.5) препятствует сближению объекта г с целью L на расстояние меньшее, чем число р0 — а; с другой стороны, при реализации вторым игроком управления
^д[И =	(^д [ • ; Аь rj), Tt-< Tt-+1, / = 0,1,... (98.6)
объект z успевает приблизиться к цели L на расстояние меньшее, чем число р + а, как бы при этом ни действовал первый игрок (напомним, что здесь число р можно полагать сколь угодно близким К числу Ро).
Однако, как отмечалось выше, функционал ф (98.1) является лишь полунепрерывным снизу, поэтому нельзя утверждать, что на ломаных Эйлера, сколь угодно близких к идеальным движениям, соответствующие значения функционала ф также близки. На самом деле для последовательности ломаных Эйлера x/dd (k= 1, 2, ...), сходящейся к идеальному движению х[/], имеет место лишь неравенство
lim ф (xk [/]; tQ t ft) ф (х [/]; to t ft) (98.7) fe-> ОО
Отметим, что из неравенства (98.7) выводится справедливость только второй части сформулированной выше гипотезы, где указан исход игры при реализации вторым игроком управлений Цд[/] вида (98.6). Таким образом, если ломаные Эйлера оценивать функционалом ф (98.1), то для процедур управления вида (98.5), (98.6) не удается получить утверждение о существовании ситуации равновесия. В связи с этим для оценки ломаных Эйлера введем функционал фе, который зададим соотношениями
<Ре0Ф1;	= min r(z[d),	(98.8)
^0 < Z < Т8
где
| т<е> (х [ • ]) при т<в>(х[ • ])<т<е)(х[ • ]), Те(х['1) = 1	при т<*)(х[ •])>?<*>(*[•]),
T*e) (х [ • ]) = rain R: t^to> {*» х [/]) е Af(ie)], Т2е)(х[ • ]) = min[f:	{t, *И)еМе)],
тз ’ (x [ • ]) = max [/: t > t0, у [/] e Af<e)]
(Af(®) и /V(8)— замкнутые е-окрестности множеств Af ji W). Отметим, что величина —<p8 по-прежнему имеет смысл расстояния,
ПРИМЕР
443
$ 98]
на которое объекту z удается приблизиться к цели L, но при этом момент окончания игры определяется не условием попадания позиции {/, х[/]} на множество Mi или М2, как это было прежде, а условием попадания точки {/, х[/]} на замкнутые «-окрестности этих множеств. Теперь, используя функционал <ре (98.8), можно сформулировать утверждение о существовании ситуации равновесия для практически реализуемых процедур управления (98.5), (98.6). Это утверждение приведем сначала в формальном виде, а затем поясним его содержание.
Пусть U ~ u(x[-; to,t]) и V 4- и(х[«; Л)—некоторые стратегии первого и второго игроков. Для оценки исхода игры, который они гарантируют игрокам при реализации их в форме кусочно постоянных управлений, введем величины (символы lim и lim обозначают нижний и верхний пределы)
%°(t/) = sup lim supqp (хд[/, /0, х0, U, и[ • ]1; t0 <<<&), (98.9) е>0 в(Д)->0 о[-1	1	J
^o(V) = sup lim inf фе(хд[/, tQ, x0, V, u[ • ]];	<tf). (98.10)
8>0 6(A)->0 «[•]
Здесь 6(A) = sup [Tt+i — xh Z = 0, 1» ...].
Утверждение о существовании ситуации равновесия выражается теперь равенством
inf х° (£/)== sup Хо(Ю,	(98.11)
и	V
причем inf %0 (С/) = х° (f/°) = ^о-и
При доказательстве равенства (98.11) заметим сначала, что из определения величин х°(^) и Хо(Ю вытекает неравенство
X°(t/)>Xo(V),
которое справедливо для любых стратегий U и V. Поэтому остается доказать неравенства —
Х°(^)<с0,	(98.12)
•8ирхо(Ю>со.	(98.13)
v
Воспользуемся следующими двумя соотношениями, которые выводятся из определения функционалов ф (98.1) и ф8 (98.8) и устанавливают связь между ними:
Нт ф8(xk[/];	(8 > 0)» (98.14)
lim ф8ь (xjJd; to > Ф(*[H;	(98.15)
fe->oo
где хЦ/] (&= 1,2, ...) — произвольная последовательность
444
ИГРА С ЗАПОМИНАНИЕМ ИНФОРМАЦИИ
(ГЛ. xvr
непрерывных функций, сходящаяся к непрерывной функции x[fl; 8^ (й=1, 2, ...)—последовательность положительных чисел, сходящаяся к нулю.
Предположим от противного, что неверно неравенство (98.12), т. е. существуют числа 8 > О, а>0 и последовательность ломаных Эйлера
x(fe)[fl = xA(fe)[fl/0,x0,t/0,^[ •]] (6=1,2, ...), S(A(%))-*0 при 6->оо,
для которых фе(х<^[А; to t $) с0 + а. Тогда из неравенства (98.14) получаем, что идеальное движение х[/, f0, х0, UQ]r определенное как предельный элемент последовательности x<ft)[fl (6=1, 2, ...), будет удовлетворять неравенству ф(х|7;/0, х0, £/0]; t0 t с0 + а, что противоречит неравенству (98.3). Полученное противоречие доказывает справедливость соотношения (98.12).
Предположим теперь, что неверно неравенство (98.13), т. е. существует число а > 0 такое, что для любой стратегии V можно указать последовательность ломаных Эйлера
xtk} [t] = x^k} [/, /о, Xo, V, [ . J ]	(6=1,2,...),
6(Д(*))->0 при k-> оо,
для которой справедливы неравенства фе& (xw [fl; to t Ф)< < Со — а (6= 1, 2, ...), где 8&->0'при &->оо. Используя неравенство (98.15), получаем, что идеальное движение х[МоУ х0, V], определенное как предельный элемент последовательности xW[fl, будет удовлетворять неравенству ф(х[£, /0, х0, V];
ft) Со — а. Поскольку здесь V — произвольная стратегия второго игрока, то полагая с > с0 — а и V = Vc (см. стр. 441) получаем, что существует движение х|7,/0, х0, 14], для которого справедливо неравенство ф (х [/, t0, х0, 14]; /о t ft) с0 — а < с, т. е. приходим к противоречию с соотношением (98.4). Таким образом, неравенство (98.13) доказано, что завершает доказательство соотношения (98.11).
Поясним содержательно, что означает выполнение равенства (98.11). Непосредственно из определения величины %°(f7) (98.9) и %o(V) (98.10) и по смыслу величины фе (98.8) получаем следующее положение: для любых чисел 8 > 0 и р < р0 = —Со число б* > 0 можно выбрать так, что при выборе любого разбиения А, удовлетворяющего условию 6(A)	6#, реализация
первым игроком управления ид [fl (98.5) при to t т8 в соответствии со стратегией С7° препятствует сближению объекта г с целью L на расстояние меньшее, чем число р; с другой стороны, для любого р>ро существуют стратегия Ур4-ур(х[-*До, fl) и числа 8 >0 и 8*>0 такие, что при реализации вторым игро
5 98]
ПРИМЕР
445-
ком управления ид [/] (98.6), где б (Д) б», объект z успевает приблизиться к цели L на расстояние не меньшее, чем число р, не позже, чем к моменту t — те.
Следует подчеркнуть, что в первой части этого положения указанное там свойство управлений «д[/] (98.5) имеет место-для любого сколь угодно малого параметра е. Поэтому, учитывая, что т8 — момент времени, когда позиция игры впервые попадает в е-окрестность той области, где прекращает функционировать объект г, можно говорить просто, что выбор управлений «д [/] (98.5) при достаточно. мелком разбиении Д препятствует сближению объекта z с целью L на расстояние, меньшее-числа ро- Рассмотрим теперь вторую часть этого положения. Здесь указывается существование числа е > 0, для которого-объект z успевает приблизиться к цели L на расстояние р, оставаясь при этом вне е-окрестности области, где он прекращает функционировать. Поэтому можно говорить, что выбор управления од[/] (98.6) при достаточно мелком разбиении Д обеспечивает сближение объекта z с целью L на расстояние р.
Итак, утверждение о существовании ситуации 8-равновесия-в-рассматриваемой игре можно высказать следующим образом;., при достаточно мелком разбиении Д реализация первым игроком управления мд [£] (98.5) препятствует сближению объекта z с целью L на расстояние меньшее, чем любое число р < ро, как бы при этом ни действовал второй игрок; с другой стороны,, для любого р > ро реализация вторым игроком управления Од И (98.6) при достаточно мелком разбиении Д обеспечивает сближение объекта z с целью L на расстояние, не меньшее; числа р, как бы при этом ни действовал первый игрок.
СПРАВОЧНАЯ ЛИТЕРАТУРА
1*. Айзекс Р., Дифференциальные игры, «Мир», 1967.
2*. Барбашин Е. А., Введение в теорию устойчивости, «Наука», 1967.
3*. Б еккенба х 3., Бе л л м а н Р., Неравенства, «Мир», 1965.
4*. Веллман Р., Г л и к с б е р г И., Гросс О., Некоторые вопросы математической теории процессов управления, ИЛ, 1962.
5*. Бесконечные антагонистические игры, Сборник статей, Физматгиз, М.а 1963.
6*. В а с и л ь е в а А. Б., Бутузов В. Ф., Асимптотические разложения решений сингулярно-возмущенных уравнений, «Наука», 1973.
7*. Д а н ф о р д Н., Шварц Дж. Т., Линейные операторы, т. I, ИЛ, 1962.
8*. К а р л и н С., Математические методы в теории игр, программировании и экономике/«Мир», 1964.
9*. К о л м о г о р о в А. Н., Фомин С. В., Элементы теории функций и функционального анализа, «Наука», 1968.
10*. К р а с о в с к и й Н. Н., Теория управления движением, «Наука», 1968.
11*. Красовский Н. Н., Игровые задачи о встрече движений, «Наука»* 1970.
12*. Красовский Н. Н., Лекции по теории управления, вып. 3, УрГУ» Свердловск, 1970.
13*.- Куратовский К., Топология, т. I, «Мир», 1966.
14*. Л а в р е н т ь е в М. А., Лю ст ер ник Л. А., Курс вариационного исчисления, ОНТИ, М. — Л., 1938.
15*. Л о эв М., Теория вероятностей, ИЛ, 1962.
16*. Л ю с т е р н и к Л. А., Соболев В. И., Элементы функционального анализа, «Наука», 1965.
17*. Ляпунов А. М., Общая задача об устойчивости движения, ОНТИ* М. —Л„ 1935.
18*. Мак-Кинси Дж., Введение в теорию игр, Физматгиз, М., 1960.
19*. Малкин И. Г., Теория устойчивости движения, «Наука», 1965.
20*. Н а й м а р к М. А., Нормированные кольца, «Наука», 1968.
21*. Немыцкий В. В., Степанов В. В., Качественная теория дифференциальных уравнений, Гостехиздат, М. — Л., 1949.
22*. Овсянников Л. В., Групповые свойства дифференциальных уравнений, Новосибирск, 1962.
23*. Позиционные игры, Сборник статей, «Наука», 1967.
24*. Понтрягин Л. С., Обыкновенные дифференциальные уравнения* «Наука», 1965.
25*. П о н т р я г и н Л. С., Болтянский В. Г., Гамкрелидзе Р. В.» Мищенко Е. Ф., Математическая теория оптимальных процессов* «Наука», 1969.
26* Розанов Ю. А., Случайные процессы, Специальный курс, «Наука»» ’ 1971.
27*. Рокафеллар Р., Выпуклый анализ, «Мир», 1973.
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
447
28*. Рудин У., Основы математического анализа, «Мир», 1966.
29*. С^а неоне Дж., Обыкновенные дифференциальные уравнения, т. II, ИЛ,
30*. Степанов В. В., Курс дифференциальных уравнений, Гостехиздат, М., 1950.
31*. Тихонов А. Н., Системы дифференциальных уравнений, содержащих малые параметры при производных, Матем. сборник 51, (73), вып. 3, 1952.
32*. Филиппов А. Ф., О некоторых вопросах теории оптимального регулирования, Вестник МГУ, № 2 (серия математика, механика, физика,, химия), 1959.
33*. Филиппов А. Ф., Дифференциальные уравнения с разрывной правой частью, Матем. сборник 51 (93), вып. 1 (I960).
34*. Хилле Э., Филлипс Р., Функциональный анализ и полугруппы, ИЛГ 1962.
35*. X а л м о ш П., Теория меры, ИЛ, 1953.
36*. Bellman R., Introduction to the mathematical theory of control processes, New York, Academic Press, v. 1 — 1967, v. 2— 1971.
37*. K. Kuratowski, C. Ryll-Nardzewski, A general Theorem on Selectors, Bull, de 1 Acad. Polon. des sci., Varsovie, vol. XIII, № 6 (1965).
38*. Marchaud A., Sur les champs de demi-ednes et les equations differen-tielles du premier ordre, Bull, de la Soc. Math, de France 62 (1934).
39*. Me. Shane E. J., Generalized curves, Duke Math. Journ. № 6 (1940).
40*. Young L. C., Generalized curves and the existence of the attained absolute minimum in the calculus of variations, Comp. Rend. Soc. Sci. et lettres Varsovie 3, 30 (1937).
41*. Zaremba S. К.» Sur les equations au paratingent, Bull, des Sci. Math. 60 (1936).
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
1.	Азимов А. Я., Гусейнов Ф. В., О некоторых классах дифференциальных игр с интегральными ограничениями, Изв. АН СССР, Техническая кибернетика № 3 (1972).
2.	А л ь б р е х т Э. Г.
а)	О сближении квазилинейных объектов, Прикл. математика и механика 34, № 4 (1970);
б)	О встрече квазилинейных объектов в регулярном случае, Прикл. математика и механика 35, № 4 (1971);
в)	О сближении квазилинейных объектов в регулярном случае, Дифференц. уравнения 7, № 7 (1971).
3.	Байбазаров М.
а)	Достаточные условия оптимальности в дифференциальных играх, Прикл. математика и механика 35, № 6 (1971);
б)	Аппроксимация смешанных стратегий в дифференциальных играх, Изв. АН СССР, Техническая кибернетика № 4 (1972).
4.	Б а й с а к а л о в И. Б., Регуляризуемый случай игровой задачи наведения, Труды Ин-та матем. и мех. АН КазССР 2 (1971).
5.	Барабанова Н. Н., Субботин А. И., О классах стратегий в дифференциальных играх уклонения от встречи, Прикл. математика и механика 35, № 3 (1971).
6	Б а т у х т и н В. Д., Экстремальное прицеливание в нелинейной игре ’ сближения, ДАН СССР 207, № 1 (1972).
7.	Батухтин В. Д, Красовский Н. Н.
а)	Задача программного управления на максимин, Изв. АН СССР, Техническая кибернетика № 6 Д972);
-448
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
б)	Экстремальное управление в нелинейной позиционной дифференциальной игре, Изв. АН СССР, Техническая кибернетика № 4 (1973).
8.	Батухтин В. Д., Субботин А. И.
. а) Регулярный случай в линейной дифференциальной игре, Изв. АН СССР, Техническая кибернетика №6 (1971);
6)	Об условиях завершения игры преследования, Изв. АН СССР, Техническая кибернетика № 1 (1972).
9.	Бедичану И. Г., Ч е б о т а р у И. С., Линейные многошаговые игры на выживание, В со. «'Прикладная математика и программирование», Кишинев, «Штиинца», выл. 8 (1972).
10.	Б е й к о И. В., Численный метод решения задачи оптимального преследования по максимину времени, Укр. матем. журнал 18, № 1 (1966).
11.	Б ей ко И. В., Шпортюк 3. М., О решении одного класса задач уклонения, Укр. матем. журнал 24, Xs 5 (1972).
12.	Белкин Г. А., Нелинейная игровая задача о блокировании противника в круге, Кибернетика Xs 5, Киев (1970).
13.	Блакьер А., Жерар Ф., О геометрии оптимальных стратегий в играх качества двух игроков, Механика, Период, сб. перев. иностр, статей Xs 5 (1968).
14.	Блакьер А., Л е й т м а н Г., Многошаговые игры степени с нефиксированным временем, Кибернетика № 1, Киев (1971).
15.	Болдырев В. И., Вывод уравнения Беллмана в случае дифференциальной игры с двумя функционалами, Управляемые системы 2, Новосибирск (1969).
46. Б уд а к Б. М., Иванов А. И., О разностных аппроксимациях для дифференциальных игр, Журнал вычисл. матем. и матем. физики 10, № 3 (1970).
47. В а й с б о р д Э. М., О существовании решений у линейной программной дифференциальной игры нескольких лиц с квадратичными функциями платы, Дифференц. уравнения 8, Xs 5 (1972).
18.	Васильев Ф. П., Об условиях существования седловой точки в детерминированных интегро-дифференциальных играх с запаздыванием при наличии параметров, Журнал, вычисл. матем. и матем. физики 10. № 1 (1970).
19.	Горбунов В. К., Дифференциально-импульсные игры, Изв. АН СССР, Техническая кибернетика Xs 4 (1973).
20.	Горлов В. М., О существовании цены игры в задачах преследования, Журнал вычисл. матем. и матем. физики 12, Xs 1 (1972).
21.	Го р о х о в и к В. В., Кириллова Ф. М., О линейных дифференциальных играх нескольких лиц, Управляемые системы 10, Новосибирск (1972).
22.	Гурман В. И., П а ц ю к о в В. П., Задача об оптимальном преследовании цели в гравитационном поле при конфликтной ситуации, Исслед. по динамике полета, М., «Машиностроение», 1969, 2.
23.	Г у с я т н и к о в П. Б.
а)	К вопросу об информированности игроков в дифференциальной игре, Прикл. математика и механика 36, Xs 5 (1972);
б)	Необходимое условие оптимальности времени первого поглощения, Прикл. математика и механика 37, Xs 2 (1973).
124.	Гусятников П. Б., Никольский М. С., Об оптимальности времени преследования, ДАН СССР 184, Xs 3 (1969).
25.	Демьянов В. Ф., К решению нелинейных задач преследования, Жур* нал вычисл. матем. и матем. физики Xs 5 (1967).
26.	Дзюбенко Г. Ц., Пшеничный Б. Н., Дискретные дифференциальные игры с запаздыванием информации, Кибернетика Xs 6, Киев (1972).
27.	Е р е ш к о Ф. И., Пропой А. И., К теории динамических игр, Изв, АН СССР, Техническая кибернетика Xs 2 (1970).
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
449>
28.	Жуковский В. И.
а)	О дифференциальных играх нескольких лиц с ненулевой суммой. Изв. АН СССР, Техническая кибернетика № 3 (1971);
б)	К дифференциальной игре нескольких лиц, Изв. вузов, Математика № & (1971).
29.	Зайцев А. В., Построение множеств поглощения в дифференциальной игре сближения, Управляемые системы 7, Новосибирск (1970).
30.	3 е л и к и н М. И.
а)	Об одной дифференциальной иг^е, УМН 21, № 4 (1966);
б)	Об одной дифференциальной игре с неполной информацией, ДАН СССР 202, № 5 (1972).
31.	Зонневенд Д., Об одном методе преследования, ДАН СССР 204» № 6 (1972).
32.	Зубов В. И., Об одной Задаче оптимальной стабилизации, ДАН СССР 190, № 4 (1970).
33.	Зубов Е, Н., Построение управлений в задачах преследования, Дифферент уравнения 9, № 2 (1973).
34.	Зуев Г. М., И в а н и я В. М., И в а н о в Ю. Н.
а)	Игровой подход к задаче управления спуском космического аппарата в атмосфере, I. Автоматика и телемеханика №2 (1971);
б)	Игровой подход к задаче управления спуском космического аппарата в атмосфере, II. Автоматика и телемеханика № 5 (1971).
35.	И л ь и ч е в В. С., О выборе программы управления процессом в условиях неопределенности, Изв. АН СССР, Техническая кибернетика № 4 (1969).
36.	К а р в о в с к и й Г. С., Кузнецов А. Д., Принцип максимума в теории дифференциальных игр W лиц, Изв. АН СССР, Техническая кибернетика № 6 (1966).
37.	К е л е н д ж е р и д з е Д. Л.4 К теории оптимального преследования. ДАН СССР 138, № 3 (1961).
38.	К и б е ц В. Ф., Осташевский И. П., Об одной игре поиска с движущимися объектами, Кибернетика № 1, Киев (1973).
39.	Киселев Ю. Н., Принцип максимума — достаточное условие максимальной оптимальности по быстродействию для линейных дифференциальных игр, Теория оптимальных решений, Труды Семинара, Киев, 1969». вып. 3.
40.	Красовский Н. Н.
а)	Об одной задаче преследования, Прикл. математика и механика 26» № 2 (1962);
б)	Об одной задаче преследования, Прикл. математика и механика 27» № 3 (1963);
в)	Программное поглощение в дифференциальных играх, ДАН СССР, 201» № 2 (1971);
г)	Экстремальное управление в нелинейной позиционной дифференциальной игре, ДАН СССР 203, № 3 (1972);
д)	К игровой задаче уклонения, Дифференц. уравнения 8, № 2 (1972);
е)	Дифференциальная игра сближения —- уклонения, I. Изв, АН СССР,. Техническая кибернетика № 2 (1973);
ж)	Дифференциальная игра сближения — уклонения, П. Изв. АН СССР» Техническая кибернетика № 3 (1973);
в)	Программные конструкции для позиционных дифференциальных игр» ДАН СССР 211, № 6 (1973);
41.	Красовский Н. Н., Осипов Ю. С.
а)	Линейные дифференциально-разностные игры, ДАН СССР 197, № 4 (1971);
б)	Задача управления с неполной информацией, Изв. АН СССР, Механика твердого тела № 4 (1973);
450
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
42.	К р а с о в с к и й Н. Н„ С у б б о т и н А. И.
а)	Альтернатива для игровой задачи сближения, Прикл. математика и механика 34, № 6 (1970);
б)	О структуре игровых задач динамики, Прикл. математика и механика 35, № 1 (1971);
в)	Аппроксимация в дифференциальной игре, Прикл. математика и механика 37, № 2 (1973):
43.	К р а с о в с к и й Н. Н., Репин Ю. М., Третьяков В. Е., О некоторых игровых ситуациях в теории управляемых систем, Изв. АН СССР, Техническая кибернетика № 4 (1965).
44.	Красовский Н. Н., Субботин А. И., Ушаков В. Н., Минимаксная дифференциальная игра, ДАН СССР 206, № 2 (1972).
45.	Кружков С. Н., Нелинейные уравнения первого порядка и связанные с ними дифференциальные игры, УМН 24, № 2 (1969).
46.	К р я ж и м с к и й А. В., Дифференциально-разностная игра уклонения от функциональной цели, Изв. АН СССР, Техническая кибернетика № 4 (1973).
47.	Кряжимский А. В., Осипов Ю. С., Дифференциально:разностная игра сближения с функциональным целевым множеством, Прикл. математика и механика 37, № 1 (1973).
48.	К у н Л. А., П р о н о з и н Ю. Ф.,
а)	О дифференциальных играх, Автоматика и телемеханика № 5 (1971);
б)	О сведении дифференциальной игры к задаче оптимального управления, Автоматика и телемеханика № 12 (1971).
49.	К у р ж а н с к и й А. Б.
а)	Дифференциальные игры сближения при ограниченных фазовых координатах, ДАН СССР 192, № 3 (1970);
б)	Дифференциальные игры сближения в системах с запаздыванием, Дифферент уравнения 7, № 8 (1971);
в)	Дифференциальные игры наблюдения, ДАН СССР 207,	№ 3
(1972);
г)	К теории позиционного наблюдения. Общие соотношения, Изв. АН СССР Техническая кибернетика, № 5 (1973).
50.	К у р ж а н с к и й А. Б., Осипов Ю. С., К задачам программного преследования в линейных системах, Изв. АН СССР, Техническая кибернетика № 3 (1970).
51.	Лагунов В. Н.
а)	Об условиях существования преследующего управления, Дискретный анализ 2, Новосибирск (1967);
б)	Нелинейная дифференциальная игра убегания, ДАН СССР 202, № 3 (1972).
52.	Л е й т м а н Г., Мон Г., Об одном классе дифференциальных игр, Кибернетика № 1, Киев (1968).
53.	Лидов М. Л., Об одной задаче дифференциальных игр, Автоматика и телемеханика № 4 (1971).
54.	М а л а ф е е в О. А., О существовании обобщенного значения динамической игры, Вести. Ленингр. ун-та 4, № 19 (1972).
55.	М а р ч е н к о В. М., Критерий программной управляемости в игровых задачах, Вести. Белорусск. гос. ун-та< сер. I, № 1 (1973).
56.	Мезенцев А. В.
а)	О некотором классе дифференциальных игр, Изв. АН СССР, Техническая кибернетика № 6 (1971);
б)	Об одной дифференциальной игре, Дифференц. уравнения 8, № 10 (1972).
57.	Меликян А. А., Ч е р н о у с ь к о Ф. Л.
а)	Некоторые минимаксные задачи управления с неполной информацией, Прикл. математика и механика 35, № 6 (1971);
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
451
б)	О дифференциальных играх с переменными условиями информированности, ДАН СССР 203, № 1 (1972).
58.	Мищенко Е. Ф.
а)	Задачи преследования и уклонения от встречи в теории дифференциальных игр, Изв. АН СССР, Техническая кибернетика № 5 (1971);
б)	О некоторых игровых задачах преследования и уклонения от встречи, Автоматика и телемеханика № 9 (1972).
59.	М и щ е н к о Е. Ф., С а т и м о в Н., Задача об уклонении от встречи в дифференциальных играх с нелинейными управлениями, Дифференц. уравнения 9, № 10 (1973).
60.	Мищенко Е. Ф., Понтрягин Л. С., Линейные дифференциальные игры, ДАН СССР 174, № 1 (1967).
61.	Мур зо в Н. В., Петросян Л. А., Дифференциальная игра на перетягивание, Вести. Ленингр. ун-та № 1, Матем., механ., астрон., вып. 1 (1967).
62.	Никольский М. С.
а)	Нестационарные линейные дифференциальные игры, I. Кибернетика № 6, Киев (1970);
б)	Прямой метод в линейных дифференциальных играх с общими интегральными ограничениями, Дифференц. уравнения 8, № 6 (1972).
63.	Никольский М. С., У хоботов В. И., О некоторых классах линейных дифференциальных игр. Вести. Моск, ун-та № 5, Матем., механ: (1973).
64.	О н о п ч у к Ю. Н., О дифференциальных играх с интегральными ограничениями, Теория оптимальных решений, Труды Семинара, Киев, 1967, вып. 2.
65.	О с и п о в Ю. С.
а)	Дифференциальные игры систем с последействием, ДАН СССР 196, № 4 (1971);
б)	Альтернатива в дифференциально-разностной игре, ДАН СССР 197, №5(1971);
в)	Дифференциальная игра наведения для систем с последействием, Прикл. математика и механика 35, № 1 (1971);
г)	К теории дифференциальных игр, Прикл. математика и механика 35, № 2 (1971);
д)	Об условиях стабильности поглощения в дифференциально-разностных играх, I, II. Управляемые системы № 8, Новосибирск (1971);
е)	Минимаксное поглощение в дифференциально-разностных играх, ДАН СССР 203, № I (1972).
66.	Павлов В. В., Уланов Г. М., Инвариантность и дифференциальные игры, ДАН СССР 199, № 4 (1971).
67.	Пашков А. Г.
а)	Об одной игре сближения, Прикл. математика и механика 34, № 5 (1970);
б)	Об одной оценке в дифференциальной игре сближения, Прикл. математика и механика 36, № 6 (1972).
68.	П а ц к о В. С.
а)	К игровой задаче программного управления, Прикл. математика и механика 35, № 1 (1971);
б)	Об одной дифференциальной игре второго порядка, Прикл. Математика и механика 35, № 4 (1971);
в)	Условия уклонения от точки в дифференциальной игре второго порядка, Прикл. математика и механика 36, № 6 (1972).
69.	Петров Н. Н.
а) Существование значения игры преследования, Дифференц. уравнения 7, №5(1971);
_ б) О' существовании значения игры < преследования, ДАН СССР 190, № 6 (1970);
452
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
В) Об ^отсутствии значения игры преследования, Дифферент!, уравнения 9, 70. П е т р о с я н Л. А.
а) Одна^ игра преследования на полуплоскости, ДАН АрмССР 40, № 5 б) Одно отображение на семействе дифференциальных игр преследования ДАН СССР 178, № 1 (1968);
в) Игры преследования с задержкой информаций у игрока, Изв. АН АрмССР, Математика 8, № 2 (1973).
71.	Плотникова Л. И., Простейшие дифференциальные игры с несколькими управляемыми объектами, Оптимизация 4:21, Новосибирск (1971).
72.	П о ж а р и ц к и й Г. К.
а)	Импульсные преследования в случае линейных однотипных объектов второго порядка, Прикл. математика и механика 30, № 5 (1966);
б)	Игровая задача импульсной «мягкой» встречи двух материальных точек, Прикл. математика и механика 36, № 2 (1972);
в)	Импульсное преследование точки с ограниченной тягой, Прикл. математика и механика 37, № 2 (1973).
73.	Пропой А. И., Принцип минимакса в дифференциальных играх, В сб. «Исследование операций», № 1, М., 1970.
74.	Понтрягин Л. С.
а)	О некоторых дифференциальных играх, ДАН СССР 156, № 4 (1964);
б)	К теории дифференциальных игр, УМН 21, № 4 (1966);
в)	О линейных дифференциальных играх, I. ДАН СССР 174, № 6 (1967);
г)	О линейных дифференциальных играх, II, ДАН СССР 175, № 4 (1967);
д)	Линейная дифференциальная игра убегания, ДАН СССР 191, № 2 (1970);
е)	Линейная дифференциальная игра убегания, Труды Матем. ин-та им. Стеклова 112 (1971).
75.	Понтрягин Л. С., Мищенко Е. Ф.
а)	Задача об убегании одного управляемого объекта от другого, ДАН СССР 189, № 4 (1969);
б)	Задача об уклонении от встречи в линейных дифференциальных играх, Дифференц. уравнения 7, № 3 (1971);
в)	Задача об уклонении от встречи в линейных дифференциальных играх, В сб. «Проблемы прикладной математики и механики», «Наука», 1971.
76.	Пшеничный Б. Н.
а)	О задаче преследования, Кибернетика, № 6, Киев (1967);
б)	О линейных дифференциальных играх, Кибернетика № 1, Киев (1968);
в)	Линейные дифференциальные игры, Автоматика и телемеханика № 1 (1968);
г)	Структура дифференциальных игр, ДАН СССР 184, № 2 (1969).
77.	П ш е н и ч н ы й Б. Н., О н о п ч у к Ю. Н., Линейные дифференциальные игры с интегральными ограничениями, Изв. АН СССР, Техническая кибернетика № 1 (1968).
78.	Сагайдак М. И., О выборе управления в линейных играх с фиксированным временем, В сб. «Прикл. математика и программирование», Кишинев 4 (1971).
79.	С а т и м о в Н., К задаче преследования в нелинейных дифференциальных играх, Кибернетика № 3, Киев (1973).
ВО.	С е р и к о в Г. Н., К задаче об игровой встрече движения для систем с запаздыванием, Изв. вузов, Математика № 5 (1972).
81.	Симакова Э. Н.
а)	Об одной нелинейной дифференциальной игре, Кибернетика № 1, Киев (1968);
б)	К задаче преследования и уклонения, Автоматика и телемеханика № 8 (1970).
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
453
32.	Смольянов Э. Р.
а)	Дифференциальные игры в смешанных стратегиях, ДАН СССР 191, № 1 (1970);
б)	Обобщенные дифференциальные и бесконечные антагонистические игры с зависимыми стратегиями игроков, ДАН СССР 208, № 1 (1973).
33.	С о к о л о в Б. Н., Об одной дифференциальной игре преследования с запаздыванием информации при наличии интегральных ограничений, Дифференц. уравнения 8, № 10 (1972).
34.	Соколов Б. Н., Черноусько Ф Л., Дифференциальные игры с запаздыванием информации, Прикл. математика и механика 34, № 5 (1970).
35.	С у б б о т и н А. И.
а)	К задаче об игровой встрече движений, Прикл. математика и механика 31, № 5 (1967);
б)	Дифференциальные игры с ограничениями на фазовые состояния, ДАН СССР 193, № 2 (1970);
в)	Позиционное и программное поглощения в дифференциальных играх, Прикл. математика и механика 36, № 5 (1972);
г)	Экстремальные стратегии в дифференциальных играх с полной памятью, ДАН СССР 206, № 3 (1972).
36.	Т а р л и н с к и й С. И.
а)	Об одной позиционной задаче наведения, ДАН СССР 207, № 1 (1972);
б)	Об одной линейной дифференциальной игре сближения, ДАН СССР 209, № 6 (1973).
37.	Третьяков В. Е., Регуляризация одной задачи о преследовании, Дифференц. уравнения 3, № 1 (1967).
88.	У ш а к о в В. Н., Экстремальные стратегии в дифференциальных играх с интегральными ограничениями, Прикл. математика и механика 36, № 1 (1972).
89.	Федоренко Р. П.
а)	О задаче Коши в- теории преследования, Журнал вычисл. матем. и матем. физики, 9, № 5 (1969);
б)	Об одном классе дифференциальных игр преследования, Журнал вычисл. матем. и матем. физики 10, № 5 (1970).
90.	Ч е р н о у с ь к о Ф. Л., О дифференциальных играх с запаздыванием информации, ДАН СССР 188, № 4 (1969).
91.	Ч икр ий А. А., О линейных дискретных играх качества, Кибернетика № 5, Киев (1971).
92.	Ш'е л е м е н т ь е в Г. С., Об одной задаче коррекции движения, Прикл. математика и механика 33, № 2 (1969).
93.	III и ш м а к о в В. С.
а)	Игровая задача уклонения при запаздывании информации, Прикл. математика и механика 35, № 4 (1971);
б)	Минимаксная задача преследования при запаздывании информации, Изв вузов, Техническая кибернетика № 3 (1973).
94.	III о й х е т Б. А., О существовании значения дифференциальной игры с предписанной продолжительностью, Кибернетика № 2, Киев (1971).
95.	Якубович В. А.
а)	О синтезе оптимальных управлений в линейной дифференциальной игре с квадратичным функционалом платежа, ДАН СССР 195,	№ 2
(1970);
б)	О синтезе оптимальных управлений в линейной дифференциальной игре на конечном интервале времени с квадратичным функционалом платежа, ДАН СССР 200, № 3 (1971).
96.	В е г к о v i t z L. D.
a)	A differential game without pure strategy solutions on the open set. Adv. in game theory, Ann. Math. Studies № 52 (1964);
454
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
б)	A variational approach to differential games, Ann. Math. Studies № 52 (1964);
в)	Necessary Conditions for Optimal Control Strategies in a Class of Differential Games and Control Problems, SIAM J. Control 5, № 1 (1967).
97.	Blaquiere A., Conditions suffisantes d’optimalite pour un couple stra-tegique dans la theorie des jeux differentiels quantitatifs, C. r. Acad. sci. A270, № 8 (1970).
98.	Blaquiere Austin, Caussin Pierre, Jeux differentiels aves-retard, theoreme de minmax, C. r. Acad. sci. A273, № 23 (1971).
99.	Blaquiere A., Gerard F., L e i t m a n n G., Quantitative and Qualitative Games. Academic Press, New York — London, 1969. Mathematics in Science and engineering, v. 58.
100.	Borge st W., Varaiya P., Target Function Approach to Linear Pursuit Problems, IEEE Trans. Automat. Control AC-16, 5, 1971.
101.	Chattopadhyay R.
a)	On differential games. Internat. J. Control 6, № 3 (1967);
6)	Functional Analytic Analysis of a Pursuit Problem, J. Optimization Theory and Applies 2, № 4 (1968);
в)	Completion of Linear Differential Games, J. Optimization Theory and Applic. 3, № 4 (1969).
102.	Ciletti Michel D.
a)	On the contradiction of bang-bang-bang surfaces in differential games, J. Optimiz. Theory and Appl. 5, № 1—6 (1970);
6)	Results in the theory of linear differential games with an information time lag, J. Optimiz. Theory and Appl. 5, № 1—6 (1970).
103.	Cockayne E., Plane Pursuit with Curvature Constraints, SIAM J. Appl. Math. 15, № 6 (1967).
104.	Elliott R. J., Kai ton N. J., The Existence of Value in Differential Games of Pursuit and Evasion, J. Different. Equat. 12, № 3 (1972).
105.	Elliott R. J., Kai ton N. J., Markus L., Saddle points for linear differential games, SIAM J. Control 11, № 1 (1973).
106.	Fleming W. H.
a)	A note on differential games of prescribed duration. Contributions to the theory of games, Princeton Univ. Press, 1957, v. 3;
6)	The convergence problem for differential games, J. Math. Anal, and Appl. № 3 (1961);
в)	The convergence problem for differential games, II. Adv. in Game Theory, Ann. Math. Studies №‘52 (1964).
107.	Friedman A.
a)	Existence of Value and of Saddle Points for Differential Games of Survival, J. Different. Equat. 7, № 1 (1970);
6)	Differential games with restricted phase coordinates, J. Different. Equat. 8, № 1 (1970);
в)	Computation of Saddle Points for Differential Games of pursuit and evasion, Arch. Ration. Meeh, and Analysis 40, № 2 (1971);
r)	Comparison Theorems for Differential Games, II, J. Different. Equat. 12, № 2 (1972);
д) Differential Games, New York, SIAM Rev. 14, № 4 (1972).
108.	Gerard F., Theorie geometrique des jeux differentiels qualitatifs & deux joueurs, These Doct. sci. phys. Fac. sci. Paris, 1968.
109	Ha lan ay A., Differential Games with Delay, SIAM J. Control 6, № 4 (1968).
110.	Ho Y. C.
a)	A Note on Linear-Quadratic Pursuit-Evasion Differential Games, J. OptL miz. Theory and Appl. 5, № 6 (1970);
6)	Differential games, dynamic optimization, and generalized control theory^ J. Optimiz. Theory and Appl. 6, № 3 (1970).
СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА
455
111.	Но Y. C.t Bryson А. Е., Jr., Baron S., Differential games and optimal pursuit-evasion strategies, IEEE Trans. Automat. Control 10, № 4 (1965).
112.	Jumarie G., Synthese d’un jeu differential a erreurs d’observation par comparaison aves le jeu a information parfaite, Rev. CETHEDES 6, № 20 (1969).
113.	К a shy a p R. L., Utgoff V. A., A pursuit and evasion problem with measurement uncertainty, Proc. 1st Internal. Conf. Theory and Applic. Different. Games, Amherst, Mass., 1969. S. 1., s. a., 11/9—11/10.
114.	Kovadevic Vladimir., О jednoj diferencijalnoj igri prestretanja. — Automatika 11, № 1 (1970).
115.	Leitmann G., A differential game of pursuit and evasion, Internat. J. Non-Linear Meeh. 4, № 1 (1969).
116.	Liu Pan-Tai, On a differential game with imperfect state information, Proc. 1st Internat Conf. Theory and Applic. Different. Games, Amherst, Mass., 1969. S. 1., s.a, VII/23—VII/25.
117.	Lukes D. L., Russell D. L., A global theory for linear-quadratic differential games., J. Math. Anal, and Appl. 33, № 1 (1971).
118.	Meschler P. A., On constructing efficient evasion strategies for a game with imperfect information, IEEE Trans. Automat. Contr. 15, № 5 (1970).
119.	N a r d z e w s к i C. R., A theory of pursuit and evasion, Adv. in game theory, Ann. Math. Studies, 1964.
120.	Rekasius Z. V., On open-loop and closed-loop solutions of linear differential games, Proc. 1st Internat. Conf. Theory and Applic. Different. Games, Amherst, Mass., 1969. S. 1., s.a., VIII/20—VIII/22.
121.	Rhodes I. B., Luenberger D. G., Differential Games with Imperfect State Information. IEEE Trans. Automat. Control, AC-14, № 1, 1969.
122.	R о x i n E.
a)	Axiomatic Approach in Differential Games, J. Optimiz. Theory and Applic., 1969, V. 3, № 3;
6)	Some global problems in differential games, Leet. Notes Math., 1971, 235.
123.	R о x i n E., T s о к о s Chris P., On the definition of a stochastic differential game, Math. Syst. Theor. 4, № 1 (1970).
124.	S a к a w a Y, On pursuit and evasion problems, Leet. Notes Math., 243, 1971.
125.	Strauss Aaron, A stability problem in linear differential games, Leet. Notes Math., 144, 1970.
126.	V a r a i у a P. P.
a)	On the existence of solutions to a differential game, SIAM J. Control 5, № 1 (1967);
6)	Linear pursuit games, Proc. 1st Internat. Conf. Theory and Appl. Different. Games, Amherst, Mass., 1969. S. 1, s.a., V/Г—V/2.
127.	V a r a i у a P., L i n J i g u a n., Existence of saddle points in differential games, SIAM J. Control, V. 7, № 1, 1969.
128.	W a n g G., Leitmann G., Necessary and sufficient conditions for multistage two-person zero-sum games, J. Optimiz. Theory and Applic. 4, № 3 (1969).
129.	W a r g a J.
a)	Relaxed variational problem, J. Math. Anal. Appl. 4 (1962);
6)	On a class of pursuit and evasion problems, J. Different. Equat. 9, № 1 (1971).
130.	Z i e b a A.:
a)	An example in pursuit theory, Studia Math. 22, № 1 (1962);
6)	Pursuit Games, Zesz. nauk. WSP Opolu, Mat. № 8 (1970).
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Движение идеальное конструктивное 33.
42, 285, 355
— обобщенное 42
—	программное 121, 125
Дорожка «-стабильная 209
*	- «-стабильная 210
—	«-стабильная 321
— й-стабильная 321
—	«^-стабильная 383
—	«^-стабильная' 383
Игра сближения — уклонения 49
Игрок-противник 31
—	• союзник 31
Информационная дискриминация 353
—	игровая задача 406
—	область 407
История игры 424
Контрстратегия 355, 356
—	максимизирующая 377
—	экстремальная 363
Контруправление 360
Ломаная Эйлера 32, 284, 355, 356
Минимаксное прицеливание 376
Многообразие «-стабильное 215
«-стабильное 215
—	й -стабильное 323
—	«-стабильное 323
—	«♦-стабильное 325
—	 «ф-стабильное 325
Множество «-стабильное 52
*	* «-стабильное 54
•	* й-стабильное 287
—	бистабильное 287, 289
—	«♦-стабильное 360
—	«ф-стабильное 360
Мост «-стабильный 50, 52
— — максимальный 65
Мост «-стабильный 51, 54
-	* — максимальный 68
Область достижимости 132, 163
Поглощение программное 120, 139
Позиция игры 32
—	обобщенная 410
Правило максимина 144, 308
Принцип максимума Л. С. Понтрягина 141
-	* минимума 141, 308
Программа 126
—	верхняя 218, 219
—	максимизирующая 136
•	* элементарная 126, 305, 374
“ — минимальная 306
Регулярная вполне ситуация 172, 173 — ситуация 149, 310, 311, 374
Седловая точка 45
— маленькой игры 56
Стратегия непрерывная 238
—	оптимальная максиминная 45
—	— минимаксная 45
—	смешанная 284
—	чистая позиционная 32
— экстремальная 57, 58, 431, 432
—	•* смешанная 287
Управление программное 125, 305
-* ** максиминное 136, 307
— — минимизирующее 135, 806
— с поводырем 248—254
—	—• — минимаксное 368
—	— *- стохастическое 329
Цена игры 45
Экстремальное прицеливание 155, 157