/
Текст
Η. Η. КРАСОВСКИЙ
УПРАВЛЕНИЕ
ДИНАМИЧЕСКОЙ
СИСТЕМОЙ
ЗАДАЧА О МИНИМУМЕ
ГАРАНТИРОВАННОГО
РЕЗУЛЬТАТА
МОСКВА «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕР АТУ Е*Ы
1 985
22.18
К 78
УДК 519.6
Красовский Η. Η. Управление динамической системой. Задача о
минимуме гарантированного результата.— М.: Наука. Главная редакция
физико-математической литературы, 1985.—520 с.
Рассматривается управление динамической системой, которая
описывается дифференциальными уравнениями. Особенность задачи — в неполноте
информации о помехе, действующей на управляемый объект. Такая
ситуация возникает в технике, физике, экономике и т. д. Приводятся методы
построения алгоритмов управления и реализации их на ЭВМ, включаемой в
цепь управления. Разбирается много модельных примеров. Книга написана
на основе математического аппарата, не выходящего за рамки инженерного
образования.
Для инженеров, студентов и аспирантов, а также для специалистов по
прикладной математике.
Ил. 98. Библиогр. 129 наим.
Рецензент академик Ε. Φ. Мищенко
tj. 1702070000—106 /©Издательство «Наука»,
к аго/аоч о£—18-85 ^Главная редакция
Uoo(U^)—оо физико-математической
литературы, 1985
ОГЛАВЛЕНИЕ
Введение 5
Глава I. ПОСТАНОВКА ЗАДАЧИ 7
§ 1. Модельный пример 7
§ 2. Измеримые реализации воздействий 18
§ 3. Экстремумы функций 30
§ 4. Уравнения движения 37
§ 5. Непрерывная схема управления 44
§ 6. Дискредитирующий пример 5о
§ 7. Постановка задачи· 67
Г л а в а II. ДИФФЕРЕНЦИАЛЬНАЯ ИГРА 75
§ 8. Дифференциальная игра 75
§ 9. Пример дифференциальной игры 84
§ 10. Второй пример дифференциальной игры 90
§ 11. Оценка предложенной формализации 94
§ 12*. Неулучшаемость результата, названного оптимальным . 102
§ 13*. Обобщенные движение, помеха и управление . . . . НО
§ 14*. Пример реализаций обобщенного процесса 120
§ 15. Гладкая оценка гарантированного результата . . . . 132
§ 16. Необходимость условия дифференциального минимакса . 141
§ 17. Пример гладкой цены игры 146
§ 18. Об условиях гладкой цены игры 151
§ 19. Второй пример гладкой цены игры 156
§ 20*. Пример в пользу параметра точности 166
§ 21*. Движение в контингенциях 178
§ 22*. Пример, оценивающий движения в контингенциях . . . 186
§ 23*. Сравнение обобщенных процессов 190
Глава III. СЕДЛОВАЯ ТОЧКА 197
§ 24. Движения модели 197
§ 25. Близость движений объекта и модели 200
§ 26. Оценка оптимального результата 207
§ 27. Оценка оптимального контррезультата 216
§ 28. <?-процедура 223
§ 29. Седловая точка и цена игры 228
§ 30. Устойчивость оптимального управления 235
§ 31*. Доказательство устойчивости оптимального управления . 238
§ 32*. Оптимальные стратегии в случае измеримых правых час-
стей уравнений движения 250
§ 33. Обобщенный канонический случай 256
§ 34. Квазиканонический случай. Линейный объект .... 268
§ 35. Модернизированная стратегия 275
1*
3
Г л а в а IV. ПРОГРАММНЫЙ СИНТЕЗ, ЧАСТНЫЙ СЛУЧАЙ . . .
§ 36. Частный случай дифференциальной игры
§ 37. Стохастическая модель. Частный случай
§ 38. Программный максимин
§ 39. Стохастическая программная конструкция
§ 40. Свойства программной конструкции
§ 41. Эволюция программного максимина
§ 42. Стабильность стохастического программного максимина
§ 43. Программный максимин как мажоранта для цены игры
§ 44. Программный максимин как миноранта для цены игры
§ 45. Стохастический программный максимин — цена игры
§ 46. Пример
§ 47*. Стохастический программный максимин и попятная
конструкция
§ 48. Детерминированный программный максимин .
§ 49. Пример
§ 50. Правило максимина
§ 51. Пример
Глава V. ПРОГРАММНЫЙ СИНТЕЗ
§ 52. Стохастическая модель
§ 53. Программный максимин
§ 54. Программный экстремум
§ 55. Эволюция программного экстремума
§ 56. Стохастический программный максимин как цена игры
§ 57. Квазиканонический случай. Цена игры
§ 58. Квазиканонический случай. Стратегии
§ 59. Двушаговое формирование помехи
§ 60. Пример
§ 61. Пример стабилизированного управления
§ 62. Детерминированный программный синтез
§ 63. Пример
§ 64. Пример
§ 65*. Модель на броуновском процессе
§ 66. Нестандартный показатель качества
§ 67. Пример
§ 68*. Управление при неполной фазовой информации
§ 69*. Программный экстремум в случае неполной фазовой
информации
§ 70*. Пример
Список справочной литературы
Список специальной литературы
Предметный указатель
ВВЕДЕНИЕ
Среди задач, решение которых использует математику,
большое место занимают проблемы управления. Их насущность и
возможности науки обусловили математическую теорию
управления. Она строит абстрактные модели управляемых процессов,
исследует эти модели и способствует управлению на практике,
особенно — с использованием ЭВМ.
Обычная схема управляемой системы такова. Имеется объект
F, состояние которого в каждый момент времени t описывается
фазовой переменной х. Объект подвержен управляющему
воздействию и (короче — управлению и). Оно вырабатывается в органе
управления U. На объект также действует помеха ν от внешней
среды V. Сведения о состоянии системы доставляются в орган
управления информационной переменной у. Математический
характер переменных #, и, ν и у определяется природой системы.
Например, при управлении самолетом буква χ может
обозначать набор координат и скоростей всех его существенных
слагаемых, и — набор переменных, которые характеризуют силу тяги и
положение рулей, ν — воздействие на самолет потоков воздуха,
у — показания приборов.
Термин «управление» и данная схема носят весьма общий
характер. Почти всякий реальный процесс можно трактовать как
управляемый. Например, вычисления на ЭВМ можно трактовать
как процесс управления этой ЭВМ при помощи программы. Игру
в шахматы со стороны того или иного игрока тоже можно
рассматривать как управление позицией χ на шахматной доске этим
игроком U. Второй игрок будет тогда внешней средой V. В
медицинском случае объектом F может стать человек. Буква χ
обозначит тогда набор объективных характеристик состояния организма.
Воздействием и может быть, например, доза йода. Помеху ν
составят прочие влияния на организм, не все из которых подвластны
врачу. Информационную переменную у составят данные
обследования больного и т. д.
Предлагаемая книга посвящена лишь узкому кругу задач из
теории управления. Рассматриваются системы, эволюция которых
описывается дифференциальными уравнениями. Предполагается,
что знания о внешней среде V являются неполными. Вследствие
недостатка информации о будущей помехе нельзя предсказать
однозначно реакцию системы на управляющее воздействие.
Поэтому поставим и будем решать задачу о таком способе управления,
который гарантирует желаемый результат даже при самом
неблагоприятном влиянии внешней среды. Эти задачи включаются
в круг дифференциальных игр.
Будем изучать процессы, не выходящие за пределы заданного
отрезка времени U < t ^ θ. Примем, что назначен показатель γ
для качества процесса. Пусть процесс рассматривается, начиная
от момента времени f* e [ί0, θ]. Тогда показателем γ будет
некоторый функционал, вычисляемый на реализациях движения
xit], управления u[i\ и помехи v[t] на отрезке времени £# ^ t ^ θ.
Требуется управлять так, чтобы показатель γ оказался по
возможности меньшим. Речь идет о гарантированном результате.
Поэтому получается задача о таком оптимальном способе
управления, который среди прочих допустимых способов дает
наименьшее значение р° именно для гарантированного результата
р. Гарантированным результатом ρ при фиксированном способе
управления мы называем верхнюю грань значений γ, которые
могут получиться при этом способе. (Разумеется, задача приобретает
четкий смысл лишь при условии строгого определения понятия
допустимого способа управления. В данной книге это
определение формализует практические способы регулирования по
принципу обратной связи на основе текущей информации о
реализующихся значениях переменной y[t\ = x[tl.)
Например, в случае задачи о посадке самолета показателем γ
может быть отклонение координат самолета и его скорости от
некоторых идеальных значений. Можно пожелать найти способ
управления, при котором гарантированная оценка р° этих
отклонений будет наименьшей среди оценок р, гарантируемых каждым
из других способов управления, которые имеет смысл обсуждать.
В предлагаемой читателю книге автор стремился не
слишком сложно и в меру строго сформулировать задачу,
установить существование ее решения, изучить его свойства и указать^
осуществимый на деле метод формирования оптимального управ- Ζ
ления. Для определенности рассматривается задача о минимуме
гарантированного результата для одного, но типичного класса
функционалов γ. Теория иллюстрируется модельными примерами.
Они доводятся до обозримой качественной картины и
вычислительных процедур. Материал книги базируется на исследованиях
[44—100]. Идеология книги обусловлена взглядом на предмет,
которого придерживается автор. Параграфы, отмеченные
звездочкой, углубляют и дополняют основной материал. Их можно
опустить, не нарушив понимания главного текста.
Автор благодарит за помощь товарищей по работе, особенно
А. Ф. Клейменова, В. Е. Третьякова, Г. И. Шишкина, Р. А. Яко-
венко.
Глава I
ПОСТАНОВКА ЗАДАЧИ
А
■ >
Ι ι к^-
(j 1 'Г·
#1
Рис. 1.1.
δ q
§ 1. Модельный пример
Начнем с модельной задачи. Требуется перевезти груз из
точки А в точку В на оси q (см. рис. 1.1).
Пусть q[t\ — координата груза в момент времени t Например,
можно полагать, что груз закреплен на тележке и q[t\ есть
координата его центра тяжести. а
Движение начинается в
момент t% из состояния q[t%] =
«= Ча-> Q U*] = 0. За перевоз
заказчик готов заплатить С
денег, если будет
выполнено следующее условие. В
назначенный момент Φ
должно быть q[$] ^дв, $Ш —0. (Точки над буквами означают
дифференцирование по времени.) Числа £#, Φ, qA и qB заданы. Если
условие в момент Φ не будет выполнено, то из вознаграждения С
вычитается штраф D. Он определяется отклонением величин qM
и дГФ] от требуемых значений. Примем, что штраф вычисляется
по формуле
D = [е^Ш - qB)2 + е2($Ш )Ψ/2 (1.1)
с известными коэффициентами et > 0 и е2 > 0.
Располагая моторной тележкой, мы намерены взять подряд на
эту работу. Тележка будет перемещаться под действием тяги и
мотора и силы р, создаваемой ветром. Полагая, что суммарная
масса тележки и груза есть т, запишем уравнение движения в
форме второго закона Ньютона
mij — u + v. (1.2)
Относительно ветра допустим, что в каждый момент времени
величина ν может принимать любое значение. Возможные
реализации помехи ν ограничены лишь условием, что функция vitl
(£# ^ £< О) должна быть кусочно-непрерывной. Примем, что тяге
и тоже можно придавать в каждый момент времени любое
значение. Стесним себя только условием, что формируемая нами
реализация управления uiti (£#<!£< Φ) тоже должна быть функцией
кусочно-непрерывной.
Обратим внимание на следующее обстоятельство. Когда мы
говорим о формировании реализации управления ulil (£#^*<*)>
это не означает, что воздействия ult) назначаются в момент ί*
7
априори по программе, как определенная функция времени для
всех будущих моментов t. Значения u[il могут назначаться по
ходу дела в зависимости от информации о текущих состояниях
движущегося объекта. Однако по завершении процесса в момент θ,
оглядываясь назад, мы увидим реализовавшиеся воздействия как
известную теперь функцию времени ί — реализацию управления
u[i\ (**<*< θ).
Примем, что денежный баланс подрядчика определяется
следующими обстоятельствами. Если мотор вырабатывает тягу и[й
(f* ^ί <θ), то затрачивается энергия, стоимость которой Ε
вычисляется по формуле
о
£ = .f <f>(t)u*[t]dt. (1.3)
и
(Не будем обосновывать эту формулу физическими
предпосылками. Примем ее как данную. Отметим только, например, что
величина u2[t] может характеризовать мощность, затрачиваемую
на создание тяги u[t]. Тогда функция φ(ί)>0 будет
характеризовать стоимость единицы мощности в момент времени t. Если
cp(t) не есть постоянная, то это означает, что цена мощности
меняется со временем.) Предположим еще, что тележка снабжена
ветровым генератором. Если объект подвергается воздействию
vlil (i*<^<0), то генератор вырабатывает энергию, стоимость
которой Η вычисляется по формуле
о
Η = J Ψ (t) v2 [t] dt, ψ (t) > 0, (1.4)
и
подобной (1.3).
Таким образом, если при ί* ^ί< ft, будут реализованы тяга
u[tl, помеха v[t] и в согласии с уравнением (1.2) осуществится-*
движение д[Я, то вознаграждение / подрядчика определяется
равенством
I = C-D-E + H. (1.5)
Нам будет обеспечен доход со знаком плюс, если в нашем
распоряжении найдется такой способ формирования тяги uli] в
течение времени i* <I t< θ, который для величины / (1.5)
гарантирует неравенство / > 0, каким бы ни оказался ветер.
Сумма
4=D + E-H (1.6)
характеризует процесс управления. Назовем величину γ
показателем качества этого процесса. Согласно (1.5) и (1.6) имеем
/ = £-γ. (1.7)
Подрядчик заинтересован в таком способе управления, при
котором значения γ оказались бы возможно меньшими.
Предположим, что мы в состоянии управлять следующим
образом. Можно выбрать любую числовую функцию u(t, g, q) от трех
8
аргументов и любое разбиение A{fJ отрезка ί*^ί^θ точками U,
где г = 1, ..., Л + 1, к— какое-либо натуральное число, tx = t*,
tk+i — ft, ti+i>ti. Выбранная пара {u(t, g, g), Δ{£*}} составит закон
управления °U. Запишем это символически:
^ = {w(f,g,g), Mb)}. (1.8)
Закон °ίί (1.8) проявляется так. Пусть по ходу дела наступил
момент времени t =» £*. Принимаем, что немедленно становятся
известными значения g[f<] и g[fj, что можно мгновенно вычислить
величину
иШ=и{и, qitil.qiU]) (1.9)
и создать тягу
иЫ = ulUh U<t< ti+i. (1.10)
Если объект F наблюдается и управляется с использованием
быстродействующих устройств, в том числе ЭВМ, то такая
формализация представляется допустимой. Предполагаем, что в
течение времени U < t < ti+i параллельно действует какая-то помеха
vltl. Она формируется обстоятельствами, нам не подвластными.
Напомним, что реализация vltl (£t<£<£i+1) может оказаться
любой кусочно-непрерывной функцией.
Пусть указанная процедура осуществляется по шагам U < t <
< ti+l, начиная от момента ίχ = £* и вплоть до момента tk+i = '&.
По условиям задачи
qltj^q^ gUJ^O. (1.11)
Следующие значения qltA и g[fj получаются рекуррентно в
соответствии с уравнением движения (1.2), т. е. в соответствии с
пошаговым уравнением
mqlt] = u(ti9 g[ij, qlt{\) + vit], *, < t < ti+l, i — 1,..., к. (1.12)
После осуществления всего процесса получится некоторая
реализация помехи ivitl, t* <; t < /θ} = {ν [£], ϊ, < t <ti+l, i = 1,..., к)
на всем полуинтервале [£*, θ). Она составится из реализаций vltl
(£»<£< £i+1). Выбранный закон управления °U (1.8) и
случившаяся реализация помехи vltl (t* <| t < Φ) при данном начальном
условии (1.11) определяют единственное движение q[t] (ί* <|f ^Ф)·
Можно сказать, что это движение qlil и соответствующая
реализация управления {ulil, t*^t<.ft} = {u[t] = ufc, gfij, gfij),
ti^t<ti+u 1 = 1, ..., к) порождены законом °U и реализацией
помехи {v[t], £* < t < О}.
Условимся о таком обозначении. Пусть речь пойдет о
некоторой функции, рассматриваемой на определенном множестве
значений аргумента. Пусть при этом имеется в виду функция в целом
как единый образ, а не отдельное ее значение для того или иного
значения аргумента. Тогда, обозначая эту функцию, будем
заменять буквенное обозначение аргумента точкой. Например, если
будет ясно из текста, что речь идет о функции u(t, g, g),
определенной при ί* ^ t < θ, —оо < q < оо9 —.оо < q < οο? то используем
символ и(-). Он заменит подробную запись {u(t, g, g), ί*^ί<0,
—oo <g<oo, —<x><q<oo}. Если при этом в том или ином кон-
тексте будут возникать неясности (например, относительно
множества значений аргумента), то постараемся избегать их, вводя
в обозначения разъясняющие детали. Условимся, в частности, что
точка, заключенная в квадратные скобки, будет заменять
аргумент время. При этом функцию /[Й, определенную на отрезке
<г* <! t^τ*, полуинтервале τ^^ί<τ*, интервале т^<^<т*
или полуинтервале τ* < t <! T*f будем обозначать / [τ* [·] τ*],
f [τ* [ · ] τ*)> / (τ* [ · 1 τ*)> / (τ* [' ]τ*] соответственно. Например,
реализацию помехи ЫЙ, t*^t<Z$} будем обозначать символом
*[**[■]<>)·
Вернемся к оценке величины / (1.5). Слагаемые D (1.1), Ε
(1.3) и Η (1.4) показателя качества γ (1.6) определяются
выбранным законом управления °U~{u{-), Δ} (1.8) и реализацией
помехи ν[ί*[·]ϋ). В связи с этим введем обозначение
Υ(^, *[*·[·]<>))-
= [*ι (? № - Яв)2 + е2 (q [θ])2]1'2 + J [φ (t) и* [t] - ψ (*) ι;2 [t]] dt.
(1.13)
Выбор реализации ν[ϋ*[·]ϋ) нам не подчинен. Поэтому,
выбирая закон управления °U, можно только сказать, что значение γ,
которое случится, не превзойдет величину
р(^)= sup γ(^, ν [ί* [·]*)). (1.14)
Здесь верхняя грань ([28*], с. 17) вычисляется по всем воз-"* *
можным кусочно-непрерывным реализациям ν[t* [·]$)· (Из
осторожности рассматриваем верхнюю грань значений γ и пишем
символ sup γ, но не вводим максимум величины γ по аргументу
у[£* 1'Щ и не пишем символ max γ, так как нет уверенности, что
максимум достигается на какой-то допустимой реализации
v°[t* [·] Ό).) Назовем величину р(<2/) гарантированным
результатом для показателя γ (1.13) при выбранном законе управления °U.
Как видно из (1.14), величина р(<2/) обладает следующими двумя
свойствами.
(1) Какой бы ни оказалась кусочно-непрерывная реализация
помехи ν [£#[·]#)? значение γ(^, ν [t% [·]$)) будет удовлетворять
неравенству
Υ («* ИМ ·!*))< Ρ («О· (1-15)
(2) Какое бы число ξ > 0 ни выбрать, найдется
кусочно-непрерывная реализация помехи Ρζ[£#[·]Φ)« для которой справедливо
неравенство
10
Величину / (1.5) назовем доходом, который мы получаем при
выборе закона управления °U и при случившейся реализации
помехи i;[f*H*)· Из (1.7), (1.13)—(1.16) заключаем, что
справедливы следующие утверждения.
Для того чтобы при выбранном законе управления <и доход
/ был неотрицательным при любой допустимой реализации помехи
ν [t* [·]Φ), необходимо и достаточно, чтобы выполнялось
неравенство
рейхе. (1.17)
В самом деле, пусть для выбранного закона °и имеем /X)
при всякой допустимой реализации помехи ν [t* [·] θ). Тогда
нижняя грань ([28*], с. 25) для величины / удовлетворяет неравенству
inf />0. (1.18)
Но
inf /= inf (С-γ(2/, ИМ·]#)))==
*[*·[·]<» 1>[**1г№
= С- sup 7(^,ИМ-]Ф))-С —pW (119)
Из (1.18) и (1.19) следует (1.17), что и доказывает
необходимость этого условия. Для доказательства его достаточности
следует рассмотреть те же соотношения от (1.17), через (1.19) (в
обратную сторону), к (1.18).
Для того чтобы при выбранном законе управления Ш доход/
был положительным при любой допустимой реализации помехи
*>[**Н^)> достаточно выполнения неравенства
рШХС. (1.20)
Для доказательства этого утверждения надлежит подобно
предыдущему рассмотреть соотношения (1.20), (1.19) и прийти к
строгому неравенству в (1.18).
Итак, если нам нужна гарантия не понести убытка, то, берясь
за подряд, необходимо (и достаточно) располагать законом
управления Ш, для которого справедливо неравенство (1.17). Если же
мы найдем и применим такой закон управления °U, для которого
справедливо неравенство (1.20), то будет гарантирован
положительный доход /, не меньший чем С — р(Я1). Эту величину
Г(<2/) = С-р(<2/) (1.21)
можно назвать гарантированным результатом для величины I при
выбранном законе управления °U. Значение YiPU) будет тем
больше, чем меньше будет значение p{PU). Поэтому естественно
поставить задачу найти оптимальный закон управления
<2/° = ν(·),Δ°}, (1.22)
для которого величина p(°U) достигает минимума, т, е.
p(W = minp(m (1.23)
и
Итак, мы пришли к задаче об оптимальном по гарантии законе
управления °UQ (1.23). Предположим, что эта задача имеет
решение, т. е. искомый закон управления °№ существует. Если при
этом справедливо неравенство
р(<Ш<С, (1.24)
то, выбирая оптимальный закон управления °Ub, мы гарантируем
положительный доход /, не меньший чем Г02/°) — С — р(<2/°).
Никакой закон управления °и = {и(0, Δ} не может гарантировать, что
доход будет больше чем Г(<2/°) + ξ, какое бы малое число ξ > О
ни назначить. В самом деле, из (1.21) по определению величины
${°U) (1.14) и по смыслу закона управления 4/° вытекает, что при
выборе любого числа ξ >0 и любого закона управления °U (1.8)
найдется такая реализация помехи ι>ς[ί* [·]&), что будет,
справедлива цепочка неравенств
<С- sup γ(^,ι;[ί*[·]0)) + ζ-ί7-ρ(^) + ζ<
<£-ρ(2/°) + ζ = Γ(2/°) + ζ. (1.25)
Если же вместо (1.24) справедливо противоположное строгое
неравенство
р(<2/°)>С, (1.26)
то никакой допустимый закон управления °U, не может
гарантировать нас от убытка. В самом деле, тогда выбором достаточно
малого числа ξ>0 можно сделать правую часть в (1.25)
отрицательной.
Предположим, однако, что справедливо равенство
9(<т=С. (1.27Г-
Если при этом существует кусочно-непрерывная реализация
помехи v° [t% [·]Φ), для которой справедливо равенство
ρ (Я/0)- sup γ№ι;[ί*Η0)) =
= max y(<U*,v[tm[-]b)) = y(<U0,vft[U[-]u)), (1-28)
то оптимальный закон °U* не может гарантировать доход />0.
Действительно, при выборе закона управления °U* может
случиться как раз реализация v°[t%[*}$) (1.28). Тогда согласно
(1.27) и (1.28) будет справедливо равенство
/ β С — у {%ί\ ν° [ί* [ · ] О)) - С — ρ (2/°) - 0.
Если же при выполнении условия (1.27) не существует
допустимой помехи ι>° [**[·]$), для которой справедливо равенство
(1.28), то оптимальный закон °UQ гарантирует доход />0 (хотя
гарантированный результат Г(<2/°) для дохода / по определению
величины T{°U) (1.21) будет равен нулю). В самом деле, какой бы
12
ни была допустимая реализация помехи v* [t% [·]θ), имеем
/-ί7-γ(«·,ι>·[*·Ν<>))>0,
так как теперь
y(<U\ v*[** [·]*))< sup v(^°^[i*[-]^)) = p(^°) = Cr.
В то же время равенство нулю гарантированного результата
Г(<2/°) проявляется следующим образом. Какое бы сколь угодно
малое число ζ > 0 ни выбрать^ оптимальный закон управления °U*
не гарантирует неравенства / > ξ, ибо найдется реализация
помехи Р|[** [·]Φ)> для которой будут справедливы соотношения
/-С-Т(«°^1»»И*КС- sup γ(^,ι>[Μ.]*)) + ζ-
- с- pCW") + ζ = г(^°) + ζ = ς.
Таким образом, мы обсудили случай, когда оптимальный по
гарантии закон управления °11* существует. Предположим теперь,
что мы не можем утверждать существование такого оптимального
закона управления <U°. Тогда можно только рассмотреть величину
p° = infp(<2/), (1.29)
где нижняя грань вычисляется по всем допустимым законам
управления °и. (Разумеется, в случае существования оптимального
закона управления Ш* справедливо равенство р° = р(<2/0).)
Величина р°, как это прямо следует из (1.14) и (1.29), обладает
следующими двумя свойствами.
(1°) Какое бы число ξ>0 ни выбрать, найдется такой
допустимый закон управления <2/ζ, для которого при всякой
допустимой реализации помехи ν [t% [ · ] О) будет справедливо неравенство
у(Щ, Η**Νθ))<Ρ° + ζ. (1.30)
(2е) Какие бы допустимый закон управления <U и число ζ >0
ни выбрать, найдется реализация помехи νζ[ί% [·]0), для которой
справедливо неравенство
Υ(^»ς[*·[·]θ))>ρ·-ε. (1.31)
Отсюда вытекают такие заключения. Если р°>С, то мы не
можем выбрать допустимый закон управления °U, который
гарантировал бы доход / = С — γ > 0. Если р° < С, то при всяком выборе
числа ξ е (0, С — р°) можно указать допустимый закон управления
°и%, который гарантирует доход I — C — γ > С — р° — ξ > 0. Пусть,
однако, р0 = С Случай, когда при этом существует оптимальный
закон управления ^2/°, рассмотрен выше. Поэтому обсудим лишь
случай, когда р° = С и не существует оптимального закона
управления °U* (1.23). Тогда не существует допустимого закона
управления <U, который гарантировал бы неравенство / X). В самом
деле, предположим, от противного, что такой закон управления
41* существует. По условию (1.29) имеем рШ*)>р°. В то же
время р(<2/*) Φ ρ°, так как иначе закон °U* был бы оптимальным,
а такого закона не существует. Итак, р(<2/*) > р°. Пусть ζ е
13
€ξ (Ο, ρ(<2/*) — ρ°). Тогда согласно (1.16) найдется реализация
помехи ν ζ [t% [·]&), для которой справедливо неравенство
γ(^*,ι;ς[ί·[·]θ))>ρ(^*)-ζ,
т. е. справедливы соотношения
I-C-y{W,vt[tm[.}ty<C-p(<U*)+l<C-P**-0.
Это и доказывает, что никакой закон управления °U* не может
гарантировать неравенства 1>0.
Итак, мы рассмотрели модельную задачу об управлении,
которая приводится к задаче об оптимальном гарантированном
результате р° (1.29).
Обратим внимание на следующее обстоятельство. Допустимый
закон управления °U определяется двумя компонентами —
функцией u(t, q, q) и разбиением АШ. Меняя только разбиение АШ,
уже будем изменять закон управления °U (если придерживаться
его определения, данного в этом параграфе). С таким изменением
Щ может изменяться и гарантированный результат p{°U).
Естественно предполагать, что результат р(<2/) окажется тем лучше,
чем мельче будет разбиение АШ. Поэтому разумно рассмотреть
эффект, связанный с предельным переходом, обусловленным
стремлением максимального шага
δ= max (ti+1 — ti) (1.32)
разбиения АШ к нулю (при сохранении неизменной функции
и(-) или вместе с изменением этой функции). Ниже при
построении общей теории выяснится, что отмеченное обстоятельство
играет существенную роль. Заметим также, что возможно введение
и таких допустимых законов управления, при которых разбиение
АШ не выбирается априори, а каждый следующий момент ti+l ·<
выбирается по ходу дела на основании того или иного правила в
связи с текущей информацией о процессе.
Цель обсуждения предложенной модельной задачи состояла
в том, чтобы дать наглядный образ математической задачи,
изучение которой составляет основное содержание книги.
Решение этой модельной задачи будет дано в гл. V (в § 60), после
того как будет изложена подходящая теория.
В заключение параграфа приведем для примера разультаты
численного эксперимента на ЭВМ для оценки одного класса
допустимых законов управления °и в приложении к рассмотренной
модельной задаче. В отличие от данной выше общей постановки
задачи, в этом частном эксперименте выбран весьма узкий класс
функций u(t, g, q). Именно, перебирались только функции вида
и (t, g, q ) = а0 + axt + a2q + aBq +
1 1 1
+ -γ (αη + a2i) tq + γ (a19 + a3i) tq +-γ (a2s + a32) qq +
+ ant2 + a22q2 + a33g2, (1.33>
4
где ak и ai$ (α# — %) суть искомые постоянные коэффициенты.
Разбиение АШ данного отрезка t% <I t <; О было зафиксировано и
оставалось во всех вычислениях одним и тем же. Возможные
реализации помехи ν [t% [ · ] ϋ) также выбирались из узкого класса
функций вида
+ bs sin 3 (;~ у π + К sin 4 <;- у π, «.<*<♦, (1-34)
где постоянным Ьв придаются те или иные значения.
Таким образом, каждый закон управления °U определяется
некоторым конкретным набором, состоящим из вектора {ak}
(й = 0, 1, 2, 3) и симметрической матрицы {α{ί} (ί,/==1, 2, 3).
Было выбрано некоторое (конечное) множество «5$ таких наборов.
Каждая реализация помехи ν [t% [ · ] θ) определяется некоторым
конкретным вектором {&,} (5 = 0, 1, 2, 3, 4). Было выбрано
некоторое (конечное) множество & таких векторов. Гарантированный
результат р(Ф/), отвечающий закону °^{аи,а^у понятным образом
определялся экспериментально. Для выбранного закона °^{ап,а^)
и для каждой возможной реализации помехи ν [t% [ · ] 0){bs}
прямым интегрированием на ЭВМ вычислялись движение q [ί# [ · ] Щ
и показатель γ = γ({αΑ, «„·}, iba}). Тогда определялась величина
ρ(^{α,,α,,))= max γ({αλ9θϋ}9{&,}), (1.35)
где максимум находился прямым переборным вычислением.
Наконец, оптимальный закон управления °И\ 0 о ι определял-
ся также прямыми переборными вычислениями из условия
ρ т. 0 0 Λ = min ртам)). (1·36)
(1.37)
Были выбраны значения параметров
m = l, дА = —1, gB = 0, ех = 1, е2 = 1,
** = 0, 0 = 3, ti+1 - ί4 = 0,05
u функции
φ(ί) = * + 0,01, ψ(ί) = 1, 0^ί<3. (1.38)
В качестве множеств s4> и Jf были выбраны совокупность
наборов {aft} и {ау} и совокупность векторов {&Л, в которых каждое
из чисел aft, α„, Ьв независимо от других равно либо +1, либо —1.
Например, для законов управления °^{ак,а{^ с коэффициентами
{a0, alf a2, a8} = {— 1, — 1,1, — 1}» tA QQ4
(1.3У)
1 — 1 — 1>
«21 «22 «23 | = ( - 1 - 1 ~ 1
,— 1 —1 —1;
15
К' fflH «2, «8> = {— 1, — 1, — 1, 1},
/βιιβ««ι.\ / 1 1-1\ {140)
α21 α22 βί3 - 1 - 1 - 1
\a8Xa8iW V-1-1-1/
получились такие максимальные значения: γ = —3,2896 и γ =
= 4,3951 и максимизирующие реализации помехи
{*>„, Ъи Ьг, Ъ„ Ь4> = <1, 1, 1, 1, 1>,
{&., Ь„ &*, δ„ Ь4} = {1, 1, 1,-1, О
соответственно.
В пределах данного узкого класса законов управления °М{ак>а^)
оптимальным по гарантии относительно данного узкого класса
реализации помехи ι> [£#[·] θ) оказался закон (U0 = CU, 0 01е
{ala\,4,al]= {-1,1,1,-1},
ΛΪι«?2 4Λ /ι ΐ-ΐ\
«Γι1** - 1-1-1
Uii/ V—1 —1 —1У
4 31 82 "88'
с гарантированным результатом р(^2/°) = ρ J = — 3,9448.
Максимизирующей оказалась реализация помехи ν [t* [ · ] ϋ·)
{ЬЪЬЪЫЬЪЫ}={1ЛААА}.
Отметим, что при тех же значениях параметров (1.37), (1.38)
оптимальным гарантированным результатом в классе всех
возможных законов управления <2/ = (и(·), Δ} относительно класса всех
возможных кусочно-непрерывных реализаций помехи ν[ί%[·]ϋ) *
оказывается ρθ = 0,5013. Однако это значение определяется уже
не экспериментально переборными вычислениями на ЭВМ.
Данное значение определено на основании общей теории, развитой в
книге. Его вычисление снова не обошлось без использования ЭВМ,
но оно уже не носит характера прямого перебора законов
управления °U и реализаций помехи ν [£# [·] θ). На рис. 1.2 для примера
приведены графики движения q [t] (t% ^ t ^ θ) и реализации
w [**Н Φ), порожденных оптимальным законом ^, 0 0\ и мак-
\ak*aW
симизирующей помехой iv[t\t <η, ί* <Ξ £ < ФЪ На рис. 1.3 и 1.4
приведены графики движений {q[t], t^^t^.®} и реализаций
^[ί*[·]^)» порожденных законом °U*, который обеспечивает
гарантированный результат, близкий к оптимальному р°. При этом
на рис. 1.3 даны движение и управление, порожденные помехой
ρ [**[·]*)> которая дает значение γ, близкое к р°. На рис. 1.4
даны движение и управление, порожденные помехой υ [t], 0,.
lbs f
Теоретический оптимальный гарантированный результат р° =
= 0,5013 сравнивать с экспериментально найденной величиной
16
ί
о
Η. Η. Красовский
ρ* =—3,9448 в данном случае вряд ли целесообразно, так как
в вычислительном эксперименте, который носит искусственный,
чисто иллюстративный характер, существенно сужены и
множество допустимых законов управления °U, и множество допустимых
реализаций помехи v[t* [·]0).
Однако интересно заметить, что закон управления <?/*, работа
которого отражена на рис. 1.3, 1.4, лучше противостоит
максимизирующей помехе М*]|ьор **<*<% чем закон ^ίοαοι·
Именно, закон управления °U* в паре с этой максимизирующей
помехой дает результат γ = — 5,9762 < р° = — 3,9448.
§ 2. Измеримые реализации воздействий
Эта книга посвящена задачам об управлении конечномерным
объектом. Текущее состояние такого объекта описывается га-мер-
ным фазовым вектором х. Управление будет r-мерным вектором щ
помеха — 5-мерным вектором ь\ Величины п, г и s могут быть
18
любыми натуральными числами. В примере из § 1 переменная χ
была двумерным фазовым вектором χ — {хи х2) = {g, #},
управление и и помеха ν были скалярами, т. е. в этом примере η = 2,
г = 5=:1. Будем полагать, что во всякой формуле, где участвует
запись того или иного вектора одной буквой, эта буква
представляет вектор-столбец. Это не исключает того, что иногда ради
экономии места будем выписывать координаты вектора друг за
другом в строчку, например, как выше, χ = {хи x2). Вектор, все
координаты которого нули, будем называть равным нулю и
обозначать его просто нулем. Переменные #, и и ν связаны
дифференциальным уравнением движения, которое отражает динамику
объекта. (В примере из § 1 такое уравнение (1.2) было
определено вторым законом Ньютона.) Прежде чем перейти к обсуждению
дифференциальных уравнений^ которые встретятся в этой книге,
удобно обсудить классы допустимых реализаций управления иШ,
помехи vlt] и движения xit]. Если исходить из свойств реальных
управляемых систем, то представляется естественным выбрать в
качестве допустимых кусочно-непрерывные реализации
управления и помехи и непрерывные, кусочно-дифференцируемые
реализации движения. На этой основе можно было бы построить
теорию, адекватную той, которая предлагается в книге. Однако
теория приобретает более компактную форму, если расширить класс
допустимых реализаций u[t] и v[t] до функций измеримых,
а класс допустимых реализаций x[t]—до функций абсолютно
непрерывных. Такие функции и выберем за основу. Краткой
характеристике их посвящен этот параграф.
Отметим, что в конкретных вычислениях не встретятся
функции, более сложные, чем кусочно-непрерывные и
кусочно-дифференцируемые. Интегралы от таких функций оказываются
обычными интегралами Римана, известными из стандартного курса
математического анализа. Они вычисляются известными из этого
курса способами. Также известным образом вычисляются и
производные для тех конкретных функций, которые встретятся ниже.
Более общая природа измеримых и абсолютно непрерывных
функций полезна главным образом при обосновании теоретических
положений. Поэтому читатель, который не знаком с усложненным
математическим аппаратом и не хочет овладеть им хотя бы в
объеме этого параграфа, может избрать такой путь: следить в общих
чертах за доказательствами, доверяясь сообщаемым теоретическим
фактам, а при обращении к задачам и их решениям оставаться в
круге привычных образов кусочно-непрерывных и
кусочно-дифференцируемых функций. Во всяком случае при обращении к
понятиям, выходящим за рамки стандартного курса высшей
математики, автор старался пояснить эти понятия и дать ссылки на
соответствующую учебную литературу. В частности, следующий нижа
материал этого параграфа покрывается материалом, который
дается в [9*, 12*, 17*].
Итак, в качестве допустимых реализаций управления и помехи
будем рассматривать функции от времени t (скалярные функции
2* 19»
или вектор-функции), измеримые по Борелю. При обсуждении той
или иной задачи каждый рассматриваемый отрезок времени t* ^
<! t ^ ί* (полуинтервал t% <! t < t* или t% < t <; t* или
интервал £·!·<; t <c t*) будет содержаться в основном отрезке U ^ t ^ θ,
который будет неизменным в течение всей работы с этой задачей.
И скалярные, и вектор-функции будем называть просто функциями
там, где это не будет грозить недоразумением. Следуя соглашению
из § 1, при записи функции от переменной, обозначающей время,
будем заключать аргумент в квадратные скобки. Для обозначения
времени будем использовать помимо t и другие буквы, чаще
других — букву τ. Таким образом, будем писать, например, ult] или
ulx]. Когда функция времени будет трактоваться как цельный
образ, тогда в согласии с условием из § 1 соответствующая буква
будет замещаться точкой в квадратных скобках.
Будем говорить, что функция /(**[·]**), f[t# [·]**], f(t*[-]t*],
/[£*[·]**)> кусочно-непрерывна, если область ее определения
представляется как объединение конечного числа составляющих
(отрезков, интервалов, полуинтервалов), на каждом из которых
функция непрерывна. Если не будет оговорки, будем
предполагать, что рассматриваемая функция непрерывна справа всюду в
ее области определения. Скажем, что функция f[t* [·] £*] кусочно-
дифференцируема, если она непрерывна на отрезке [£#, £*] и если
этот отрезок [£#, t*] складывается из конечного количества
отрезков tj < t <: tj+i так, что при всяком значении t из каждого
интервала t}<t<t}+i эта функция имеет производную flu. При этом
под производной fit] вектор-функции fit] будем понимать, как
обычно, вектор-функцию, компоненты которой суть производные
ft[t] от компонент f{[t] функции /[£].
Измеримость по Борелю определяется следующим образом.
Вектор-функция измерима на том или ином множестве
аргументов, если измерима каждая ее скалярная компонента на том же*
множестве. В свою очередь скалярная измеримая функция в
нашем случае может быть определена следующим образом. Сначала
для множества всех значений £, составляющих основной отрезок
ί0 < t < Φ, выделяется некоторая совокупность & его подмножеств
Г, называемая борелевской σ-алгеброй. Вообще, в-алгеброй SF
для данного множества t0 < t <: О называется всякая такая
совокупность подмножеств Гс:[£0, #], которая удовлетворяет
следующим условиям. Весь отрезок [£<>, <Н является элементом
совокупности У. Если некоторое подмножество Τ из [£<>, θ] является
элементом совокупности вГ, то и дополнение JP — [£0,ϋ]\Τ этого
подмножества Τ до всего отрезка [£<>, Ф] также является элементом
совокупности &*. Если для некоторой последовательности
подмножеств TiCzlt0,ft] U = l, 2, ...) каждое подмножество Ζ\· является
оо
элементом совокупности ^", то и объединение Τ = (J Г* этих
подмножеств является элементом совокупности У. Подчеркнем,
что σ-алгебра У для отрезка [£0, #1 — совокупность, элементами
которой являются множества Гс [£0, ΦΙ, τ. е. каждый элемент
20
fej является в свою очередь множеством точек ί^[ί0, Ό-J.
Самая скудная σ-алгебра ST для отрезка [ί0, Ф], которую только
можно сконструировать, состоит из двух элементов: из всего
отрезка [ίο,*] и из пустого множества, которое будем обозначать,
как обычно, символом 0. Обозначим эту σ-алгебру черезSF *.
Всякая другая σ-алгебра iF будет обязательно содержать в качестве
своих элементов и весь отрезок [ί0, Ф], и пустое множество 0 ==
— [ίο, Ф]\[£0, Ф1· Поэтому скажем, что #~# содержится во всякой
α-алгебре ST (для отрезка [ί0,θ]). Вообще, если всякий элемент Τ
некоторой σ-алгебры вГ{1) будет и элементом некоторой другой
σ-алгебры #~(2), то будем говорить, что первая σ-алгебра
содержится во второй (вторая σ-алгебра содержит первую). Самая
обильная σ-алгебра У для отрезка [ί0, Φ] (обозначим ее через ЗГ*)
будет совокупностью всех возможных подмножеств Γ<=[ί0, ΌΊ.
Всякая σ-алгебра Ф0 для отрезка ίί0, θ] содержится в #~*. Для
нашей цели σ-алгебра &~* слишком узка. Напротив, σ-алгебра Sr*
слишком широка. За основу для построения подходящей
σ-алгебры J? для отрезка [ί0, θ] удобно выбрать совокупность всех
возможных отрезков [α, β], которые содержатся в [ί0, θ]. Однако эта
совокупность, состоящая из всех отрезков [α, β] <=. [ί0, ϋ] и только
из этих множеств, очевидно, σ-алгеброй не является. Но можно
рассмотреть всевозможные σ-алгебры #~, содержащие среди своих
элементов все отрезки [α. β] с [ί0, φ]. Доказывается, что среди
них существует минимальная σ-алгебра, которая содержится во
всякой другой σ-алгебре ^", включающей в число своих элементов
Τ все отрезки [α, β] <= [ί0, <Я. Она и будет борелевской σ-алгеброй.
Обозначим ее через 3$, или — более точно — через ^rt0,oj·
Подмножества Гс[^ф], составляющие σ-алгебру ^, называют
множествами, измеримыми по Борелю. В книге используется именно
измеримость (множеств и функций) по Борелю. Поэтому
уточняющие слова «по Борелю» будем опускать. Известно ([9*], с. 153),
что σ-алгебра ^[*оэ$] содержит все замкнутые множества Та
<= [ίο,θ]. Поэтому ее можно также определить как минимальную
σ-алгебру для отрезка [ί0, θ], которая содержит в числе своих
элементов все замкнутые множества Γ<=[ί0, Ь\. Пусть теперь нам
задана некоторая скалярная функция φ[ί#[·]ί*)={φ[ί], ί*^ί<ί*}·
Для определенности рассмотрим здесь случай, когда функция
cp[i] определена на полуинтервале [ί#, ί*) cz [ί0, Ь]. Такой случай
для измеримых реализаций управления и помехи будет
встречаться чаще всего. Аналогичным образом можно рассмотреть и
функции <р[Д, определенные на отрезке [ί*, ί*], интервале^, ί*)π т.д.
Кроме того, следует иметь в виду, что изменение области
определения функции φ[ί] добавлением или исключением одного или
нескольких (в конечном количестве) значений аргумента ί, как
правило, вообще не сказывается на сути дела, когда речь идет
об обстоятельствах, связанных со свойством измеримости функции.
Возьмем любое действительное число с. Составим множество Те
всех тех значений ie[i#, ί*), для которых выполнено неравенство
φ[ί] < с. Для описания множеств тех или иных объектов будем
21
использовать следующую запись. В квадратных или фигурных
скобках сначала запишем обозначение объекта, затем после
двоеточия запишем условие, которому удовлетворяют те и только те
объекты, которые являются элементами описываемого множества.
Таким образом, Гс = [t: φΜ <с, ίΕ [t#, £*)]. Иногда запись
будем сокращать. Например, будем иногда опускать ту или иную
часть условия, ясную из текста. Так, при описании множества Те
можно опустить запись условия ie[^,i*). Заметим еще, что в
записях не будем придерживаться формальной логической
символики. Но иногда во избежание недоразумений будем
расшифровывать то или иное условие при помощи кванторов общности V
или существования 3 ([28*], с. 38). Итак, полагаем Гс = U: срЫ <
<с]. Функция φ[ί] называется измеримой, если при всяком с
множество Тс измеримо, т. е. Тс является элементом σ-алгебры
^[*о»°] ^в кРатК(>й записи Тс^$). Из свойств измеримых
множеств как элементов σ-алгебры $ вытекает, что для измеримой
функции φ [t% [·] £*) при всяком выборе чисел с* и с* множество
^ Ес*,с*) — № с* ^ Φ W <с*1 = Тс*\Тс* является тоже
измеримым. Можно доказать, что всякая кусочно-непрерывная функция
Φ [**[·]**) измерима (см. [12*], с. 283). Заметим, кстати, что
измеримость непрерывной функции φ [t* [ · ] ί*] вытекает сразу
из следующего факта. При всяком значении с множество
TM = [t: q>[f]>c, *<=[**, **]]
замкнуто. Согласно замечанию выше в этом параграфе замкнутое
множество Т1с} содержится в σ-алгебре ^[*0,&]> т. е. это
множество Тш измеримо. Но тогда будет измеримым и множество
Тс = It: φ [t] < с, ie [**, **]] - [**, ί*]\ J[c].
Однако согласно определению измеримости функции это и
означает, что рассматриваемая непрерывная функция φ [£*[·]**] "^
измерима.
Для измеримых функций φ [t* [ · ] £*)= {φ [τ], t*^ τ < έ*}
можно определить интеграл Лебега ([12*], с. 295):
t*
^[**,<*) = ίφ[τ]<Ζτ. (2.1)
и
Нас главным образом будут интересовать случаи, когда
интегрируются функции ограниченные, т. е. такие, для каждой из
которых найдется число Λί, удовлетворяющее неравенству
|φ[τ]|<Μ, ί*<τ<ί*. (2.2)
Для скаляра символ ΙφΙ будет обозначать модуль числа φ.
В случае вектора / символ |/| будет обозначать евклидову норму
этого вектора, т. е. величину
l/l «(£/?) · (2.3)
Здесь s — размерность вектора /.
22
Итак, пусть скалярная функция φ [t* [ · ] £*) измерима и
удовлетворяет условию (2.2). При построении интеграла (2.1) каждому
измеримому множеству Τ приписывается его мера (Лебега),
которая выражается неотрицательным числом μ(Γ). Эта мера μ(Τ)
для всякого отрезка Γ = [α, β] (интервала (α, β), полуинтервала
[<χ, β) или (α, β]) равна его длине, т. е. μ([α, β]) = β — α. Мера
объединения конечного или счетного количества
непересекающихся измеримых множеств равна сумме мер объединяемых множеств.
В частности, для измеримой функции срЫ при с* > с%
справедливо равенство
μ (Г[е»,с·)) - μ (Тс·) - μ (УсJ. (2.4)
Интеграл (2.1) определяется как предел
г—т
•^[«*,<*)= Ит Σ ^(^Wi-H)), Ci=iM/m. (2.5)
m-+oo i=—m '
Этот предел обязательно существует ([12*], с. 293).
Пусть назначены числа t^ ltQ, ΰ,),τ*^ (ί^.,0] и дана
измеримая функция φ [t* [·]τ*)> которая удовлетворяет условию (2.2).
При неизменном значении £#, фиксируя различные значения
t^[t%, τ*], можно вычислить интеграл
t
-^ !*·.*)= f<PMdr (2.6)
i*
для любого полуинтервала [ί#, t) с: [ί*, τ*) в соответствии с
данным выше определением, где t* = t. Этот интеграл будет
некоторой функцией ψίί], £# ^ t ^ τ*. Полученная функция ψ [£# [·] τ*
оказывается абсолютно непрерывной на отрезке [ί#> τ*]. Именно,
функция ψ [£* [ · ] τ*] называется абсолютно непрерывной, если для
любого числа ε > 0 существует число δ > 0 такое, что для любой
системы непересекающихся интервалов (t(/\ $) a [t*, τ*] (/ =
= 1, .. ., к), удовлетворяющих условию
Σ\ίψ-№\<δ, (2.7)
будет справедливо неравенство
sitiiSPi-Y^ike. (2.8)
i=i
Абсолютная непрерывность функции
t
ψ Ш = J φ [τ] dr (2.9)
вытекает из следующих свойств интеграла (2.1) ([12*], с. 344).
23
Справедливо неравенство
t* **
И ψ[τ]άτ < ||φ[τ]|ώτ<Μ(ί* — tm) (2.10)
Ч '·
и при любых значениях t* < tx < ί2 справедливо равенство
ί2 *ι *2
j φ [τ] dr = J φ [τ] άτ + j φ [τ] dr. (2.11)
ί* ί* ί!
Поэтому имеем
ι'? ι
ΙΨ [ί2] — ψ [ίχ] | = Πφ[τ]£ίτ <М|^-^|. (2.12)
*ι ι
Стало быть, функция tylt] удовлетворяет условию Липшица
(2.12) с постоянной λ = Μ. Такая функция обязательно является
абсолютно непрерывной. В самом деле, из (2.12) заключаем, что
неравенство (2.8) будет выполнено, если выбрать δ == ε/Λ/.
Доказывается, что всякая абсолютно непрерывная функция
имеет производную при почти всех значениях ее аргумента ([12*]t
с. 345). В частности, и функция ΨΙΜ·] τ*]> определенная равен-
*
ством (2.9), имеет производную ty[t] при почти всех значениях t
из интервала £#<£<τ*· Это расшифровывается так. Говорят, что
некоторый факт имеет место при почти всех значениях t из того
или иного измеримого множества Г, если он имеет место при
значениях t e Г, кроме, может быть, некоторых значений ί,
которые составляют подмножество T%czT нулевой меры μ(Τ%) = 0*
Заметим еще, что всякое множество Т% нулевой меры при всяком
выборе числа ε > 0 можно заключить внутрь совокупности
интервалов, суммарная длина которых не превышает ε. Далее, доказы-
•
вается, что производная tyit] функции ψ[ί] (2.9) при почти всех
значениях t из интервала i* < t <C τ* удовлетворяет равенству
ψ[*]=φ[*]. (2.13)
С другой стороны, для всякой абсолютно непрерывной функции
ψ[ί] (£# ^£<Ξ т*)» которая удовлетворяет условию Липшица (2.12),.
найдется измеримая функция φΜ (£# ^Ξτ < τ*),
удовлетворяющая условию (2.2) и такая, что будет справедливо равенство
t
ψ Μ-**[*·!+ [фМЛ (2.14)
при всяком значении iG [ί^., τ*].
Таким образом, свойство абсолютной непрерывности является
в известном смысле некоторым расширением свойства функции
быть дифференцируемой при всех значепиях аргумента внутри
области ее определения (в рассматриваемом случае — расширени-
24
ем свойства функции быть дифференцируемой при всех значениях
t из интервала (ί^,τ*)). Равенства (2.13), (2.14) обобщают
классическую формулу Ньютона — Лейбница.
Обратимся теперь к определению интеграла Лебега
t*
^W*)= f/ΜΛ (2.15)
для вектор-функции / [£* [ · ] £*) = {/i [ί], £* < t < ί*, ΐ = 1, ..., Ζ}.
Вектор-функция /[£#[·]£*) по определению будет измеримой
тогда и только тогда, когда измерима каждая ее компонента
1\ lh [·]**) (ί — 1, ..., /). Пусть рассматриваемая вектор-функция
/[*#[·]**) измерима и ограничена, т. е. справедливо неравенство
|/М|<М, ί*<τ<**, (2.16)
где Μ — достаточно большое число. Тогда каждая компонента
φ[τ] = /ί[τ] является измеримой функцией и удовлетворяет
условию (2.2). Поэтому для каждой функции /i [*#[·] £*) определен
интеграл
*!
^[*U)= ί/iWdr, <-1 1. (2.17)
Вектор 5^**,**), компонентами которого являются числа
У$*,г*) (2.17), будет по определению интегралом ^[t,,**) (2.15),
Из сказанного выше вытекает, что для измеримой вектор-функции
/[*♦[·!**)» которая удовлетворяет условию (2.16), интеграл (2.15)
обязательно существует.
Далее, рассмотрим некоторую измеримую вектор-функцию
ЯМ ·] τ*), где t0 ^ έ# < τ* ^0. Пусть она удовлетворяет
условию (2.16). Опираясь на предыдущий материал, который можно
приложить к каждой скалярной функции φ[τ! =:/,[τ], можно
построить вектор-функцию q [ί* [ · ] τ*] = {q [t], t# ^ t <1 τ*},
определив ее равенством
t
q It] = f / [τ] d-c, f* < t < τ*. (2.18)
и
Она обладает следующими свойствами. Выполнено условие
Липшица
I ?[<J-ff[*i]|-
*2
«ι
«2
<il/W|dT<Jlf|i2-t1| (2.19)
при £х е [£#, τ*), ί2 е= (ί4, τ*]. Функция q[t] абсолютно
непрерывна: для любого числа ε > 0 существует число δ > 0 такое, что для
любой системы непересекающихся интервалов ($\ ίψ) а [£*, τ*]
(/ = 1, ..., ft), удовлетворяющей условию (2.7), будет справедливо
25
неравенство
ΣI ?l*k°]-?[*?»]!< β. (2.20)
Функция qlt] (2.18) имеет производную q[i\ при почти всех
значениях t e (ί*, τ*), и при почти всех этих значениях t
справедливо равенство
q[fl=f[t]. (2.21)
Наконец, как и в скалярном случае, для всякой абсолютно
непрерывной вектор-функции q [t] (i* ^ t ^ τ*), которая
удовлетворяет условию Липшица с некоторой постоянной М, найдется
измеримая вектор-функция /[τ] (ί*^τ<τ*), удовлетворяющая
условию (2.16) и такая, что будет справедливо равенство
?[*]-? [**] + J / Μ dx, h < * < τ*· (2.22)
и
В случаях, когда измеримая функция φ [τ] (ί* ^ τ < ί*) не
является ограниченной, т. е. когда нельзя найти число Jf, для
которого будет справедливо неравенство (2.2), интеграл (2.1)
определяется несколько сложнее уже при помощи бесконечных
интегральных сумм или переходом к пределу от конечных сумм. В
частности, интеграл (2.1) можно определить как сумму двух пределов
оо —оо
&\и&)*= lim 2d т Ρ (TWm,(i+l)/m)) + Hm ^ -£■ μ (Г[»/т,(г+1)/т))·
(2.23)
В таких случаях интеграл &[utt*) уже не обязательно
существует. Так, из определения (2.23) следует, что для существова- *
ния интеграла Э\ил*) (2.23) необходимо и достаточно, чтобы
существовали оба указанных здесь предела. Это осуществляется
тогда, когда функция φ[τ] принимает большие по модулю
значения лишь на множествах достаточно малой меры. Измеримые
функции φ [f* [·] f *), для которых существует интеграл, называют
интегрируемыми. Как следует из предыдущего, если измеримая
функция φ [£# [·] t*) ограничена, то она обязательно интегрируема.
Среди измеримых, но не обязательно ограниченных функций
полезны функции /[£#[·] τ*) (скалярные и вектор-функции),
которые не только интегрируемы сами, но для которых функция
Ψ [** [ · 1 τ*) = {| / Μ |2> ** ^ τ < τ*} также интегрируема. Такие
функции в соответствии с общепринятой терминологией будем
называть интегрируемыми с квадратом (модуля) в области их
определения.
Сделаем еще несколько замечаний. Аналогичным образом
можно определить интегралы &iu,t*h &(t;t*h ^W**)· Значения
всех этих интегралов для одной и той же измеримой функции
/[*# Н**] будут совпадать. Это получается потому, что мера
26
Лебега μ любой точки £ = ? равна нулю. Будем обозначать меру
точки £ = ? символом μ(£ = ί). Таким образом, μ(ί = ί*) = 0π
μ(£ = £*) = 0. Поэтому добавление или исключение точки t% или
ί* не сказывается на величине интегральной суммы в правой части
(2.5). По такой же причине, если две измеримые функции
/(1)[** [·] **) и /2) [** [·]**) различаются лишь на некотором
множестве Τ значений τ, для которого μ(Γ)=0, то интегралы
/gti,t*) и l{tltt*) от этих функций равны. Если функция
/[**[·] **) кусочно-постоянна: fix] = sU), τ,· < τ < τ,+1, / = 1, ..., Λ;
τχ = i*,Tfe+i = ί*, то
^[*.,*·) = f / W Λ - 2 s(i) (тя-ι - τ,·). (2.24)
Если на отрезке ί* ^ τ ^ ί* функция fix] ограничена и
кусочно-непрерывна, то интеграл Лебега I[u,t*j совпадает по
величине с интегралом Римана, известным из стандартного курса
математического анализа.
Мы рассмотрели понятие измеримой функции /[**[·]**) от
скалярного аргумента τ 6= [£#, £*). Однако нам потребуется также
понятие измеримой функции (векторной или скалярной) от
векторного аргумента. В частности, мы будем рассматривать функции
<р(£, и), φ(ί, ν), fit, и), fit, ν) и т. д. Определение измеримой (по
Борелю) скалярной функции φ Ы от некоторого векторного
аргумента ζ = {zi4 ..., zm], заданной на некотором множестве Ζφ
значений ζ, строится по тому же плану, как и выше в случае
скалярного аргумента τ. Пусть, например, Ά = [ζ: ζ*έ^ζ$ ^z$, i =
= 1, ..., m]. Как и выше, сначала вводится понятие σ-алебры ff~
как совокупности подмножеств Ζ <= 2J, которая содержит в
качестве своего элемента все множество SZ и замкнута относительно
оо
операций (J Ъх и «2ΛΖ. Затем вводится борелевская σ-алгебра
$\Х\ для множества 3Z. Она определяется как минимальная σ-ал-
гебра ff~, которая содержит все замкнутые множества Ζ с= Ζ.
Множества Ζ, которые являются элементами 9&\3Ζ\, называются
измеримыми. Нас будут интересовать случаи, когда функция срЫ
определена на измеримом множестве Ζφ<=«2ί в пространстве {ζ}.
Такая функция называется измеримой, если при всяком выборе
числа с множество Zc = [ζ: φ(ζ) < с] является измеримым.
Вектор-функция fiz) измерима по определению, если измерима
каждая ее компонента fAz),
Для нас будет важным свойство суперпозиций измеримых
функций, которое выражается следующим известным
утверждением (см. [12*], с. 283).
Теорема 2.1. Пусть функция Скалярная или
вектор-функция) fiq) определена и измерима на некотором измеримом
множестве Q значений ieeKTopnoco или скалярного) аргумента q. Пусть
некоторая функция qiw) определена и измерима на некотором из-
27
меримом множестве W значений (векторного или скалярного)
аргумента w и пусть при этом функция q(w) принимает лишь
значения q(w) e= Q. Тогда сложная функция
p(w)-/(!W), (2·25>
определенная на W, будет измеримой.
Заметим, что свойство измеримости для суперпозиции
измеримых функций характерно именно для функций, измеримых по
Борелю. При других определениях измеримости этого свойства
может не быть.
В заключение параграфа обсудим еще понятие интеграла
Лебега — Стилтьеса. Для нас будет достаточным следующий
материал. Интеграл «^[**,*♦],μ Лебега — Стилтьеса от ограниченной
измеримой функции φ [£#[']**] по заданной мере μ(Γ), который
мы будем обозначать
*Ι*·.ί·],μ- J φ[τ]μ(<Ιτ), (2.26)
определяется так. Как и в случае построения интеграла (2.1),
каждому измеримому множеству Τ е &[t0,$] приписывается его
мера μ(Τ) > 0. Эта мера μ опять удовлетворяет условию счетной
аддитивности: мера объединения счетного числа
непересекающихся множеств равна сумме мер объединяемых множеств. В отличие
от предыдущего, теперь снимается условие, что μ([α, β]) = β — α.
Величина μ(Τ) может назначаться как-то иначе в соответствии
с условиями задачи. Пусть
μ([ί., *])-#. (2.27)
Интеграл «9^**,**],μ определяется как предел (2.5), где
Гс = [т: <р[т]<с, *#<τ<**]. (2.28)ч
При условиях (2.2), (2.27) этот предел опять обязательно
существует и удовлетворяет оценке
f φ [τ] μ (άτ) Ι < J | φ [τ] | μ (άτ) < ΜΝ. (2.29)
[**,**]
ί**,**3
Если мера μ (Γ) есть мера Лебега, так что для любого
полуинтервала [α, β) имеем μ([α, β)) — β — а, то, естественно, интеграл
^ϊί*,<*3,μ (2.26) превращается в интеграл ^W**]· Очевидно,
в случае меры Лебега μ(ί = α) = 0 для всякой точки t = α. В этой
книге помимо меры Лебега нас будут интересовать главным
образом такие случаи, когда на отрезке [£0, Ό·] выделена некоторая
совокупность точек t{i) (i = 1, ..., ft), в каждой из которых
сосредоточена конечная мера μ(ί = ί(0) = μ»>0, а мера всякого
интервала (α, β), не содержащего ни одной точки t{i), есть μ((α, β)) =
— β — α. Β таком случае справедливо равенство
<*
J φ [τ] μ (άτ) = f φ [τ] άτ + Σ Φ [*(j)] th (2.30)
28
где согласно данному обозначению суммирование осуществляется
по всем точкам i(,)e [**, **]. Если же положить μ(ί = £(<)) =
== μ* > 0, а μ((α, β)) = 0 при t(i) £(α, β) (i = 1, ..., к), то
J φ[τ]μ(<*τ)= 2 <p[*(j)bi· (2.31)
Определение интеграла ^Εί*,ί«],μ (2.26) понятным образом
распространяется на случай вектор-функции /[£#(·]**]·
Наконец, можно определить аналогичным образом и интегралы
У[ил*)№> ^α*,**),μ «У(**,*♦],μ. Надлежит заметить, что, в отличие
от случая меры Лебега, эти интегралы для одной и той же
функции / [£* [ · ] £*] могут различаться величиной. Это случится, если
в точке t* или в точке £* будет сосредоточена конечная мера
μ (^) = μ^ > 0 или μ(ί*) = μ*>0, и притом не все компоненты
вектора f[t*\ или fit*] будут равны нулю. Справедливы
равенства
f /Μμ(Λ)- f /Μμ(Λ)+ /[**! μ(*-**). (2.32)
J /Μμ(Λ)-/[ί»]μ(ίβί·)+ J /Μμ(Λ)» (2.33)
J /1ί]μ№) =
-/[*J μ(*-*·)+ J /Μ μ(Λ)+ /[**] μ(*-**)· (2·34)
По указанной причине мы используем для интеграла
Лебега—Стилтьеса записи вида (2.26), (2.32)—(2.34У, которые, в
отличие от записи (2.1), явно показывают, о каком именно
множестве значений аргумента t (отрезке, интервале и т. д.) идет речь.
С отмеченными фактами связано также то обстоятельство, что
в общем случае интеграл «^[<*,ί],μ (или &ц*,г),ц и т. д.) уже не
является непрерывной функцией от t.
Определение интеграла Лебега — Стилтьеса переносится
понятным образом на случай функции /Ы от векторного аргумента
ze£. При этом для определения интеграла ^ζ*,μ по тому или
иному измеримому множеству Z* a Z следует предполагать, что
на σ-алгебре &\χ\ определена какая-либо мера μ(Ζ), Ζ<= &\χ\-
И в случае интеграла Лебега — Стилтьеса нам встретятся
ситуации с измеримыми неограниченными функциями /[·]. На эти
случаи переносятся рассуждения, относящиеся к интегралу
Лебега для неограниченных функций. В частности, нам встретятся
функции /[·] (от скалярного или векторного аргумента), которые
не только интегрируемы сами, но для которых функция φ [ζ] =
= 1/Ы|2 также интегрируема по заданной мере μ(Ζ) в заданной
области определения /[·]. Такие функции будем называть
интегрируемыми с квадратом (модуля) по заданной мере в заданной об-
29
ласти. Наконец, могут встретиться случаи, когда основное
множество 3Z является неограниченным, например, совпадает со всем
пространством Ы, т. е. 3Ζ = [ζ: —°° < zt < «>, i = 1, ..., га]. Тогда
для многих весьма естественных мер μ мера μ (Ζ) при некоторых
ZeJfj^] может оказаться бесконечной. Так будет, например,
для меры Лебега. В таких случаях интеграл Лебега — Стилтьеса
по измеримому множеству Z* с= Ζ с бесконечной мерой μ (Ζ*) =
== <χ> определяется опять подходящим предельным переходом
(см. [17*1, с. 432).
§ 3. Экстремумы функций
В данной книге встречаются величины, которые являются
максимумами или минимумами от тех или иных функций по
части их аргументов. Также встречаются величины, являющиеся
верхними или нижними гранями функций в тех или иных
областях значений их аргументов. При этом используются свойства
таких экстремальных величин, связанные со свойствами
порождающих функций. В данном параграфе, который— как и § 2 —
носит вспомогательный характер, приведены некоторые из таких
свойств.
Рассмотрим скалярную функцию φ(ι/, ζ) от двух аргументов
у и 2, определенную в области у е У, ze2. Каждая из
переменных у и ζ может быть либо скаляром, либо вектором.
Предположим, что функция <р(г/, ζ) непрерывна по совокупности
переменных г/, ζ в области {У, Ζ} ее определения. Пусть Υ и Ζ суть
ограниченные и замкнутые множества в евклидовых пространствах
{у} и {ζ}. Известно, что ограниченное и замкнутое множество
в конечномерном метрическом векторном пространстве является
компактом ([28*], с. 117). Это означает, что из любой
последовательности элементов, принадлежащих такому множеству, можно щ
выделить подпоследовательность, которая имеет предел,
являющийся элементом этого множества. Ограниченность и
замкнутость являются не только достаточными, но и необходимыми
условиями компактности множества в конечномерном метрическом
пространстве. Зафиксируем какое-либо значение ^е7.
Рассмотрим переменную φ(#*,ζ), которая будет функцией от ζ,
определенной и непрерывной на компакте Ζ. Известно ([28*],
с. 158), что непрерывная функция на компактном множестве
значений аргумента имеет максимум (достигает максимума) при
некотором значении аргумента из этого компакта. Таким
образом, можно рассмотреть величину
ψ (г/*) = max φ (#*, ζ) = φ (#*, ζ*), ζ* <= Ζ. (3.1)
Значений ζ^Ζ, на которых функция φ (г/*, ζ) достигает
максимума (при одном и том же фиксированном у* ^ Υ), может быть
несколько. В качестве ζ* в (3.1) выбираем одно из таких значений.
Перебирая всевозможные значения у = ^е7, получим в
30
согласии с (3.1) функцию
ψ (у) = max φ {у, ζ) „ у €= У, (3.2)
определенную для всех значений у из компакта У. Известно
([11*1, с 43), что эта функция ty(y) (3.2) является непрерывной
по у на данном компакте У. Аналогичным образом можно
рассмотреть функцию
χ (у) = min φ (у, ζ), yz=Y, (3.3)
Z<=:Z
которая также оказывается непрерывной по у на данном
компакте У.
Рассмотрим пример. Пусть Ρ и Q суть компакты в
конечномерных векторных пространствах {и) и {ι;}, Τ есть отрезок
[ί0, θ] на числовой прямой М. Пусть /(£, и, ν) = {/»(£, и, ι>),
ι=1, ..., и} есть тг-мерная вектор-функция, определенная и
непрерывная по совокупности своих аргументов t, и, ν в области
is?1, w ер, ι;ερ. (3.4)
Пусть Ζ = {Zt, ί=1, ..., η] есть w-мерный вектор, стесненный
условием
Ш<1. (3.5)
(В § 2 условлено, что в данной книге символ Ц| обозначает
евклидову норму вектора Ζ.)
Рассмотрим функцию φ(£, Ζ, и, ι;), построенную как скалярное
произведение
η
φ (t, Ζ, и, у) - <Ζ · / (ί, и, ι;» - Σ hfi (*, и, ν) (3.6)
i=l
векторов Ζ и /. Эта функция определена и непрерывна по
совокупности ее аргументов £, I, ц, у в области (3.4), (3.5). Полагая
у = {t, Z, и) и ζ = у, можно в соответствии с (3.2) рассмотреть
функцию
ψ(ί, Ζ, tt) = max(p(£, Z, и, ι;) = max<Z./(i, и ι;)>. (3.7)
Эта функция будет непрерывна по у, т. е. она будет
непрерывна по совокупности своих аргументов ί, Ζ, и в компактной
области ее определения, которая задана условиями
*е=Г, иер, IZl^l. (3.8)
Переименовывая переменные и полагая у = {£, Z), можно
в соответствии с (3.3) рассмотреть функцию
χ(£, Ζ) = mina|)(£, Z, и) = minmax<Z-/(i, u, ν)). (3.9)
Эта функция будет непрерывна по совокупности своих
аргументов £, Ζ в компактной области ее определения, которая задана
условиями
*е=Г, Ш<1. (3.10)
31
Пользуясь случаем, скажем несколько слов об используемой
в этой книге символике для скалярных произведений векторов.
Пусть даны два каких-либо вектора I «= {ZJ и / = {/,} одной и
той же размерности п. Их скалярное произведение будем
обозначать символом <I ·/>. Таким образом,
<l-f> = <f-l> = iihfi. (3.11)
В § 2 условлено, что во всякой записи, если нет оговорки,
векторы понимаются как вектор-столбцы. Верхний индекс
(штрих) будет означать транспонирование. Стало быть, символ
V означает вектор-строку. Поэтому скалярное произведение
(3.11) будем представлять и в виде
<*·/>-*'/-Pi. ...,U у· .
(3.12)
отвечающем стандартной форме матричной записи (см.,
например, [4*1, с. 36).
Рассмотрим пример преобразования скалярного произведения,
где это преобразование основано на равенстве (3.12) и на
свойствах операции транспонирования матриц. Пусть I = {/J — тг-мер-
ный вектор (столбец), X = {#*,} — (п X тг)-матрица (т. е. матрица
из η строк и η столбцов), В = {bjk} — Ы X г)-матрица (т. е.
матрица из η строк, г столбцов), и = \ик} есть г-мерный вектор
(столбец). Построим n-мерный вектор (столбец)
-ш
/ - ХВи - | ·/' |, /,- Σ zi>bjkuk, (3.13)
и составим скалярнве произведение (3.12): ам
n,n,r
</./> = </.ХЯи> = l'f = V (ХВи) = ГХВи= 2 iXijbjkUk. (3.14)
При транспонировании произведений матриц сомножители
переставляются в обратном порядке. Поэтому можно записать такие
равенства для следующей вектор-строки:
η
s' = VX = [sx, ... ,s„], si = 2 J*rji, (3.15)
5' = Z'X = Z'(X')' = (X'Z)'. (3.16)
Стало быть, вектор-столбец s определен равенством
-г,-β].
(3.17)
Из (3.14), (3.17) получаем равенство
I'XBu - s'5m = <s · Яц> = <ΧΊ ■ Bu>, (3.18)
32
<Z · ХВиУ = <ΧΊ · Ви>. (3.19)
Аналогичным образом можно получить равенство
</ - ХВи> = <В'Х'1 · ц>, ' (3.20)
в котором слева стоит скалярное произведение двух тг-мерных
вектор-столбцов I и ХВи, а справа — скалярное произведение
двух r-мерных вектор-столбцов В'Х'1 и и.
Вернемся к экстремумам функции φ(ι/, ζ). Обсудим свойства
тех множеств значений аргумента ζ, на которых достигается
максимум (3.2) или минимум (3.3) при фиксированном значении у.
Обозначим символом Z*{y) множество тех значений z^Z, на
котором достигается максимум (3.2), т. е. в согласии с условием
из § 2 об обозначении множеств имеем
Z* (у) = Γζ·: φ (у, ζ*) = max φ (у, ζ), ζ* е ΖΊ. (3.21)
Известно ([11*], с. 43), что это множество Z*(y) (3.21) является
замкнутым в пространстве {ζ} подмножеством компакта Ζ, т. е.
Z*{y) тоже будет компактом. Также является замкнутым в
пространстве {ζ) множество Ζ% (у) cz Ζ тех значений ζ е Ζ, на ко^
тором достигается минимум (3.3) при фиксированном значении
у ^ У, т. е. множество
Ζ* (У) = р*: Φ (^, **) = min φ (у, ζ), ζ*<=Ζ\. (3.22)
Таким образом, каждому значению y^Y ставится в
соответствие замкнутое множество Z*(y) (3.21) и замкнутое множество
^* (у) (3.22). Возникает вопрос, как изменяются компакты
Z*(y) и Zjj. (у) с изменением у в пределах У. Выяснение этого
вопроса приводит к следующему свойству полунепрерывности.
Пусть каждому значению у еУ поставлено в соответствие
какое-то множество Z(y). Говорят, что множества Z(y)
полунепрерывны сверху по включению при изменении у, если
справедливо следующее заключение. Пусть y(i,ey (; = 1, 2, ...) есть
некоторая последовательность, имеющая предел
lim#(j)=#*, f еУ. (3.23)
Пусть
2lflsV), у = 1, 2, ..., (3.24)
— соответствующая ей последовательность, также имеющая
предел
limz(i) = z*. (3.25)
Тогда
z*e=Z(#*). (3.26)
Это определение свойства полунепрерывности имеет смысл не
только по отношению к компактным множествам У, Ζ и Z(y).
° Η· Η. Красовский 33
В случае, если множества Ζ, Υ и Z(y) суть компакты,
сформулированное свойство полунепрерывности оказывается
эквивалентным следующему свойству. Обозначим символом Ζβ(#) (ε > 0)
ε-окрестность множества Z(y), т. е. ZB(y) есть множество
Z'{y) = lz: 32ы^ад, \ζ-ζ<"}\<ε1, (3.27)
где 3 — квантор существования ([28*], с. 38; см. также §2).
Множество Ze(y) состоит из элементов z^Z, расстояние
которых от Z(y) не превосходит ε > 0. Множества Z(y)
оказываются полунепрерывными сверху по включению при изменении у
тогда и только тогда, когда при всяком fe7 для любого ε > 0
найдется б(г/*, ε) >0 такое, что справедливо включение
Z(y)czZ>(y*), (3.28)
если только выполнено неравенство
\у-у*\<8(у*, в) (3.29)
(см. рис. 3.1).
Справедливо следующее известное утверждение (см.,
например, [11*], с. 793). Множества Z4y) (3.21) и Z*(y) (3.22)
полунепрерывны сверху по включению
при изменении у. Приведем для
полноты изложения доказательство
этого утверждения. Начнем с
множеств Z*(y). Рассмотрим какую
угодно пару последовательностей уа\
zU) (/ = 1, 2, ...), удовлетворяющих
условиям (3.23)—(3.25), в которых
Рис. 3.1. полагаем Z(y) =Z*(y). Надлежит
доказать вложение (3.26), где Z(y) =
= Z*(y). По определению множеств Z*(y) (3.21) справедливы,
равенства
φ (»(i\ *(j)) - max φ (j/j), *), /-1,2,... (3.30)
Z(=Z
Функция φ(#, ζ) непрерывна по {у, ζ). Поэтому согласно
(3.23), (3.25) справедливо предельное соотношение
lim φ (уа\ zU)) = φ (у*, ζ*). (3.31)
С другой стороны, максимум ψ(#) (3.2) функции <р(г/, z) no z
есть функция, непрерывная по у, как об этом сказано выше.
Поэтому справедливо и такое предельное соотношение:
lim max φ (yu), ζ) = max φ (#*, ζ). (3.32)
j-*oo 2=Z ζ— Ζ
Из (3.30)—(3.32) получаем равенство
φ (#*, ζ*) = max φ (ι/*, ζ). (3.33)
zeZ
34
Это равенство по определению множества Z*(y) (3.21) и
означает вложение (3.26), в котором Z(y*) = Z*(y*). Это доказывает
нужную полунепрерывность множеств Ζ*(ι/) по у. Подобным же
образом с понятной заменой операции max на min доказывается
полунепрерывность сверху по включению множеств Z* (у)
(3.22) по у.
Итак, операции max φ и min φ определяют полунепрерывные
функции
Ζ*(·) = {Ζ*(0), уе У}, (3.34)
Z,(.)={Ml0, уеГ), (3.35)
которые всякому элементу у ^ У ставят в соответствие
множество Z*(y) (3.21) и множество Z* (у) (3.22) соответственно.
Однако нам встретятся ситуации, когда из этих многозначных
функций Ζ*(·) (3.34) и Ζ+(·)] (3.35) потребуется выделить
однозначные функции
** (·) = {** (У) eZ*(j)je У}, (3.36)
*♦(·)-{*· (у) е Z* (у), у s У}, (3.37)
которые согласно (3.36) и (3.37) всякому элементу у е У ставят
в соответствие некоторый максимизирующий элемент 2*(г/) и
некоторый минимизирующий элемент ζ* (#) соответственно.
Стало быть, для функций (3.36), (3.37) справедливы равенства
Ψ (У, ζ* (У)) = та* Ψ (», 2), (3.38),
zez
Φ (У, Ч (у)) = min φ (у, ζ). (3.39)
Возможность выделения однозначной функции z(y) из
многозначной функции Z(y) есть логический факт, формулируемый
для совокупностей объектов у и ζ весьма общей природы в виде
аксиомы произвольного выбора ([12*], с. 39). Таким образом,
существование функций ζ*(·) (3.36) и 2#(·) (3.37) принимается
как следствие известного логического факта при установленном
уже существовании многозначных функций Z*{y) (3.34) и Z* (у)
(3.35). Однако нам потребуются еще некоторые свойства
функций **(■) (3.36), (3.38) и **(-) (3.37), (3.39). Было бы удобно
получить эти функции непрерывными. Но это возможно не
всегда. Можно указать примеры непрерывных функций φ(ι/, ζ), у е У,
ze=Z, для которых не существует непрерывных функций ζ*(·)
(3.36), (3.38) и ζ* (·) (3.37), (3.39). Однако из рассматриваемых
многозначных полунепрерывных функций Ζ*(·) и Ζ+(·) можно
выделить измеримые (по Борелю) функции ζ*(·) (3.36), (3.38) и
**(·) (3.37), (3.39). Это утверждение является известной
теоремой об измеримом выборе ([1*], с. 26).
Из этой теоремы и из теоремы о суперпозиции измеримых
функций (см. § 2) вытекает, например, такое следствие.
Пусть дана функция
у(0 = {y(w) e У, и, е= НО, (3.40)
3* 35
определенная и измеримая на компакте W в конечномерном
векторном пространстве. Тогда сложные функции
Р* (·) = {Р* И = ** (у И), w е= W}, (3.41)
Р* (·) - {р* И - Ч (У И). "> е ^} (3.42)
измеримы.
Пусть, например,
φ(ί, Ζ, tt) = <Z-J3(i)w>, (3.43)
где I — га-мерный вектор, |Z|^1, Bit) — непрерывная UX
^-матрица-функция при U < t ^ θ, и — r-мерный вектор, и^Р, где Ρ —
компакт. Возьмем измеримую относительно σ-алгебры
^{[*0,fr],itf-<i} функцию u*(t, Ζ), которая удовлетворяет условию
<Ζ·# (*) и* (*, Ζ)> = min <Ζ·# (ί) u>. (3.44)
Такая функция ii% (t, l) существует по теореме об измеримом
выборе.
Пусть указана измеримая относительно σ-алгебры $\\$
функция lit], Ufril^l. Тогда по теореме о суперпозиции
измеримых функций заключаем, что функция
и It] = щ (*, Ζ [t]) (3.45)
измерима относительно 9&\% м-
Вернемся к свойствам функций <ф(у) (3.2) и %(у) (3.3).
Предположим, что функция ср(г/, ζ) непрерывна по совокупности
аргументов г/, ζ и удовлетворяет условию Липшица по аргументу г/,
т. е. справедливо неравенство
М»(1\ *)-φ(#(2\ z)\<K\y<l)-yw\, (3.46)
каковы бы ни были г/(0 е у (έ = 1, 2) и ζ^Ζ. Здесь λ —посто-м
янная. Известно (см. ниже § 31*), что тогда и функции у}р(у) (3.2)
и %(#) (3.3) тоже удовлетворяют условиям Липшица с той же
самой постоянной λ, τ. е. справедливы неравенства
W>) - ψ(*/(2))I < λ|^> - у(2)I, (3.47)
Wl})-%(yw)\<K\yil}-Vw\, (3.48)
каковы бы ни были y{i) еУ (i = 1, 2). Приведем для полноты
изложения доказательство этого утверждения для определенности
для функции ψ (у). Пусть
ψ(ι/ω)= max<p(i/(i),2) = <f>(y(i\z{i)), i = 1, 2. (3.49)
2SZ
Тогда согласно (3.46) имеем
W) > φ(»(1), ζ<2>) = <р(у<2>, ζ<2») + (<р(у<1\ ζ<2>) - φ(ι,<2>, z<2>)) >
>^ym)-X\yw-ym\, (3.50)
ф(у<2,)2*<р(г/<2), z(,,)=<p(y(,), ζ(1>) +W2\ zw)-^y(i\ ζ(1)))^
>ψ(^<1))-λ1ι/(1,-ί/(2>1. (3.51)
36
Но неравенства (3.50), (3.51) и означают (3.47). Аналогичным
образом проверяется неравенство (3.48). ·
В этом параграфе мы рассмотрели некоторые свойства
экстремумов непрерывной функции φ (у, ζ) по части аргументов в
простейшем случае, когда φ есть скаляр и области значения
аргументов у и ζ суть компакты Υ в. Ζ в конечномерных векторных
пространствах {у} и {ζ}. Этот случай будет часто встречаться
в книге. Однако будут встречаться и более сложные ситуации,
когда рассматриваемые величины φ, #, ζ будут иметь более
сложную природу, в частности, те или иные величины будут
элементами функциональных пространств. В таких более сложных
ситуациях вместо максимумов и минимумов мы будем подчас
рассматривать только верхние или нижние грани для
соответствующих переменных. Сильная сходимость по норме \у\ и Ы
будет подчас заменяться слабой сходимостью для
соответствующих пространств. И в этих более сложных ситуациях будут
использоваться свойства, подобные рассмотренным в этом
параграфе. Однако разбирать предварительно такие свойства для
всех возможных случаев не станем. Будем называть нужные
свойства по ходу дела и отмечать их аналогию со свойствами из
данного параграфа.
§ 4. Уравнения движения
Согласно сказанному в § 2 состояние управляемого объекта
описывается га-мерным фазовым вектором х. Управление будет
r-мерным вектором и, помеха — 5-мерным вектором v. В каждый
момент времени t вектор и можно выбирать любым в пределах
условия
иер, (4.1)
помеха ν может случаться любой в пределах ограничения
v^Q. (4.2)
Здесь Ρ и Q суть заданные множества. Они характеризуют
ресурсы управляющего органа и возможности внешней среды.
Если не оговорено противное, предполагается, что множества Ρ
и Q замкнуты и ограничены, т. е* они — компакты.
Изменение вектора χ во времени определяется векторным
дифференциальным уравнением
# = /(£, я, и, у), (4.3)
где вектор-функция / задана для tQ < t < Φ, — оо < χ{ < <х> (ι = 1, ...
..., η); u<^P, v^Q. Будем предполагать, что функция / при
каждом фиксированном значении t^[t0, Φ] непрерывна по
совокупности переменных #, и и ν; при фиксированных значениях я,
и и ν функция / измерима по L Кроме того, примем, что в
каждой области \х\ <i? для функции / справедливо условие Липши-
37
ца по #, т. е. справедливо неравенство
\f(t,x(1\u,v)-f(t,x(*\u,v)\<:tii)W2)-xw\, (4.4)
каковы бы ни были значения #(1) и х{2\ удовлетворяющие
условиям |#(1)|<Я, \xi2)\<R. Наконец, примем, что справедливо
неравенство
l/tt, я, щ ι;)|^λ(4·5>(1+|*|) (4.5)
при всех возможных значениях £, х, и и v. Здесь λ(4 5) есть
заданная постоянная. При выполнении перечисленных условий
(в том числе условия компактности множеств Ρ и Q) назовем
случай каноническим. Всюду ниже, если не оговорено противное,
рассматривается этот случай.
В книге часто встречаются условия Липшица для тех или
иных функций. Чтобы различать постоянные λ, которые
фигурируют в таких условиях, будем снабжать эти постоянные индексом,
отмечающим номер условия, где впервые появляется
соответствующая постоянная. Аналогичным образом будем снабжать
номерными индексами и некоторые другие часто встречающиеся
обозначения (например, обозначения законов управления,
гарантированных результатов и т. д.).
Пусть выбран какой-нибудь отрезок времени £# ^ t <! f *, дано
исходное состояние χ [£#] = χ* и сформированы реализации
управления и [**[·]**) и помехи ν [t*[-]t*). В соответствии
с материалом из § 2 допустим только реализации u[t*[-]t*) и
^ [**[·]**)> которые являются измеримыми функциями. Кроме
того, в каноническом случае, вследствие (4.1) и (4.2),
реализации управления и помехи суть функции ограниченные. Поэтому,
употребляя термин допустимая реализация управления или по-
мехи, будем предполагать оба указанных условия выполненными.
Слово «допустимая» будем иногда опускать. Более того, иногдаг
будем опускать и слово «реализация», говоря просто
«управление» или «помеха», если из контекста ясно, что речь идет
именно о реализации управления или помехи. Вопрос о том, как
выбираются или конструируются реализации и1**Н**)и
И** И**)» пока оставим в стороне. Такие вопросы
обсуждаются ниже в §§ 17—23. (См. также замечание выше в § 1.)
Рассмотрим уравнение
* = /(*, ж, иЫ, rfil), (4.6)
которое получается из (4.3) после подстановки вместо и и ν
значений ult] и vlt] (έ#^ £<£*), отвечающих фиксированным
реализациям u[t#[-]t*) и ι> [*#[·] **). Согласно известным
определениям и теоремам из математического анализа ([25*],
с. 120—123) уравнение (4.6) при данном начальном условии
х [t%\ = х% имеет единственное решение #[f# [·] £*]. Это
решение является абсолютно непрерывной функцией, производная
которой х[й при почти всех значениях ^(ί*, £*) удовлетворяет
38
равенству
*[*]=/(*, xlti, ufd, vlti).
(4.7)
Напомним, что производная xlt] для абсолютно непрерывной
функции χ [t* [ · ] t*] = {χ [f], £# < £ < ί*} существует, вообще
говоря, не при всех *е(^, £*), а лишь при почти всех значениях
£е (£#,£*) (см. § 2). Множество нулевой меры тех значений ί,
для которых производная не существует или не удовлетворяет
равенству (4.7), мы можем игнорировать; это не влияет на суть
дела. Сложная функция q[%\ =*/(τ, #М, юЫ, νίτ]) (t*^r^t*)
является ограниченной и измеримой. Ее можно интегрировать
по любому полуинтервалу [£#,£), ίε^,ί*]. В соответствии
с материалом из § 2 равенство (4.7) оказывается эквивалентным
равенству
х [t] = х [**] +| /(τ, χ [τ], и [τ], ν [τ]) άτ, (4.8)
которое справедливо уже при всех значениях t е [£#, £*1,
В частности, если функция /(£, ж, α, ν) непрерывна по £, а
функции и [t# [·] £*) и ι;[^ [·] £*) кусочно-непрерывны и разрывы
их приходятся на некоторые возрастающие значения τ< (&=1, ...
..., /с), то решение x[t* [·]£*] будет кусочно-дифференцируемой
функцией, производная которой.iffl будет существовать во
всяком случае на интервалах t* < ί<τ1, ..., τ<<ί<τί+1, ..., τΛ<
< £ < £*. Производная будет на этих интервалах непрерывной
функцией, удовлетворяющей равенству (4.7).
Из (4.8) при условии (4.5) выводится, что всякое из
рассматриваемых решений χ [t* [ · ] £*] удовлетворяет неравенству
UMK(1 + |*[**]|)βχρ{λ(4·5)(t- **)) - 1 (4.9)
при всех t е= [**, ί*] (см. [3*], с. 153).
Обсуждая ту или иную задачу, будем рассматривать только
такие решения #[**[·]**] уравнения (4.6), начальные
состояния которых x[t*\ = χ* удовлетворяют условию
I х [**] I < (1 + Д0) ехр (λ(4·5) (** - ί0)1 - 1, и е [ίο, ОЬ (4-Ю)
где i?0 есть некоторое положительное число, зафиксированное на
все время работы с этой задачей. Так как число R0 можно
выбрать весьма большим, данное условие вряд ли стеснительно. Из
(4.9) и (4.10) следует, что всякое рассматриваемое решение
x[t*[-]t*] при каждом значении ie[i*, ί*] удовлетворяет
ыеравепству
\xltl I < RW « (1 + Я.) ехр {λ(4·5)(ί -10)} - 1. (4.11)
Такие решения #[**[·]£*] уравнения (4.6) назовем
движениями.
Из (4.8) при условиях (4.5) и (4.11) выводится неравенство
I*[tj-*[*J| ^λ(Μ1)Ι*.-*ιΙ, (4.12)
39
справедливое для всякого движения #[£#[·]**]> каковы бы ни
были значения £*, ί*, χ* — x[t#] (4.10), tx e [t*, £*], £2 e U*> **]·
Здесь
λ(4·12)=λ(4.5)(1+^ο)θχρ{λ(4.5)(θ_ίο)}# (413)
Из (4.8) при условиях (4.4) и (4.9) выводится также
следующая известная оценка (см., например, [3*], с. 13). Пусть
построены два движения я(1) [£# [ · ] £*] и #(2) [ί* [ · ] £*], порожденные
каждое одной и той же парой реализаций и[**[·]£*) и
^[ί* [·]**)» но имеющие разные исходные состояния я(1)[**] = х*
и #(2) [ί*] = х£К Тогда справедливо неравенство
| ^ΐ) [ί] _ ,(1) [Ч | < | ж<х) - 42) | ехр {λ£4) (t - tm)} (4.14)
при всяком значении t е [£#, £*]. Здесь
Д = (1 + До) ехр ίλ(4·5) (θ - ίο)> - 1. (4.15)
Из (4.14) следует, в частности, что для любой такой пары
движений x^l) [t# [ · ] t*] и #<2> [t* [ · ] i*j справедливо
неравенство
I a& [t] - x™ [t] | < λ(4·16) 141} - «?> I (4-16)
при всяком значении ie[it,f*], каковы бы ни были
допустимые значения £#, £*>£*, а£2) . Здесь
λν4.16) = λ(4.4)ΘΧρ{(Ο-ί0)}. (4.17)
Будем называть позицией пару {£, я). Согласно
договоренности нас будут интересовать только позиции {t, x), лежащие в
следующей ограниченной и замкнутой области G пространства
позиций {£, х):
G = [U, x): U<t<b, Ы<Ш1, (4.18)"
где величина Rlt] определена условием (4.11). Только из таких
позиций {£*,£*} могут начинаться интересующие нас
движения #[£*[·]£*] и только такие позиции {t, xltl] могут
реализоваться на интересующих нас движениях #[£#[·] £*].
Итак, для всякого отрезка t% ^ t ^ t* (t0 <! £# < ί* ^ О)
каждая позиция {£#, я*} из области G (4.18) и каждая пара
реализаций и №*[·]**) и у [£*[·]**) определяют единственное
движение #[£*[·]£*], удовлетворяющее условию #[£*]=#*. Всякая
позиция U, xlt]}, реализующаяся на этом движении (так что
х [t] = х [£* [t] £*]), лежит в области G (4.18).
Область G, определенная условием (4.18), годится для всякого
уравнения (4.3) при условии (4.5). Эта область G и будет
фигурировать в рассуждениях в общем случае. Однако при работе
с тем или иным конкретным уравнением (4.3) при конкретных
условиях (4.1) и (4.2) может оказаться более удобной некоторая
другая форма области G. В таких случаях эта специфическая
40
область G будет оговариваться. Но и тогда для области G будут
выполняться следующие условия.
(1) Область G определена в пространстве {£, х) при ί0<ϋ<:ϋ.
(2) Область G ограничена и замкнута.
(3) При исходной позиции {t*iX*}^G всякое движение
χ [£* [·] £*] удовлетворяет условию {£, хЫ) ^ G.
Условимся еще о таком обозначении движений. Если надо
будет отметить исходную позицию {£#,£#}, из которой
порождается рассматриваемое движение, или отметить какие-нибудь·
другие обстоятельства, характеризующие движение (например,
указать реализации и [t* [ · ] t*), ν [t% [ · ] ί*), порождающие
движение и т. д.), то будем вводить соответствующие символы
в обозначение движения в такой форме: #[£#[·]**;#*] или
х [*# [·] **; #*' и [·], ι>[·]] и т.д. Напротив, когда из контекста
ясно, какова для рассматриваемого движения исходная
позиция или каковы порождающие его реализации управления или
помехи и т. д., тогда в обозначении движения уточняющие
детали будем опускать. Также иногда не будем упоминать их
в тексте.
Прежде чем переходить к следующему материалу, обсудим
один способ построения реализации помехи v[t#[*]t*). Общее
обсуждение конструирования реализаций управления и помехи
отнесено в §§ 5—23 (см. замечание выше в этом параграфе).
Однако один частный способ конструирования помехи v[t* [·]**)
удобно обсудить здесь. Пусть выбрана некоторая функция
vit, и), определенная при** <! t < £*, и^Р, измеримая по
совокупности аргументов £, и (т. е. по векторному аргументу z=*
= {£, и}) и удовлетворяющая условию
»(*, и) е Q (4.19)
при всех t e [£#, **), и^Р. Какой бы ни была измеримая
реализация и №*[·]**), подставляя в (4.19) вместо и величину
и Щ (** ^ t < £*), получим функцию
ν [t] = v [t* [t] **) - ν (*, и [*]), t* < t < **, (4.20)
которая удовлетворяет условию i;[fl <= () и измерима на
полуинтервале £# <11 < £*. Измеримость функции у [£# [·] £*) следует
из того, что она является сложной функцией от £, которая
получается суперпозицией измеримых функций ν(ζ), z = U, uitl} (см.
§ 2). Стало быть, функция И** [·]**) (4.20) может быть вы·.
брана в качестве реализации помехи. Функцию v(t, и) (4.19),
удовлетворяющую указанным условиям, будем называть контр*
управлением v(t, и) (для полуинтервала *#<^<£*). О
реализации помехи ν[t# [·] £*) (4.20), построенной описанным способом,
будем говорить, что она порождена выбранным (данным,
назначенным и т. д.) контруправлением v(t, и) (4.19) и выбранной
(данной и т. д.) реализацией управления и [t% [-] £*).
Когда речь идет о функции как об едином образе, мы
условились заменять буквенную запись аргументов точкой (см. § 1).
41
Поэтому функцию из правой части уравнения (4.3) будем иногда
обозначать /(·). Эта запись означает сокращение
- /(·) = {/(*, я, и, ι;), {f, s>€=G, ueP, v^Q). (4.21)
Иногда, напоминая о количестве аргументов, имеющих разный
смысл, будем писать подробнее, например /(·, ·, ·, ·). Запись
fit, χ, ·, ν) будет обозначать, что при фиксированных значениях
ί, χ и ν речь идет обо «всей» функции от аргумента и при всех
.возможных его значениях, т. е. fit, χ, ·, ν) = {fit, x, и, ν), и^Р),
и т. д. Когда речь идет о контруправлении, можно писать vi·)
или vi·, ·). В этом случае запись vit, ·) будет означать vit, ·) =
= Μί, и), и^Р).
Подобно контруправлению можно рассматривать
контрпомеху ui·) = ui-, ·) = {uit, v) gP, ί*^ t <£*, i;e^}, которая
является функцией, измеримой по аргументу 2 = it, ν), и вместе с
любой выбранной реализацией помехи v[t# [·] £*) = {ν [t], £* ^
<Ξ £<£*}определяет реализацию управления и [ί* [·] £*) так, что
u[t] = u [t* [t] **) = uit,v[t]), ** < * <ί*. (4.22)
Пример 4.1. Проиллюстрируем материал этого параграфа на
примере из § 1. Состояние груза в момент времени t
характеризуется его координатой qit] и скоростью q[tl. Это определяет
двумерный фазовый вектор
*=ί*ι1, (4.23)
KJ
где Xi = g, Хг = g. Управление и и помеха ν в данном случае
суть скаляры. Дифференциальное уравнение (1.2) второго
порядка для q запишем в форме векторного дифференциального
уравнения (4.3) для х. Оно примет стандартный вид линейного
уравнения
χ = Ах + Ьи + bv, (4.24)
где матрица А и вектор Ь определены равенствами
^=(оо)' <4-25>
4i/U (4·26)
Расписанное в координатах х{ и х2, уравнение (4.24), т. е.
уравнение
сводится к системе двух скалярных дифференциальных
уравнений первого порядка
*ι = *2, *2 = — и + — v. (4.28)
42
По условиям задачи из § 1 значения и и ρ не были стеснены
пикакими ограничениями. Поэтому в условиях (41) и (4.2)
имеем Р=[и: — оо<и<°°]? Q = [v: — оо<у<оо]. Множества Ρ и
Q не являются ограниченными. Стало быть, случай не является
каноническим. Однако, как будет вытекать из общей теории,
развитой в книге, в данном частном случае, рассматриваемом в § 1,
можно без существенного искажения задачи свести дело к
каноническому случаю, полагая
Р = [и: \и\<М\, Q = [v: Ы<ЛЛ, (4.29)
где Μ — достаточно большое число.
Наконец, отметим, что при назначенных реализациях
и [ί# [ · ] ί*), ν [£* [ · ] £*) и при данной исходной позиции
{£*> #*} = {**7 #*и х*г) решение уравнений (4.28) определяется
равенствами
t
хг It] = £*ι + х*2 (t — **) + J — (t — τ) (w [τ] + ν [τ]) dr,
(4.30)
я2 Ь] = я*2 + j — (и Ы + ν [τ]) άτ,
t*
или — в векторной форме — равенством
[:;;:!H:vi|;;;H(:v)[i]<»w+^,
(4.31)
и — в еще более компактной записи — равенством
t
х [t] - X (t, **) я* + j* Χ (*, τ) δ (и [τ] + ι; [τ]) <*τ, (4.32)
где
*(Μ*)=(£ (t~ih)) (4.33)
есть фундаментальная матрица решений уравнения
х = Ах. (4.34)
Равенство (4.32) принято называть формулой Коти (см. [18*],
с 173).
Постоянная λ(4·4) может быть выбрана согласно равенству
Я(4-4) = 1Ш, (4.35)
где символ IIАII обозначает норму ([4*], с. 196) матрицы А
||Л|| = тах|4я|. (4.36)
43
В данном случае эта постоянная λ(4·4) не зависит от R.
Постоянную λ(4·5) можно выбрать, например, согласно
равенству
Я(4-5) = (|И1| + М/т). (4.37)
§ 5. Непрерывная схема управления
Начнем обсуждение способов формирования реализаций
м [£*[·] А) и v[t* [·]θ). Будем строить управление по принципу
обратной связи, когда выбранный закон управления °U назначает
воздействие и по ходу дела для каждого момента времени
t e [t*, θ) на основе текущей информации о системе. В примере
из § 1 использовалась информация о значениях фазового вектора
x[t{] ={xl[ti]J x2iti]} (Xi = q, x2 = q), реализующихся в
назначенные моменты времени t{ (i = l, ..., к). Как только наступал
очередной момент £{, становилось известным значение x[Q. Оно
определяло воздействие u[t]=u[ti] (1.9), (1.10) для следующего
полуинтервала времени U < t < ti+l. Такой подход будет основным
в данной книге и в общем случае. При этом согласно замечанию
в конце § 1 шаг δ = max(£i+1 — £$) будет предполагаться достаточ-
i
но малым. Однако прежде чем перейти к такой дискретной по
времени схеме управления с малым шагом, рассмотрим на пробу
другую, непрерывную схему управления. Обсуждение этой
непрерывной схемы полезно для знакомства с особенностями задач
игрового управления. Поэтому уделим ей внимание в данном и
следующем параграфах, хотя затем и откажемся от нее.
Итак, попробуем подойти к делу следующим образом. Пусть
процесс осуществляется на отрезке времени [£*>^Ь и для
каждого текущего момента ie[i*,0) воздействие и определяется
некоторым известным законом °U на основе знания той позиции'
{*, хШ, которая реализуется в этот же момент. Иначе говоря,
закон управления °и отождествим с функцией
м(-) = Ы*, х) е Р, {*, χ) <= G}, (5.1)
полагая, что текущие воздействия на объект определяются
равенством
u[t] = u (ί, χ [ί]), ί* < t < О. (5.2)
Выбрать закон управления °U — значит теперь выбрать
функцию и{-) (5.1). Ввиду сказанного будем иногда в этом параграфе
обозначать закон управления прямо символом и{·).
Параллельно с формированием воздействий u[t] (5.2)
внешняя среда будет формировать помеху ι; Μ {t*^t <ϋ).
Обстоятельства, которые определяют формирование помехи, нам не
подвластны. Мы принимаем лишь, что в конце концов будет
сформирована какая-то допустимая реализация и[**[·]θ). Выбирая
тот или иной закон управления и(·) (5.1), (5.2), следует считаться
44
с возможностью осуществления любой (измеримой) реализации
v[t*[-]$) (см. для сравнения выше § 1), Этих предположений
достаточно для следующей ниже постановки задачи об
оптимальном гарантированном результате. Однако добавим еще
такую игровую картину.
Припишем внешней среде способность формировать помеху на
основе того или иного закона У, который может
перерабатывать какую-либо, может быть, весьма богатую информацию,
например, информацию о текущем и прошлых состояниях системы
и даже информацию о наших замыслах на будущее. Какой
именно из таких законов У «изберет» среда, мы не знаем. И надо
считаться с угрозой, что будет выбран один из наиболее
неблагоприятных для нас законов У.
Ситуация напоминает игру в шахматы некоторого игрока U
с совершенным противником F, все знающим и все умеющим.
Только здесь шахматная позиция заменяется позицией {£, x[i\]
управляемого объекта, изменение позиции на доске по правилам
шахмат заменяется эволюцией объекта в соответствии с его
дифференциальным уравнением (4.3). Последовательность
шахматных ходов в моменты времени £1? £2, ..., tm заменяется
непрерывным потоком «ходов» ult] и vlt] при t% <11 < 0. Шахматист U
назначает очередной ход, исходя из позиции на доске. Очередной
ход u[t] для органа управления U системой (4.3) назначается
законом и(-) (5.1), (5.2), исходя из текущей позиции {£, хЫ)
объекта.
Имея в виду игровую трактовку ситуации, будем именовать
себя первым игроком, внешнюю среду — вторым игроком. Второго
игрока мы наделяем способностью знать исходную позицию
{£#»#*} и знать, какой именно закон управления и(*) выбрал
первый игрок. Обладая этой информацией, второй игрок
вырабатывает реализацию помехи ν [t* [·]*)· Поэтому можно
принять, что допустимый закон У формирования помехи есть
правило, которое по данным {t#, x*}, и(-) определяет реализацию
у [** Μ**)· Запишем это символически следующим образом:
»[М0*) = Н{*·.*·}. *(·))· (5.3)
Итак, правила предлагаемой игры таковы. Независимо друг
от друга игроки выбирают свои стратегии: первый выбирает и(·),
второй выбирает У. На деле это означает, что сначала первый
игрок выбирает определенный закон управления и(-). Затем
второй игрок, зная закон и(-) и исходную позицию {£*,£*},
вырабатывает помеху ν[t* [-]$). Подчеркнем, что первый игрок
выбирает закон управления и(·), не зная закона У формирования
помехи ι>[ί*[·]0). Более того, можно принять даже, что он не
знает, какой окажется исходная позиция {£#, х*} е G. Запись
(5.3) означает, что закону У мы придаем смысл оператора,
который при известных данных {t*, x*}, u(-) формирует помеху
ν [** [ · ] 0) при помощи каких-то определенных операций. Этц
операции могут быть более или менее конструктивными, При
45
этом мы не исключаем такие операции, которые используют
в текущий момент времени t также информацию о
сформированной уже реализации ν [t% [ ·] t) = {ν [τ], t% ^ τ < £}. Фиксируя
тот или иной класс операций, мы можем выделить
соответствующий класс допустимых законов 3^, конструируемых на этой
основе. Не будем обсуждать здесь всевозможные механизмы
подобного построения законов У°. Отметим только среди них такие
интересные для нас в дальнейшем, как контруправление ν(£, и)
(см. § 4), когда получается v[tl =v(t, u(t, x[t\)) (ί*^ί<ϋ), или
такой механизм, когда выбирается некоторая функция у(0 =
= {у(£, х) ^ Q, {£, ж)еб} и назначается разбиение АШ для
отрезка [£#,0J, .и затем полагается vlti = ι;(ί<, x[t{]) при ti^t<
< ί<+1, т. д. В таких случаях работа оператора Ψ развертывается
во времени по ходу дела через текущее интегрирование
дифференциального уравнения, которое формирует движение
Может сложиться впечатление, что данная игровая трактовка,
и в том числе введение стратегий У для внешней среды, служат
лишь не очень нужным украшением. Такое априорное сомнение
правомерно. Однако автор надеется, что последующее изложение
покажет полезность игровой трактовки (уже для дискретной
схемы управления). В частности, выяснится, что включение
рассматриваемых задач управления в дифференциальную игру при
подходящих классах допустимых законов Ψ позволяет оценить
оптимальный гарантированный результат р° подчас более
эффективно (и осознать его лучше), чем на основе дескриптивного
перебора неизвестно как формируемых реализаций v[t% [·]θ).
Итак, принимаем, что при выбранном законе управления и(-)
и случившейся реализации помехи ν [t% [-]$) движение x[t% [·]0;
х*\ должно быть решением дифференциального уравнения
x = f(t,z,u(t,χ), ν[*]), f* < t < θ, (5.4), ^
при начальном условии #[£*] = #*. Однако, чтобы работать
с уравнением (5.4) в строгих правилах математики, надлежит
опираться на существование решения xit] этого уравнения. Но
тогда приходится стеснить допустимую функцию и(-)
дополнительными условиями. (Условия для функции /(·) уже указаны
в § 4. «Заботу» о том, чтобы помеха формировалась как
допустимая измеримая функция времени, мы предоставляем внешней
среде, постулируя, что возможны только измеримые реализации
И*# [·] Ф)·) Можно было бы стеснить допустимые функции и(-)
(5.1) условием непрерывности по χ при каждом фиксированном
t и условием измеримости по t при каждом фиксированном х.
Этого достаточно для существования решений я^ЫО] уравнения
(5.4) (см. [25*1, с. 120.) Однако желательно еще обеспечить
единственность решения χ [ί# [ · ] θ] при всяком возможном
начальном состоянии χ [£#] =^, выбранном законе и(·) и
фиксированной реализации ν [£*[·] Ф)· Поэтому потребуем вдобавок,
46
чтобы функция и(-) (5.1) удовлетворяла условию Липшица по #,
т. е. условию
\u(t, *(1))-и(г, ^)|^V5-5)k(2)-^l,
(5.5)
при каждом t е [t0, Φ). Кроме того, в этом параграфе будем
предполагать, что функция /(·) удовлетворяет еще и условиям
Липшица по щ так что
l/(t, я, и(1), »)-/(*, х, и{2\ »)| <λ(Μ)|Β(Ι)-α(1)Ι, »(1)еР,
w(2)eP, (5.6)
при каждом ie [£0, -&).
Итак, отождествим допустимый закон управления
«(„, = {»(·); (5.2)} (5.7)
с функцией и(·) (5.1), которая при каждом фиксированном χ
измерима по t и при каждом t удовлетворяет условию (5.5). При
этом имеется в виду, что реализация управления u[t]
назначается законом ^/(5.7) согласно равенству (5.2). Тогда при всякой
случившейся реализации помехи ι> [£#[·] Ф) будут обеспечены
существование и единственность решений #[*#[·]*] уравнения (5.4),
каков бы ни был допустимый закон управления 4/(57). В самом
деле, сложная функция fit, x, u(t, x), vltl) будет измеримой по t
при фиксированном х, и она будет удовлетворять условию
Липшица по χ при каждом t^[t0, Φ). Этого достаточно для
существования и единственности решения уравнения (5.4) (см. [25*1,
с. 120—123). К сожалению, для рассматриваемых задач
управления условие (5.5) оказывается слишком жестким. Это
выявится в следующем параграфе на примере. А пока, игнорируя эту
неприятность и принимая данное определение допустимых
законов управления <2/(5.7), сформулируем задачу. Согласно
сказанному выше рассматриваемые в этом параграфе законы
управления будем обозначать иногда Ф/(5.7), а иногда просто и(0. Это не
должно привести к путанице, так как закон управления Ш^л)
однозначно определяется функцией и(·), причем работа такого
закона управления определяется однозначно равенством (5.2).
Обозначение закона <2/(5.7) в виде и(·) будем применять тогда,
когда надо обратить внимание на функцию и(0, которая этот
закон определяет.
Предполагаем, что задан показатель γ качества процесса.
В примере из § 1 таким показателем была величина (1.13). В
общем случае γ вычисляется как некоторый функционал,
определенный на реализациях процесса {х [£# [ · ] Ф], и [t% [ · ] θ),
И** [*]Ф)}> которые складываются из реализаций движений и
воздействий. В этом параграфе для определенности ограничимся
показателем
γ=-σ(*[Φΐ), (5.8)
47
где а(х) — заданная непрерывная функция. Момент Φ окончания
процесса зафиксирован заранее.
Последуем идеологии минимизации гарантированного
результата, анонсированной во введении и проиллюстрированной на
примере в § 1. Согласно этой идеологии основная задача в
рассматриваемом классе допустимых законов управления °и{ЬЛ) и
для показателя γ (5.8) приобретает следующую форму.
Выбранный среди допустимых закон управления °и{ЪЛ) (закон и(-) (5.1),
(5.2)) и сформированная внешней средой реализация помехи
у[*#[0 0) определяют для данной исходной позиции {t%, χ*}
единственное движение χ [t* [ · ] ft]. Стало быть, данные и (·),
*>[*# [00), {*#>#*} определяют единственное значение а(хШ).
Введем обозначение
*(*[*])-Υ МО. 1<Ы О*);**,*·), (5.9)
согласованное с обозначением γ(<2/, ν[t% [00)) (1.13).
Для фиксированного закона управления и(·) и для данной
исходной позиции {t%fx%} гарантированный результат р[и(·);
*#> я*] определяется равенством
рМО; **>**]= sup yMO» *>[M00); *♦,**)* (5·10)
аналогичным (1.14). В § 1 исходная позиция {£#,##} = {0, q&, 0}
была единственной, зафиксированной на все время обсуждения
задачи. Поэтому в обозначении гарантированного результата ρ
в (1.14) буквы £#>#* отсутствуют. По определению оптимальный
закон управления и°(·), если он существует, удовлетворяет
условию
р[и°(0; **, х*] =minp[u(0; **, я*Ь (5.11)
какова бы ни была исходная позиция {£*,£*} ^ 6. Обратим
внимание на то, что оптимальный в смысле (5.11) закон
управления ^/(б.7) должен быть задан одной и той же функцией и°()
для всех возможных исходных позиций {ί#,^}Ε(τ. Такой
оптимальный закон управления и°(·) будем называть
универсальным. Можно поставить более слабую задачу, которая для данной
исходной позиции {£#,##} требует найти закон управления
^(б.7)> оптимальный хотя бы только для этой позиции {г*, х%}.
Тогда придем к проблеме: найти функцию и°(£, x;t*, x%),
{*, х} е 6?, {ί*, х*} е С?, которая для всякой зафиксированной
исходной позиции {ί*ί «£#} является допустимой функцией —
допустимым законом управления и°(·; ί^, χ*) (5.1), (5.2)—и
удовлетворяет условию
p[u°(-;t*,x*);t* х*\ = minp[w(0;i#, яг#]. (5.12)
Если оптимального закона ιι°(·) (5.11) (или—и0(·;£#, ##)
(5.12)) не существует, то, как и в примере из § 1, можно огра-
48
ничиться лишь задачей об оптимальном гарантированном ре-
зультате
р° (**, я*) = inf p[u (·); **, х*\. (5.13)
w(·)
Если для величины p°(t*,x*) (5.13) можно выбрать
последовательность {uik)(-) = {u{h)(t, χ), {£, x)^G}, й = 1, 2, ...},
которая будет минимизирующей для всякой исходной позиции
{t*,x*}^G, так, что
limp [uw (·); **, я*] = Р° (t*, я*), {h, **} ^ G> (5.14)
fc-»oo
то можно говорить об универсальном гарантированном
результате. Не будем разъяснять смысл введенных понятий, так как уже
обсудили достаточно подробно аналогичные понятия для
конкретной задачи в § 1. Различие состоит лишь в классах
допустимых законов управления °и^Л) = {и(·), Δ) и Ш{Ь.1) = iw(·), (5.2)}
и соответственно в понимании движений χ \t* [ · ] θ] как
решений пошагового уравнения (1.12) в § 1 и как решений
обыкновенного дифференциального уравнения (5.4) в этом параграфе.
Дополнительное обстоятельство, связанное с понятием
универсальности, также вряд ли требует пояснений.
Итак, в этом параграфе дана постановка задачи об
оптимальном гарантированном результате p°(t*,x#) (5.13) в классе
законов управления <2/(5.7) (законов управления и(·) (5.1), (5.2)),
s'
1
ч
·.
;
Л>М-
<№/__---
—-^v[t]=0
-1
\ ^>-^
-0,5
~д ^
Рис. 5.1.
где допускаются функции и(·), измеримые по ί и
удовлетворяющие условиям Липшица (5.5) по х. При этом движения χ[t% [-] Щ
понимаются как решения дифференциального уравнения (5.4).
Данная постановка задачи выглядит вполне респектабельной. Но
после разбора в следующем параграфе дискредитирующего ее
примера мы откажемся от этой постановки задачи.
В заключение параграфа заметим, что непрерывная схема
управления естественно моделируется на аналоговых устройствах.
4 Η. Η. Красовский 49
Для примера на рис. 5.1 приведены на фазовой плоскости {хи х2)
движения xltl, полученные в результате моделирования на
аналоговой вычислительной машине ЭМУ-10 процесса управления
системой, которая описывается уравнениями
^ι = #2» x2 = u + v. (5.15)
Показатель качества γ был
θ
V - J" № U] - *>2 It]) dt + {х\ Щ + х\ Щ). (5.16)
/*
Был испытан закон управления °ίί^.ΐ) = (u(·), (5.2)}, где
= {и(*, х1% х2) = -[(θ — ήχ1 + (ί + (ϋ — t)2) х2], ь < t < θ}.
(5.17)
При этом были выбраны следующие исходные данные: £# = 0,:
х*! = — 1, #*2=0, Φ = 3. Сплошной линией на рис. 5.1
изображена реализация движения #Ы, полученная в результате
сочетания закона управления %ί^.ΐ) = iw(·), (5.17); (5.2)} с
реализацией помехи vltl sO. В этом случае для показателя (5.16)
получилось значение γ(1) = 0,542. Пунктирной линией обозначено
движение x[t], отвечающее реализации помехи ν[tl si, Здесь
получилось γ = γ(2) = 0,146. И наконец, точечная линия отвечает
реализации помехи vltl= —1; при этом получилось γ = γ(3) = 0,603.
§ 6. Дискредитирующий пример
Рассмотрим пример модельной задачи в постановке, данной
в предыдущем параграфе.
Пример 6.1. Пусть управляемый объект складывается из
двух материальных точек m{i) и т{2\ которые двигаются по
параллельным осям q{i) и д(2) (см.
т<У ^у <j№ рис. 6.1).
. 0 > *~ Точка m{i) управляется силой,
к 0 ^ ^ направленной вдоль оси q(i). Сила
-aq(fJ m(1) и д<1) характеризуется ее проекцией и
на эту ось. Точка т{2) под-
Рис· 61- вержена силе, направленной
вдоль оси q{2) и
характеризуемой ее проекцией ν на эту ось. Кроме того, на точку га(1)
действует сила трения, пропорциональная скорости точки.
Коэффициент пропорциональности есть постоянная —а < 0. Скалярные
величины и и ν стеснены условиями
Μ «μ, \υ\<ν, (6.1)
где μ и ν суть заданные числа. Буква q(i) будет обозначать
координату точки m(i\ буква q{2) — координату точки т{2). Пусть
задача управления точкой m(i) состоит в том, чтобы в заданный
50
момент времени Φ рассогласование |g(1)LOJ — g(2)L<H| между
координатами точек т{1) и т{2) оказалось по возможности большим.
Воздействие на точку т{2) определяется некоторым органом V.
Может быть, его задача состоит в том, чтобы сделать
рассогласование |д(1)ГЙ — д(2)[0]| по возможности меньшим. Данная
задача включается в круг задач из § 5.
Величина и играет роль управления, а величина ν — роль
помехи. Они воздействуют на объект F, складывающийся из обеих
точек т(1) и т{2). В отличие от стандартной задачи о
минимизации показателя качества, данная задача в исходной
формулировке требует управлять, максимизируя рассогласование |д(1)и}] —
— д(2)[<Ж. Но это различие не существенно. Выбирая показатель
качества
Y--|g(1)[0]-g(1)[<>]|f (6.2)
придем к стандартной задаче, в которой управление и надлежит
строить, исходя из условия минимизации показателя γ. (См.
аналогичное требование максимизации дохода 1 = С — γ (1.5) и,
стало быть, минимизации показателя γ (1.6) в § 1.)
Сохраним для масс рассматриваемых точек обозначения т(1)
и т(2). Запишем уравнения движения в форме второго закона
Ньютона *
m(1)g(1)=-ag(1) + w, m™q™ = v. (6.3)
В данном случае фазовым вектором управляемого объекта F
явится четырехмерный вектор χ = {хи ..., #4), где #i = q{i\ хг =
= g(1), #з = д(2), Xi = q{2). Система уравнений (6.3) в канонической
форме принимает вид
~ 1 * 1
-фИ, xz = xi, Xi^-j^v. (6.4)
Xl — #2»
х2 m ^2 + ..
Стало быть, векторное дифференциальное уравнение объекта
(4.3) является здесь линейным по я, и и ρ уравнением
χ = Ах + Ьи + су, (6.5)
где матрица А и векторы Ь и с определены равенствами
(О 1 О (Л Г ° Π Г
о о о ι I' *- о ' Св
о о о о/ L ° J L
о
о
о
1//п(2>
(6.6)
Таким образом, уравнение (6.5) в подробной записи имеет вид
г— . —ι
Х1
к
хз
_А_
0
0
0
0
1
— a/m(1)
0
0
0
0
0
0
°\
°
ι
0/
1 х
1 х
1 х*
Ι χ
и +
0
0
0
1/т(2>
4*
51
Показатель γ (6.2), записанный через координаты вектора х,
принимает форму
γ = а(хШ) = -\х,Ш -х*Ш I. (6.7)
Рассмотрим для данного объекта, описываемого уравнением
(6.5) с параметрами (6.6), задачу об оптимальном
гарантированном результате p°(t*,x*) (5.11) для показателя γ (6.7) в
классе допустимых законов управления ^2/(5.7) = (и(·), (5.1); (5.2)},
т. е. в данном случае в классе законов <2/(5.7), отождествляемых
с допустимыми функциями
и(·) = Μ*, χ) = u(i, xu ..., я4), it, #i, ..., χ J s G). (6.8)
Напомним, что функция u(-) (6.8) должна быть измеримой
по ί и липшицевой по х. Всюду в этом параграфе выражение
допустимый закон управления и{·) будет означать, что этот
закон определяется именно такой измеримой и липшицевой
функцией и(·) (6.8). Область G (4.18) в соответствии с условием,
принятым в § 4, полагаем зафиксированной. Напомним (см. § 4),
что постоянная Липшица λ(4·4) по χ для функции /(·) в правой
части линейного уравнения (6.5) определяется равенством
Х(6-9)-тах|Ас|, (6.9)
М=1
и эта постоянная не зависит от выбора области G.
В данном случае (6.5)—(6.7) исследование задачи
упрощается, если фазовый вектор χ подвергнуть неособому линейному
преобразованию
р = Х(«, t)x. (6.10)
Символ Ζ(τ, t) обозначает фундаментальную матрицу
решений дифференциального уравнения
dx/dr = Ax (6.11)
(см. выше в § 4 равенства (4.32)—(4.34)). Напомним (см.,
например [19*], с. 131), что вектор-столбцы #0)(τ, i) (7 = 1, ..., я),
которые составляют матрицу
Х(т^) = (х{х)(т,Ъ...,х(п)(т^))=[ · · ■ - · ,
являются линейно независимыми решениями уравнения (6.11)
(при фиксированном значении t), причем χψ (ί, t) = 1. χψ (t, t) =
= 0 при i¥*j. Поэтому фундаментальная матрица Χ(τ, t) для
уравнения (6.11) при фиксированном значении t удовлетворяет
матричному дифференциальному уравнению
<Шт, t)/dT = AX(x, t). (6.12)
52
При фиксированном значении τ матрица Χ(τ, t) удовлетворяет
дифференциальному уравнению
<Шт, t)/dt = -X(T, t)A. (6.13)
При этом для всякого значения τ справедливо равенство
Χ(τ, τ)=Ε, (6.14)
где символ Ε обозначает единичную матрицу
-с- ·>
Отметим также равенство
X(t, τ)=Χ-4τ, f), (6.15)
где символ Χ~ι обозначает матрицу, обратную к матрице X.
Преобразование (6.10) следует понимать так. Запись рШ
всякого движения через новую фазовую переменную ρ связана с
записью χ[ί\ того же движения через первоначальную фазовую
переменную χ равенством /?Ы=Х(Ф, t) x[t\. Поэтому из (6.5),
(6.10) и (6.13) следуют равенства
= — X(Q,t)Ax[t] + X{Q,t)Ax[t] + X(ft,t)bu[t] + X{$9t)cv[t] =
- Χ (θ, t) Ъи [t] + Χ (Ο, t) cv It],
справедливые при почти всех значениях t из того отрезка
времени, на котором рассматривается движение xlil.
Здесь u[t] и vlt] суть реализации управления и помехи,
связанные с рассматриваемым движением. Отсюда следует, что
дифференциальное уравнение для новой фазовой переменной ρ
имеет вид
p = b*[t]u + c*[t]v, (6.16)
где векторы b*lt] и cHt] определены соотношениями
δ*Μ=Χ(θ, ЙЬ, c*[f]= X<0, t)c, t0<t<®. (6.17)
Из (6.10) и (6.14) вытекает равенство
хШ=рШ, (6.18)
справедливое для всякого возможного движения. Поэтому
показатель качества γ (6.7) в записи через координаты нового
фазового вектора ρ сохраняет прежнее строение, т. е.
γ = -l/>i[0]-|>.[<Й I. (6.19)
Этот вид показателя γ и форма уравнения (6.16)
подсказывают целесообразность введения скалярной переменной
r = Pi-p*. (6.20)
53
Функция r[t]r=Pi[t] — p5[t], отвечающая некоторому движению
pit], будет подчинена уравнению
г = ф]и-фЪ. (6.21)
Здесь согласно (6.16) и (6.20) имеем
φ [t] = Ъ\ [t] - Ъ% It], ψ [t] = с* [t] - cl It], (6.22)
причем b*[t\, Ci [t] (i = l,3) суть координаты векторов b*[tl,
c*[t] (6.17).
Показатель γ (6.19) в записи через переменную г принимает
вид
Т = -|г[ОЦ. (6.23)
Пусть движение Л" [ί^. [ · ] Ό·] отвечает некоторой исходной
позиции {£#,##}· Та же исходная позиция для этого же
движения, но в записи pit* Ы^] через новую переменную /?, будет
{**?Р#}> где согласно (6.10) имеем
р* = *(<>,**)**. (6.24)
Начальное значение г [t#] = г* для соответствующей функции
r[t«[-]0]-{rU], **<*<#} будет
**# — Ρ*ι Р*з-> P*i — 2j хг ν?, £#) x*r
3=1
(6.25)
Уравнение (6.11), в котором матрица А определена
равенством (6.6), имеет такую фундаментальную матрицу:
Χ(τ,
ΟΙ -
ι»'
(D -
fr~-l
β m(1)
0
0
0
1
0
о
τ — t
1
(6.26)
Уравнение (6.16) в подробной записи согласно (6.6), (6.17) и
(6.26) принимает вид
Ρ*
Ps
Pa
α u J
«ω1
-&*-'>
и +
о
о
n(2)
■')
У.
Рассмотрим далее частный случай, когда в (6.1) ν = 1 и
в (6.4) т{2) = 1, а=1, а масса т{1) = т достаточно мала.
(Подходящая малость т будет уточнена ниже (см. (6.29), (6.36),
(6.44).) В таком случае графики функций (6.22), т. е. теперь
54
функций
φ[*] = 1-β(ί-*)/η\ ψ[*]=θ-*,
будут иметь вид, изображенный на рис. 6.2.
При μ > 0 уравнение
ф] - μφ[ί] = О
при малой величине т имеет при t<$ единственный
t = τ. При этом справедливы неравенства
t < τ,
φ] - μφ[ί] > О,
φ] - μφ] < 0,
(6.27)
(6.28)
корень
(6.29)
T<t<®
(см. рис. 6.2).
Из (6.27) видно также, что, задавшись любым сколь угодно
малым числом δ > 0, можно, выбирая значение т достаточно
малым, обеспечить неравенство
Ιτ-(0-μ)Κβ. (6.30)
Пусть выбран какой-нибудь допустимый закон управления
(6.8). Оценим результат ρ [и (·); £*, х%] (5.10), гарантируемый
этим законом и{·) для некоторой фиксированной исходной
позиции (ί*, χ*}. Нам удобно зафиксировать позицию, для которой
t* < О — 2μ. Пусть для определенности t* = О — 4μ.
(Предполагаем, что по условиям задачи
справедливо неравенство U <
< θ — 4μ и, стало быть,
указанный выбор ί# возможен.)
Вектор ## назначим, исходя из
условия, что значение г* (6.24),
(6.25) не слишком велико по
абсолютной величине. (Оценка
Iг* I уточнена ниже (см.
(6.36).) Отправляясь от
зафиксированного значения г*,
подберем вектор х* согласно (6.15),
(6.24), (6.25) так, чтобы
выполнялись равенства
я# = Х(**,Ф)р*, Ρ*ι— /?*з = г*> ί* = 0 — 4μ. (6.31)
Например, выберем р^ = г*, р*2=Р*з — Р*4 =0. Тогда
согласно (6.31) с учетом (6.26) будем иметь х*г = г*, х^ = ж*3 = ##4 —0-
Это означает такой выбор исходного состояния точек m(i) и
™<2): ^ = г*, £> = 0, д» = 0, Й> = 0. ' ~
По смыслу гарантированного результата р[н(·)'» £#>#*] (5.10)
для вычисления определяющей его верхней грани значений γ
(6.23) надлежит перебрать все возможные измеримые реализации
помехи ν [t% [ · ] О) = {ν [ί], t# ^ t < О, 11; [£] | <; 1}. Однако в
рассматриваемом частном случае для вычисления р[и(·); £#, х#]
Рис. 6.2.
55
достаточно перебрать лишь все возможные реализации
»ΙΜΙΜ·]θ)-Μ*]-β, **<*<«}, -1<β<1, (6.32)
постоянные на полуинтервале £# <! t < θ. Покажем это.
Зафиксируем на время какую-нибудь реализацию νт [t* [·]θ)
(6.32). Обозначим символом движение,
порожденное из позиции {ί*, χ*} (6.31) выбранным законом управления
и зафиксированной реализацией помехи vm [t* [·]#). Символом
^[β1 U* [-]ΰ] обозначим функцию r[pl [t] (£*<[£< Φ), которая
отвечает этому движению хт [t* [·]0]. Согласно (6.21) и (6.32)
функция rLP] [ί* [·]0] удовлетворяет равенству
Γ[β] [ί] = φ [ί] w (ί, χΕβ] [ί]) — ψ [ί] β
при почти всех iG[^, Φ). Интегрируя это равенство при
начальном условии rtP1 [t*] = г*, получим
τ
r[P1 [τ] - г* + f (φ [t] u (t, хт [t]) - ψ [ί] β) dt, f* < τ < 0.
t*
В частности, получаем
г[РЗ[0]-г*+ J (φ[ί]^(ί,^[β1[ί])-ψ[ί]β)ώί. (6.33)
Из (6.33) с учетом (6.27) и неравенства |и(£, #)ί^μ
получаем при β = 1 и β = — 1 следующие неравенства:
θ
г1~1][Щ>Гх+ J (ψ[ί]-μφ[ί])ώί>Γί|ί + 4μ2+^μ[ΐ-β-4μ/?η],
θ-4μ
(6.34)
θ
r[1] [θ] < г* + j (μφ Щ - ψ [*]) dt < Γ*-4μ2 - ™μ [l -6Γ4μ/τη].
θ-4μ
(6.35)
Предположим, что значения г% я т удовлетворяют
неравенству
| г* | + ικμ [1 - <Γ4μΛη] < μ2. (6.36)
Тогда правая часть в (6.34) будет положительной, а правая часть
в (6.35) будет отрицательной. Функция uit, x) удовлетворяет
условию Липшица по х. При этом условии решение xm[i\
U# <Ξ t ^ θ) уравнения
χ = Αχ + bu(t, χ) + οβ (6.37)
56
при фиксированйом начальном условии χ [t*\ = χ* будет при
каждом значении t<^[t*,ft\ непрерывной функцией от
параметра β, как это следует из известных результатов теории
дифференциальных уравнений ([19*], с. 179), Таким образом,
перебирая все реализации *>[ [£#[·] θ) (6.32) для β^[—1, 1], мы
получаем непрерывную функцию ξ[β] — гш[ф] (—Κβ<1) от
параметра β, которая на концах отрезка [—1, 1] принимает
значения ξ[1] <0 и ξ[—1] >0 разных знаков. Но тогда согласно
теореме Больцано ([28*1, с. 163) функция ξ[β] равна нулю при
некотором значении β*^ (—1? 1) аргумента β. А это означает, что при
выбранном законе управления и( ·) реализация помехи v* [t# I · ] О)
определяет для выбранной исходной позиции {ί#, χ*} движение
#[β*] U* 1·]Φ]ι а вместе с этим и функцию г[р* [**[·] О], для
которых справедливо равенство #ίβ*] [О] — #з [О] = Γ[β*] [О] == 0.
Но показатель γ (6.23) для любого значения Afft — xdft] — χ3[ϋ]
неположителен. Для движения #[ [t* [ · ] θ] он оказывается
равным нулю. Стало быть, при выбранном законе управления и(-)
для выбранной исходной позиции {t%, x*} (6.31) показатель γ
(6.23) достигает максимума при выборе реализации у[ [£*[·]$).
Этот максимум, равный нулю, и будет гарантированным
результатом
Ρ [и (·); **, **] = max (- | r[P1 [θ] |) - - | г[р*] [О] | - 0 (6.38)
(для выбранного закона управления и(-) для исходной позиции
{t*,x*} (6.3D). Но приведенное рассуждение годится для
любого допустимого закона управления и{·). Отсюда следует, что
для исходной позиции {£#,##} (6.31) гарантированный
результат р[и(-)\ t*,x*\ равен нулю, каков бы ни был допустимый
закон управления и(-) (6.8). Однако это означает, что для
исходной позиции {£#,##} (6.31) оптимальный гарантированный
результат р° (£#*#*) в рассматриваемом классе допустимых
законов управления и(·) также равен нулю. Более того, в данном
случае реализуется такая своеобразная ситуация, когда всякий
допустимый закон управления и(-) тривиальным образом
оказывается для выбранной исходной позиции {£#, х*} (6.31)
оптимальным.
Итак, справедливо равенство
р[и*(·); **,**] = minp[w(.); t*,x*] = ρ0(**, я*) =0, (6.39)
u(·)
каков бы ни был допустимый закон управлениям* (·).
Так как измеримая функция zzM =Ы*] ε/>, ί0 <*<#),
зависящая только от времени £, является частным случаем
рассматриваемых здесь допустимых функций и(-) (6.8), то
заключаем, что для рассматриваемой исходной позиции {ί*, χ*} (6.31)
всякая зафиксированная допустимая реализация управления
и [ί* [ · ] О) тоже гарантирует лишь результат, равный нулю. Та-
57
ким образом, для данной позиции и любая допустимая функция
μ(-) (6.8) липшицева по х, и любая допустимая функция иМ,
от χ вообще не зависящая, гарантируют одинаковый результат,
равный нулю. Этот результат не является случайным, как это
показано, например, в статьях [47, 61].
Бели обратиться к картине из § 5, которая трактует
формирование реализации ν [t# [ · ] θ) как действие некоторого
оператора Ψ (5.3), то можно сказать, что для зафиксированной
исходной позиции {ί*, х%} (6.31) существует оператор V (и(·);
**?##) (действующий над законами и(·)), который для всякого
допустимого закона управления и(-) определяет реализацию
уСР*] !*♦[·! Ф)> порождающую вместе с и(-) движение
я^*1^* [·]θ], #[β*3 [£#] = х+, удовлетворяющее условию χψ*] [О]—
— д*з Щ = г["*3[0]=0. Для выбранной исходной позиции {t*, x*}
(6.31) этот оператор Ψ является оптимальным для второго
игрока, если мы приписываем этому игроку (внешней среде V)
тенденцию противоборствовать нашим действиям. Для построения
такого оператора Ψ надлежит согласно предыдущему указать
операцию, которая для всякого закона управления и(·)
вычисляет подходящее число β* =^*(и(·)). Согласно (6.33) это будет
операция, разрешающая уравнение
ϋ
г*+ ( (<{>lt]u(t,x[*][t])-yp[t]$)dt = 0 (6.40)
относительно β. При этом#[β] [t] (έ* ^ t ^θ), χ№ [t%] = x#, есть
решение дифференциального уравнения (6.37). (Существование
корня β = β*(^(0) уравнения (6.40) доказано выше
неконструктивно на основании теоремы Больцано.) Для примера уравнение
(6.40) было решено на ЭВМ при численном интегрировании
дифференциального уравнения (6.37) для выбранной исходной
позиции (ί#> х*} (6.31) для следующих законов управления:
(1) u(t, χ) = μ sin Xi · cos x2 · sin x3 · sin xk · sin 2£,
(2)α(ί,χ)--μτ^π.
При этом были выбраны параметры μ = 2,5; m = 0,01; Φ = 10;
г* = 4,5. Графики соответствующих функций у[ [έ# [·]θ),
дГ][ί* [·]*]- qWi™ lt*l·]*], 4β*] [U Ι·]·θ] = ?(2)[β*] Ιί. 1·]β]
и w [£#[·] θ) = {и (ί, я[Р*][£])> £*<[£<$} для каждого из
случаев (1), (2) приведены на рис. 6.3, 6.4.
Теперь для того, чтобы скомпрометировать рассматриваемый
класс допустимых законов управления и(-) (6.8), рассмотрим для
того же самого объекта F один способ управления °U*, который
также не требует большей информации, чем данные о
реализующихся позициях {i, xlt]}. (Увидим, что °U* требует совсем
немного из этих данных.) Для той же исходной позиции {ί*,
##} (6.31) этот способ управдения °U* гарантирует для первого
58
игрока гораздо лучший результат р[^#; £#, я*], чем нулевое
значение р[и{·); £*,#*] (6.38), гарантируемое для этой позиции
{£#? ##} любым законом управления ^(5.7), который задается
допустимой функцией (6.8) и работает в непрерывной схеме
управления. Роль информационной переменной для предлагаемого
Рис. 6.3.
а1
и
2
-4
-8
-11
46
\Ъ>Чг
Κι> δ
ч№\
a
8 10 t
W*J
u,v
4 6 δ ю t
н 1 1 η-
υ\Ρ]
Рис. 6.4.
закона управления *°И будет играть величина г (6.20). Введем
функцию
τ
Ψ [τ] = f [ψ [t] — μφ [t]] dt, τ <τ, (6.41)
где τ есть корень уравнения (6.28). Согласно (6.29) при t<x
подынтегральное выражение в (6.41) положительно, поэтому при
τ<τ функция Ψ [τ] положительна. Предлагаемый закон °tt*
формирует реализацию управления и [t* [ · ] θ) следующим
образом. (Теперь вплоть до соотношений (6.43) включительно
символ {£*,#*} будет обозначать любую позицию из области G,
а не обязательно позицию (6.31), как это было выше.) Пусть
случилась некоторая исходная позиция {£#,#*}· Начальному
фазовому состоянию χ [£*] = х% отвечает начальное значение
г[£]*=г* (6.24), (6.25) переменной г. Рассмотрим возможные
случаи.
59
Пусть ί*<τ. Случай (Ι.1+): г* > Ψ [£*], тогда u[t*[-]0) =
= {^[ί] = μ;ίΗ:<ί<θ}. Случай (Ι.1-): r*< — Ψ[ί*], тогда
α[*·[·]θ) = {ΜΜ* —μ;ί#<ί<*}. Случай (1.2): | г* | < Ψ [f*
тогда реализация и [t* [ · ] О) складывается из двух частей:
и [*♦ Η т) = {и [£] = 0, t* < ί < τ} и в случае (1.2+), когда
окажется гЫ X), назначается реализация юМ-КН = {ultl = μ; τ<£<
<'&}, а в случае (1.2""), когда окажется гЫ <0, назначается
реализация и(т[-Ш = {u[t\ = —μ; τ < t < φ}.
Пусть ί* ;> τ. Случай (ΙΙ+): г* !> О, тогда и [£* [ · ] θ) = {и [t] =
= μ; ί* < ί <θ}. Случай (Ц-): г* <0, тогда φ♦[·]#) = ίφί =
= -μ, ί*^ί<θ}.
После подстановки в (6.21) значений w = w[£], отвечающих
реализациям и [t* [·]*)> формируемым по закону Щ*, и
значений v = v[t], отвечающих произвольной реализации *>[£#[·] θ)
можно, опираясь на ограничение | ν [t] | ^ 1 (t* ^ t < θ),
построить подходящие дифференциальные неравенства, интегрируя
которые, получим в каждом из случаев следующие неравенства:
(1.1+) г [О] > г* - Ψ [**] + f (μ<ρ [ί] - ψ [φ Λ,
«%»
τ
(Ι.1-) г [φ] < г* + Ψ [ί*] - J (μφ [ί] - ψ [t]) Λ,
τ
(1.2+) Γ[θ1>5(μφϊί]-ψ[ί])Λ,
Г (6.42)
(Ι.2-) Γ[θ]<-('(μφ[ί]-ψ[ί])ώ,
τ
(И+) г [О] > г» + J (μφ It] - ψ U]) Λ,
(II-) r [ft] < г# - J (μφ [*] - ψ If]) dt.
f*
При этом в каждом случае, кроме (1.2"), можно подобрать
помеху ν [t* [ ·] θ) так, что в (6.42) будет выполняться равенство.
Отсюда вытекают для гарантированного результата р[^#; t*, ##] =
= sup (—I г [О] I) следующие значения:
(I.1+), (Ι.1~) ρ \°U*\ **, **] = - | г* | + Ψ [**] -
-ί(μφ[ί]- + [«)Λ, (6.43)
τ
60
(I.2+), (I.2-) ρ YU*\ **, x*\ = - J (μφ [t] - ψ [ί]) dt,
(ΙΙ+),(ΙΙ-) ρ [2/*; ί*, **] = -|г*|- |(μφ[ί]-ψ[*])^·
Из (6.43) с учетом неравенств (6.29) следует, что для всякой
исходной позиции {£*, х%], за исключением только случая ί* =θ,
г* = 0, описанный способ управления °и* дает гарантированный
результат р[^#; ί*, я#]<0. Иначе говоря, этот способ
управления °U* для всякой нетривиальной исходной позиции {£#, ##}=
= U*> ??\ Ц(+\я(*\ <7*2)) (ί*<^) гарантирует строго
положительное рассогласование | ςω [О] — д(2) [θ] | ]>—ρ t^*; £*, х*]>0. В
частности, для исходной позиции {£#, я*} (6.31) (которая при
условии (6.36) относится к случаю (1.2)) данный способ
управления °U* согласно (6.43) гарантирует рассогласование:
| g(D щ _ g(2) [θ] I > j (μφ [fl _ ψ It]) Л я
τ
= μ(#-τ)- (θ~τ)2 + τημ[ί - βί?-*)/™]. (6.44)
Выбирая в (6.30) достаточно малое число б > 0 и подбирая т
из условий (6.30), (6.36), а затем, если понадобится, уменьшая
еще величину т должным образом, мы обеспечим неравенство
\q^m^q™№\>\ML (6.45)
В то же время согласно (6.38) никакой допустимый закон
управления и(-) (6.8) не может гарантировать для выбранной
исходной позиции {ί*, χ*} (6.31) никакого положительного
рассогласования |g(1)[fl·] — д(2)[ф]|, хотя бы сколь угодно малого.
Итак, задавшись любым сколь угодно большим числом N,
можно выбрать число μ в условии (6.1) достаточно большим,
а затем подобрать значение т достаточно малым, и этим путем
получить управляемую систему (6.1), (6.3), обладающую
следующим свойством. Для исходной позиции {ί*, q£\ q^\ qf\ q^)} =
= {О— 4μ, г*, 0, 0, 0} гарантированный результат для
рассогласования |д(1)[<Я — qi2)M\ при выборе закона^* будет по
крайней мере на величину N лучше для нас, чем гарантированный
результат для того же рассогласования |д(1)[,&] — qi2)M I при
законе управления м°(·), оптимальном в классе допустимых
законов и(·) (6.8), задаваемых функциями и(£, #), липшицевыми
по χ и измеримыми по t Разница между названными
гарантированными результатами будет ρ [^#; £#, х*] — р[и°(·); ί#, #*]<
<-μ2/4<-#.
Приведем для примера результаты построения движений
x\t* [·] Ό·], порожденных законом управления °11* для различ-
61
ных исходных позиций {£#, ж*} и при различных реализациях
помехи ι>[£* 1·]Φ)· Были просчитаны на ЭВМ следующие случаи:
** = 0, х* = {4,5; 0; 0, 0},
() y[i]=0,2, 0<f<10;
(2)
ί, = 6, ж* = {2,0; 5,0; 0; 0,5},
6<ί<8,
8 < t < 10.
_ί-ι,
p [t] ~ 12е-з(г-в) — 1,
При этом были выбраны параметры μ = 2,5; то = 0,01; θ = 10.
Результаты представлены на рис. 6.5, 6.6.
υ®
10 t
ί/Κ
Рис. 6.5.
Μ'4*-
Φ
Ч 1- vj h
4 £
ft Μ
/0 *
Рпс. 6.6.
Рассмотренный пример 6.1 показывает, что уже в случае
достаточно простой модельной задачи выбор допустимых
законов управления <2/(5л), которые задаются функциями и() (6.8),
стесненными условием Липшица по х, и при этом построение
движений χ [£* [ · ] Щ как решений дифференциального уравнения
(5.4) слишком сужают наши возможности. Ни один из таких
допустимых законов управления и(·) не может конкурировать
с законом управления °U^ построенным иначе, без
выполнения условия липшицевой зависимости управляющего
воздействия и от х. Здесь, правда, еще остается вопрос о том, не
поможет ли делу замена условий Липшица по χ (5.5) условием
только хотя бы непрерывности функции и(£, х) по х. Ответ на этот
вопрос оказывается отрицательным. Именно, в случае того же
62
объекта из примера 6.1 можно показать, что расширение класса
допустимых законов управления и(-) (6.8) за счет ослабления
условий Липшица по χ (5.5) до условий только непрерывности
функции u(t, χ) по χ не д&ет выигрыша для оптимального
гарантированного результата. Не будем приводить здесь
обоснования этого утверждения. Вопрос о неулучшаемости
гарантированного результата для тех или иных классов допустимых законов
управления °U обсужден более основательно в §§ 11, 12*, 13*,
18, 22*, 23*. Отметим пока лишь одно обстоятельство, которое
возникает при переходе к допустимым функциям u(t, x), только
непрерывным по х. При выборе такой функции u(t, x)
уравнение (5.4) для одной и той же исходной позиции {£#, х*} и при
одной и той же реализации ι> [£#!·]*) может иметь не
единственное решение x[t% [·]0]. Это неудобство обходится так.
Следуя идеологии оценки качества управления по самому
неблагоприятному для нас стечению неконтролируемых нами
обстоятельств, определим теперь гарантированный результат для
выбранного закона управления и(·) равенством
р[и(·); **ι **] β SUP S^P о(х[Щ). (6.46)
Иначе говоря, если для данного закона управления <2/(5.7) =
= {и(·), (5.1); (5.2)} для некоторой исходной позиции {t#, x*}
при той или иной реализации помехи v[t# [·]θ) уравнение (5.4)
может иметь не одно решение x[t* ['!#], то для этого закона
управления и(-) для этой исходной позиции {ί*, ##}
гарантированный результат ρ определяется как верхняя грань значений
показателя качества γ (здесь γ = σ(#[/&])) по всем возможным
реализациям помехи ν U* [ · ] θ) и по всем возможным при этих
реализациях ν [t * [ ·] Φ) движениям х [t* [ ·] ϋ]. Таким образом,
допустимый способ действий Ψ второго игрока — внешней
среды — позволяет теперь этому игроку наряду с формированием
любой реализации помехи ν[ί%[·]ϋ) еще и выбор движения
&[*♦[·]#] (если для исходной позиции {£#, х*} пара {и( *),
*>U*l·]^)} оставляет свободу подобного выбора среди решений
уравнения (5.4)). При таком подходе к делу для системы из
примера 6.1 можно опять доказать, что для исходной позиции
{£*т #*} (6.31) справедливо равенство
РМО; **, **]= sup sup (- \хх Щ - хъ [в] |) = 0, (6.47)
каков бы ни был закон управления и(-) (6.8), задаваемый
функцией u(t, x), измеримой по ί и непрерывной по х. Строгое
доказательство этого утверждения следует из результатов, данных
в [4], с. 239 (см. также ниже § 23*).
Дальнейший анализ ситуации в общем случае (см.,
например, [4] и ниже § 23*) приводят к мысли, что пока не удалось
найти более или менее широкий класс функций и{·) (5.1) для
общего уравнения (4.3) так, чтобы дифференциальное уравнение
(5.4) удовлетврряло условиям той или иной удобной стандартной
63
теоремы о существовании решения #[£#[·]#] и чтобы при этом
минимальный гарантированный результат р°(**» ##) для этого
класса функций и(-) не мог быть существенно улучшен
выбором иного способа управления °U, который также не
использует информацию, выходящую за рамки сведений о
реализующихся позициях {*, x[tl). Подчеркнем, что речь идет о
возможности построения более или менее общей теории.
Разумеется, при исследовании той или иной конкретной задачи, особенно
если фазовый вектор χ имеет малую размерность, трудности
интегрирования уравнения (5.4) можно пытаться обойти тем или
иным конкретным путем. Например, возможно склеивание
движений на границах подходящих областей в пространстве {£, #},
внутри которых функции u{t, x) являются достаточно хорошими.
Так, в случае системы из примера 6.1 можно определить
удачный закон управления и*(-) = {и*(£, я), t0^t<$} при помощи
разрывной по χ функции
u*(t, x)=u(t, r), (6.48)
где
τ<*<0
*ο<*<τ.
(6.49)
μ, r>0,
— μ, r<0,
Z(t,r) = \ μ, ^>Ψ[ί],
μΓ/Ψ[ί], |Η<Ψ[ί],
Ι-μ, г^-Чфд
Функция w*(i, χ) (6.48), (6.49) терпит разрыв на поверхности
г = О, τ < t < θ, т. е. на поверхности
r = Pi-p3=S[4J)(^0)-4i)(i, θ)Κ=0, ΐ<ί<θ. (6.50)
3=1
соответ-
(6.51)
В данном случае анализ решений xlt] (ί*^ t ^ О)
ствующего уравнения (5.4), т. е. здесь уравнения
х = Ах + Ьи* (ί, χ) + cv [t], t* <*<C&,
вблизи поверхности разрыва (6.50), не составляет больших
трудностей. Этот анализ проводится на основе прямого
интегрирования уравнения (6.51) в областях г>0 и г<0 при τ<ί<Φ.
Получается, что решение xlt] уравнения (6.51), если оно
начинается на поверхности (6.50), сразу уходит от этой
поверхности и уже больше не приближается к ней с возрастанием
времени £, какой бы ни была реализация ν It#[-]$). .В самом
деле, согласно (6.21), (6.29), (6.49) и вследствие неравенства
|у[£]|^1 для таких движений xlt] в области г>0, τ<ί<0
справедливо неравенство r[t] >0, а в области г<0, τ<£<Φ —
неравенство fit] < 0 (при почти всех значениях t). Поэтому
здесь движения #[£*[·]#] можно без осложнений трактовать
64
как решения уравнения (6.51) с разрывной по χ правой частью.
И можно убедиться, что при таком истолковании движений
sl*#l*10] закон управления и*(£, х) дает гарантированный
результат ρ[α*(·); *#> х*\, который совпадает с гарантированным
результатом ρ VU*, *#, х*\ (6.43) для всякой исходной позиции
Для примера на рис. 6.7, 6.8 приведены графики
некоторых движений, порожденных законом управления ю*(·) (6.48),
(6.49) и вычисленных на ЭВМ, и графики функций αί·], ν[·ί.
При этом были выбраны те же данные (1), (2) и параметры, что
и при вычислении движений, порожденных законом управления
°U*. Рис. 6.7 соответствует данным (1), рис. 6.8 — данным (2).
№ϋ
Ί
-2h
Рис. 6.7.
ий
+-^чн 1 1 н-*-
6 8 10 t
№
Рис. 6.8.
Следует иметь в виду, что анализ решений уравнения (6.51)
на поверхности разрыва (6.50) оказывается здесь несложным, так
как закон управления и*(£, х) уже объявлен. Позже выяснится,
что гарантированный результат ρ [гг* (·); £*, χ+] = ρνΜ+; £*, χ*
(6.43) можно с большим основанием назвать оптимальным (см.
§ 7). Однако если мы только ищем подходящий закон
управления и, стало быть, только ищем подходящие области непрерыв-
5 Η. Η. Красовский 65
ности искомой функции w(i, #), то исследование неизвестных
априори поверхностей разрыва функции u(t, χ) весьма
осложняется. Подбор областей непрерывности функции и(£, х) и анализ
поведения движений на их границах часто оказывается трудной
задачей, которая требует специального искусства. Примеры
таких исследований можно найти в работах [27*, 11. Следует
также сказать, что законы управления и(·), построенные на основе
разрывных функций uit, χ) и склеивающие движения #[£#[·]$]
из решений дифференциального уравнения (5.4), лежащих в
областях непрерывности функции u(t, x), оказываются часто
неустойчивыми. Так, в случае функции (6.48), (6.49), если мы
допустим, что информация о реализации позиции {£, xlil}
поступает с малым запаздыванием τ>0 и в момент t на деле
работает воздействие
и [t] = и* (*, χ [t — τ]), t* < t < θ, (6.52)
то может получиться движение x[t% [·] Φ], которое даст
значение γ, намного худшее, чем гарантированный результат р[и*(·);
*» #*]· Это может быть движение, идущее вблизи поверхности
(6.50) и переходящее
попеременно из области г<
<0 в область г>0 и
обратно (см. рис. 6.9). И
можно строго проверить,
что такие движения
возможны при сколь угодно
малом τ > 0. Функция гМ,
изображенная на рис. 6.9,
построена для движения
# [£* [·]θ], найденного
численным интегрированием
уравнения χ = Ах +
+ bu*{t, x[t - τ]) + cv[t]
на ЭВМ при следующих
данных: τ = 0,01; ί* = 8,0;
^ = (0,0125, 0, 0, 0);μ =
= 2,5; m = 0,01, θ = 8,4.
В этой книге метод
склеивания движений из
кусков, лежащих в
областях непрерывности
функций u(t, x), как общий
метод теории дифференциальных игр не рассматривается.
Резюмируем этот параграф. Выявленные в нем
обстоятельства побуждают нас отказаться от той формализации задачи
о минимальном гарантированном результате р° (£#, х*), которая
была предложена на пробу в § 5 и основу которой составляла
непрерывная схема управления, трактующая движения
#[£*[']#] как решения дифференциального уравнения (5.4) с
0,011
Ο,ΟΟΑ
0,004
-0,004\
-0,008\
-0,0/2
Рис. 6.9.
66
достаточно хорошей правой частью /(£, х, u(t, χ), v[t]). Мы
предпочтем формализацию задачи, основанную на предельном
переходе от дискретной по времени схемы управления при условии,
что шаг схемы стремится к нулю. Эта формализация удобна
для построения теории. И эта формализация имеет смысл для
приложений. Осуществление движений в дискретной схеме
управления с малым шагом представляется естественным, если
управляющие воздействия в реальной системе вычисляются в
органе управления при помощи цифровой быстродействующей
ЭВМ.
§ 7. Постановка задачи
Сформулируем задачу, которая является основным
предметом исследования в этой книге.
Рассмотрим канонический случай. Это означает следующее.
Эволюция управляемого объекта F описывается
дифференциальным уравнением (4.3), где функция /(·) удовлетворяет условиям,
указанным в § 4, в том числе неравенствам (4.4) и (4.5).
Управление и и помеха ν стеснены включениями (4.1) и (4.2),
причем Ρ и Q -— компакты. Зафиксирована область G (4.18). Нас
будут интересовать только позиции {i, xit]} из этой области.
Предложен показатель качества процесса управления. Этим
показателем является значение γ некоторого функционала
У (# U* [·] Φ], и [t* [·] Φ), ν [t* [·] О)), вычисляемого на движении
и на реализациях управления и помехи, связанных с этим
движением дифференциальным равенством (4.7). Такую тройку
{я и*1"1^Ь и[*#Н^)> *> U* I · 1Ф)} будем называть реализацией
процесса. Ограничимся функционалами следующего вида.
Предположим, что заданы скалярные функции σ(ί, χ) и χ(ί, χ, и, ν)
для ίο^ί^θ; # = {#!, ..., #ЛХ—оо <#*<«>, i = l, ..., п)\ u^P,
v&Q. Функция σ(ί, χ) при каждом фиксированном х
ограничена и измерима по t, при каждом фиксированном t^[t0, θ] она
удовлетворяет условию Липшица по χ
| σ (,, *ω) _σ(ίί ^2))J<λ(τ.ι)Jχω _ χω| (7Л)
при |я(<)КД U=l, 2; 0<Д<оо).
Функция χ(ί, χ, и, ν) ограничена в области Ш, ж}е(?, и^Р,
v^Q); при фиксированных х, и ή. ν она измерима по £; при
фиксированном t она непрерывна по совокупности переменных
{х, и, и). По переменной χ функция χ(ί, #, и, ν) удовлетворяет
условию Липшица
| χ(t, xw, u,v)-X(t, *(2\ и, ν)Ι <λ£·2)Ιχω - x(2)| (7.2)
при всех возможных значениях аргументов £, щ ν при \x(i)\ ^
<i? (*=*1, 2; 0<i?<oo)# Пусть, кроме того, на отрезке [£<>, θ!
задана некоторая мера μ(Γ), Τ € ^Г[*0,&] (см. § 2).
Предположим, что мы интересуемся процессом, начиная от
момента ί*, отправляясь из позиции {t^ x#}. Пусть в ходе
5* 67
управления сформировалась реализация процесса
{*[**НОЬ и Ι**!·]*), »[*#[·]*)}-
= {^ U], ί*<*<θ; и [t], vIt], ί* < * < Щ. (7.3)
Этой реализации (7.3) припишем показатель
Υ = Υ(*[ί* [·]0], Μ[ί* [·]*), »[*#Н0)) =
= f σ (t, ж [*]) μ (Λ) + f χ (*, * [q, и [*], y [*]) dt. (7.4)
В частности, если вся мера μ(·) сосредоточена в точке f = #
и эта мера μ(ί = О) = 1, то показатель γ определяется
равенством
у = σ (θ, χ [ϋ]) + \ χ (ί, ж [*], и It], ν It]) dt. (7.5)
i*
Содержательно задача заключается в поиске закона
управления, который обеспечивает возможно меньшее значение γ.
Формализуем ее следующим образом.
Назовем допустимой стратегией и(-) любую функцию
u(-) = {u(t, χ, e)^P,it, rieG, ε >0}. (7.6)
Здесь ε есть некоторый параметр точности. Его значение мы
можем выбирать по своему желанию. Это значение ε остается
неизменным для всей реализации процесса при £#*О<10.
Допустимый закон управления °И, отвечающий стратегии и(·),
определяется тремя компонентами: стратегией и(-) (7.6), значением
параметра ε и разбиением AOJ, i = l, ..., k+ί, t1=t^, £<+1>й,
tk+l = θ. Запишем это символически так:
<Un.D = {ul·), ε, Δ}. (7.7)
Пусть выбрана некоторая стратегия и(·) (7.6). Пусть
реализовалась исходная позиция {t*, χ*}. Назпачая ε и Δ, определим
допустимый закон управления Φί(7.7), отвечающий выбранной
стратегии и(·). Движение #[£#[']$]> порожденное законом
управления <2/(7Л) из позиции {г*, х*}, определяется как решение
пошагового уравнения
x[t] = /(i, x[t], u(tit хШ, ε), v[tl),
ti<t<ti+i, i = l, ..., к, (7.8)
при начальном условии x[t}] = ##. Начальное состояние x[U] для
отрезка U ^ t ^ ii+4 при i > 1 совпадает с конечным состоянием
хШ для предыдущего отрезка U^^t^U В уравнении (7.8)
функцией v[ti[']U+i) = {v[t\^Q, ti<:t<ti+l} может быть любая
допустимая реализация помехи. Мы игнорируем механизм У,
который формирует реализацию v[ti[*]ti+i), постулируя для нее
включение v[i\ <ξ Q и свойство измеримости. При наших усло-
68
виях при фиксированной реализации v[ti[-]ti+i) функция
/(£, х, u(tu #[£<], ε), v[i\) при фиксированном χ оказывается
измеримой по ie[ii, ti+l) согласно теореме 2.1 о суперпозиции
измеримых функций /(·, х, uiU, хШ, ε), ·) и ν[-] (см. § 2). По
переменной χ функция /(£, #, u(tu #[£j, ε), vlil) удовлетворяет
условию Липшица (4.4). Поэтому на каждом отрезке ti<t<ti+l
существует решение x[ti[-]ti+i] уравнения (7.8). Это решение
является абсолютно непрерывной функцией x[t] (t{<t<:ti+l), для
которой равенство (7.8) выполняется при почти всех t^(t{, ti+i).
Если при выбранном законе управления °и{1Л) для некоторой
исходной позиции {£#, *^*}
при каких-либо двух способах T{i)
и У{2) формирования помехи ее реализации ь,(1 [** [·]#) и
^(2) U* 1*1 Φ) совпадут, то соответствующие движения χ [£#[·] θ]
и #(2) [£#[·] ΰ] также совпадут. Совпадут и соответствующие
реализации управления w(1) [£#[·] θ) и и( [ί* [·] fl). Это следует из
единственности решений уравнения (7.8) на каждом шаге £<<
<:t<:ti+l (при фиксированной реализации v[ti[-]ti+l)).
Таким образом, исходная позиция {£#, х*}, назначенный
закон управления <2/(7.7) и реализация помехи ν [£#[·] Ф)
определяют единственным образом движение х [i# t · ] Щ и реализацию
управления и [t* [·] ϋ) = {и It] = и(th x[ij, ε), U<t< ti+i, i =
= 1, ..., к). Стало быть, эти данные {ί*, χ*}, °U, v[t*[-]b)
определяют единственное значение γ (7.4). Выразим это
следующей записью:
Y-YCW, ι; [**[·]*); **.**)· (7.9)
Интегралы в правой части (7.4) существуют для реализации
процесса (7.3), порожденной каким угодно набором допустимых
данных °U, v [t% [·] ΰ·), {J*, я*}. В самом деле, вследствие
теоремы 2.1 о суперпозиции измеримых функций подынтегральные
функции в (7.4) оказываются измеримыми. Кроме того, эти
функции ограничены.
Для фиксированных закона управления *2/(7.7) и позиции
{iju, х%} гарантированный результат p\°U\ t%, x%] определяется
известным уже равенством
ρ [2/; **,**] = sup γ(<W, ι;[**[·!<>); *·.**) (7.10)
(см. для сравнения (1.14) и (5.10)). Здесь, как и в (5.10),
верхняя грань значений γ вычисляется по реализациям процесса,
отвечающим множеству всех допустимых реализаций помехи,
которые являются измеримыми функциями,, ν [t# [ · ] θ) = {ν [t] e Q,
t*<^t < ЩЛВ обозначениях верхних и нижних граней,
максимумов и минимумов будем писать снизу иногда обозначение
аргумента, а иногда обозначение множества значений аргумента,
по которому вычисляется верхняя или нижняя грань, максимум
или минимум. С учетом контекста это не должно вызывать
недоразумений.)
69
Теперь, однако, основную роль будет играть
гарантированный результат ρ [и (·);£*, х*\ для стратегии и(-). Эта величина
определяется следующим образом. Обозначим символом Δδ (δ>0)
разбиение, удовлетворяющее условию
max (ίΗ-ι — *ί)<δ· (7.11)
Учитывая (7.7), запишем величину (7.10) в такой форме:
q[°U\ t*, х*\ = ρΜ·), «ι Δ; **, χ*\. (7.12)
Гарантированным результатом для фиксированной стратегии
и(·) для исходной позиции {£#,##} назовем величину
р[гг(·); **, **] = Hmlimsupp[w(.), ε, Δδ; £*, χ*]. (7.13)
Предел по б в (7.13) существует, так как при
фиксированных и(0, ε и {£*, х*} величина под знаком этого предела
является ограниченной и неубывающей функцией от б. Из
определения величины ρ [и (·); £#, х*\ следует справедливость такого
утверждения.
Пусть выбрана стратегия и(·) и случилась исходная позиция
{£#>#*}· Тогда для любого сколь угодно малого числа ξ>0
найдутся число ε(ξ)>0 и функция δ(ξ, ε) >0, ε ^ ε(ξ) такие, что
будет справедливо неравенство
?(*[*♦ ИО], u[t* [-]<>), !;[**[■]<>))< Ρ И·)', **, χ*) + ζ (7.14)
для реализации процесса (7.3), порожденной из позиции {ί*, χ*}
каким угодно законом управления Ш^.^ = (и(·), ε, Δ*) и любой
реализацией помехи у [**[·] θ), если только будут выполнены
условия
ε<β(ζ), 6<δ(ξ, ε). (7.15)
Значение p[u(·); £#, χ*\ (7.13) есть наименьшее из чисел ρ,
обладающих подобным свойством.
Если для данной стратегии и(·) при всяком значении ξ >0
можно выбрать ε(ξ) >0 и δ(ξ, ε)>0, ε^ε(ξ) не зависящими
от позиции {£#, ^}еб, т. е. так, что из неравенств (7.15)
будет следовать неравенство (7.14) для всякой исходной позиции
{ί*, ^} g G, то гарантированный результат ρ [и (·); t*, x*\ будем
называть равномерным (для области G).
Назовем стратегию и°(0 оптимальной {минимаксной), если
для нее справедливо равенство
р[и°(·); **, **] ==minp[^(.); U, х+\ (7.16)
"(·)
для всякой исходной позиции {ί*, s#} е ίτ. Здесь минимум
вычисляется по всем допустимым стратегиям и(·) (7.6). Если
гарантированный результат ρ [и0 (·); £*, ##] является равномерным,
то стратегию и°(·) будем называть оптимальной равномерно.
70
Величину
ρ 1и°(·); **> x*] - Putt*' x*) (7·17)
будем называть оптимальным гарантированным результатом для
исходной позиции {£#, ##}. Если оптимальная стратегия и°(·)
равномерна, то оптимальный гарантированный результат
Ри(**, ж*) назовем равномерным. Величина р° (ί*ι ^*) (7.17)
определена согласно (7.16) как минимум на допустимых стратегиях
и(·), а не более осторожной операцией вычисления нижней
грани по допустимым и(·). (См. для сравнения равенство (1.29) и
замечания к нему.) Мы позволяем себе это потому, что ниже
в § 29 будет доказано существование оптимальной (и притом
равномерно) стратегии м°(·) (7.16) во всяком каноническом
случае.
Итак, сформулируем нашу основную задачу управления
следующим образом.
Задача 7.1. Найти оптимальный гарантированный
результат Ри(£*> #*)и оптимальную минимаксную стратегию и°().
Обратим внимание на то обстоятельство, что искомая
оптимальная стратегия и°(-) по ее определению должна быть
универсальной, ибо условие (7.16) должно выполняться для одной
и той же стратегии и°(·), т. е. для одной и той же функции
и°(') = {и°(г, я, е)еР, {*, *}e=G, ε>0>, (7.18)
какова бы ни была исходная позиция {ί*, ^}еб. Требование
найти оптимальный гарантированный результат pj (£#, χ*)
означает найти функцию Pu(i*» #*) (указать способ ее вычисления)
для всех позиций {*#, ^}efi.
Постановку задачи 7.1, основанную на оценке закона
управления <2/(7.7) по гарантированному результату ρ [^; ί*, χ*]
(7.10), можно критиковать (и это часто делается) за
чрезмерную осторожность, ибо эта оценка ориентируется на самые
неблагоприятные, «маловероятные» (?!) действия со стороны
внешней среды. Не будем спорить с этой критикой. Вероятно, можно
назвать много реальных задач управления в условиях
неопределенной помехи, когда предложенный в этом параграфе подход
будет неудачным. В то же время, вероятно, могут быть и такие
реальные задачи управления, где имеет смысл исходить из
оценки по гарантированному результату. Заметим в порядке
аналогии, что при проектировании ответственных конструкций расчет
на наиболее неблагоприятные случаи нагрузки до последнего
времени остается признанным подходом в инженерной практике.
Поэтому, не обсуждая те или иные посторонние доводы в
пользу или против такого подхода к задачам управления,
ограничимся констатацией, что в этой книге строится и исследуется
одна из математических моделей, отвечающих этому подходу к
делу. И смысл и возможности этой модели иллюстрируются на
простых примерах.
71
Данная в § 5 формализация задачи, основанная на
непрерывной схеме управления, выглядела, очевидно, не хуже, чем
формализация задачи 7.1, основанная на предельном переходе
(7.13) от дискретной по времени схемы управления (7.7), (7.8).
Однако от формализации из § 5 мы отказались после разбора
дискредитирующего примера 6.1. Подчеркнем, что этот отказ
был обусловлен не тем, что в классе допустимых в § 5 законов
управления и(·) (5.1), назначающих воздействие u[il (5.2) и
формирующих движение я [£* [ · ] Ф] как решение уравнения (5.4),
может быть, не было оптимального (в этом классе) закона
управления. Отказ от схемы из § 5 был обусловлен более
существенным обстоятельством. На примере было показано, что уже
в достаточно простом и естественном случае задачи возможно
найти закон управления °U*, гарантирующий такой результат
Ρ [^*; **> #*],к которому никак нельзя приблизиться на
некоторую конечную (и даже весьма большую!) величину N за счет
выбора допустимого закона управления и(-) (5.1),
формирующего воздействие u[t] по правилу (5.2). Возникает вопрос: не
грозит ли такая же дискредитация и задаче 7.1,
формализованной на основе предельного перехода от дискретной схемы
управления? Чтобы ответить на этот вопрос в благоприятном для
задачи 7.1 смысле, надлежит показать, что при строгой формально
и более или менее убедительной содержательно постановке
вопроса не существует способа формирования воздействий и[Й,
который обеспечил бы существенно лучший результат, чем
величина Ри (**,##) (7.17). Проверка этой истины предложена в
следующем параграфе включением задачи 7.1 в некоторую
дифференциальную игру. Это включение данной задачи в
дифференциальную игру покажет также целесообразность предельного
перехода при δ -* 0 в определении гарантированного результата
p[w(·); t%, х*\. Содержательно это означает, что приближение
к нулю шага δ в предлагаемой схеме управления не ухудшает
результат, улучшая его, вообще говоря. Это естественно, так как
уменьшая шар δ, мы обогащаем информацию о текущих
состояниях объекта i[fj, которая используется в процессе управления.
Вопрос о неулучшаемости оптимального гарантированного
результата ρ [гг° (·); £#, £#1(7.16) с некоторых достаточно общих
позиций обсуждается также в §§ 11, 12*.
Пример 7.1. Вернемся к задаче из § 1 (см. также
пример 4.1). Сохраняя без изменения основные условия этой задачи,
представим ее как частный случай задачи 7.1. В этом случае
объект F характеризуется двумерным фазовым вектором χ =
= tei, х2}, Χι = q, %2 = q, который подчинен дифференциальному
уравнению (4.28). Управление и и помеха υ суть скаляры.
Примем, что они стеснены условием (4.29). Согласно (4.28) и
(6.9) здесь постоянная Липшица λβ *4) = 1 при всяком Я, а
постоянную λ(4·5) можно выбрать такой: λ(4·5) — 2М/т. (Полагаем
2М/т>1.)
72
Отсюда следует, что область G (4.18) можно выбрать так:
G = [{t, χ):
t9<t<0, \x\<(l + RQ)exv{(2M/m)(t-t0)}-l], (7.19)
гДе R0 есть какое-нибудь фиксированное достаточно большое
число. Таким образом, имеем канонический случай. Согласно (1.13)
функционал γ(·) (7.4) в данном случае имеет вид
Υ = Υ(*[**[·]*1, и[*»[-]0), ι;[**[·]<>)) =
~ [*х (хх т - qBf + e2xl [Ъ)]т +
+ f [φ (τ) и2 [τ] - ψ (τ) ν2 [τ]] dr. (7.20)
Полагая, что выполнено равенство
σ (О, χ [*]) = [ех (хг \ϋ) - Чв? + е2х\ [Щ]1/2 (7.21)
и выбирая меру μ(£ = θ) = 1, μ([ί*ί ^)) = 0, получим для
показателя γ (7.20) стандартную запись (7.4), где
χ(τ, χ[χ], иЫ, ι>Μ) = <р(т)и2Ы - ф[тЬ2Ы. (7.22)
Стратегия w(·) определяется функцией
#1, #2» β/ι {i,rieC, ε>0>, (7.23)
стесненной только условием
|и(£, ж1? я2, ε)| < Μ, it, xu x2) <=G{1A9). (7.24)
Закон управления °и{1^ определяется стратегией и(·) (7.23),
параметром точности ε и разбиением Δίί»}. Гарантированный
результат (теперь уже для любой исходной позиции {t*, χ*} =
= {**> ζ*ΐι #*2} = {**> 4*1 О.*}) Для закона <2/(7.7), который
отвечает стратегии (7.23), определяется равенством (7.10), и т. д.
Усложним несколько данную задачу. Предположим, что
указаны дополнительно два момента времени t1 <= (ί#, О) и ί2^
е (ί1? θ) и два пункта q{i) < g(2) на оси д. Пусть для заказчика
важно, чтобы груз проследовал в моменты времени ti пункты
g[*i], близкие к q(i). Пусть, кроме того, важно, чтобы в
течение времени tx ^ t ^ t2 груз шел со скоростью, близкой к
заданной величине с =(g(2) — g(1))/(i* —- **)· Тогда за отклонение от
этих условий заказчик может назначить дополнительный штраф
*
h
L = g1\x1 [U] - q(1) I + ft I *! [tt] - <7(2) | + J go |*2 W - с I dxt
(7.25)
73
где £t, gi и gc суть некоторые положительные весовые
(денежные) коэффициенты. Полагая выполненными равенства (7.21),
(7.22) и равенства
«(«?.*)-к-Л.
*(£,*)-к-Л, (7-26)
σ (ί, ж) = | х2 — с |, ί? < ί < ij,
и полагая для меры μ(70
(*(['*·'?))-О, μ(ί=ίί)=^,
μ((*?, *))-*(«-£), isii.i), (7.27)
μ («-£)-ft, μ((£,θ))-0, μ(ί = θ) = 1,
получим для показателя
γ - (βι fo [θ]- gB)* + *2** [θ])1/2 + ft I Xl [tl] - g(1) I +
+ g*\xi[U]-q(2)\+ f ^|Ж2[Т]-С|ЙТ +
(£ί)
+ J [φ (τ) u2 [τ] — ψ (τ) ι;2 [τ]] dr (7.28)
стандартное выражение (7.4). Таким образом, эта усложненная
задача снова может рассматриваться как частный случай
задачи 7.1.
Глава II
ДИФФЕРЕНЦИАЛЬНАЯ ИГРА
§ 8. Дифференциальная игра
При постановке задачи 7.1 способ формирования реализации
помехи ν [t# [ · ] О) игнорируется. В этом параграфе, однако,
обратимся к игровой картине процесса управления, которая дана
в § 5. Там внешней среде — второму игроку V — приписывается
способность формировать реализацию и [t* I · ] θ) на основе
некоторого закона Ψ, выбираемого среди допустимых законов,
определенных так или иначе. Не будем придавать такому подходу
физического истолкования. Введение подходящего класса
допустимых законов Τ преследует формальную цель. Строится
математическая модель, которая позволяет в рамках
предлагаемой формализации доказать, что гарантированный результат не
может быть уменьшен по сравнению с величиной ρ£(£#ι #*)(7.ΐ7)
ни для одной позиции {;*, ^}g(? ни на какую, сколь угодно
малую постоянную —ξ < 0 путем расширения выбранного в § 7
класса допустимых законов управления °и{1Л). Впрочем, если на
деле управление объектом F осуществляется в конфликтной
ситуации, где участвуют два реальных игрока U и F, которые
преследуют противоположные цели, предлагаемая модель игры
может иметь реальное истолкование.
Итак, примем, что второй игрок, формируя помеху, имеет
целью добиться возможно большего значения показателя γ (7.4).
Определим допустимый для второго игрока закон Ψ
формирования помехи, опираясь на понятие стратегии контруправления.
Назовем допустимой стратегией контруправления, короче —
контрстратегией, функцию
y(0„ = {y(i, я, и, 8)е(>, {ί, з}€=.<?, мер, ε>0>, (8.1)
которая при каждом фиксированном наборе £, #, ε измерима
по и^Р. Здесь ε — параметр точности, который имеет такой же
смысл, как и в случае стратегии и(·) (7.6). Допустимый закон
формирования помехи Т, отвечающий контрстратегии ι>(·)«,
определяется тремя компонентами: контрстратегией ι>(·)«,
значением параметра ε и разбиением Δ{£»} (ίχ = £*, U+ι >U, i =
=1, ..., k, t%+x = О). Выразим это символической записью
3^(8.2) = {ν(·)„, ε, Δ>. (8.2)
Пусть выбрана контрстратегия v(-)u и случилась исходная
позиция {£#, ##}. Выбор ε и Δ определит допустимый закон
Т^.гу Движение s[£#[«]0], порожденное законом У^^ из
позиции {£#, χ*}, определяется как решение пошагового уравнения
xit] = /U, x[t], ult], v(U, хШ, иЫ, ε)),
U^t<ti+U i=l, ..., ft, (8.3)
при начальном условии xlt^ = х#. Конечное состояние x[tt] для
отрезка t^^t^U есть начальное состояние xiU] для отрезка
ti ^ t <: ti+i при всяком г > 1. В уравнении (8.3) функцией
u[ti[-]ti+i) = {u[tl eP, ti<t< ti+l} может быть любая
допустимая реализация управления. Теперь уже мы игнорируем
механизм °U, который формирует реализацию μΙ£<[·]£<+1), постулируя
для нее вложение u[t]^P и свойство измеримости. Это не
исключает того, что реализация и [t# [ · ] ϋ) формируется некоторым
законом управления °U, например, законом ^(7.7), где значение
ε и разбиение Δ могут отличаться от значения ε и разбиения Δ,
выбранных в (8.2). При условиях, оговоренных в § 4, при
каждой фиксированной реализации u[ti[-]ti+l) функция fit, #, иЫ,
v(U, xltil, u[t\, ε)) оказывается при каждом фиксированном χ
измеримой по t для ti^t<ti+l. Это следует из теоремы 2.1 о
суперпозиции измеримых функций. По переменной χ функция
/(·) удовлетворяет условиям Липшица. Поэтому согласно
известным результатам ([25*], с. 120, 123) для всякой
фиксированной исходной позиции {£#, ^}eG и любой фиксированной
реализации управления u[t* [·] θ) уравнение (8.3) имеет
единственное решение x[t* [·]θ], x[t*] = x*- Это решение является
абсолютно непрерывной функцией {х [t], t* <! t ^ θ}, которая
удовлетворяет равенству (8.3) при почти всех^е(^, θ). Стало
быть, данные {ί*, χ*}, У3, и [t# [·] θ) определяют единственным
образом движение χ [£# [ · ] Щ и реализацию помехи
= {v[t] = v(th x[ti], и [t], ε), *i<*<*i+i, i = 1, ..., ft}.
Вместе с этим определяется единственным образом значение
показателя γ (7.4). Выразим это записью
Υ = Y(J^ И*» [·]*);*·* *♦)· (8.4)
Интегралы в правой части (7.4) для реализации процесса
(7.3), порожденной каким угодно набором допустимых данных
У\ ult* [·]Φ)> {**> #*}> существуют, как и в случае из § 7, ибо
по теореме о суперпозиции измеримых функций
подынтегральные функции измеримы и ограничены.
Для фиксированной позиции {£#, х*} и назначенного закона
У(в.2) гарантированный результат ρ [Τ'; £#, х*\ определим
равенством
Ρ [У;**. **]= ω γ (У9, и[*# I·]*); **>*·). (8-5)
где нижняя грань вычисляется по всем допустимым реализациям
76
управления и [£# [·] О). Обозначение р[У°; t*, x*\ (8.5) отличается
от обозначения p\°U\ £#, х*\ (7.10) лишь заменой в аргументе
символа °ίί на символ У*, хотя соответствующие величины ρ для
закона Щ и для закона Ψ имеют отличающиеся строения. Автор
надеется, что это не приведет к путанице. Такие соображения
следует иметь в виду и относительно других аналогичных
обозначений. Говоря о том или ином типе стратегий, позволим себе
подчас опускать уточняющую добавку «контр» и ей подобные,
если из текста можно понять, о каком типе стратегий идет речь.
Согласно (8.2) запишем
ρ IT; **, χ*] = p[y(-)u, ε, Δ; t*, x*\. (8.6)
Гарантированным результатом для контрстратегии v(-)u (для
исходной позиции {ί*, χ*}) назовем величину
p[v(-)u; £*, я*] = limliminf p[v(-)u, ε, Δδ; ί*, χ+\. (8.7)
ε_»0 δ-И) Δ6
Из равенства (8.7) следует такое утверждение.
Пусть выбрана контрстратегия v(-)u и случилась исходная
позиция {£#, х*} е G. Тогда для любого числа ζ > 0 найдутся
число ε(ξ) >0 и функция 6(ξ, ε) >0 (ε<ε(ξ)) такие, что будет
справедливо неравенство
Τ(*[ί·Ι·]θ],ι*[ί*[·1θ)^[ί*[·]*))>Ρ^(·)Μ;ί*,^]-ε (8.8)
для реализации процесса (7.3), порожденной из позиции {ί*, χ%}
каким угодно законом формирования помехи ^ = {ι;(·)«, ε, Δ J
и любой реализацией управления u[t^[-]O), если только будут
выполнены неравенства (7.15). Значение ρ = p[z;(-)u; £*, #*] (8.7)
есть наибольшее из чисел р, обладающих подобным свойством.
Определение равномерного гарантированного результата
p[v(-)u, έ#, я*] повторяет с понятными изменениями
определение равномерного гарантированного результата р[и(·); £#, х%].
Назовем контрстратегию v°(-)u оптимальной {максиминной),
если для нее справедливо равенство
p[v°(-)u, **, х*\ =maxpb(.)u; ί*, **] (8-9)
ι>(·)
для всякой исходной позиции {i*, x%}^G. В (8.9) максимум
берется по всем допустимым контрстратегиям ι>(·)« (8.1). Если
гарантированный результат p[v°(-)u\ £*, х*\ является
равномерным, контрстратегию ι>°(·)„ будем называть оптимальной
равномерно. Величину
plv°{-)u; **, х*\ = pl(t*, χ*) (8.10)
будем называть оптимальным гарантированным результатом
(контррезультатом) для исходной позиции {£#, х*}. Если
оптимальная контрстратегия v°(-)u равномерна, то оптимальный
гарантированный результат pl(t%, χ*) назовем равномерным.
Обратим внимание на то, что по определению оптимальная контр-
77
стратегия ιΑ·)« должна быть универсальной. Условие (8.9)
должно выполняться для одной и той же функции
т/>(-)и = {v°(t, я, и, ε), {f, ж}еС,меР,8>0>, (8.11)
какова бы ни была исходная позиция {£#, х*} е G-
Теперь можно сформулировать основную контрзадачу
следующим образом.
Задача 8.1. Найти оптимальный гарантированный
результат p%(t*,x#) и оптимальную максиминную контрстратегию ι>°(·)«.
Задачи 7.1 и 8.1, рассматриваемые в паре, составят то, что
мы будем называть позиционной дифференциальной игрой {7.1;
8.1} (в классах {стратегии-контрстратегии}). Если справедливо
равенство
Р°и (**, я*) = 9°ν (**, **) = Р° (h, #*) (8-12)
для всех позиций {t*, ^}бб, то скажем, что игра имеет цену
Р°(*#> #*)В этом случае пару {и°(·), ι>°(·)Μ}, которая складывается
из оптимальных стратегий и°(·) (7.16) и ι;°(·)« (8.9), будем
называть седловой точкой {w°(0, v°(-)u) игры. (Иногда символ
Р° (^*^*) будем писать с индексом: p°(f*> #*){7.r,8.i}·)
В гл. III будет доказано, что в каноническом случае
оптимальные стратегии и°{-) и i>°()tt существуют и рассматриваемая
дифференциальная игра {7.1; 8.0 имеет ценур°(^, х*) (8.12).
Будет доказано также следующее уточнение этого результата.
Зафиксируем какую-нибудь позицию {£, χ) ^ G. Выберем какой-
нибудь (га+1)-мерный вектор s = {l, sn+i}. Здесь I есть гс-мерный
вектор, U = 8{ (i = 1, ..., η). Составим величину <1 · /(£, χ, щ ν)> +
+ sn+i%(t, #, и, ι;), где символ <1 · /> обозначает скалярное
произведение векторов I и /, т. е. <1 · /> = Z±/i +...+ Zn/n. При
фиксированных t, χ я s величина <1 · /(£, #, ·)> + 5Λ+ιχ(ί, ж, ·) будет
скалярной непрерывной функцией
■ф(и, ι;) = <Ζ ·/(*, χ, и, v)> + sn+i%{t, x, и, ν) (8.13)
от переменных иеР, v&Q. Для этой функции ψ(», ι;) (8.13)
можно определить две величины: min max ψ (и, ν) и max min ψ (и, у).
В первом случае сначала при каждом фиксированном значении
и^Р ищется максимум по v&Q. Этот максимум ν (и) =
= max ψ (и,ν) будет непрерывной функцией от и (см. § 3). За-
тем ищется минимум функции по и&Р. Это и будет
min max ψ (и, ι;) = min ν (и). Во втором случае сначала при каж-
и^Р v^Q u<==lP
дом фиксированном значении υ ищется минимум по и^Р. Этот
минимум κ (ν) = min ψ (и, ι;) будет непрерывной функцией от ι?-
Затем ищется максимум функции κ(ν) по v&Q. Это и будет
max min ψ (и, ι;) = max κ (у). Вообще говоря, величины
v=Q u<=P z?=Q
min max ψ (и, ι;) и max min ψ (и, у) не равны друг другу, но всегда
и&Р v=Q v==:Q uSP
78
maxmini|)(M, y)<minmax ψ (и, ν) (см. [11*], с. 35). Будем
говорить, что данные задачи на минимакс и максимин
составляют маленькую игру (для фиксированных tr χ и s).
Скажем, что выполнено условие седловой точки для
маленькой игры (в области G), если справедливо равенство
minmax [<Ζ·/(ί, χ, и, ν)} + sn+1%(t, x, и, ν)] =
ttSP VGQ
= maxmin[<Z./(£, x, u, y)> + $Λ+1χ(£, χ, и, ι;)], (8.14)
каковы бы ни были вектор s и позиция it, x) <ξ G.
Назовем стратегию ν(·) чистой, если она задается функцией
ν(·) = Ш, χ, ε) ^ ρ, {*, x} e G, ε > 0), (8.15)
которая не зависит от и. (В соответствии с этим всякую
допустимую стратегию и(-) (7.6) можно называть подробнее чистой.)
Доказывается, что при условии (8.14) седловой точки для
каждой маленькой игры задача 8.1, поставленная для всего класса
допустимых контрстратегий vi-)u (8.1), имеет такое решение
Р*(£#» #*)**>°(·), в котором оптимальная стратегия ι>°(·)Μ
является чистой стратегией ι;°(·) (8.15).
Данное уточнение теоремы о седловой точке
дифференциальной игры является существенным. Поясним это. Можно
поставить задачу 8.2, аналогичную задаче 8.1, но сформулированную
для класса допустимых только чистых стратегий ν(-) (8.15). Эта
задача как бы получается из задачи 7.1 обменом классами
допустимых стратегий между игроками U и V. Она строится
следующим образом.
Пусть выбрана чистая стратегия ι;(·) (8.15). Выбор ε и Δ
определит допустимый закон
Г(8.1в) = Ы·), ε, Δ}. (8.16)
Движение z[i*[-]u]i порожденное законом Т{ЪЛЬ), определяется
как решение пошагового уравнения
хЫ =/(*, хЫ, ц[Й, v(ti, хШ, ε)),
ti<t<ti+u ί = 1, ..., k. (8.17)
Гарантированные результаты р[У°; £#, х*\ и p[v(·); t*, x*]
определяются аналогично (8.4)—(8.7).
Оптимальная (максиминная) чистая стратегия ι>°(·)
определяется равенством
р[ь>°(·); t*,x*] =maxp[v(.); £*,#*]. (8.18)
Ρ Ιν°(·); t*, x*\ = pS(ί*, **)<8.i9) (8.19)
назовем оптимальным гарантированным результатом в классе
чистых стратегий ν(·). (Обратим внимание на то, что обозначение
79
оптимального гарантированного результата (8.18) в классе
чистых стратегий v(-) снабжено нижним индексом (8.19), чтобы
подчеркнуть отличие от обозначения оптимального
гарантированного результата (8.10) в классе всех контрстратегий и(-)и.
Запись же результата (8.10) также будем снабжать иногда
номерным индексом ρ$(ί*, #*)(8.ю)·)
Задача 8.2. Найти оптимальный гарантированный
результат р$(£#, х*) и оптимальную максиминную чистую стратегию
В общем каноническом случае эта задача имеет решение
pS(**> #*)(8.i9)> у°(·)· Однако, вообще говоря, р2(£*, я*)(8.1о)=И=
=7^Р^*>**)<8.19), и всегда
Ρν (**, #*)(8.19) ^ Ρν (**, #*)(8.10)» (8.20)
так как класс чистых стратегий ν(·) (8.15) составляет часть
класса всех контрстратегий ι>(·)« (8.1). Таким образом, при
нарушении для какой-либо исходной позиции {ί*, χ*} равенства
ρ2(£*ι #*)(8.ΐ9) = р?(**> ж*)(8.ю) будет справедливо неравенство
Ρυ(£#> ##)(8.19) < Pv(t%, ##)(8.10)· (8.21)
Из сказанного вытекает, что дифференциальная игра {7.1;
8.2}, которая складывается из задач 7.1 и 8.2, вообще говоря,
цены не имеет. Однако при выполнении условия (8.14) седловой
точки для маленькой игры дифференциальная игра {7.1; 8.2}
также имеет ценур°(^, ##){7.ι;8.2} и седловую точку {w°(0, v°(-)}.
(Обратим внимание на нижний индекс {7.1; 8.2} в обозначении
здесь цены игры.) При этом справедливо равенство
Р°(**> #*){7.ι;8.2> — Р°(**, #*){7.r,8.ib (8.22)
какова бы ни была исходная позиция {ί*, χ*} е G.
Вернемся к общему случаю контрстратегии v(-)u (8.1).
Содержательный смысл закона У(8.2) формирования помехи,
отвечающего контрстратегии ι>(·)«, когда функция v(-)u зависит
явно от и, таков. При формировании реализации помехи p[£<[-]£<+i),
помимо информации о реализовавшейся позиции {£*, #[ij},
второй игрок V наделяется способностью в каждый момент ie
s [ii, ti+i) (или хотя бы почти в каждый момент t^[th ti+l))
мгновенно узнавать реализующееся значение u[t] и сразу же
подавать воздействие vlt]=v(tu s[£<], и[Й, ε) на объект F. Это
наделяет второго игрока V большой силой и дискриминирует
первого игрока U информационно. Не будем обсуждать
реальность такого подхода при постановке задачи 8.1. Как отмечено
выше, рассматриваемая дифференциальная игра {7.1; 8.0
является математической моделью. Эта абстрактная модель
позволяет лучше изучить основную задачу 7.1, которая имеет
реальную основу и решение которой реализуемо практически. В
связи с этим подчеркнем, что при выполнении условия (8.14)
седловой точки маленькой игры дополнительная информация о
80
реализующихся воздействиях u[t] и ее использование даже очень
благоприятным для игрока V способом У(8.2), (8.3) не может
улучшить для этого игрока гарантированный результат
р2(**> #*)(8.ι»)> который может быть обеспечен ему на основе
одной только информации о реализующихся позициях {£<, хШ).
Таким образом, при условии (8.14) отмеченная информационная
дискриминация игрока U безвредна для него и бесполезна для
игрока V (в принципе).
При составлении дифференциальной игры {7.1; 8.1} для
каждой из объединяемых задач сохраняется условие, что
игнорируются в задаче 7.1 способ формирования реализации v[t*[-]$),
а в задаче 8.1 — способ формирования реализации и [£*[»] О).
При этом в задаче 7.1 не исключается формирование v[t*[-]$)
на основе закона У(8.2), отвечающего какой-либо контрстратегии
ν(·)η (8.1). В задаче 8.1 не исключается формирование
u[t* [·]θ), на основе закона <2/(7.7)» отвечающего какой-либо
стратегии и{-) (7.6). Поэтому можно представить себе такую
игровую ситуацию, когда одновременно первый игрок U
формирует реализацию и [t* [ · ] Φ), руководствуясь какой-то своей
стратегией и(·), а второй игрок V формирует реализацию
ν[t* [-]$), руководствуясь какой-то своей контрстратегией ι;(·)«.
При этом при выборе законов 41 и У9 каждый из игроков может
назначать свое значение ε (ε„ и ετ) и свое разбиение Δ(Δ{ί^} и
Δ{ί|}). Тогда процесс управления представляется следующей
схемой. Игроки выбирают независимо друг от друга (и без
обмена информацией об этом выборе) стратегии и(·) и v{-)u. Пусть
случилась исходная позиция {ί*, χ*} (может быть, после выбора
и(·) и v(-)u). Каждый игрок назначает свое значение ε и свое
разбиение Δ, и они действуют затем на основании выбранных
так законов °U и У. Если игроки выберут оптимальные
стратегии и°(·) и ι>°(·)«, то для всякого числа ξ >0 выбором
достаточно малых ε"(ξ)>0, δη(ξ, е)>0.и ε*(ξ) >0, β·(ζ, ε) >0
будут обеспечены неравенства
ρ°(ί*, **) — £<γ(*[**[·]<>], Μ[ί# [·]*), ν[ί»[·]θ))<
<P0(i»,**) + C, (8.23)
если только будут выполнены неравенства
β»<β«(ζ), *?+ι —*У<ви(С,в~)> β·<β·(0, ί?+ι-ί<
<δυ(ζ, ε»). (8.24)
Если один из игроков уклонится от такого закона
управления (<2/с или Ψ ι), а другой останется верным такому закону
(3^с или <2/ς), то в (8.23) сохранится неравенство, благоприятное
для «правоверного», и, может быть, нарушится неравенство,
благоприятное для «уклониста». Если оптимальные
гарантированные результаты ри и р* равномерны, то значения ги и ε*,
6U и δΌ можно выбирать не зависящими от {£#, х*}-
6 Η. Η. Красовский
81
В указанной схеме возможны некоторые изменения в
порядке выбора стратегий и(-), *>(·)«, значений ε и разбиений Δ.
Например, контрстратегия ν(·)« может выбираться после выбора
стратегии ю(·) при известном второму игроку выборе этой
стратегии. Вследствие существования цены ρ°(ί*» #*){7.ι;8.ΐ} и седловой
точки {и°(·), ι>°(·)«) это не ухудшит оптимальный
гарантированный результат для игрока U. Число ε*(ξ) или число ε4ξ) также
могут выбираться до того, как станет известной исходная
позиция {£#, ж#}еб. Если гарантированный результат Pu(£#, ##)
или соответственно гарантированный результат pS (t#, χ*)
равномерен, то это также не скажется на возможности для
соответствующего игрока гарантировать нужное ему неравенство из
(8.23). Далее, каждый из игроков может намечать разбиение
Δ{£{}, не используя предварительную информацию об исходном
моменте времени t*. Например, можно задаться числом б>0
и затем реализовать моменты U по ходу дела, назначая ίχ—-£**
£ι+1 = t\ + δ. При условии равномерности гарантированных
результатов р°и и pt это опять не скажется на возможности
обеспечить нужное неравенство из (8.23). Заметим, что ниже в
гл. III доказывается существование именно равномерных в
области G оптимальных гарантированных результатов fPu(·) и р2(·)·
Рассмотренная игровая картина позволяет установить
следующий полезный результат.
Лемма 8.1. Каковы бы ни были стратегия и(·),
контрстратегия ΐ7(·)« и исходная позиция {t%, здеС, справедливо
неравенство
рМ·); **, я*]>р1>(·)^ **, х*\. (8.25)
В самом деле, предположим от противного, что для
некоторых стратегий и(·), ι;(·)« и позиции {£#, ^}еб справедливо
неравенство
р[и(·); **> #*]<Pb(-)u; **, **], (8·26)
т. е. справедливо равенство
ρ [и (·); **, х*\ = Ρ [ν (-)ш **, xm] — η, η > 0. (8.27)
Выберем ξ = η/3 и назначим законы <2/ = {u(·), ε, Δ6) и Τ =
= {ι>(·)«, ε, ΔΛ), которые для процессов {#[·], иЫ, vl·]} щ ъ
{#[·], иЫ, ι;[·]}^ формируемых ИМИ ИЗ ПОЗИЦИИ \ί^·ί «£*/> Га-
рантируют неравенства
γ ({*[·], м[-ь»[-])^)<р1и(·); **.*·] +ε, (8.28)
Т({«[-Ьм[·], ^[•HrJ^P^iOi.Ji^^l-C· (8.29)
Тогда для процесса Ы-1, иМ, у[·]}^/^,который формируется
из этой позиции {£#, я*} обоими законами °Ы жТ
одновременно, будут выполнены оба неравенства (8.28) и (8.29). А это
возможно лишь при условии
рМ·); U, х*\ + ζ>ρ[ι;(·)*; **, л:*] — £· (8.30)
82
При ξ = η/3 равенство (8.27) и неравенство (8.30)
противоречивы. Противоречие доказывает лемму.
В заключение параграфа сформулируем еще одну задачу.
Эта задача об управлении будет поставлена для допустимых
законов управления %L, которые могут использовать механизм
контрпомехи. Именно, назовем стратегией контрпомехй (короче —
контрстратегией) функцию
u{-)v = {u(t, я, ν, ε)εί, ft, ж}еб, v&Q, ε > 0}, (8.31)
которая при всяком возможном фиксированном наборе £, #, ε
измерима по v^Q. Допустимый закон управления °U,
отвечающий стратегии контрпомехи и(-)„, определяется тремя
компонентами: стратегией μ(·)„, значением параметра ε и разбиением
Δ{ίί>, так что
<2/(8.з2) = {**(·)„ ε, Δ}. (8.32)
Движение #[£*[·] ^Ь порожденное законом <2/(8. 32) ИЗ ПОЗИЦИИ
{£#> #*}> определяется как решение'пошагового уравнения
хЫ = /U, xlt\, u(U, хШ, vit), ε), v[tl),
ti<t<ti+i, i = l, ..., ft, (8.33)
при начальном условии х№г] = х*. В этом уравнении функцией
*>[£# Н^) может быть любая допустимая реализация помехи.
Гарантированные результаты ρ VU\ £#, х*] и p[u{-)v;t*, x*\
определяются здесь аналогично (7.10)—(7.13). Оптимальная
{минимаксная) стратегия контрпомехи и°(·)* определяется равенством
р[и°(·)*; **> **] = minp[M(.)i>; ί*. x*\. (8.34)
Оптимальный гарантированный результат ρ°(ί*> ##) в этом
случае определяется равенством
Ри (**, ^)(8.зб) = ρ [и0 (· V, **, х*\. (8.35)
Задача 8.3. Найти оптимальный гарантированный
результат рй(£#* #*)(8.зб) и оптимальную минимаксную стратегию
контрпомехи и°()„.
В каноническом случае задача 8.3 имеет решение
Ри(£*> #*)(8.з5)> u°(-)v. Справедливо неравенство
Ри (*#' #*)(8.35) ^ Ри (**, #*)(7.17)> (8.36)
так как класс стратегий и(·) (чистых стратегий и(-)) составляет
часть класса всех стратегий контрпомехи и(-)«. При условии
(8.14) седловой точки для маленькой игры получается в (8.36)
равенство для всякой позиции {ί#, ajJsG. При нарушении
условия (8.14) в (8.36) для некоторых позиций {£#, х*} е G
возможно строгое неравенство. Дифференциальная игра {8.3; 8.2},
6* 83
составленная из задачи 8.3 и задачи 8.2, имеет цену
Ρυ(£#ϊ ##)(8.19) = Pu(£#> ^*)(8.35) == Ρ (^*ί Ж*){8.3;8.2> (8.37)
и седловую точку {ιι°(-)Ό, ν°(·)}.
Аналогично лемме 8.1 с понятным обменом местами между
чистыми стратегиями и(-) и ν{-) и контрстратегиями у()„ и
u(-)v доказывается справедливость следующего утверждения.
Лемма 8.2. Каковы бы ни были стратегия ι>(·),
контрстратегия u{-)v и исходная позиция {t*. а;Ф}еС, справедливо
неравенство
ρ И·); **, **]< ρ №(·)*; **, **]· (8·38)
Наконец, формально можно составить дифференциальную
игру {8.3; 8.1}, игнорируя для каждой из объединенных задач 8.3
и 8.1 способы формирования реализаций помехи ν[ί*[-]ϋ) и
управления Μ[ί*[·]0) соответственно. Однако эта «игра», в
отличие от игр {7.1; 8.1}, {7.1; 8.2}, {8.3; 8.2}, не интерпретируется
содержательно как игра. Вообще говоря, нельзя рассматривать
реализации процесса (7.3), где u[t*[']ft) и ι;[*<:[·]О)
формируются одновременно одна на основе какой угодно фиксированной
стратегии контрпомехи (8.31), другая на основе какой-угодно
фиксированной стратегии контруправления (8.1), так как
уравнения (8.3) и (8.33) могут оказаться несовместными. В таком
случае стратегии и(·)» и ν(·)Μ будем называть несовместимыми.
Вследствие возможной несовместимости стратегий u(-)v и v(-)u
формально определенная игра {8.3; 8.1} малоинтересна. В
случаях игр {7.1; 8.1}, {7.1; 8.2}, {8.3; 8.2} соответствующие
стратегии {и(·), ι>(·)«}, {и(·), ι>(·)}, {и(0„, ι>(·)} всегда совместимы.
В частности, это определяет справедливость лемм 8.1 и 8.2.
§ 9. Пример дифференциальной игры
В этом и следующем параграфах приведем модельные
примеры задач, которые составляют дифференциальные игры из § 8.
Пример 9.1. Рассмотрим управляемый объект F из
примера 6.1 при тех условиях на параметры μ, ν, m{i) и α, которые
указаны в § 6. Как и в § 6, выберем показатель γ (6.2). Этот
показатель γ получается из общего выражения (7.5) при
χ(ί, χ, и, ν) зг 0 и σ(θ, #[-&]) = — \XiM — #8[θ]|. Имеем канрни-
ческий случай. В этом случае задача 7.1 имеет решение ρ°(·)>
гг°(·), как это будет доказано ниже в § 29 в общем случае.
Вычисление оптимального гарантированного результата ри (ί# > #*)(7.ΐ7)
и построение оптимальной стратегии и°(·) также даны ниже в
§ 46. Приведем здесь готовые результаты пока без обоснования.
Оказывается,
pi(*,*) = P*(*,r), (9.1)
где переменная г определена равенствами (6.10), (6.20) и
функция р*(£, г) построена следующим образом. Пусть в согласии
84
с (6.41) определена функция
Ψ [τ]
ί(ψ[*]-μφ[»])Λ» τ<*.
τ
! »
(9.2)
Ι(ψ[<] — μφ [*])<**. τ<τ<ο,
Ι τ
ί<τ,
где τ — корень уравнения (6.28). Тогда
ίΨ[ί]-Μ + ψ[τ], |ι·|>Ψ[ί],
ρ*(ί, γ) = \ψ[χ], |Γ|<Ψ[ί],
|ψ[ί] —И, ΐ<ί<θ.
Оптимальная стратегия «"(·) определена равенством
u°(t, χ, ε) = u\t, χ) = uHt, r),
где
г>0,
•<о.
и* (t, г)
_ ί μ, г\
Ι —μ. г-
(9.3)
(9.4)
(9.5)
Обратим внимание на то, что в этом примере стратегия и°(·)
задается функцией u°{t, #), которая от ε не зависит. Такую
стратегию будем называть чистой позиционной. Заметим также, что
оптимальный гарантированный результат Pu(£*> #*) (9.1)—(9.3)
для всякой исходной позиции {£#, х%) совпадает с
гарантированным результатом р[^*; ί*, х*\ (6.43) и с гарантированным
результатом p[w*(·); t*, x*], который дает разрывный закон
управления и*(·) (6.48), (6.49) для движений, определенных
уравнением (6.51).
На рис. 9.1—9.3 приведены для примера результаты
вычислений на ЭВМ реализаций процесса, которые получаются при
выборе стратегии u°(t, χ) = и*(£, г) (9.4), (9.5) в случаях:
(1) И*] = 1, **<*<#,
(2) уШ^О, **<ί<0,
(3) ν [t] = sin 2πί, t* < t < О.
При этом выбраны параметры /тг(1) = 0,1, μ — Ι, Φ = 4 и следую-
£# — и, x*i — и, ^г — "» ^
#з
1,
щая исходная позиция:
^#4 == ν),О.
Рассмотрим теперь для того же управляемого объекта F и
для того же показателя γ задачу 8.1. Мы видели, что задача 7.1
для этого случая имеет решение (9.1)—(9.5). Так как
соответствующая дифференциальная игра {7.1; 8.1} имеет цену и сед-
ловую точку, то оптимальный гарантированный результат
Р?(£*> #*) из рассматриваемой задачи 8.1 удовлетворяет
равенству
Ρ? (ί, х) = pi (f, х) = Р° (ί, х) = Р* (ί, г), (9.6)
85
где величина р*(£, г) определена равенствами (9.2), (9.3). В
данном случае выполнено условие (8.14) седловой точки для
маленькой игры, так как переменные и л ν входят в уравнение
движения (6.4) аддитивно. Поэтому здесь существует
оптимальная чистая стратегия у°(0, которая задается функцией v°(t, χ, ε),
не зависящей от и. Более того, оказывается, что здесь существует
Рис. 9.2.
Рис. 9.3.
оптимальная чистая позиционная стратегия ι;°(·), задаваемая
функцией ι>°(£, ж), которая не зависит и от ε. Эта функция
определяется равенствами
v°(t, χ) = v*(t, г), (9.7)
"*('Ή-1, r ίθ. <9·8>
86
На рис. 9.4—9.8 приведены для примера результаты
вычислений на ЭВМ реализаций {яДЯ, #SM, i*< t <θ} процесса (7.3),
которые получаются для одной и той же исходной позиции £# =
— О, ##1 == 0, х*2 = 0, х*3 = — 1, #*4 — 0,5 при значениях
параметров m(i) = 0,1, μ = 1, ft = 4 и при определенных выборах
управления и и помехи v. Для этих данных корень τ уравнения
(6.28) есть τ = 3,0 и величина оптимального гарантированного
результата Ри (**, х*) (9.1), вычисленная по формулам (9.2),
(9.3), составляет р* = —0,40.
Рис. 9.4.
Реализации, изображенные на рис. 9.4, 9.5, получены, когда
управление u[t] (£<^£< £<+1) формируется на основе
оптимальной стратегии и°(·) (9.4), (9.5), а помеха vit] (£<< t< ti+i) —- на
основе оптимальной стратегии ι;°(·) (9.7), (9.8). При этом в
случае, отвечающем рис. 9.4, полагалось ti+i — U = 0,0005, а в
случае, отвечающем рис. 9.5, полагалось ti+i — ί< = 0,001. В обоих
случаях значение показателя γ = — |#Д4] — х^Ш\ получилось,
как и должно быть, близким к величине оптимального
гарантированного результата р* = —0,40.
Реализации, изображенные на рис. 9.6, получились в случае,
когда управление u[t] (ti<t<ti+i) формируется на основе
оптимальной стратегии и°(·) (9.4), (9.5), а помеха i;[f](£<<£ <f«+i)
формируется следующим случайным механизмом. В момент U
делается испытание по выбору реализации vltH случайной
величины i>m, которая имеет вероятностное распределение
Ρ (i;m = l) = P (v[il =-1) = 1/2. Символ Ρ (Л) означает
вероятность события А. Случайные величины vli} (i = 1, ..., к)
независимы. Затем полагается v[t] = vlu] (£* < ί < ti+i). Всем
зарегистрированным на рис. 9.6 случайным реализациям x3[t] (0<
<t^A) отвечает одна и та же реализация гДЙМХ t ^4); при
этом всякий раз γ = — |#t[4J — хаШ I < ρ* — —0,40.
На рис. 9.7 изображены отдельные реализации, которые
получаются в случае, когда помеха vit] (U<:i< ti+i) формируется
на основе оптимальной стратегии ι;°(·) (9.7), (9.8), а управление
u[f] (ti<ίt<t^l·l) формируется следующим случайным
механизмом. В момент U делается испытание по выбору реализации
87
-/■
iXf'X3
\
I
а?,Ю
χ3[ί\
ι
г
δ
ι
4
>. ·
*
Рис 9.5.
Рис. 9.6.
иЩ случайной величины uii} U = l, ..., АО, имеющей
вероятностное распределение Ρ (wm = μ) = 3/4, P(uli] = —μ) = 1/4.
Случайные величины иш d = 1, ..., к) независимы. Затем
полагается иШ=*иШ (ti<t<ti+i). И, наконец, на рис. 9.8 пред-
Рис. 9.8.
ставлены реализации, получившиеся в случае, когда v[t] по-
прежнему формируется на основе оптимальной стратегии ι>°(·),
а управление uit] формируется в непрерывной схеме по правилу
89
(5.2) по закону' u[t] =sin2nt Эти реализации получены с
помощью АВМ. Как видно из рис. 9.7, 9.8 и в согласии с теорией
для всех изображенных реализаций получается γ = —1^14]—
-я3[4Л>р* = -0,40.
§ 10. Второй пример дифференциальной игры
Пример 10.1. Управляемым объектом F является
материальная точка яг, движущаяся на плоскости {qu q2) под
действием силы g. Эта сила порождается управляющим вектором и.
Вектор силы g совпадает по модулю
с вектором и, но составляет с ним
люфтовый угол ν (см. рис. 10.1).
Управление и и помеха ν стеснены
ограничениями (4.1) и (4.2), где
множество Ρ состоит из четырех векторов
Рис. 10.1.
{-[ϊΗ-И· —й·
«<з>=[-;], «о=[_;]}, (юл)
а множество Q является отрезком
Q = {v: -α<ι;^α}. (10.2)
Обозначим координаты точки т буквами qu q2. Сохраним
для ее массы обозначение т. Запишем уравнения движения в
соответствии со вторым законом Ньютона:
m?i = gi = tti cos v~u2 sin у,
(10.3)
mq2 — g2 = Ui sin ν + u2 cos v.
Здесь фазовой переменной будет четырехмерный вектор х =
= {#!, ..., #J, где Xi = ql9 х2 = #ι, x* = q2, #4 = ?2. Уравнения
движения в канонической форме принимают вид
Х\ === Х^ч
1
#2 = (Ul C0S V — U2 S^n V)i
(10.4)
Х3 == «^4*
ХА = (Щ Sin У + W2 COS у).
Векторное дифференциальное уравнение движения (4.3)
является линейным по χ и имеет форму
i = Ax + h*(u, ν), (10.5)
90
где матрица А определена равенством
(О 1 0 0\
0 0 0 0
0 0 0 1
^0 0 0 0>
V
А-\
(10.6)
и вектор-функция hHu, v) такова:
■- О
h\ (и, ν)
О
hi (и, ν)
h*(u, ν) *
a;(»^)J = z?(i;)u = %'1,)=·
= J_(cOSl> -Smi^Kl (107)
m \srni; cos i>/ [M2 J
Содержательно задача состоит в поиске закона управления,
который обеспечит возможно меньшее расстояние от точки т
до начала координат в заданный момент времени Ф. Поэтому
выберем показатель качества
V - (ϊ? [Щ + qlW)1/2 = σ (χ [Ο]) - {х\ [О] + х\ [Щ)1!\ (10.8)
В данном случае условие (8.14) седловой точки для
маленькой игры не выполняется. В самом деле, зафиксируем вектор
ist, s2, s3, s4, s*i = W» *J = W, 1, 0, 1, 1). Получим значения
max min ψ (и, ν) = max min — [(cos ν —
t)SQ u~P
—α<υ<α u^P
— sin v) ut + (sin ι; + cos v) u2] = — 1/лг, (10.9)
min max ψ (и, у) = min max — [(cos у —
UGP t?SQ
wEP —α^ιχα
sin v) щ + (sin ν + cos у) и2] == (cos a — sin a)
не равные друг другу, каким бы ни было дано ае=(0, π/2).
В этом каноническом случае дифференциальная игра,
составленная из задач 7.1 и 8.1, имеет цену р°(£, х) и седловую точку
{гг°(0, v°(-)u}. Седловая точка складывается из оптимальной
стратегии и°{-) = {и°(£, #, ε), {£, ж)еб} и оптимальной
контрстратегии У°(0и = {ι>°(£, ж, ц, ε), {£, ж}е(?, меР}. Мы не
приводим явные выражения для функций р°(·), и°() и y°(-)tt. Ниже
в гл. V, § 64 дано их описание в форме неявных функций.
Там же дано описание алгоритмов для вычисления значений
р°(**> #*)>^°Ui, &Ш, ε) и v°iti, #[£<], ultl, ε) в процессе
управления. Условие (8.14) здесь не выполнено. Поэтому задача 8.2
отличается от задачи 8.1 уже по существу дела. Решение
{pS(£, #)(8.i9)» v°(t, xt ε)} задачи 8.2 отличается от решения
{р?(£, #)(8.io)> v°(t, χ, и, г)} задачи 8.1. Можно указать исходные
позиции {£#, я*}, для которых справедливо неравенство (8.21).
01
На рис 10.2 приведены на плоскости {qu q2) изображения
реализаций {#ДЯ, #2,Ш, £# <Ξ £ ^ ■&}> полученные в результате
вычислений на ЭВМ для одной и той же исходной позиции
{*#> я* }в следующих случаях.
?1
1V
*Ъ
Рис. 10.2.
(1) Управление uit] и помеха v[t] формируются на основе
оптимальных стратегии ю°(·) для задачи 7.1 и контрстратегии
v°(-)u для задачи 8.1.
(2) Управление uit] формируется на основе оптимальной
стратегии и°(·) для задачи 7.1, помеха vitl — на основе
некоторого случайного механизма. Этот механизм таков. Каждой
позиции {г*, х*} поставлено в соответствие два числа Pv (t, х) и
P(v](t, x) так, что
р?}(*.*)>о, i = 1,2, р^}(г,х) + р?}(г9х)^1. (Ю.Ю)
Иначе говоря, выбрана двумерная вектор-функция
Pv(t, x) - [pPd, x), P?{t, x)}, (10.11)
компоненты которой удовлетворяют условиям (10.10). Закон
формирования помехи
Г ={/>„(·), Δ}, (10.12)
который отвечает функции /?„(·) (10.11) и какому-либо
разбиению Δ = {tx = t%, . .., £&+!= θ}, работает так. Пусть реализовалась
92
позиция (и, х[и]}. В момент ί, производится случайное
испытание по выбору числа ν при известных вероятностях
Ρ (ι, - _ а) - р(« (*,, χ [**]), Ρ (ι; - а) - ρί2) (f,, x [U]). (10.13)
Результат этого испытания vltji и определяет помеху
υΐΰ = vW, h<:t< ti+l. (10.14)
Функция ρυα, χ), которая была использована в данном
случае, определена некоторым алгоритмом. Точное описание этого
алгоритма увело бы нас в сторону. Отметим только, что функция
pv(t, x) (10.11) была подобрана так, чтобы сделать значение
показателя γ (10.8) в определенном смысле по возможности
большим. Точная вероятностная формулировка этого условия и
описание соответствующего алгоритма для /?υ(ί, χ) связаны с
понятием смешанной стратегии (см. [4], с. 284). Теория
дифференциальных игр в смешанных стратегиях составит предмет другой,
планируемой автором монографии.
(3) Помеха v[t] формируется на основе оптимальной чистой
стратегии ι>°(·), которая входит в решение задачи 8.2,
управление ult] формируется на основе оптимальной стратегии
контрпомехи Η°(·)υ, которая входит в решение задачи 8.3.
(4) Помеха v[t] формируется на основе оптимальной чистой
стратегии ι>°(·) для задачи 8.2, управление u[i\ —на основе
некоторого случайного механизма. Этот механизм определен
законом управления
<2/ = {/>„(·), Δ), (10.15)
отвечающим функции
Ри(·) -Ы?*(*, *),·.., Р{и (*, *)}, ρί?(ί, χ)>0, (10.16)
и некоторому разбиению Δ. На основании информации о
реализующейся позиции {tu xltil] в момент U производится случайное
испытание по выбору вектора и = иа) (/ = 1, ..., 4) при
известных вероятностях
Р(и-и(Л)-р2Ч*ь*[«)· (Ю.17)
Результат этого испытания u[tl определяет управление
ultl^uW, t{^t<ti+l. (10.18)
Функция pu(t, χ), которая была использована в данном
случае, определена алгоритмом, нацеленным на то, чтобы
значение γ оказалось в некотором смысле по возможности меньшим.
Во всех случаях были выбраны следующие параметры: α = π/6,
m = l, 0 = 4,8, β'= 0,01, β»-0,01, tf+i = tt + 6U, tf+i - *? + δ*,
и исходная позиция** = 0. #* = {3,07, 0,80, 5,57, 0,20}. Резуль-
93
таты вычислений наглядно показывают, что информационная
дискриминация первого игрока U в случае (1) и второго игрока
в случае (3) существенно ухудшают гарантированный результат
для дискриминируемого игрока.
§ 11. Оценка предложенной формализации
Обсудим возможность улучшения результата р°(**> #*)(7.17),
который в § 7 назван оптимальным. Уточним вопрос. Пусть
выбрано некоторое множество К°Ш законов управления. Пусть
указан закон управления °U*, не входящий в {°Ш. Скажем, что °U*
гарантирует для исходной позиции {έ*, χ*} результат, по
существу лучший всех гарантированных результатов из {<U), если
справедливо неравенство
Ρ VU*, **, **] < inf ρ [°U\ £*, χ*), (11.1)
{Щ
иначе говоря, если найдется постоянная ζ* > О, для которой
справедливо неравенство
ρ \<U*, **, х*\ < ρ [%ί; t*, χ*] — ζ*, (11.2)
каков бы ни был закон Щ из {<2/}. Так, в примере 6.1 для
позиции {£#, х*} (6.31) закон управления °U* гарантировал
результат ρ \°U*\ £*, х*\ (6.43), по существу лучший всех
гарантированных результатов из множества {°U} законов ^2/(5.7) =
=>{ю(·), (5.1); (5.2)}, где функция u(t, x) измерима по ί и лип-
шицева по х. Более того, в примере 6.1 при любом выборе числа
ζ* > О можно так подобрать параметры объекта F и позицию
{£#» #*}» что будет справедливо неравенство (11.2). Это было
одной из главных причин отказа от множества {°Ш допустимых
законов управления <ϊί(5.ΐ) (см. § 6).
Рассмотрим две стороны вопроса. Обозначим символом Ш(7.7)
множество всех законов управления *2/(7Л), символом {°М'}\%$} —
множество тех из них, у которых ε < ε и шаг разбиения 6^6.
Сначала проверим, что при любом выборе ε > 0 и б > 0
справедливо равенство
inf ρ \°U\ t*, x*\ = inf ρ YU; t#, sj, (11.3)
(Щ%И) W(7.7)
какова бы ни была позиция {£*, χ*} е G, т. е. проверим, что в
полной совокупности законов управления (7.7) не найдется
закона °U*, который хотя бы для одной позиции {ί*, χ*}
гарантировал результат, по существу лучший всех гарантированных
результатов из {^}{$"£}· Затем обсудим, возможно ли вообще
построить закон управления 41*, который гарантировал бы
результат, по существу лучший всех гарантированных
результатов из Ш}(7.7), т. е. можно ли построить закон управления °11*,
который удовлетворял бы условию (11.1) при ΜΛ = ΜΛ(τ.τ>.
94
Справедливо следующее утверждение. Назначим какие
угодно числа ε > 0 и δ > 0. Выберем сколь угодно малое число η > 0.
Тогда какова бы ни была позиция {ί*, χ*} е G, пайдется закон
управления
<2/<л> = {и°(.), е<ч>, Δ(4){^η)», (11.4) '
где
ε(η)<ε, δ(η)<δ, #° = **, 4?ι = tf° + δ(η),.
* —1 ** — 1· ®-έξ<^\ (H.5)
такой, что справедливо неравенство
ρ[^(η); **, **]<p[^*; ί*. χ*) + *ь (И-β)
каков бы ни был закон управления
«* = {!**(·). β*, Δ*}. (11.7)
Здесь w°( О — оптимальная стратегия (7.16). Зависимость
<2/(η) от {£#, я*} сводится только к выбору начала отсчета
*ιη) = ** в разбиении Δ(η). Числа ε(η) > 0 и δ(η) > 0 можно выбрать
только по η.
Для доказательства рассмотрим дифференциальную игру
{7.1; 8.1). Как сказано в § 8, эта игра имеет цену р°(£#, х*)
(8.12). Более того, в гл. III в § 29 будет доказано, что
оптимальные гарантированные результаты Pu(i#' #*) и Р?(£*>
^равномерны в области G. Тогда согласно правому неравенству (8.23)
и условиям (8.24) можно назначить закон управления <2/(η) (11.4),
(11.5), который обеспечит неравенство ν
γ-γ(^η)[«·Η*]. Λ*Ηθ), »[*·[·]*))<
<Ρ°(**,**) + η/2 (11.8)
для всякой порожденной им реализации процесса из позиции
{**, #*} ^ (*· Из (11.8) по определению гарантированного
результата ρ \U\ £#, л:*] (7.10) следует неравенство
ρ \<U^\ t„ χ*] < ρ° (**, χ*) + η/2. (11.9)
С другой стороны, согласно левому неравенству (8.23) и
условиям (8.24) можно выбрать закон формирования помехи
Т^ = {i;0(.)u, ε[η1, Δ[η] {*Ιη1Π, (11.10)
где
*[ιη1 = **, ίίίι-ί^ + βί^ ί —1 Λ* —1,
ο —*Β]<β[η1, (ii.li)
который обеспечит неравенство
>Ρ°(**>**)-η/2 (11.12)
95
для всякой порожденной им реализации процесса из позиции
{£*> #*}^£?· Рассмотрим ту из этих реализаций процесса, у
которой реализация управления и [t* [ · ] θ) формируется в
соответствии с законом °U* (11.7), т. е. рассмотрим реализацию
процесса, которая формируется одновременно законами °U* и Τ1νΛ.
Такая возможность рассмотрена в § 8. Но для рассматриваемой
реализации процесса по определению гарантированного
результата pVU*\ £#, х*\ справедливо неравенство
у = у(х[ц]И*[-]Щ, и [**[·] О), 1;с,|1и*[-]0))<р[^#;^ж*].
(11.13)
Из (11.12) и (11.13) получаем неравенство
р[^*; **, x*]>P°(h, ж*) — η/2, (11.14)
а из (11.9) и (11.14) — доказываемое неравенство (11.6).
Вследствие произвольного выбора η >0 из (11.14) вытекает
неравенство
Ρ [^*; **, х*\ > Р° (**, **), (И-15)
каков бы ни был закон управления^* е {°Μ\η.η)· Стало быть,
имеем
inf pVU- t» **]>р°(**, я*), (11.16)
^7.7)
какова бы ни была позиция {i*, x*}^G. Из (11.9), учитывая
(11.5) и произвольность выбора η >0, имеем
inf pW;t*, *„i< inf ρ [^<η); ί*, ж*] < ρ° (ί„ ж*). (11.17)
Наконец, вследствие очевидного неравенства
inf pW;U, **]< inf p[^; ί*, я*] (11.18)
из (11.16) и (11.17) получаем нужное равенство (11.3), причем
inf ρ \<U\ f*, x*\ = p°(f*, χ*) = ρ° (i*, я*)· (11.19)
W(7.7)
Итак, мы проверили, что, ограничивая значения ε > 0 и δ > О
сверху сколь угодно малыми числами ε>0 и б>0 и обрезая
таким образом множество {<2/}(7.7) до его части {0Μ}{ί$γ мы
не портим дела, ибо согласно (11.3) при этом нижняя грань для
гарантированных результатов не увеличивается ни для одной
позиции {£#, ж#}еС. Данное обстоятельство обосновывает
целесообразность предельных переходов по ε->0 и 6-^0 в
определении гарантированного результата р[и(-)\ £*, х*\ (7.13).
Добавим такое замечание. В отличие от (7.13) можно
определить гарантированный результат для стратегии и(0 равен-
96
ством-
p*[w(.); t*, x*\ = limliminfp[w(.);8, Δ6; £*, χ*\. (11.20)
Очевидно, для всяких стратегии и(-) и позиции \ί*» *^*/
справедливо неравенство
р*М·); **> *·1<ρΜ·); **> **]· (ΐΐ·2ΐ)
Вообще говоря, в (11.21) возможно строгое неравенство.
Иллюстрирующий эту возможность пример приведен ниже в § 20.
Однако для оптимальной стратегии и°(·) (7.16) справедливо
равенство
р*[»°(·); **. *·] - ρΐ»°(·); *·. **]· (И·22)
В самом деле, из (11.20) следует неравенство
Р* Ы (·); **, *.]> inf ρ \<U\ t», ж*]. (11.23)
W(7.7)
Кроме того, по определению величины ρ°(**> #*) имеем
Р°(**, ж*) - р[м°(·); *·>'*·]· (11.24)
Но тогда (11.22) есть прямое следствие (11.21) и (11.23) при
и(.) = ц°(.), (Ц.19) и (11.24). Далее, из (11.19), (11.22)—(11.24)
вытекает равенство
р*[»в(-)5 *#, **] - minp* [и(.); **, **], (И·25)
т. е. стратегия и°(·), оптимальная для показателя ρ \и (·); £#, я*]
(7.13), остается оптимальной и для показателя р* [и (·); £#, х*]
(11.20). Обратное, вообще говоря, неверно. Иллюстрирующий это
пример приведен также в § 20. Таким образом, если заменить
определение (7.13) гарантированного результата определением
(11.20), то согласно (11.22), (11.25) мы не выиграем в значении
оптимального результата. В то же время с определением (7.13)
работать удобнее. Для того чтобы обеспечить неравенство ρ [щ (·);
ε^ Δ; t*, я*]^р[и* (·); £#, х*\ + ζ, вытекающее для некоторой
стратегии и* (·) из определения (7.13) величины ρ [и* (·); £#, аг#],
достаточно лишь ограничить должным образом параметр ε и
шаг разбиения δ. Будет годиться всякий закон *2/= {и% (·), ε, Ац)
с ограниченными так параметрами ε и б. Если же опираться на
величину ρ * [и (·); £*, #„,], то надо подбирать точно число ε и
только определенное разбиение Δ.
Обратимся теперь к вопросу о возможности улучшения
оптимального гарантированного результата за счет выхода за
рамки класса допустимых законов (7.7). В этом параграфе
ограничимся случаем, когда выполнено условие (8.14). Общий случай
рассмотрен в § 12*. Для ясной постановки вопроса надлежит
определить формально как можно более широкий класс
допустимых законов управления, который отвечал бы достаточно убе-
7 н. Н. Красовский 97
дительно содержательному представлению о наиболее широком
классе допустимых способов формирования воздействий u[t] по
принципу обратной связи на основе информации о текущем и
прошлых состояниях управляемой системы. Разумеется, термин
«наиболее широкий класс» следует понимать без излишней
претензии, так как наши возможности уже стеснены соглашением
работать на базе дифференциальных уравнений. Предложим
следующее определение расширенного множества {°U}* допустимых
законов управления. И в этом множестве попробуем найти
закон Ql*, который гарантирует результат, по существу лучший
всех гарантированных результатов из {<2/}(7.7) хотя бы для одной
исходной позиции {£#, х*}. Содержательно будем считать
допустимым (хотя бы для данпой исходной позиции {ί*, х%})
всякий закон управления 41, который в текущие моменты
времени t не использует информацию о будущей реализации помехи
νίτ] (τ>£) и который сформирует реализацию управления
и [£* [ · ] Ф) и движение χ [t# [ · ] О] при всякой реализации
помехи, являющейся кусочно-постоянной функцией
ν[ί*[·]ΰ) = {ν[ί] = νυ\ ti<f<fi+1, / = 1, ...,ιλ}. (11.26)
Формально назовем законом управления °U правило, которое
данным {£#, х*} и ρ [£#[·] О) (11.26) ставит в соответствие
некоторое множество реализаций процесса {х [t* [·] О], и [t* [·] θ)
ν [£# [·]Φ)}· Запишем это символически так:
**[**,*·, ИМ·]О)]-Ч*[*,[·]<>], ИМ·]*)» *[**[·]О)}· (Н.27)
Назовем закон °U допустимым, если выполнены следующие
условия.
(1) Каждое движение #[£*[·]θ] в правой части (11.27)
удовлетворяет равенству x[t#] = χ*·
(2) Реализация ν [£#[*] Φ) в правой части (11.27) совпадает
с реализацией ν [t* [ · ] О) в левой части.
(3) Каждая реализация процесса {х[ t% [·] О], и [t* [·] ft),
г>[£*[·]^)} в (11.27) удовлетворяет дифференциальному
равенству (4.7) при почти всех t из интервала t* < t < ft.
(4) Какими бы ни были момент времени £* е (£*, О) и
реализации v(1) [t* [·]ft) и у(2)[t* [·]#), совпадающие при t* < t <
< ί* так, что у(1) [ί] = ι;(2) [ί] (ί* < * < **), в (11.27) для всякой
реализации процесса U(1)[f* [·]<*]» и(1) [ί* [ · ] ^ у(1) [ί* [·] θ)I
найдется реализация процесса {^(2)[ί#[·]0], m^U* [·]<>), i/2)U* [·]£)},
удовлетворяющая равенствам #(1)UJ = x{2)[t] (t% ^ £ <1 £*) и
и(1)Й = в(1)Й (**<*<**)·
Данное определение вряд ли может вызвать сильное
возражение. В предложенный класс, который обозначим {^}(и .27)9
попадают все законы из {CU}(71). Этот класс включает в себя
также множество {°и)(ьл) всех законов управления °и{ъл) = iu(-)y
(5.1); (5.2)}, где функция и(£, х) измерима по ί и липшицева
98
по х, и, более того, множество {<2/}(5.7> всех законов °ίί^^ =
= {w(), (5.1); (5.2)}, где измеримая по t функция u(t, χ) хотя
бы непрерывна по х. Отметим, как частный пример, что и
законы управления из § 6 <2/* и <U = {»*(·), (6.48); (6.49)} также
включаются в {*2/}(н.27).
Предложенный класс допустимых законов управления
{^}(ΐΐ27) содержит в себе и законы управления, основанные на
механизме контрпомехи. Так, будет допустимым всякий закон
<2/(832), построенный на основе любой стратегии контрпомехи
u(-)v (8.31) и формирующий воздействие ult] по правилу
ultl~u(t{, хШ, vlt], ε), ti<t<ti+l, ι = 1, ..., к. (11.28)
Множество таких законов управления обозначим {<?/}(8.з2).
Также будет допустимым всякий закон Щ, построенный на
основе какой угодно функции
u(.)v = {u(t, χ, i;)e=P, {t, ж)еС, v^Q), (11.29)
которая непрерывна по χ при фиксированных t и ν и измерима
по t при фиксированных я; и р. При этом воздействие u[t]
формируется по правилу
и [t] = и (ί, ж 1*1, ι? [ί]), ί* < t < θ. (11.30)
Это множество законов управления обозначим {ЭД^м.го), <и.зо).
От функции и(·)* (11.29) не требуется измеримости по ι>, так
как допустимый закон °Ы из {^}(ц.27) должен работать только
при всякой кусочно-постоянной реализации помехи v[t%[-] ϋ)
Если желать совместимости закона <2/(11.29), (и.зо> со всякой
измеримой реализацией ν [t* [-] О), то от функции и(-)„ следует
требовать измеримости по £ и ι; при фиксированном х. Вообще,
надлежит подчеркнуть, что определяя широкий класс
допустимых законов управления {<2/}(11.27), мы сузили множество допу^
стимых реализаций ν[ί*[-]ϋ) до функций (11.26).
Определим гарантированный результат ρ \°U\ t%, .τ*] для
закона <U e= {<Ш(11.27) равенством
pVU]t„x*l= sup γ(*[ί*[·]θ], i*[f* [·]*)■ ι; [**[·]<>)).
{x[ ·],«[· ],»[·]}
(11.31)
где верхняя грань вычисляется по всем реализациям процесса,
которые возможны в (11.27) для данного закона °U. По форме
запись (11.31) отличается от некоторых других записей для
гарантированного результата $\°U\ ί*, χ*\, приведенных выше.
Там верхняя грань вычисляется тоже для множества значений
Τ-Υ(*1*· [·]*], κ[ί*[·]0)> !>[**[·]<>)), но в записи
фигурирует явно аргумент ν[t* [-]$), а не вся реализация процесса
{#[·], иЫ, щ·]}. Этого было достаточно, ибо те записи относятся
к случаям, когда для данного закона °U и данной исходной
позиции {£#, х*} реализация помехи ι>[ί#1·]0) определяет
реализацию процесса {x[t* [·] О], и [ί* [·]0),ν [t* [·]0)}
однозначно. Поэтому и там верхняя грань значений γ на деле
вычисляется по всем возможным реализациям процесса. Для
общего случая закона Щ из {ВД}(И.Ж7) такая однозначная
зависимость от у[£#[·]θ) не предполагается. Это и определяет
форму записи (11.31). В то же время определение (11.31)
отличается от некоторых определений гарантированного результата,
данных выше, и по существу, ибо мы сузили здесь
множество допустимых реализаций помехи до семейства функций
кусочно-постоянных. Это, вообще говоря, ослабляет смысл гаран-
тированности результата. Таким образом, в частности, для
законов <£/<ξ {<2/)(7.7) определение (11.31) отличается от
определения (7.10) тем, что в (11.31) верхняя грань берется по множеству
реализаций процесса, порожденных только кусочно-постоянными
реализациями ν[ί*[·]ϋ), а не по множеству всех реализаций
процесса; порожденных всевозможными измеримыми
реализациями ι>[£#[·]θ), как в (7.10). Но оказывается (и в этом и
состоит основной результат данного параграфа), что даже и
рассматриваемый теперь ослабленный по гарантии результат p\PU\
**> #*](ιι.3ΐ) ни для какой исходной позиции {£*, х%} ни для
одного допустимого закона управления °U из {^2/}(ιι.27) не может
оказаться по существу лучшим всех гарантированных
результатов ρ \°U>\ £*, я#](7.ю) из {<2/}(7.7), т. е. мы утверждаем, что
справедливо равенство
inf pVU\ **, **]Ui.3i) = inf p[°U; **, я*](7.ю)· (И.32)
<*><11.Ι7> 1*0(7.7)
Здесь нижние индексы (11.31) и (7.10) введены для того,
чтобы подчеркнуть, что в (11.32) слева фигурирует гарантия
лишь по отношению к кусочно-постоянным реализациям помехи,
в то время как справа фигурирует гарантия по отношению ко
.всем возможным измеримым реализациям v[t% [·]θ). Очевидно,
справедливо неравенство
inf р№; *„, ^1(1131)< inf рШ; **, **](7.ю>. (11.33)
^(11.27) W(7.7)
так как Ш}п.7) <= Ш}(п.27), и притом для всякого <2/е= {<Ш(77>
имеем p\°U\ t*, ##](п.з1)<1рШ; £*, х*](7.7)· Таким образом, остается
доказать неравенство
inf ρ \°U\ t*, я*](п.з1) > inf ρ [°U; t*, x*](7.io)· (11.34)
W(11.27) W(7.7)
Докажем его. Зафиксируем какую-нибудь позицию {£#, х%}.
Обратимся к дифференциальной игре {7.1; 8.2}. Как сказано
в § 8, при условии (8.14) эта игра имеет седловую точку {гг°(),
у°(·)} и цену р° (**,#*), и притом цена р°(г*, х*) игры {7.1; 8.2}
совпадает с ценой p°(i*, χ*) игры {7.1; 8.1}. Зададимся каким
угодно числом ξ > 0. Как и выше в аналогичной ситуации,
можно выбрать закон формирования помехи
3^> = {ι;Θ(.), ε(ζ), Δβ(ζ)>, (11.35)
100
отвечающий теперь уже чистой стратегии ι;°(·) и гарантирующий
неравенство
т(Л*Н*], Лм·]*). »(ζ) tt* И 0))>р° (**,**)-£ (11-36)
для всякой реализации процесса, возможной при этом
законе Г(С).
Пусть дан какой угодно закон управления °U* e {^}(n.27)·
Для всякого закона управления °U e {^}(ц.27) справедливо
следующее утверждение. Каков бы пи был закон Ψ формирования
помехи, отвечающий чистой стратегии !>(·), т. е.
Т=Ы'), ε, Δ>, ι;(·) = Μί, я, ε), {^}еС},
А = Д{*Д, *=1, ..., ft+1, (11.37)
в (11.27) найдется реализация процесса {#[ί#[·]0], и [**[·] О)*
ν [£# ί·] 0)}> которая удовлетворяет равенствам
!;[*]—ι;1** — iKfc, аЗД, ε), **<*<**+!, ί=1, ..., ft. (11.38)
Это формальное утверждение имеет такой содержательный
смысл. Формирование реализации процесса {х[t% [·]ό], κ[ί#[·]θ),
ι>Ι**Η^)} по закону °U <= {%}(им) не противоречит тому, что
при этом реализация помехи ν [£# [ · ] О) формируется по
закону Т. В таком случае законы <U та Υ будем называть
совместимыми. Эта совместимость законов °U и У* позволяет вести
формальные рассуждения в рамках игровой картины, в которой
первый игрок Ό формирует воздействие u[t] на основе закона <2/,
а второй игрок V формирует воздействие v[t] на основе закона
У. Такой картиной мы уже воспользовались выше при
доказательстве неравенства (11.6). Там совместимость законов °U* ж
Ψ1χύ вытекала прямо из их конструктивного описания, так как
реализацию процесса {*[η1 lf# [·]«], и U» [·]*). ι?[η1 [f* [-] β)},
порождаемую одновременно законами °U* и Υ[γ*\ можно
построить по шагам разбиения Δη*,υ[η]> которое получается при
объединении совокупностей точек U и t) . Поэтому выше вопрос
о совместимости °U* и Ψ1νλ мы не акцентировали. Теперь
допустимый закон <2/^{^Ш(и.27) определяется дескриптивно
(описательно) соотношением (11.27) и условиями (1)—(4).
Доказательство совместимости законов °U^ {°U){iill) и Уе{Я(И.37)
оказывается более сложным. Оно перенесено в начало § 12*. Здесь
пока примем совместимость °U* и У°(1) на веру. Но тогда найдется
реализация процесса U(D[i* [·]0], и [**[·] θ), νω [** [·] 0)},
формируемая одновременно по законам ^ и Та). Для нее
выполнено неравенство (11.36) и по определению гарантированного
результата ρ [°U*\ t*, #*](п.31) — неравенство
ϊ(*(ζ)[ί* [·]0], и U* l·]*), ^[^[-lOJXpI^; i*, ^](ii.3i). (И-39)
Из (11.36) и (11.39) вытекает неравенство
Р° (**, хщ) — ζ<ρ[^*; **, ^Idi.si), (H-40)
101
верное для любого °U* e {^}(ц.27)· Из неравенства (11.19), где
как раз p[°U\ £*, χ*] = ρ[^; £#, #*](?.ю)> и из (11.40) вследствие
произвольного выбора ξ > 0 вытекает доказываемое неравенство
(11.34).
Итак, мы доказали при условии (8.14), что в классе {^/}(11ί.27)
допустимых законов управления °U, удовлетворяющих условиям
(1)—(4), не существует закона °U*, который гарантировал бы
результат, по существу лучший всех гарантированных
результатов из множества допустимых законов {<2/}(7.7). Это и есть
формальное обоснование утверждения, что оптимальный
гарантированный результат
Р* (**,**) = limlimsupp[tt°(.), ε, Δ6; t#, x*] =
= inf ρ[^;ί*, я*](7.ю) (11.41)
W(7.7)
не может быть улучшен за счет выхода за рамки множества
законов управления *2/(7.7). Обратим еще раз внимание на то,
что "мы допустили такое расширение {°и){пЛ1) класса {°ίί)(ΊΊ)
допустимых законов управления, которое ограничено
формальным условием (4), содержательно не разрешающим использовать
в момент t информацию о будущей реализации помехи ι;[τ],
τ>£. (Как мы видели на примере законов ^Ш(8.з2) и
{^(ii.29), (н.зо), условие (4) не запрещает, однако, использовать
в момент t информацию о vlil.) Без ограничения (4)
утверждение о неулучшаемости оптимального результата р«(£*, х%) (11.41),
вообще говоря, не верно.
§ 12*. Неулучшаемость результата, названного оптимальным
Продолжим обсуждение возможности улучшить
гарантированный результат, если искать закон управления °U за пределами
множества {Ф/}(7.7). Откажемся теперь от условия (8.14). Для
строгой постановки вопроса надлежит опять определить
формально по возможности широкий класс законов управления W),
в котором можно искать закон ^*, гарантирующий результат,
по существу лучший всех гарантированных результатов из
{°11}{1Л). Однако прежде чем переходить к такому определению,
исполним долг, оставшийся от § 11. Именно, докажем сначала
совместность любых законов °U ^ {<2/}(1127> и Ψ ^ {T}(li 37)
(см. § 11).
Итак, пусть даны исходная позиция {£#, х*} и два какие
угодно закона <2/е= {°U}{ii21) и ^ε{Η(11,37). Нам надлежит
построить реализацию процесса, которая удовлетворяет условиям
(11.38). Сделаем это по шагам. Для данной исходной позиции
{*#« #*}по известным значениям Ьг = £#, xlt^^x* данный
закон (11.37) назначает реализацию помехи vltj. · ]t2) = ivlt] = v[l\
tl^t<t2}, vii} = v(tu xltj, ε). Построим вспомогательную pea-
102
лизацию помехи va) [t* [·] θ) = [ν It] = ν[ ], ί* < ί < θ}. Данный
допустимый закон управления °U согласно (11.27) определит для
данной исходной позиции {£*, х*} и реализации помехи
у(1) [** [ · ] Ф) некоторое множество реализаций процесса
U(1) [*♦[·]*], i*(1)U· l·]*). »(1)Ι*·['1*)1· Выберем одну из
этих реализаций [х™ fo,H*l· и?> [**[']<>). νω [f* [·] О)}.
Продолжим построение реализаций νω [t* [·] θ) и {а£г) [f* 1·]Φ],
и(«| * [£* f · 1 Φ)' y(° t** I' 1 *) 1 по индукции. Пусть построены
вспомогательная реализация помехи и [**[·] 0) и реализация
процесса 1а£°[*#[·]О], ^ [*·!·]<>)■ *(i) [f»H<>)K *m < О.
причем y(i) tt* [·] О) - {ν [t] - 1?[Я, f, ^ f < fJ+1, / = 1, ..., i - 1;
v[il=Oli\ U<:t<p}, Oin = v(tb xwltj, e) (/ = 1, ..., i). Для
позиции Ui+i, x{* lti+i]} закон У* назначает реализацию
vlU+tl · ]ti+2) = Mil = vli+l\ ti+l < t < i<+2}, где y[l+11 = v(ti+i,
x^lU+i], ε). Построим вспомогательную реализацию помехи
i;(m)[^[']#)=lHi] = y[jl, tj<t<tj+u ; = 1, ..., ι; »[Й-
= yii+n, ti+l<t<il·}. Закон %ί определит для данной исходной
позиции {ί*, χ*} и реализации помехи ρ [**[·]#)
некоторое множество реализаций процесса {s(t+1) [**[·!О], ы(1+1)1*# Н*)»
ι;(4+1)[ί*Ι·]θ)]. Согласно условию (4) (§11), вследствие
совпадения νΗ) [ί* [·]0) и v(i+1) [t* [·]0) при *#<£ < *π-ι
найдется во множестве реализаций {#(г+1)[М«]0], и(г+1) [(* [·]$),
у(<+1) U*[-]^)l такая реализация процесса U*+1)tt* [·] θ],
и*г+1) U* [ ■ ] О)*, 1>(г+1) [£# [ · ] О)), которая совпадает с
реализацией U^tf* H<>l· ^ [**[·! О). »WU· [·]*)) ПРИ **<*< *ι+ι·
При этом будут справедливы равенства v{%+i)[t] = иы,
ii< * < iJ+i, vm = i;(f,,a£i+1) [til, ε)(/ = 1, ..., i + 1). Таким
образом, можно продолжить построение реализации {я**!** [·]ΰ],
u>i [Μ·]^)> уг)[^* 1']Щ] на один шаг от i к i+ 1. Отсюда по
индукции и следует справедливость утверждения о существовании
реализации процесса U*ft) [** М#Ь u(V[t*[·]®), i?(k)[t# [·]«)},
порожденной законами °U и У, которая удовлетворяет
условиям (11.38).
Обратимся к основной задаче этого параграфа. Назовем опять
законом управления °U правило Щ (11.27), которое данным
{£*> х*} и ρ[ί#[·]0) ставит в соответствие некоторое
множество реализаций процесса {x[t* [·] О], и [£*[·]θ), i>If*l·]*)}·
Примем, что реализация помехи i;[f*l']*) может быть любой
измеримой функцией
»[f*H*) = W*]€=e, ί*<ί<ϋ}. (12.1)
Отказ от условия (8.14) вынуждает нас сузить класс допустимых
законов управления °U по сравнению с тем множеством Ш)^ 27)
из § 11, которое было стеснено условиями (1) —(4).
103
Здесь эти условия недостаточны для доказательства
неулучшаемости гарантированного результата Ри(£#> ##) в классе
законов Ш}(н.27), стесненных только ими. Поясним это. Как
отмечено выше, условия (1)—(4) не исключают основанные па
механизме контрпомехи законы управления °и^ {^}<8.з2> и °U^
11.29), (н.зо). Однако в § 8 при обсуждении задачи 8.3 было
отмечено, что при нарушении условия (8.14) возможны случаи,
когда для некоторых исходных позиций {£#, ^}е(т будет
справедливо неравенство
9и (t*, #*)(8.35) < Ри (**> Я*)(7.17)· (12.2)
Но (12.2) означает, что для каждой из таких позиций {£*, х*}
найдется закон управления <2/(8.з2), который гарантирует
неравенство
-?(*[«* И 01, и[«„[-]О), И** [·]*))<
^ Ри (ί*' #*)(8.35) + ~4" \Р« (^*> #*)(7.17) — Ри (£#> #*)(8.35)) <
<Ри(£#> #*)(7.17) 4"(Ри(^*7 #*)(7Л7) — Ри(£*т #*)(8.35))i (12.3)
т. е. выбирая этот закон <2/(8.з2), можно улучшить
гарантированный результат ри(£*, #*)<7Л7) по существу. Содержательно это
объясняется тем, что формализация законов управления °ίί^Ί.Ί)
отражает в соответствии с реальным смыслом задачи 7.1
формирование воздействий nit] только на основе информации о
реализующихся позициях {£, xltl), а закон ^2/(8.з2) использует для
формирования ult] в момент t вдобавок информацию -о
реализовавшемся значении vltl. При условии (8.14) эта информация
оказывается несущественной. Но без этого условия она может сыграть
заметную роль. Поэтому в модернизированных условиях (1)—(4)
надлежит оговорить формальное условие, которое исключало бы
использование информации о текущих значениях vlil. Новым
удобным формальным условием явилась бы совместимость
допустимого закона °Ы с любым законом У^{Т){ЬЛ), основанным на
механизме контруправления. Это исключило бы законы Ш с
механизмом контрпомехи. Подобное условие можно было бы
сформулировать так. Каким бы ни был закон У*е {У}(8>2), для
допустимого закона Ш найдется в (11.27) реализация процесса
{*1*П-]*Ь и U* [·]*), ^ U· !·]*)> такая' чт0
vlt] = v(ti,x[tj,ult], ε), U<t<ti+U £ = 1,...,*. (12.4)
При этом условии можно было бы доказать неулучшаемость
оптимального гарантированного результата ρ£(ί#> #*)(7.ΐ7) в
расширенном так классе {°и)^Л) допустимых законов °U. Однако
этот вывод обедняется следующим обстоятельством. Условие
(12.4) создает препятствие для законов управления °U e {<U}(57).
В самом деле, при выборе закона управления Ш е {^}(5.7) и
назначении помехи, связанной условием (12.4), движение
104
я [ h [ · ] Щ = {х It], £# <Ξ t ^ 0} должно быть решением следующего
дифференциального уравнения:
i = /(i, л:, tt(i, x), vitu хШ, u(t, χ), ε)),
tt<t<ti+u i — 1, ..., Λ. (12.5)
Функция /(·) в правой части этого уравнения на каждом
интервале U < t < ii+i измерима по J при каждом фиксированном χ
по теореме о суперпозиции измеримых функций. Так как
функция v(t, χ, и, ε) предполагается измеримой по щ то по той же
теореме функция /(·) оказывается измеримой и по х. Но
непрерывной по χ она, вообще говоря, не будет. А только измеримости
по χ недостаточно для применения стандартной теоремы о
существовании решения хЫ U<<t<f<+i) уравнения (12.5).
(Стандартная теорема о существовании решения xit] формулируется
при условии измеримости по ί и непрерывности по χ для правой
части /(·) (см., например [25*], с. 120).) Это осложняет проблему
совместимости законов Ш^{°и}{ьл) и ^е={^}(82). В то же время
исключать семейство {^2/}(5.7) из множества допустимых законов
управления не хотелось бы. В самом деле, тогда доказательство
неулучшаемости оптимального результата Pu(t** x%) (7.17),
который характеризует выбранный за основу нашей формализации
класс законов управления {Ш)ал), выглядело бы не очень
корректным. Мы не допустили бы на конкурс с законами °U e {<Ш(7л>
законы управления ^2/(5.7> = {»(·), (5.1); (5.2)}, которые раньше
дискредитировали, не стесняясь в средствах. Поэтому
трансформируем условия (1)—(4), заменив пункт (4) в определении
допустимого закона управления °U (11.27) новым пунктом (4*),
который сформулируем следующим образом. В гл. III будет доказано,
что среди оптимальных контрстратегий ι>°(·)« есть так называемая
экстремальная контрстратегия ι>°(·)« (см. §§ 27, 29). Она
определена условиями (27.5), (27.6). Новое условие таково.
(4*) При данной исходной позиции {£#, х%} для допустимого
закона °Ы и для всякого закона Ψ е {У9}(82)? отвечающего
оптимальной экстремальной контрстратегии ρ°(·)«, τ. е.
T = {v°{-)u, ε, Δ}, (12.6)
и для сколь угодно малого числа η >0 найдется в (11.27)
реализация процесса [аР° [t* !·]#], Η(η)[ί* [·]0), v{4°[t^ [·]θ)} и
найдется измеримая функция
и* [**[·]<>) = {и* [f]e=P, **<*<0}, (12.7)
для которых выполнены условия
v™[t]=v°(h хыЫ, α*Μ, ε), fi<t<f<+lf ί —1, ..., ft, (12.8)
Ια*ω-α(*>[ί]|<η. (12.9)
Класс допустимых законов управления °Uk ϋ.27)ί
удовлетворяющих условиям (1)—(4*), обозначим ΜΛ*(11.ιτ>. Оказывается,
,105
что ни для одной исходной позиции {£#, х*}^ G и ни для
одного закона ^2/е{^}(П.27) гарантированный результат ρ \°U\ t*> х*\
не может оказаться меньшим, чем ρ°(£#, #*)(?.17)·
Докажем это. Пусть дана позиция {£#, х*} и зафиксирован какой-
нибудь закон управления °U* e {^}(ц.27)· Какое бы число
ξ >0 ни задать, можно выбрать закон Τζ = {ν0(-)Η, ε(ξ), Δβ(ε)},
который гарантирует неравенство
>Ρ°(*·.*·){7.ι;β.ι>-ει (12.Ю)
какой бы ни была реализация процесса, возможная при этом
законе Τζ. Более того, из свойств оптимальной экстремальной
контрстратегии ι>°(·)Μ, которые установлены теоремой 30.2 в
гл. III, следует, что при достаточно малом значении η = η(ζ)
будет также гарантировано неравенство
rtUiSiM·]*]. иЭДи·н*). »(η)[Μ·ι<>)})>
>Ρ°(ί*,^)(7.ι;8.ι>-2ζ, (12.11)
какой бы ни была реализация процесса [z$\ [t* [·]θ],
κ[ζ] [**Н<>). ^ [*·!·]<>)}. в которой функции i$]tt*H°)»
ι;(η) [ί* Η Φ), и* [*# [·]^) удовлетворяют условиям (12.8) и
(12.9), причем *(η) [f] = я[$ [ί], ι*(η) [ί] = u($ [ί] и и* [t] -
измеримая функция (12.7). Но согласно условию (4*) среди
таких реализаций процесса будет и такая, которая определяется
законом Ф^#. Для этой реализации справедливо неравенство
т(ЫЗ[*·Μ<>], и$[**н<»), !>№ιμ·]<>)1)<
<р[^*;**, χ*] (12.12)
по определению гарантированного результата для °U*. Из (12.11)
и (12.12) вследствие произвольности выбора ξ >0 следует
неравенство
p[^*; h, £*]>ρ°(**, **){7.ι;8.ι> β Ρ°(**» **)(7.i7), (12.13)
которое и доказывает неулучшаемость гарантированного
результата р£(£#, ##)(7.ΐ7)в классе {<2/}(ιι.27> допустимых законов °U (11.27),
удовлетворяющих условиям (1) —(4*). Заметим, что в случае
выполнения равенства (8.14) условие (4) было использовано для
доказательства совместимости законов °U e {%L}(1127) и Ψ'е
11.37)· Теперь совместимость законов .27) И
У*<={3п(8.2) постулируется условием (4*) (в ослабленной форме
в виде условий (12.8), (12.9)).
Покажем теперь, что при условиях (1)—(4*) закон
управления ^/(5.7) = {»(·), (5.1); (5.2)}, где функция u(t, x) липшицева
по χ и измерима по t или где функция и(£, х) непрерывна по
ί, х, является допустимым, т. е. для таких классов {^}(s.7> cz
106
c= {^}(* 1.27)· Пусть дана исходная позиция {*#, х%} и закон
F^{F}(8.2). Выберем некоторое разбиение Δβ* {t*} для отрезка
U*, О]· Будем формировать помеху следующим образом:
„од = v°(tu x[ti\, u(t, x[t*]\ ε) (12.14)
*i<i<*i+i> t*<:t<t*+i, ί=-1, ...,*, / = lf ...,**,
где £* суть моменты из разбиения Δ из (8.2). При этом
реализация управления utrf строится по закону Ш{ЬЛ) = {»(·), (5.1); (5.2)}.
Движение #[£#[·]θ] будет решением пошагового уравнения
z[t] = f(t,x[t], u{t,x[t\), v°(th x[ti], u(t, x[t*]), £>)),
ti<t<ti+1, ti<t<*i+i, i —1 *, / —1 **. (12.15)
При любом назначенном η > 0, выбирая число δ* > 0 для
разбиения Аб* достаточно малым, обеспечим для решения xit]
уравнения (12.15) неравенство
\и (*, χ It]) -u(t,x [ij ]) I < η, (12.16)
где при каждом ie(i#, θ) значение t] выбирается из условия
t e [tj, ij+i). Но это неравенство и означает выполнение
условий (12.8) и (12.9), где ι/η)[ί] - v°(tu *fal, u(t, ζ[$], ε)), ί*<
< t < ii+i, tj < t < *;+i, и« [ί] = и (*, а:[*]), и* [ί] = и(*, я[*,·])·
Стало быть, рассматриваемый закон управления {»(·), (5.1);
(5.2)} удовлетворяет условию (4*). Так как условия (1)—(3) из
§ 11 выполняются для закона °и{ьЛ) = {»(·), (5.1); (5.2)}
очевидным образом, то этот закон, действительно, является допустимым,
Т. в. {^/}(5.1),(5.2) CI {^}(*1.27).
Итак, мы проверили, что оптимальный гарантированный
результат pu(t*, χ*) (7.17) не может быть улучшен в классе
законов %1{ьл) = {»(·), (5.1); (5.2)}, где функция ю(£, х) непрерывна
по обоим аргументам или является лишпицевой по χ и
измеримой по t. Это утверждение остается в силе и по отношению
класса законов <2/(5Л), где функция ю(£, х) только непрерывна по а? и
измерима по t. Но доказательство неулучшаемости
гарантированного результата Ри(£#, х*) при переходе к такому классу
законов {°и}{Ь.ц требует более сложной аппроксимации функции
/(£, х, u(t, χ), ν). Это доказательство здесь приводить не будем.
В заключение этого параграфа обсудим еще некоторые
вопросы, связанные с материалом о допустимых законах
управления °U. Мы ограничили содержательно расширенный класс
^}(ϋ.27) допустимых законов управления <U из § 11 тем
условием, что эти законы не могут использовать в момент t
информацию о будущей реализации помехи νίτ] (τ>ί). Формальное
условие (4), которое отвечает этому содержательному условию,
также исключает использование такой информации. Как мы видели,
однако, это условие (4) не исключает использование в момент t
107
информации о реализации vltl. (Так, мы отмечали, например, что
при условиях (1)—(4) оказываются допустимыми законы °U из
(8.з2) и из {°U}{iiM)t (ϋ.30)9 которые базируются на механизме
контрпомехи.) Может сложиться впечатление, что возможности
управления окажутся существенно различными, если мы
допустим законы управления 41, которые наряду с информацией об
{£, x[i\) в одном случае могут в момент t использовать только
информацию о реализации υ [t* [·] t) = {ι; [τ], t* ^ τ < *}, а в
другом — информацию о реализации ν [t% [ ·] t] = {ν [τ], £# <1 τ <! £}.
Но это не так. Дополнительная явная информация в момент t
о значении v[t] по сути дела ничего не добавляет. В самом деле,
мы постулируем, что реализация помехи ν [t* [·] θ) = {ν [f\t
£# ^ ί< Щ должна быть измеримой функцией. А в таком случае
согласно материалу из § 2 функция
t
q It] = J v [τ] άτ
и
будет абсолютно непрерывной и будет иметь производную q[t\ =
= v[t] при почти всех t^ (t*t ϋ). Но в таких точках t имеем
?[q=jEi [qlt]-q[t]]/{t-t).
Отсюда вытекает, что для всякой допустимой
ν [£* I · ] ^) при почти всех t справедливо равенство
t
ν [t] = lim
t-*t—о
Ы"М
άτ
реализации
(12.17)
где интеграл берется по полуинтервалу [?, i). Таким образом, для
всякой допустимой реализации г>[£# НФ) значение vit] при
почти всех t определяется историей ν[τ] (τ<£). Поэтому, если
управляющее воздействие uit] строится, например, по закону
^(8.32), то можно полагать
t
u[t] = u[ tb x[ti],Jiim
7-»*-о
гяН
(<-Ш
άτ
(12.18)
и тем самым обойтись только информацией о прошлом помехи
νίτ] (x<t). Но, разумеется, (12.18) есть уже весьма абстрактная
конструкция, так как операцию в правой части (12.18) трудно
считать практически выполнимой. (Кстати, вместо значения xlQ
в (12.18) и в других аналогичных записях можно вследствие
непрерывности xlt] писать величину lim #[ ί] = #[£*], «исполь-
7-»ί|—о
зуя», таким образом, «только» историю движения x[t*[*]ti)
к моменту U.)
108
Определение допустимого закона управления ^(11.27) при
условиях (1)—(4) из § 11 можно трактовать следующим образом.
Этот закон °U является оператором, который всякой допустимой
реализации помехи ν [£* [ · ] О) ставит в соответствие некоторое
множество допустимых реализаций управления ΐ4&*[·]Φ).
Запишем это символически так:
<U\U,x*\ ι>[ί*[·]#)]~"[**[·]#)· (12.19)
Для эквивалентного перехода от (12.19) к (11.27) или от
(11.27) к (12.19) достаточно заметить, что исходная позиция
{£*,#*} и пара реализаций {v[t* [·]0), и [t* [·]θ)> определяют
движение #[£#[·] θ] как решение уравнения (4.7) при
начальном условии χ \t*\ = χ* однозначно. Условие (4) заменяется
следующим условием.
(4*). Если реализации у(1) [£* l· ]#) и ι;(2)[ί* [·]0)
совпадают πρκ t%^t<Lt*, то для всякой реализации и№ [t* [ · ] О)
в (12.19), отвечающей ν(1) [£# [·]θ), найдется реализация
w(2) [£#[·]θ) в (12.19), отвечающая ι>(2) tt* [ · ] Φ) и такая, что
реализации w(1) [t* I·] θ) и u<2> [ί* [·] θ) совпадают при £* < £ < £*.
Таким образом, при наших предположениях об
уравнении движения (4.3) множество законов {<2/}(11.27) при условиях
(1)—(4) и множество законов Ш)(12.19) при условиях (1) — (4*)
при одинаковом классе допустимых реализаций помехи
совпадают по сути дела. Мы предпочли запись (11.27). Рассмотренные
выше классы законов Ш}(7.7), ί^)(5.7), {°Ш(ъ.гь), {*М}(цМ), (11.3о)
выделяются по характеру тех операций, которые определяют
осуществления оператора (12.19). Все перечисленные сейчас
классы законов носят позиционный характер в том смысле, что
порождаемые ими операции осуществляют соответствие (12.19)
так или иначе конструктивно через реализующиеся позиции
{t, #[Ш, причем и[£], v[t] и xlt] связаны дифференциальным
равенством (4.7). Разумеется, возможны и более частные классы
законов управления <2/, механизмы которых не включают
позиционных элементов (помимо {£#, х*}). Например, в случае
допустимых только кусочно-постоянных реализаций ι; [£#[·] О)
(11.26) можно выделить законы управления °U, которые строят
воздействие uit] по чистому правилу контрпомехи
u[U=u(t, vitl), (12.20)
где функция
Μ(')βΜ*. р)еР, **<*<#, v<=Q} (12.21)
измерима по t при фиксированном v. Этот класс обозначим
{^/(12.20), (12.2i). Если допустить любые измеримые реализации
ι>[£*1·] θ), то функцию u(t, v) надлежит предполагать
измеримой по {£, ν).
Можно назвать допустимым законом управления °UV оператор,
который построен по такому правилу контрпомехи, когда в
109
каждый текущий момент времени t имеем
и [t] = «[**, x*,vltml·] t)], (12.22)
где
»[ί·Ι·]ί)βΜτ], ί·<τ<ί> (12.23)
есть история помехи к моменту t. При этом операторы (12.22)
стесняются тем условиям, что в ответ на всякую измеримую
реализацию ι>[£#[·]Φ) правило (12.22) сформирует измеримую
реализацию и[£*[·]О). Этот класс обозначим {Ч1)цглгу Не будем
обсуждать здесь всевозможные формы операторов <2/, так или
иначе связанных с механизмом контрпомехи, ограничившись
примерами {^2/}(12.20), (12.21) И HI) (12.22). Операторы (12.19), (12.22) и
им подобные называют иногда квазистратегиями.
Заметим, что попытка строить конструктивно операторы Ш
(12.19) на основе законов °U из Ш}(51), (5.2) так, чтобы эти
законы °U (12.19) были совместимы с любыми законами У^ {У*}(8#2)1
наталкивается на трудности, указанные выше для операторов Щ
(11.27), так как изменение записи (11.27) на запись (12.19) не
меняет существа дела.
В случае, когда не выполнено условие (8.14), операторы
(12.19) опять можно стеснить условием (4*), должным образом
переформулировав это условие для записи (12.19).
§ 13*. Обобщенные движение, помеха и управление
Типичным приемом в математике является определение
элементов для ее моделей на основе предельного перехода. Следуя
этому приему, можно ввести понятие обобщенного движения
#[**[·]Φ] на основе предельного перехода для
последовательностей из тех или иных классов движений χ [t* [·]Φ], которые
определяются как решения дифференциального уравнения (4.6). Так
можно ввести следующее определение для обобщенного
движения £[£*[·]Φ], порожденного стратегией »(■) (7.6) из позиции
{£#» ##}· Назовем этим движением всякую функцию #[£*[-]Φ],
которая является повторным пределом
χ [t] = lim lim xljj8 [i], t* < t < Φ, Ιο [t*] = χ* (13.1)
хотя бы для одной двойной последовательности движений
{xbjS [£* [·]Φ]> 7 = 1? 2, ..., s = 1, 2, ...}, являющихся
решениями пошагового дифференциального уравнения (7.8) (при ε == ε^
A = Ajs{i{js)}, k = k(j8\ Olf\ = itto[t], **<*<Ф). Так как
все функции #д[£*[']Ф] удовлетворяют условию Липшица
по £, всякое движение £[£*1·]Φ] (13.1) также будет
удовлетворять этому условию. По той же причине пределы в (13.1)
равномерны по £, т. е. для любого η > 0 найдутся номера Sj и /η та-
110
кие, что
max |/j[i] — *%#[ί]|<η, s^tsj,
****** ,~ 8· (13·2)
max |s[f] —*'[4ΐ<η. 7>/V
Таким образом, всякое движение χ [t* [ · ] О] является
абсолютно непрерывной функцией. Однако, вообще говоря, движение
х [t% [·]θ] может не быть решением уравнения (4.6), т. е.
функция я[£*[-]Ф] может не удовлетворять равенству (4.7) ни при
каких допустимых реализациях u[t%[·]®) и p[t*[*]0). Тем
более движение χ [t* [*]Щ не обязано быть решением уравнения
* = /(*, χ, u(t, χ, ε), vlil) (13.3)
при каких-то ε и ν [t* [-]$)·
Всякая стратегия #(·) (7.6) порождает из позиции {£#, х*}
пучок движений {#[£#[·]О]; м(*)> **» #*Ь Этот пучок является
компактным множеством в пространстве ^{zlt* [·]θ]} функций
ζ [ί#Ι·]θ] где расстояние ||·|^ между элементами ^[^[-JO]
и s(2) [t% [ ·] θ] определено равенством
|^>[*»[·]О]-г<«[*·[·]%- max|^)[q-«<«[q|. (13.4)
Если функционал γ(·) (7.4) построен на основе функции
χ(ί, ж), которая не включает аргументы и и р, то он является
непрерывным (и даже липшицевым) функционалом γ (ζ [t* [ · ] $])
на элементах из пространства Ψ{ζ[ί* [·]θ]}· В т&лим случае
из (13.1) следует предельное равенство
у(х U* [·]θ]) = limlimγ (a&U* МО]). (13.5)
j-»oo s-»oo
Гарантированный результат p[w(·); £#, #*] для стратегии
и{·) на порожденном ею пучке движений [x[t# [·]0]; и (·), £#, я*}
определим равенством
ρ [и (-); t*, #*] = max γ (я [** [. ] О]). (13.6)
Здесь максимум по всем движениям из пучка действительно
достигается, так как этот пучок является компактом и
функционал γ непрерывен в пространстве Ψ {ζ [t* [ · ] θ]}. Вследствие
(13.5) оказывается, что для величин ρ (7.13) и ρ (13.6)
справедливо равенство
Ρ № (·); **, Хщ\ = ρ [и (·); **, ^*], (13.7)
какова бы ни была стратегия и(-) и позиция {£#, #*} <= (λ Далее,
оптимальные минимаксные стратегии ю°(·) для ρ и для ρ и опти-
111
мальные гарантированные результаты совпадают, так что
справедливы равенства
min ρΜ·); **,#*] =» р[и°(·); **,#*] = р2(**,я*) =
u(·)
= Pu(i*^*) = p[^°(·); **,**] = min ρ [«(·); **,**]· (13.8)
u(·)
Аналогичным образом с понятными изменениями
определяются движения, порожденные чистой стратегией v(-) (8.15),
стратегией контруправления v(-)u (8.1) и стратегией контрпомехи
и(-)„ (8.32). Аналогичным образом определяются в этих случаях
гарантированные результаты и оптимальные стратегии и
устанавливаются соотношения, подобные (13.8). Не будем приводить
соответствующие определения, а также опустим доказательства
утверждений, высказанных выше для случая стратегии »(·), и
тому подобных. Эти доказательства опираются понятным образом
на определение движения (13.1), соотношение (13.5) и на те
результаты для оптимальных гарантированных результатов и
оптимальных стратегий, на которые мы ссылались в §§7, 8 и 11.
Для рассматриваемых классов обобщенных движений χ [£#[·]О]
в случае показателя
Υ = γ(* [**Н#]) (13.9)
понятным образом формулируются задачи, аналогичные задачам
7.1, 8.1—8.3, и составляются дифференциальные игры,
аналогичные играм {7.1; 8.1), {7.1; 8.2}, {8.3; 8.2}. Вследствие
равенства (13.8) и ему подобных из существования решений для задач
и игр из §§ 7 и 8 следует, что и задачи — аналоги для
обобщенных движений имеют решения, и соответствующие
дифференциальные игры для классов обобщенных движений имеют седловые
точки и цены, которые совпадают с таковыми из §§ 7 и 8. Это
означает, что по сути дела в §§ 7 и 8 и здесь речь идет об одном
и том же. Однако формализм, связанный с обобщенными
движениями χ [t* [·]θ], может оказаться удобным по той причине, что
в отличие от неравенств (7.14), (8.8), (8.23) и т. д.
соответствующие неравенства для движений χ [£#[·] θ] верны без малых
добавок ξ. Например, оптимальная стратегия ю°(·) гарантирует для
всякого порождаемого ею движения χ [£# [ · ] О] неравенство
Υ (х [*» И Щ) < 9и (*♦, х*) = Р° (**, **)· (13.10)
Для всякого движения χ [t* [·] О], порожденного
одновременно стратегией ю°(·) и контрстратегией ν°(·)«, справедливо
равенство
Υ (*МЧ<>])-Р0 (**.*·). (13.11)
При этом мы говорим, что движение χ [£# [ · ] θ] порождено
одновременно стратегиями и(-) и ι>(·)«, если оно содержится в
112
пересечении пучков {#<[**[·]θ]; и°(·), **> #*) и {x[t* [·]θ];
Р°(')и* *♦,*♦!· Такое пересечение не пусто для всяких двух
стратегий и(·) и ι>(·)*. В то же время данный формализм
несколько затушевывает то, что на самом деле постановка задачи имеет
реальную основу.
Обратимся теперь к обобщению реализаций помехи v[t*[-]v)
и управления и [t* [·]$)- Здесь мы применим такие функции
времени, значениями которых являются вероятностные меры.
Обозначим символом PXQ множество пар {и, ι;}, где и^Р и
v^Q. Назовем реализацией обобщенного воздействия функцию
η[ί·[·]θ)={η(β|ί), Be-<%[PxQ], **<*<#}, (13.12)
которая всякому значению ie[£*,0) ставит в соответствие
вероятностную меру T)U3U) на множестве PXQ. Это означает, что
при всяком ί е [ί#,О) функция η(·) всякому множеству δε
^PXQ из борелевской σ-алгебры ^[PxQ] на множестве PXQ
ставит в соответствие число r\lB\t). При этом 0<η(-Β|ί)<1,.
η(ΡΧρ|ί)-1; Ση(#ί|*) = η U Bi\tl если Bi{\Bj = 0 при
1=^7. Пусть дана функция η [£*[·] О) (13.12). Если указана
некоторая непрерывная функция МО = {Ми, ιΟ, й^Р, v^Q), to
можно при всяком t вычислить следующий интеграл Лебега —
Стилтьеса:
3T{t)— I h(u,v)r\(du,dv\t). (13.13)
PXQ
Этот интеграл будет функцией от t. Назовем реализацию
воздействия η [£#[·]О) допустимой, если при всяком выборе
непрерывной функции МО функция &(t) является измеримой при
t*^t<C$- В таком случае сама функция η[έ*[·]θ) называется
слабо измеримой (см. [21*], с. 118, [41, с. 124).
Обратимся к дифференциальному уравнению (4.3). Построим
функцию
f™(t,x)= J f(t,x,u,v)r)(du,dv\t). (13.14)
PXQ
Примем, что функции /(О и χ(0 непрерывны. Тогда при
всякой допустимой реализации η [£#[·] О) (13.12) функция
/[η1(ί, χ) (13.14) измерима по t при фиксированном χ и липши-
цева по χ (см. [4], с. 125). Но тогда дифференциальное
уравнение
* = f / (*, *, Щ ν) η (du, dv\t) = /[η] (t, x) (13.15)
PXQ
при начальном условии x[t*] = я* имеет единственное решение
#[ί#Ι·]Φ] · Назовем это решение обобщенным движением,
порожденным реализацией воздействия η [£#[·! Ф)· Пару допусти-
8 н. Н. Красовский ИЗ
мых реализаций {и [£*[·]θ), ι;[ί#[·]0)} можно рассматривать
как реализацию обобщенного воздействия η[ί#[']Φ)· В самом
деле, выберем функцию v\(B\t) в (13.12) из условия
Л Рт.Ф1 |t)-U»<K*, (13.16)
где
#«[«].·[*] = Кн. и): u = u[t], y = i;[d], (13.17)
т. е. при каждом f ε[£*,Φ) множество Bum.vm есть просто
точка {юЫ, vti)}. При таком выборе η [£#[·]θ) имеем согласно
(13.14)
/["3(f, *)-/(«, я, aid, Ы>]), (13.18)
и уравнение (13.15) обращается в уравнение (4.6), где ю = юЫ,
Пусть выбрана некоторая стратегия »(·) (7.6) и дана
исходная позиция {£#,#*}. Назовем реализацией обобщенного
процесса, порожденной стратегией »(·) из позиции {*#, а?*}» всякую
пару функций { я [ί* [ · ] О], η It* [ · ] О)), где функция я[** [ · ] О]
является повторным пределом (13.1) и функция r\[t# [-JO) для
этой же последовательности {ε,·, Δ^, у"*1 [t* [·] О), j, 5= 1, ..., <»}
является повторным слабым пределом
η [** И О) - lim (ел.) lim (ел.) цт [t *[ · ] О), (13.19)
η1*1 [(,[·)*)- W*'(S|(), ВеЯ[к<<я, *»<(<«!,
Λ^Κ»]..,).*.,,,!')-1· #·<««»· (13·20)
Говорят, что последовательность т|г [£* I * ] Φ) (r=l, 2, )
сходится слабо к ηΐ** [·]0), если для всякой непрерывной
функции hit, и, ν) справедливо равенство [12] (с. 198)
lim J J h (£, w, ι;) ηΓ (du, dv \ t) di =
г-*°° t· pxq
= f J Λ (ί, и, ι;) η (du, dv 11) di. (13.21)
ί* PXQ
Можно проверить, что для всякой стратегии »(·) и всякой
позиции {^,^}еб существует по крайней мере одна
реализация процесса [х [£#[·]$], η [£#[·]$)}, порожденная этой
стратегией из данной позиции {£#, ##}. И всякая реализация
обобщенного процесса удовлетворяет равенству
*[*]= f f(t,xlf\,u,v)i\(du,dv\t) (13.22)
PXQ
при почти всех iG(i$,0). Более того, всякое обобщенное дви-
114
ясение χ [**[·]$] (13.1) является составляющей для некоторой
обобщенной реализации процесса [х It* [·] О], η [t* [·] О)}. При
этом для функционала γ(·) (7.4) справедливо предельное
равенство
[а
)'σ («,*?„[«]) μ (Л) +
i*
-limlim γ (*&,[*» [·]<>]. «w[f,l·]*), i>°5) [**[·]<>)) =
— ν(«ι**[·ι*ι. η ι*· Η*))- |'σ(ί,ϊ[ί])μ(Λ) +
+ ] ) χ(ί,ϊ [ί],Η,ι;)η(Λι,Α;|*)<*ί,
(13.23)
Таким образом, всякая стратегия »(·) (7.6) порождает из
позиции {£#, ##} пучок, реализаций обобщенного процесса
{я If И·]*]» η Ιί#1·10); «(·),*♦,«♦)- Этот пучок является
компактным множеством в пространстве Ψ {ζ [t% [ · ] О]} Χ
XJt{r\[t* [·]θ)}, причем он сильно компактен по компоненте
#[£*[·]^] в ^ и слабо компактен по компоненте η[ί*Η*)
в пространстве таких функций η[ί*[·]θ), которое обозначим
буквой Ж. Гарантированный результат ρ [и(-); £*,#*] для
стратегии и(-) на ее пучке реализаций обобщенного процесса
{#[£*[·]Φΐι ηΐί*!"!^)» Μ(·)> ί*'^*} определяется равенством
ρ [и(-); t*,x*]= max у(хЬ*[-]Щ, η U* [·]*)),
{?[*·[· ]0],η[<·[·Κ»}
(13.24)
где максимум вычисляется по всем реализациям процесса иа
пучка. Этот максимум достигается, так как функционал γ(·) (7.4)
непрерывен в ФХЖ относительно сильной сходимости
аргумента χ [ί*[·]θ] и слабой сходимости аргумента η[£*[·]θ) и пучок
реализаций процесса компактен как раз в таком смысле.
Оказывается, что для величин ρ (7.13) и ρ (13.24) опять справедливо
равенство (13.7). Оптимальные минимаксные стратегии α°(·) для
ρ (7.13) и ρ (13.24) совпадают и справедливы равенства (13.8).
Аналогичным образом с понятными изменениями определяются:
8* 115
-
обобщенные реализации процесса Ι χ [t# [ · ] О], η [t% [ · ] О)},
порожденные чистой стратегией ν(·) (8.15), стратегией
контруправления v(')u (8.1) и стратегией контрпомехи и(-)„ (8.24). По
отношению к реализациям обобщенного процесса для общего случая
функционала γ(·) (7.4) остается справедливым все сказанное
выше по отношению к обобщенным движениям χ [£# [·] О] в
частном случае функционала y{x[t* [·]θ]). И здесь формализм,
дающий реализации обобщенного процесса [x[t* [·]θ], η [t% [·]θ)}«
имеет ту привлекательную черту, что соответствующие оценки
имеют «замкнутую» форму. Например, оптимальная стратегия
ю°(·) гарантирует неравенство
γ(ϊ [*»[·]*]. η[ί*[·]θ))<ρ2(ί*,^)=ρα(ί*,^), (13.25)
и для всякой реализации процесса [x[t* [·]θ], η [t% [·]0)},
порожденной одновременно стратегией ю°(·) и контрстратегией ν°(·)«,
справедливо равенство
γ(* [**И#Ь η[Μ·]*)) = ρ°(**,**)· (13·26)
Как сказано выше, этот формализм в то же время несколько
затушевывает реальную основу исходной задачи. Но следует
все-таки иметь в виду, что строгие соотношения (13.25), (13.26)
и им подобные не являются пустыми абстракциями, а имеют
полезный смысл, который выясняется при их истолковании в
аппроксимирующей их дискретной схеме из §§ 7, 8.
Обратимся теперь еще к одному вопросу, который можно
поставить для лучшего уяснения качества оптимального
гарантированного результата р2 (£#, ##) (7.17). Величина р£(£*?#*)
согласно (7.13), (7.10) имеет смысл гарантированного результата по
отношению ко всем реализациям процесса {x[t* [·]θ], aft* [·]ύ),
ν [£#[·! Ф)}> которые могут случиться при выборе стратегии ю°(-Г-
при переборе всех возможных допустимых реализаций помехи
И** Н^)· Но можно расширить множество допустимых
реализаций помехи, включив в число допустимых реализации
обобщенной помехи, которые описываются функциями-мерами. И
можно поставить вопрос о том, не ухудшится ли гарантированный
результат при таком расширении множества допустимых
реализаций помехи. Именно, назовем реализацией обобщенной помехи
функцию
ν [*# [ · ] О) = {ν (В |t), В е= Я№, U < t < О}, (13.27)
которая всякому значению iel^, О) ставит в соответствие
вероятностную меру v(B\t) на множестве Q. Назовем реализацию
ν[ί*[·10) допустимой, если при всяком выборе непрерывной
функции h(-) = Шу), v^Q) интеграл
2fv{t)= \h{v)v{dv\t) (13.28)
Q
116
является измеримой функцией при £#<ί<0. Пусть выбран
закон управления °U = Ы·), ε, Δβ>. Для данной исходной позиции
{**>#*}при реализации обобщенной помехи ν[**[·]О) движение
я[*И'1*Ь» порожденное законом управления °U, определяется
как решение пошагового уравнения
х «/ν1 (ί, ж, и (ίι, ж Uib ε)) =
— f / (t, χ, и (tb * Itih ε), ν) ν (dv | ί), ί{ <*< ί1+1, ί=1, ..., Α
при начальном условии #[£#] = χ*· При этом принимаем
γ(*[Μ·]0]ν, и [**[·] О), ν[ί*[.]0))-
- J σ (*, * lib) μ (at) +\\\l{hx [ί]ν, u [q, ι;) ν {dv \ t) Λ, (13.30)
u [£] = и (tu x Itih, ε), ti < ί < ί4+χ.
Определим теперь гарантированный результат ρ [°U\ £#,#*]
равенством
Ρ [^; **,**] = sup γ (ж [ί* [·] О], и [^[-10), ν [**[.] О)). (13.31)
ν[ί*[·]θ)
Среди допустимых реализаций ν[£#[·]О) содержится всякая
реализация вида
ν (#„ш | *) - 1, U < ί < О, Вт = [ι;: ι; = ι; [*]], (13.32)
для которой уравнение (13.29) обращается в уравнение (7.8).
Поэтому в (13.31) верхняя грань вычисляется по множеству
значений аргумента ν [£*[·]О), которое не уже, чем множество
значений аргумента ν [t* [·]О) в (7.10). Стало быть, для величин
Р\°М\ **, я*](7.ю) и р[^; **, я*](1з.31Ъ определенных
соответственно равенствами (7.10) и (13.31), справедливо неравенство
pR/; ί*^*](ΐ3.3ΐ)>ρ[^; **,#*](7.ιο)· (13.33)
Определим теперь для стратегии и(·) гарантированный
результат снова равенством (7.13), заменяя, однако, в (7.13)
$\°U\ f*,s*l<7.io) на $\°U\ £*, #*](ΐ3.3ι>· Обозначим этот
гарантированный результат р[и(-); ί*, #*](ΐ3.3ι) в отличие от
аналогичной величины в § 7, которую будем обозначать р[ю°(·);
**> ж*](7.13)· Из (13.33) следует неравенство
Р[м°(·); ί*,^](7.ι·)<ρΐΜ°(·); *·.**1(«Λ). (13·34)
где ю°(·)— стратегия, оптимальная в смысле (7.17). Однако
оказывается, что на самом деле справедливо равенство
р[и°(·); **,**](7лз) = р[и°(·); tm, ^I(i3.3i), (13.35)
т. е. расширение класса допустимых реализаций помехи от век-
117
торн£ункций v[Ul·]^) до функций-мер ν [£* [ · ] #) не ухудшает
оптимальный гарантированный результат ри{£*> х*) = ρ (и°(-);
£#» %*) в классе законов управления {°U)^.iy
При этом стратегия ю°(·), оптимальная в смысле (7.17),
остается оптимальной и для класса обобщенных помех-мер v[t% [·]0).
Обоснование равенства (13.35) для общего канонического случая
дано в § 32. В § 14* обстоятельства, которые определяют
равенство (13.35), проявляются наглядно в том, что обобщенная помеха
ν [£#[·] θ) не может замедлить разгон точки т в направлении
оси q сильнее, чем обычная допустимая помеха ν [t* [-]$)-
Может показаться, что абстрактный вывод о равенстве (13.35)
бесполезен, так как внешняя среда У, очевидно, не может в
реальных условиях оказывать на объект F в текущие моменты
времени t воздействия в виде вероятностных мер v(B\t). Однако при
должной трактовке этот результат может принять смысл,
который раскрывается в случайном механизме формирования помехи
ν [ί#[·]Φ) на основе так называемой смешанной стратегии ν(·)
(см. [4], с. 284).
Имея в виду сказанное, обсудим еще возможность улучшения
оптимального гарантированного результата
р2 (**, х*) = inf p \°U\ i*, я*Ь.ю) (13.36)
W(7.7)
за счет введения законов управления °U, которые могут
назначать обобщенные управляющие воздействия в виде функций-мер
μ(Β\ί). Именно, рассмотрим следующую абстрактную картину.
Пусть выбрана функция
μ(·) = {μ(β|*, я), B^3S[Ph it, defl, (13.37)
которая всякой позиции {£, χ) ^G ставит в соответствие
вероятностную меру μ(Ζ?Ιί, χ) на Р. При выбранной функции μ(·)
(13.37) для исходной позиции {ί#, χ*} определим закон
управления
<δ=[μ(·), Mtt}]. (13.38>
Он определит для данной исходной позиции {£*, х*} и
назначенной как-нибудь реализации помехи у [£*['№) движение
x[t*l-\$Yu как решение пошагового дифференциального
уравнения
χ = /е!Г] (*, χ, ν [t]) = f / (ί, χ, и, ν It]) μ (du \ th x [*,]), (13.39)
ρ
h = **, U^t<*i+i, i = 1, ..., ft,
при начальном условии x[t*]j= χ*. Поставим вопрос, можно ли
указать закон управления °U (13.38), который для значений
118
функционала
ν-Τ(*[ί·Η<>]δ,μ[**[·]θ)δ, »1Ы·]*))-
* * Г 1
- ί σ (*.χ 1ί%) ι* (dt) + ί μ χ ('· * [%»"'ν Ю) ? (*» Ι % di»
(13.40)
μ (Β I t)s = μ (В \U, * fo]^), t4 < ί < tl+1, (13.41)
гарантировал бы результат
ρ [^/; £*,#*] =
= sup γ (χ[*♦[·]0]S, μ [ί»[·]0)δ, ι; [*♦[·]«)), (13.42)
по существу лучший всех гарантированных результатов из
ί^}(7.7>? В гл. III в § 32 будет доказано, что при выполнении
условия (8.14) седловой точки для маленькой игры такого
закона управления Ш (13.38) указать нельзя. Однако, если условие
(8.14) не выполнено, то может случиться, что такой закон <U
найдется. Именно, можно привести пример, когда для некоторых
позиций {ί*, χ*} можно указать законы управления <U (13.38),
для которых будут выполнены неравенства
р[Щ t*,x*](i3.42)< inf рШ\ **>я*](7.ю)· (13.43)
W(7.7)
Такой пример приведен в § 14*. В этом примере неравенство
(13.43) оказывается следствием того факта, что обобщенное
управление μ[£ί[·]£ί+1) = {\kidu\t) = \k(du\tu хШ), U<t<ti+iJ
i = 1, ..., к} позволяет разогнать точку т в направлении оси q
существенно сильнее, чем это возможно за счет обыкновенного
допустимого управления ulti[-]ti+i) = iu[t\ = u(U, #[£<], ε), £{<
^t<ti+l} U = l, ..., к).
Этот формальный результат раскрывается содержательно в
случайном механизме формирования реализации управления nit].
Этот механизм таков. Если в момент U реализуется позиция {ί<,
#[£»]}, то воздействие n[d=n[ij, ti<:t<ti+i выбирается как
результат испытания по выбору случайного вектора и из Р,
имеющего вероятностное распределение, определенное мерой
\i(B\U, xiti\). Пример такого формирования получающегося
здесь уже случайного движения χ Ь*[-Щщ£ приведен в § 10. При
этом и значение γ функционала γ(·) оказывается случайной
величиной
V = J о (i, x[t]~) μ (dt) + J χ (ί, χ [t]m, u [t]%, v [t]\ dt,
t* <*
и М\щ = и [t^ U < t < ii+1, i = 1, ..., к. (13.44)
lit
Заметим, что улучшение гарантированного результата
Ри (£*>#*) выбором закона °и оказывается возможным потому,
что формализм построения уравнения (13.39) делает закон °11,
вообще говоря, не совместимым с законом Ψ (8.2). В
стохастическом процессе управления это проявляется в предположении, что
реализации воздействий »[ri, U^t<ti+i и р[£], £<<£<ί<+4,
стохастически независимы. Если вместо уравнения (13.39) строить
уравнение
* = \f(t,x,u9v (ί, и)) μ (du I th χ [ti]), (13.45)
ρ
ti<^t<:ti+i, i = i,.. .,&,
допуская любые измеримые реализации помехи-контруправления
у(.) = М^),цеР,^<К О}, (13.46)
то осуществить неравенство (13.43) невозможно. В
стохастической схеме управления построение реализации помехи на основе
механизма контруправления (13.46) означает отказ от условия
стохастической независимости воздействия ю[*Д-]£<+1) и v[ti[-]ti+l).
§ 14*. Пример реализаций обобщенного процесса
Дадим примеры обобщенных движений и воздействий,
введенных в § 13*.
Пример 14.1. Вернемся к примеру 10.1. Рассмотрим снова
материальную точку т, движение которой описывается
уравнениями (10.3). Пусть ограничение на и определяется опять
множеством Ρ (10.1). Ограничение на у, однако, изменим. Вместо отрезка
(10.2) выберем множество
Q = [v: ι;(1> = -α, ι;(2)=α]. (14.1)
Примем для конкретности α = π/6. Изменим также и
показатель качества γ. Вместо величины (10.8) назначим
γ= WG] -х3Ш\ - (х,Ш+ХзШ). (14.2)
Начнем с реализаций обобщенного воздействия η [£#l·] Ф)
(13.12). В данном случае множеством PXQ будет совокупность
всех пар {и(<), vU)):
PXQ = [{u^\va)): * = 1, ..., 4; /=1,2]. (14.3)
Элементами борелевской σ-алгебры ^pxq] будут
всевозможные подмножества
В= U {u(i\v(j)}. (14.4)
{ί,Λ<=ιΒ
Здесь символ 1В обозначает тот набор индексов {£, /}, который
выделяет В. Для задания вероятностной меры ц(В) на
множество
вах В е= &[PXQ} надлежит назначить меру
ηΟ^,^Ο-Ρυ^Ο, ί —1 4, /-1,2, Д/4,-1(14.5)
для каждой пары {и(1'\ vu)). Тогда
η(β)= Σ РФ (14.6)
Величинам ρί} мы не придаем смысла вероятностей случайных
событий. Это просто неотрицательные числа, которые определяют
меры η (В) (14.6) для множеств В (14.4) из ДР^хв].
Реализацией обобщенного воздействия (13.12) в данном
случае будет функция
I {i,J>SlB J
(14.7)
Как видим, эта реализация η[£#[·]θ) определяется
совокупностью
{Piiltml·]*), * = 1 4; 7 = 1,2} =
ί 4'2
= PuU]>0, **<*<0, i-l, ...,4; 7-1,2, 2 PuU] = l|
(14.8)
из восьми скалярных функций p\j [t* [·]θ). Можно проверить,
что реализация т)1'£*[-]Ф) (14.7) будет слабо измеримой тогда и
только тогда, когда каждая из функций Рц [£# [ · ] θ) будет
измеримой.
Добавим такую геометрическую картину. Каждой паре
{и{1\ vU)) в согласии с уравнением (10.5) соответствует
двумерный вектор h(U) - {h(j'j\ U(2U)}, где
h[U) = ηψ sin i;(i) + tti0 cos v{'\ i = 1, ..., 4; j = 1, 2. (14.9)
Вектор /&(l'J) получается из вектора u{i) поворотом на угол va).
Все такие векторы А(г'»я изображены на рис. 14.1.
Всякая слабо измеримая реализация обобщенного воздействия
Л [£*[·]$) (14.8) определяет измеримую вектор-функцию
*[*·[·]*)- \h{t]- S PiAt)h(i'J\ U<*«Ж (W-10)
121
которая удовлетворяет включению
/г [*]€=#, *<=[**,#)· (14.11)
Здесь Η есть восьмиугольник с вершинами в точках {Λι \ ft2t,j)}·
Рис. 14.1.
Наоборот, для всякой измеримой
вектор-функции h[t% [ · ]0),
удовлетворяющей включению (1411),
можно подобрать допустимую
реализацию rjtt* [·]0) (14.7) так,
чтобы выполнялось равенство
(14.10).
Согласно (10.4) и (13.15)
реализация обобщенного воздействия
Л [*♦!·!*) (14.7) определяет
систему обобщенных уравнений
движения
4,2
Хг = Я2, #2 = ~ 2 PV 14 (Wl2)
cos^-^sin^),
i=l,j=l
4,2
(14.12)
x9 = Хь Χα = — 2 Pij Щ (^1г> sin y0) + u(2° cos ι;ω).
i=l,;=l
В записи через вектор-функцию hit] (14.10) эта система
принимает вид
4,2
Xi = *2i *2 = — 2 P«i W fei2,:?) = m hl [ib
i=l, 3=1
Стало быть, в обобщенном движении точка т должна
двигаться под действием силы
g = h[t), **<*<#.
(14.14)
Для того чтобы реализация обобщенного воздействия
η[£*[·]^) (14.7) представляла пару обычных реализаций
и[£# Ы^)» ι>[έ*[·]Φ) управления и помехи, необходимо и
достаточно, чтобы среди измеримых функций (14.8) в каждый
момент времени ie [£#, θ) (говоря педантичней — в почти каждый
момент времени ^е(^,0)) только одна из этих функций ρ^ίύ
(для i = i[fl, / = /[£]) была отлична от нуля. В такой момент
времени t отмеченная функция р^п.яп^ равна единице. Для
подобной реализации η[ί*1·]θ) справедливо равенство hltl =
122
й(гтяп\ t* <£<#, и уравнения (14.12), (14.13) принимают вид
Х\ — #2,
Хъ = #4>
= -1 <и(™> cos г;°'[<1) - u(it<]> sin ι/*<])),
#2
771
sin у
+ i4w cos ι;
,«*]) ^и(«*1)лпв„№1))
или
#1 — #2» хг — JJ^ Λι »
^3 ==г #4» «^4 === ^Г *&2
(14.15)
(14.16)
Построим теперь одну конкретную реализацию обобщенного
процесса. Предположим, что т = 1. Пусть £0 = 0, Ф = 3. Выберем
следующую стратегию:
и(.) =
= Ы*, ж, ε) = [в(|\ если х^хг + г\ и{2), если ^ > χζ + ε!}. (14.17)
Пусть дана исходная позиция {£*, л:*}, ί* = 0, ##8=0,
5 = 1, ..., 4. Выберем разбиение ΔΛ {Йл)} = |fiw = ** +
+
(«-!)«
*·)
к
i = l, ..., ft +1). Допустим, что реализация
помехи ι;[ί*[·1θ) формируется по такому правилу
контруправления:
ν [t* [ ·] О) = [v It] = ν (и [*]), ι;(иа)) = ζΛ ί = 1, 2, f » < t <0}.
(14.18)
Стало быть при условии qx [*(/°]< ga[*iW] + ε точка /тг на
полуинтервале ί»<ί<^+ι будет подвержена силе g = /VM), а при
условии gi[fifc)] > ί/2 [4fe)] + ε —силе
^ = /г(22) (см. рис. 14.2).
На рис. 14.3 и 14.4 на плоскости
{q{, qj пунктиром изображены
реализации ?ιδ [ί* [ · ] Щ И ?2Δ [ί* [ · ] θ],
полученные в результате
вычислений на ЭВМ. Рис. 14.3
соответствует выбранным значениям ε = 10~3,
δ(Δ)=0,02, а рис. 14.4 — значениям
ε => ΙΟ"4, δ(Δ) = 0,01. Остальные
параметры выбирались следующими:
** = 0, x+s = 0,5 = 1, ..., 4, θ = 3.
На обоих рисунках также в
плоскости {qu qz] отображены сплошной
линией обобщенные движения ΐ[£*[·]Ф], которые являются
пределом (13.2) для соответствующих движений #δ [£# [' 1Ф] при
ε + 0, δ(Δ) ->0.
123
Рис. 14.2.
Можно строго проверить, что предельная реализация
обобщенного воздействия η [t% [-JO) (14.7) характеризуется
0,8
0,6
0,4
0,1
О
ifc
<^
I
yy
I
0,2
Ay
I
1
0,4
yv
yS /
уУу
уУ У
уУ ^
I I 1
0,6
У
у
0,8 q1
Рис. 14.3.
0,4 0,6
Ряс. 14.4.
** Ч<
следующими функциями (14.8):
Pll[t] = i/2, pMW-l/2, AiU] = 0, i=£j, **<*<0. (14.19)
Стало быть, согласно (10.1), (14.1), (14.9) и (14.10) имеем
hl[t] = ±=cos^ Kit]-γ- cos J*. (14.20)
Обратим внимание, что последовательности функций рц [t]&k и
йдЛ [t] (**<*<#), отвечающие v£h[t] и u^hlt], сходятся
при к-^оо, s-+<*> к функциям (14.19) и (14.20) лишь слабо. Схо-
124
димости при каждом t при этом, вообще говоря, нет. Это
наглядно видно из следующих рисунков, где приведены графики
функции Ь,\ь[П при ε = 10-3, δ(Δ)=0,02 (рис. 14.5) и при ε = 10~4,
δ(Δ) =0,01 (рис. 14.6), а также функции ht[tl.
1
оА
»1
I
I
|
I
2
I ».
3 t
Рис. 145.
ОМ
Ζ t
Рис. 14.6.
Из (14.13) и (14.20) следует, что обобщенное движение
£[£#[·]$] определяется как решение системы дифференциальных
уравнений
1 5π * * 1 5π /л, пл ч
2, х2 = ~т= cos "То"» #з = хы Х\ = ТГ c<>s тр" (14.21)
Я/1 — ЗС*
у-2
У2
при начальном условии zji*] = 0 (г= 1, ..., 4). В координатах
?ι, ?г уравнения движения (14.21) принимают вид
^ = 7!С08ТГ' ^ = t71cosii- <14·22>
Наше обобщенное движение {g4[d, q2lt]} получается
интегрированием уравнений (14.22) при начальном условии qt [t*] =
125
Введем новые координаты
д? — ^| (ffi + ft). ?i = ^|(?i-ii)· (14.23)
Уравнения (14.22) в записи для новых координат примут вид
g'* = coS-§-, Й-0, (14.24)
и наше обобщенное движение {qx [t* [·]θ], #2 [** Ы^]} будет
решением уравнений (14.24) при начальном условии qx [t%] =
= Яг [**] = Яг [**] = Яг U*\ = 0. Таким образом, точка т в этом
обобщенном движении должна перемещаться по оси gl9 разго-
5π
няясь с ускорением cos -jj·.
Интегрируя (14.24), получим значения
«г? [*] - 4" & - «·)*cos тг' ?· 1*1 - °- <14·25)
Стало быть, для показателя γ (14.2) рассматриваемое
обобщенное движение дает результат
V = /2 ( | д2* [θ] | - и [0]) = - ±= cos ■!§-(<>- f ,)·. (14.26)
Систему уравнений (14.21) (или —что то же самое — систему
уравнений (14.22) или (14.24)) при выборе обычных допустимых
реализаций и[£#[·]О) и ι> [£*[·] θ) получить нельзя. Это
означает, что при ограничениях и^Р (10.1) и v^Q (14.1) такого
реального движения χ \t* [ · ] Щ = {q± [i], qr [t], q2 [t], q2 [f], t* <
^ t ^ 0} точки т осуществить нельзя. Однако при достаточно
больших значениях s и k(s) реально осуществимое движение
ρ Гр * ρ ρ * ρ Λ
*Δ*Λ[Μ·1Φ]=={?ΐΔΑ[ί], ?ΐΔΛ[ί], ?1Ак[*1» ftAfcW/ ХОРОШО аПЩЮК-
симирует рассматриваемое обобщенное движение χ [£# [' ] Φ]
(см. рис. 14.3, 14.4).
Рассмотрим для примера еще одно обобщенное движение
I Яг [** [ · ] Ф]> Яъ U* [ · 1 Щ} · Подберем реализацию обобщенного
воздействия η [f * [" 1 *) ' (14.7) из условия, что_вектор hit] (14.10),
оставаясь постоянным по модулю \hlu\ = 1/V2, совершает
равномерное вращение в направлении против часовой стрелки с
угловой скоростью ω, τ. е. положим
Лх [ί] = Л? cos ωί, h2 [t] = -73 sin ωί (14.27)
При всяком значении ie^, ϋ) вектор hit] (14.27)
удовлетворяет включению (14.11) и функция hit] непрерывна. Поэтому,
126
согласно сказанному, такую реализацию η [t* [ · ] θ) действительно
можно подобрать. Обобщенное движение точки т, отвечающее
такой реализации η[ί*[']1&)> бУДет совершаться под действием
силы g (14.14), равномерно
вращающейся против часовой стрелки. На
рис. 14.7 приведено на плоскости {qu q%)
изображение сплошной линией
движения I?![t*[·]*]. ft [«*[·]*]1 при выб°-
ре ** = 0, θ = 3, <h[i*] = l, qAh] =
= ft [**] = ft [**] = 0, ω - 3.
На этом же рисунке изображено %4\
пунктиром движение {#ιδ [** Ι" ] *]»
ftA [ί* [ * ] ^]}> которое порождается
реализациями обычных управления
ид [£* [ · ] *) и помехи ζ;Δ [t* [ · ] ϋ),
подобранными так, чтобы это движение
хорошо аппроксимировало
рассматриваемое обобщенное движение.
Рассмотрим теперь реализации
обобщенной помехи ν[£* [·]θ) (13.27). В
данном случае множество Q состоит из
двух чисел ι>(1) и ν{2):
Q=*[v(i\ y<2)]. (14.28)
Элементами борелевской σ-алгебры &т будут подмножества
В = U i/i), (14.29)
т. е. четыре множества
Bi = vil\ B2 = v<2), Ba = v(i)Uv<2\ Bk = 0. (14.30)
Вероятностная мера v(B) на множествах fle|m определяет-
|#Я7 /^ /,//7
Рис. 14.7.
%f5qf
ся мерой
■ v(i;0)) = ^>, 7 = 1,2, р?>>0,
для точек v{i) и у(2). Тогда
v(z?)= 2 ^·
rf» + Р?> -
= 1
(14.31)
(14.32)
Реализацией обобщенной помехи (13.28) будет функция
ν[ί·Νθ) = Ιν(*|*)= Σ P^ttl Be%, **<*«>}. (14.33)
Рассмотрим для примера обобщенное движение £[£*[·] ΰ],
порожденное из позиции £* = 0, х+{ \t*] = 0 (i = 1, ..., 4)
реализацией управления и [** [. ] θ) = {и [t] = и<*>, £* < * < 0} и
реализацией обобщенной помехи ν [г* [-] О) (14.33), которая
127
определена функциями
Р?}[**[-]«)-ЫР)[*]-1/2, **<*<*}, 7 = 1,2. (14.34)
Это движение в координатах qu q2 удовлетворяет уравнению
Яг = иРр? [t] cos νω + ttiV^[ί] cos ι;(ϊ) -
,(ι>Λν)
,(1) „(1)я(«) ,
- ηψρ\ν) [t] sin i;w-i# ДО' [*] sin v{
„(2)
COS
6'
(14.35)
9. = "F Vir) If] sin »(1) + uiW Щ sin z/2) +
+ u™p[v) [t] cos i;(1) + u^p? [t] cos i;(1) = 0.
В этом обобщенном движении iqdt], q2lil, t^^t^®} точка
т должна перемещаться по оси qt (см. рис. 14.8, где движение
изображено в плоскости {glT q2) для следующих данных: t% = 0,
#*i = 0 (г = 1, ..., 4), Ф = 3).
Z7,Z7^
№)=090Z
Рис. 14.8.
Получить такое движение при данных исходной позиции
{t*, х*} и реализации Μ[ί*[·]θ), формируя обычную реализацию
помехи у [£#[·]О), нельзя. Однако это обобщенное движение^
является пределом при к ->■ оо для последовательности движений
^Δ^[ί*ί#]θ], порожденных изданной исходной позиции {£#, ##}
при данной реализации управления и [t* [·]0) и при назначении
реализаций помехи
ι>δλ[*« ί·]θ) = [Vbk[t] = ι/ΐ), ί4<ί < *i+1, ι = 2^- 1,
ii-M = ^i +
(^-1)(0-^)
2/c
i = l, ...,2&+l . (14.36)
На рис. 14.8 изображены в плоскости {qu qj для тех же
данных движения {?ιδ[£# [·]#], <72δ{** Η ^1} при δ(Δ)=0,02 и
δ(Δ)=0,01. И здесь функции р$к [t* [·]0) сходятся при /с-^<»
к функциям р$ [£*[·]*)» отвечающим обобщенной реализации
ν [£* [ · ] θ), только слабо.
Обсудим связь рассмотренной картины с равенством (13.35).
Пусть для системы, описываемой уравнениями (10.3) при ограни-
128
чениях (10.1) и (14.1), рассматривается задача 7.1, причем по-
казатель-
γ«-?1[0]. (14.37)
Тогда из предыдущих выкладок ясно, что оптимальной
стратегией и*(>) будет функция
и°(*, х) = и(1) (14.38)
и для исходной позиции £# = 0, х%г = 0 (i = 1, ..., 4)
оптимальный гарантированный результат определяется равенством
Pu(**>^)(7.i7) = — "J** C0ST" ' (14.39)
Если теперь рассмотреть аналогичную задачу, но расширить
класс допустимых реализаций помехи до обобщенных помех
ν[£*[·]0), то оптимальная стратегия и°(·) останется прежней
(14.38) и оптимальный гарантированный результат ри(*#,
#*)(13.31) в новых условиях будет
P°u (**, **)<i3.3i) - - {±^~ cos-2-, (14.40)
т. е. его величина совпадает с величиной (14.39). Причина этого
в том, что оптимальная обобщенная помеха ν[ί* [·]0),
определенная вероятностями ΡΫ It] (14.34), не может замедлить
движение точки в направлении оси qi сильнее, чем обыкновенная
оптимальная помеха VAk[t#[-]ty (14.36). В обоих случаях ускорение
#i, определенное оптимальным управлением u(tu хШ) = и{1) и
оптимальной помехой, будет qx = cos-g-.
^ Рассмотрим, наконец, реализации обобщенного управления
μ [£#[·] θ) (13.41), которые могут формироваться по
обобщенным законам управления Ш (13.37). В данном случае множество
Ρ состоит из четырех векторов u{i):
Ρ-[»<*>, i = l, ..., 41. (14.41)
Элементами борелевской σ-алгебры 3S[P] будут подмножества
J9- U и<*>. (14.42)
Вероятностная мера μ(Β) определяется мерами
μ(»ω)-ΡΪ°, ί-1,...,4, ΡΪ1)>0, 2Jpiu)-l· (14.43)
Тогда
? W- 2piu). (14.44)
t€=IB
9 н. п. Красовский 129
Реализацией обобщенного управления будет функция
М**Н*)в1Р(Д|*)- Σ PiM)t*b 5s% *·<*<θ\. (14.45)
Ι *ΞΙΒ J
Рассмотрим для примера обобщенное движепие хьк [£# [·]θ],
порожденное из позиции *# = 0, a^i = 0 (i = 1, ..., 4)
обобщенной реализацией управления (14.45) при
Mw) [t] = /4U) [t] = 1/2, /4M) [ί] = Piu) [t] - 0 (14.46)
и реализацией помехи ν&Η[ΐ#[·]ϋ) (14.36). В координатах qx,
Qt (14.23) это движение qiAkU* [·]θ], g*Ak [*♦[·] θ]
описывается дифференциальными уравнениями
(14.47)
*** 1 η
ft = —7= cos
41 γι
6
h ey§sini;Afc[fl·
Рассмотрим также обобщенное движение #[£#[· JO1], которое
является пределом при ft-^oo для движений хькН* [-]$]- Это
обобщенное движение порождается реализацией обобщенного
воздействия η [ t+ [·] θ) = {ц (#U)pxq}> где мера η(Ζ?|£)ρΧ<?
является произведением мер μ(ΒΡ\ί) и v(BQ\t), так что
η(βρΧ5ρΙί)=ίϊ(5ρΙί)Χν(5ρΙί). (14.48)
На рис. 14.9 изображены в плоскости [qx, q2] движения
??δ [**[·]<*! и ff«A ίί* [·] *] при δ(Δ)=0,01 и δ(Δ)=0,03, а
также отображено обобщенное движение χ [£# Ι'] Щ (выбрано 0 = 3).
-0β15\
ГШ-QflZ
Рис. 14.9.
Обобщенное движение #[£* [·]ΰΊ в координатах gi,<72
описывается дифференциальными уравнениями
** * 1 π "* Л
б1
(14.49)
Получить движения x±k [£* [· ] Щ и ж [t* [· ] ϋ] выбором
реализаций обычного управления и [t* [ · ] ϋ) нельзя. Обратим вни-
130
мание, что согласно (14.47) выбранная реализация обобщенного
управления μ [f# [ · ] Φ) гарантирует ускорение в направлении оси
д*, равное ,- cos-g-. Такого ускорения в этом направлении
гарантировать выбором реализации обычного управления
u[t*[-]$) нельзя. В самом деле, нетрудно проверить, что
реализация помехи v[t* [·]$), конструируемая по правилу
контруправления
v [^ [.] О) - {v It] = νω при и [t] = u(i\ i = 1,3,
v [t] = vi2) при и [t] = u(i\ i = 2,4}, (14.50)
гарантирует неравенство
ql < cos j£f (14.51)
какова бы ни была реализацияμΙ^ [·] θ). Но cosj^- < /- cos-^.
Таким образом, выбором реализации обобщенного управления
μ(Β\ί) можно гарантировать по существу более быстрый разгон
точки т в направлении оси ?ι, чем это можно гарантировать
выбором реализации и[£*[»]Ф). Данный частный факт является
отражением того обстоятельства, что допуская законы Ш
обобщенного управления (13.37), можно, вообще говоря, улучшить
гарантированный результат р°(^, х*) (7.17), как отмечено в
§ 13*. В самом деле, рассмотрим для системы (10.3), (10.1) и
(14.1) задачу 7.1, выбирая показатель
γ--(дДф]+ ?,[<>]). (14.52)
Из предыдущих выкладок ясно, что оптимальной стратегией
и°(·) будет, например, функция (14.38) и для исходной позиции
£* — 0, x*i = 0 (ί = 1, ..., 4) оптимальный гарантированный
результат ри (£#, #*)(?.ι?) определится равенством
Р° (**, **)(7.ΐ7) = - (%'*)2 cos §. (14.53)
Однако, если рассмотреть аналогичную задачу, но в классе
обобщенных стратегий к(·), которые задаются
функциями-мерами μ(<2ιι|ί, χ, ε), то в данном случае оптимальной стратегией ю°(·)
будет функция
Η°(·)=={μ°(<Ζκ|£, я), ί0 ^ ί < О, -оо<ж<<оо, έ = 1, ..., 4},
(14.54)
которая определена вероятностями рЫ (14.46). Закон ^ =
= ш°(·), ε, Δ}, порожденный этой стратегией, дает
гарантированный результат
Ρ [«; ί*, ^](ΐ3.42) - - {±f^С04· ί14·55)
9*
131
Равенства (14.53) и (14.55) подтверждают неравенство (13.43).
Указанные формальные факты для нашего абстрактного
обобщенного движения #дА [t% [ · ] θ] можно раскрыть
содержательно, если формировать обычные управляющие воздействия
UIU l']ti+i) на основе следующего вероятностного механизма.
В момент t = U делается испытание по выбору случайного
вектора a(i> (/«1, 2) с вероятностями Р(и(1)) = Р(и(2)) = 1/2.
Результат испытания ultH определяет управление u[t\ = uiu] при
U < t < ti+i. Если полагать моменты U очень частыми, испытания
при различных U стохастически независимыми и реализации
v\t{ [·]ίι+ι) независимыми с atij, то можно доказать, что с
вероятностью, сколь угодно близкой к единице, для
получающегося случайного движения, стартующего из позиции t* = О,
ж*г = 0 (i = 1, ..., 4), будет выполнено неравенство
<?!%, 1*1 > (10f cos £ - ζ, (14.56)
1 5π
где правая часть больше, чем величина -χ (ϋ — i*)2cosTjr,
которую можно гарантировать обычным управлением ^[£#1·]^)·
Изображения в плоскости {дг, д*} некоторых реализаций таких
# случайных движений приве-
* ^2 дены на рис. 14.10 (было
выбрано значение Ф = 3).
Однако при
формировании случайных движений
#[£*[·]>#] речь идет уже о
новой стохастической
ситуации, которую можно
сравнивать с предыдущими
детерминистическими ситуациями
лишь с учетом существенных
различающих обстоятельств.
Рис. 14. J 0. В частности, надо учитывать,
что условие стохастической
независимости реализаций vlUl-Ui+i) и ю[*,-Мй+1) в ситуации
случайных движений χ [t* [ · ] О] препятствует формированию
реализации помехи ИМ']*) по правилу контруправления.
§ 15. Гладкая оценка гарантированного результата
Обсудим конструкцию, которая позволяет оценить
гарантированные результаты ρ [и(-); £*, х+] (7.13) и p[v(-)u; £*, х*\ (8.7).
Она использует функцию ρ(ί, χ), удовлетворяющую подходящим
дифференциальным неравенствам. Это указывает метод
построения оптимальных стратегий и°(·) и ι;°(·)«. К сожалению, такой
метод оправдан лишь при стеснительных условиях. Тем не менее
его полезно рассмотреть и пытаться использовать.
432
В этом параграфе будем предполагать, что функции /(ί, χ, и, ν),
χ(ί, χ, и, ν) и σ(£, χ), в дополнение к условиям из § 7,
непрерывны по всем аргументам. Меру μ (Г) будем полагать
сконцентрированной в точке ί«=θ (см. § 7), т. е. функционал γ(·) будет
иметь вид
7(*[**[-]0], ИМ·]О). »»*[·]*))-
- f χ (*, * Μ, м Μ, у Μ) Λ + σ (^ [#]). (15.1)
Пусть нашлась функция р(£, #), которая удовлетворяет
следующим условиям.
I. Функция р(£, х) имеет непрерывные частные производные
dp/dt, др/dxi (ί=1, ..., η) всюду в области С?*. Эта область
состоит из позиций {£, ж}еб, у которых £0 < t < Φ. Сама
функция pit, x) непрерывна во всей замкнутой области .G. При этом
область G предполагаем такой, что для всякого движения
#[£* Ы^Ь начинающегося в позиции {ί*, ж#}еб, каждая
позиция {£, xlil) при £# < £ < θ лежит строго внутри G. Этого
всегда можно добиться, увеличивая в условии (4.11) число λ(45).
II. Выполнено краевое условие
р(Ф, х) = в(х) (15.2)
при всех χ из области \х\ < (1 + R0) ехр ίλ(Μ)(θ — t0)} — 1.
III„. Для функции р(£, ж) и для некоторой функции
и* (·) = К («ι *) s Р, {*, я} е= G*} (15.3)
справедливо дифференциальное неравенство
(15.4)
в каждой позиции {£, ж} е G* при всяком значении v^Q.
Тогда гарантированный результат (7.13) для стратегии и(·)
(7.6), которая определена функцией и% (·) (15.3), удовлетворяет
неравенству
Ρ [Щ (·); **> **] < Ρ (h, я*), (15.5)
какова бы ни была исходная позиция {ί*, ^}еС.
Докажем утверждение. Пусть дана позиция {£#, ж*}еб.
Зададим произвольное число ζ > 0. Требуется подобрать такое
число δ(ξ) >0, что для реализации процесса, порожденной из
данной позиции {ί*, χ#) законом управления
ίί-Κ(.),Δβ}, (15.6)
будет справедливо неравенство
Υ(*[*·[·!<>], »ΙΜ·]θ), i;[M-J*))<p(**. *·) + £, (15.7)
133
какова бы ни была реализация помехи ι>[ί# [·]Φ), если только
выполнено условие
β < β(ζ). (15.8)
Функция щ(-) (15.3) не зависит от ε, поэтому ε отсутствует
в записи (15.6), а условия (7.15) сводятся к одному
неравенству (15.8).
Выберем число ξ > 0, удовлетворяющее такому условию.
Пусть дана какая угодно реализация процесса, построенная на
разбиении Δ6{ί{) с шагом δ < ξ. Пусть ts есть первый среди
моментов U, удовлетворяющих условию U > t0 + ξ, a tm — последний
среди моментов U ^ θ — ξ. Тогда справедливы неравенства
**. I
| Ρ (ts, x[ts]) +\%(t,xlt],u [t], ν[t]) dt- ρ (**, хщ) < ζ/3, (15.9)
i* I
Ι Ρ (Ο, χ [θ]) + j χ(ί, x[t],u[t], v[t])dt — p(tm, x[tn]) <C/3.
(15.10)
Такое число ξ > 0 можно выбрать, так как все время U, xitl) e
е G, функции χ(ί, ж, ю, и) и р(£, ж) равномерно непрерывны в
области G при не?, уе^ и функция я[£] удовлетворяет условию
Липшица (4.12). При этом число ξ можно выбрать только по
числу ξ одним и тем же для всех возможных исходных позиций
{**> х*}^ G- и для всех реализаций процесса, у которых шаг
разбиения δ < ξ. Если при этом окажется t% > О — ξ, то условия
(15.9) и (15.10) заменяются неравенством
о I
Ρ (θ, χ [ϋ]) + Γ χ (f, * [ί], и [*], ι; [t]) Λ — ρ (**, a: [**]) <ζ/3. (15.11)
ί* Ι
Оценим изменение величины
V* U] = Ρ (*, * It]) - j χ (τ, ж [τ], и [τ], ι; [τ]) dr (15.12)
*
за время £< < £ < ti+l при ts < £*, ti+i < tm. Функция
χ*[τ1 = χ(τ, xlxl, иМ, ιΛτ!) (15.13)
ограничена и измерима по теореме 2.1 о суперпозиции
измеримых функций. Функции
p*[rf=pU, xltl) (15.14)
и γ*[ί] (15.12) абсолютно непрерывны при f<<f<£<+i, так как
они удовлетворяют условиям Липшица по их аргументу t.
Поэтому согласно материалу из § 2 справедливо равенство
*г+1
Т* [ii+J - V* Uil = J (^Г1) Λ. (15.15)
«ι .
134
Здесь
dy* [τ] __ dp* [χ]
+ Χ (τ, ж [т], и [τ], ν [τ])
(15.16)
άτ dx
при почти всех xe(i<, U+i). При условии I производную
άρ*[τ]/άτ для функции (15.14) можно вычислять по правилу
дифференцирования сложной функции ([28*], с. 262)
^[т]) _ppj££} j^+ <[grad p (Tf х)]{х>хМуХ [τ]>. (15.17)
Здесь в соответствии с определением движения χ[χ] имеем
ί[τ]=/(τ, #[τ], иМ, ν[τ\) при почти всех te(ii} ti+i). Символ
gradp(·) обозначает вектор-градиент функции р(·) по
вектору х, т. е. gradp(£, χ) = {dpfdxi, ί== 1, ..., /г}. Поэтому
dp (τ, ж [τ]) β Гдр (τ, s)"j
+ <[grad ρ (τ, *)]{τ,*[τ]>./(τ, *[τ], и[т], ι;[τ])> =
= RH + Σ [^1 П (τ. χ Μ, »[τ], ρ [τ]). (15.18)
Из условия и [τ] = и* (tu #fri]) (U< τ< ίί+1) и из равенств
(15.16), (15.18) получаем соотношения
Ε γ* [τ] =
dx
21 -IX (*ь «fob и* (th χ [ί,]), ν [τ]) + [i£^il]{^M} +
η
ίΞΪ L "*> КЧ<Х1Ч]}
+ {[χ (τ, а; [τ], и» (tif *[fd)> ν[τ]) —
— χ (ίι, χ ltd, и* («ι, * (ад), ν [τ])] +
/ГДр(τ,*)] _ pp(τ, ж) Ι \
U θτ -к*[т]> [ 9τ \{Ч<*1Ч]))
η
+ Σ ([^sHl , U (*, * Ιτ], «* (ίι, χ Ixd), ν [τ]) -
~ Рёг]{П,*[,Ш Λ {tu *ib "*(ίί' * liil)' ν1τ]))\ (15Л9)
Вследствие (15.4) имеем
X(ti, «ltd, i*»(ti, a; [fd), ι;[τ])+Γ?φ^] +
+ 2 рЙ~]№)^,/> С*» x fob u* ('< x I'd). y W) < °· (15·2°)
135
Вследствие равномерной непрерывности функций /(·), χ(·), ρ(·),
а* (')» аЛ'} и жМ в области G при ί0 + ^^ί<ϋ — ξ имеем
оценку
[χ (τ/ ж [τ], i**(fb *fal), ι>[τ]) —%(*ь zltj, и* ft, я ft]), у [τ])] +
/гар(т,а?п _ rap (τ, д?)ι \ ,
\[ dx k*[x]> L 9τ \{*ι*№ΐ
η
+ ^?tBf\x4xbf^ *Ιτΐ· "*fe *foi>. »м>-
^]{«|.*[«f]> /j {tU X ltil U* ^ X lTil)' ^^ < * ^ (15'21)
где liniг|?(б) = 0 при δ-* 0. Выбирая число δ(ξ) >0, которое
удовлетворяет двум условиям 8<ξ и ψ(δ) < ξ/(3(θ — tQ)) при
δ^δ(ξ), получим из (15.15), (15.19)—(15.21) неравенство
У* [*т] - Υ* ltd <|(^1JTg°, (15.22)
которое согласно (15.12) означает оценку
ρ ft+i, х ft+il) — ρ ft, x [ti]) +
Ч+ι
+ J χ ft * [q, и U], у ft) dt<|((УГд* - <15·23)
Эта оценка верна для всякого отрезка ft, ί{+ί] с [is, tm].
Суммируя (15.23) по всем i^is, m— 1] и учитывая (15.2), (15.9), -,
(15.10), получим неравенство
о
σ(*[θ]) + f χ ft я ft, u ft, z;ft)d*<pft:, *·) + £· (15.24)
**
Это доказывает наше утверждение. Подчеркнем, что в
приведенных выкладках выбор числа δ (ξ) не зависит от исходной
позиции {£#, x*}^G. Таким образом, для рассматриваемой
стратегии и*(·) (15.3) неравенство (15.24) гарантируется равномерно
относительно позиций {£#, х*} из области G.
Таким же путем с понятными изменениями строится оценка
для гарантированного результата ρ [у (·)μ; £#, х*\ (8.7). Именно,
пусть нашлась функция р(£, х), которая удовлетворяет условиям
I и II, а также следующему условию.
II 1„. Для функции pft x) и для некоторой функции
ν* (-)и = {у* ft *. и) е (?, ft ж} € G*,, и е= Р}, (15.25)
136
измеримой по и при фиксированных ί, #, справедливо неравенство
«ίτ1 +Σ3^««·*·ц'у* <*·*·и» +
+χ(ί, л:, и, v*(t, я, w))>0 (15.26)
в каждой позиции {£, ж}е^* ПРИ всяком значении и^Р.
Тогда гарантированный результат (8.7) для контрстратегии
у()и (8.1), определенной этой функцией г>#(-)ц, удовлетворяет
неравенству
pb*(*)u; **> **]>р(**> **)> (15.27)
какова бы ни была исходная позиция {£#, ж„,}еб,
Для доказательства данного утверждения надлежит для
любого выбранного числа ξ >0 подобрать число δ(ξ) >0 так, что
для реализации процесса, порожденной законом формирования
помехи
Г = К(.)и, Δ6}, (15.28)
будет справедливо неравенство
Υ ИМ·] О], и&Л-]0). »[<· !·!*))> Ρ (*·.«·)-ζ, (15.29)
какова бы ни была реализация управления u[t# [·]0), если
только будет выполнено условие (15.8).
Доказательство проводится по плану, который подобен
предыдущему ходу рассуждений. Только вместо неравенства (15.23),
вытекающего из (15.4), теперь используется неравенство
Ρ (f i+ь * [f1+1]) — ρ (th χ [ti]) +
Ч+ι
+ J χ (*, * it], и и, ν it]) dt>\ (^xJg}. (15.30)
которое выводится из (15.26). При этом выводе соотношения
(15.9)—(15.18) повторяются. Соотношения (15.19)—(15.21)
претерпевают понятные изменения вследствие замены и* (tu x [t$
на ult] и замены vlil на v* (tu #fa], u[t]). Неравенство
(15.22) заменяется на противоположное неравенство
Y* Ifi+d - Υ* Ы>4^ψΞψ- (15.31)
Из (15.2), (15.9), (15.10) и (15.30) получаем неравенство
σ {χ Щ) + J χ (*, я [ί]? и [Ч, „ од) di ^ ρ (^ ^) - ζ, (15.32)
**
которое и доказывает утверждение. И здесь выбор числа δ(ξ) не
зависит от исходной позиции {£*, xj) e G, т. е. неравенство
(15.32) гарантируется равномерно относительно позиций {£#, х*}
из области G.
Предположим теперь, что для одной и той же функции pU, x)
одновременно выполняются все условия I, II, IIItt и ΠΙυ по от-
137
ношению к некоторым функциям и% (·) == и°(-) и ν* (·)Μ = v°(-)u-
Это возможно только при условии, что для каждой позиции
{ί, χ} е 6?* справедливы равенства
dp(f, χ) ,
к ' ' + max
dt veQ
aax J ^£^Α (*, *. "° fa х), ν)+χ (f, *, и0 (*, ζ), ν) -
s(? Li=l * J
^ + mmmax |^/i(i, *, и, ι>) + χ(*, *, и, ν) L
ар I
υτ WSP tf=Q L^i ^i
(15.33)
Ι Йп if r\
dt u<=P
2=1 *
χ(ί,*,ι/,ζ;0(ί, ж, и)) \=*Щ
ι minmax
Σ τ^ /* (*. *> ">y) + χ с *. »*ν) · (15·34)
2=1 * J
^ +minmax Σ^Ρ£ Χ) Ufa *.»^) + X(U.B» ι;) = 0.
C u€=P νΞ(3[ί=1 * J
0f
(15.35)
Условие (15.35) назовем дифференциальным минимаксом.
Докажем (15.33)—(15.35). В самом деле, по смыслу операции
минимума и затем вследствие условия (15.4) имеем неравенства
0р(*,*) ,
dt "*"
+ minmax ^?£^fi(tf *, и, ν) + χ(ί, *, и, ι;)Ί^^^ +
+ max У дЛЬЛ f. (t, χ, и" (t, χ), ν) + χ(ί, χ, u° (ί, χ), ν) < 0.
νΞ3 Li=i i J
(15.36)
С другой стороны, по смыслу операции максимума и затем
вследствие условия (15.26) имеем неравенства
%U + minmax 2 ?£^h(t, *, », *) + X(*. *, "» v)
t, x, u, v°(t, x, u))
>^kr-i + min| Z-^-tfiit, x, u, v°(t, x, u)) +
+ %(t,x,u, v° (t, x, и)) > 0. (15.37)
138
Из (15.36) и (15.37) получаем доказываемое равенство (15.35).
Но тогда из (15.36) и (15.37) следуют и доказываемые равенства
(15.33), (15.34).
Согласно лемме 8.1 для всякой стратегии и(-) и каждой
контрстратегии v(-)u верно неравенство
рМ·); **, я*] > Ρ № (·)*;£*> #*]. (15.38)
Из неравенств (15.5), (15.27) и (15.38) следуют также равенства
р[и°(·); **, **] = рЬ0(-)ш **, χ*] = ρ(ί*, χ*) (15.39)
для функций и°(-) = щ (·) и v°(-)u — ι;^ («)и. Эти равенства
(15.39) справедливы для всякой исходной позиции {ί*, ^}еб.
Однако они означают, что стратегия и°(-) является оптимальной
минимаксной, а контрстратегия ν°(· )u — оптимальной максимин-
яой. При этом величина р(£#, х*) оказывается равной цене
р°(£*, #*) дифференциальной игры {7.1; 8.1}.
Итак, если для трех найденных как-то функций р(£, х),
и0 (£, х) = и* (ί, χ) и у0 (£, χ, и) = у# (£, χ, и) выполняются
условия I, II, IIIU и Шг, то для них выполняются условия (15.33),
(15.34), причем справедливо равенство (15.35). Функция р(£, x)
является тогда ценой игры {7.1; 8.1} и пара функций и°(·) и i7°(-)u
составляет седловую точку для этой игры.
Наоборот, пусть нашлась функция р(£, х), которая
удовлетворяет условиям I и II и условию (15.35) для всякой позиции
{£, 4G^*· Построим функцию ю°(£, #), которая удовлетворяет
равенству (15.33). Согласно материалу из § 3 такую функцию
построить можно. Напомним, что при некоторых значениях £, χ
может быть не одно значение и, удовлетворяющее условию
минимума (15.33). В качестве ю°(£, х) можно выбрать любое из этих
значений. Построенная функция u°(t, x) будет удовлетворять
условию (15.33) при условии (15.35), т. е. она будет
удовлетворять условию (15.4). Согласно предыдущему для любой функции
»°(£, #), удовлетворяющей условию (15.4), справедливо
неравенство
ρ [и0 (·), ί*, я*] < ρ (**, **)· (15.40)
Построим далее функцию ι>°(£, #, ю), которая удовлетворяет
равенству
dp(t, χ) ^ dp(t, χ)
~Tt— + 2d дх. fi(t, х, Щ v° (ί, x, u)) + X(ti x, и, v° {U х, и)) =*
i=l г
= ££ί£ϋ + ^ах 1^ J 2egi£2U (ί> Xt u,v) + % (t, x, u, v)] (15.41)
при каждом значении и е р.
Согласно теореме об измеримом выборе (см. § 3) эту функцию
можно выбрать так, что она будет измеримой по и для всякой
139
фиксированной позиции {£, ж}ебг Построенная функция
o°(t, #, и) будет вследствие (15.41) удовлетворять условию (15.34)
при условии (15.35), т. е. она будет удовлетворять условию
(15.26). Но согласно предыдущему для стратегии ν (t, χ, ю),
удовлетворяющей условию (15.26), справедливо неравенство
Ρ [ν°(·)«> **, χ*] > ρ(**, χ»). (15.42)
Из (15.40) и (15.42) опять следует, что функция ρ(ί#, я*)
является ценой р0(£#, х*) дифференциальной игры {7.1; 8.1),
а функции ю°() и у°(-)и, найденные из условий (15.33) и (15.41),
составляют седловую точку {ю°(·), ι>°(·)«} этой игры.
Если выполнено условие (8.14) для седловой точки маленькой
игры, то справедливо равенство
mm max
iax Σί^ΗιΜ*.**u>v) + χ с*.*. »> -
s(?Li=l * J
naxmin 2 *pj*' ж) /, (г, я, и, ») + χ (ί, χ% и, ν) (15.43)
для всякой дифференцируемой функции ρ(ί, а?) в каждой
позиции {ί, #}е£?.|.. Но тогда при выполнении равенства (15.35)
функцию ι>°(·)« можно искать не из условия (15.41), а из условия
д9
+ X(t,x,u,vP(t,z)) -2Е^ +
+ maxmin У *p*!,a?)/i(*, ж, и, ») + χ(ί, ж, и, ι;) , (15.44)
VSZQ u<=P [ Д. * J
которому уже можно удовлетворить, выбирая функцию ζΛί, ж),
не зависящую от и. Таким образом, если дифференцируемая
функция р(£, х) удовлетворяет условию (15.35) и выполнено
условие (8.14), то дифференциальная игра {7.1; 8.1} имеет цену
ρ°(ί, x) = p(t, х) и седловую точку {ю°(0, ι>°(·)}, где обе
оптимальные стратегии можно определить функциями, которые не зависят
от ε. При этом оптимальная стратегия ν°(·) может быть выбрана
в форме чистой позиционной стратегии
„«(.) = {*»(*, х), {*, х) € G). (15.45)
Подведем итог рассуждениям. Мы проверили, что для
нахождения цены р°(£, х) игры {7.1; 8.1} и оптимальных стратегий ю°(·)
140
и v°(-)u достаточно найти функцию ρ(ί, з), которая удовлетворяет
условиям I и II и условию (15.35), а затем построить функции
н°(£, х) и y°U, χ, и), исходя из условий (15.33) и (15.41). Эти
функции ю°(0 и у°(-)и и дадут оптимальные стратегии.
§ 16. Необходимость условия дифференциального минимакса
Обсудим теперь, является ли условие (15.35) необходимым
при выполнении равенства р(£, x) = p°(t, x). Это обсуждение
наталкивается на вопрос о дифференцируемое™ функции р(/, х).
В самом деле, обсуждать равенство (15.35) можно лишь для
функции р(£, х), имеющей частные производные dp/dt, др/дх{
(i = 1, ..., η). Поэтому поставим сначала вопрос условно. Пусть
функция р(£, х) является ценой р°(£, х) игры {7.1; 8.1} и
удовлетворяет условию I (§ 15). Будет ли эта функция удовлетворять
условию II (§ 15) и условию (15.35) в области G%? Ответ
положителен при непрерывных /(·)» х(') и о(#)· Докажем это.
Выполнение условия II следует прямо из равенства
p°(ft, xj = ρ (Ο, χ*), так как, очевидно, р°(0, х*) = о(х+).
Докажем равенство (15.35). Предположим от противного, что
для какой-то позиций {£#, ##)е G* это равенство не выполнено.
Примем сначала, что справедливо неравенство
+ Х(*,^и,»)1| >0. (16.1)
Вследствие непрерывности частных производных -г: (·),
g~(·) (έ=1, ..., η) и функций /(·), χ(·) и по той причине,
что максимум и минимум по части аргументов от непрерывной
функции является непрерывной функцией от остальных
переменных (см. § 3), заключаем, что в некоторой окрестности
|ί-ί·1<δ.1*-*·1<ξϊξ>0,{ίι*}^6?<1 (16.2)
будет выполнено неравенство
+ %(t,x,u, v)
>η, η>0. (16.3)
Но можно выбрать такое значение τ* е (**,0), что для
всякого возможного движения χ [*#[·]О], #[£*] = я* всякая позиция
{*, хЫ) при £# ^ t ^ τ* будет . лежать в области (16.2). Стало
быть, для всякой такой позиции {£, хЫ) будет выполнено нера-
141
венство (16.3). Пусть движение #[£*[·]Φ] формируется из
исходной позиции {ί*, х$) законом управления
«-{»·(■), ε, АЛШ, (16.4)
который отвечает оптимальной стратегии u°(t, χ, ε). При этом
момент τ* пусть совпадает с некоторым моментом tm. Числа
ε > 0 и δ(η, ε) > 0 можно выбрать так, что для реализации
процесса, порожденной из позиции {£#, х#} законом управления °U
(16.4) при этом значении ε и δ < δ (η, ε) и при любой реализации
помехи v[t* [·]0), будет выполнено неравенство
о
J X (*, х It], и It], ν [t]) dt + o(x [О]) <
и
<p° (*♦,«♦) + -|-(τ* —ί*) = ρ(ί*, χ J + γ(τ* — ί*). (16.5)
Реализации помехи v[ti[-]ti+l) при всех и<С.ъ* = tm будем
предполагать выбранными из условия
Σ [^*fL* т h {tb *Ш U°(tu Xlhh 6)' V [il) +
+%(ti, xUi], u0(iif х[Ц\, ε), »[t])-max[ У Г££21 J} (th χ fo],
«° (tu xfob ε), ») + χ (tif ж [ί,], и? (tit χfo], ε), ι;) Ι. (16.6)
Реализация у [ί* [ · ] τ*) сложится из этих реализаций
ι>[ί{[·]ί,+1) = {ι;[τ] =vlt(], t{<t<ti+i, i = l, ..., тге—1}
как некоторая кусочно-постоянная функция. Но тогда из (16.3) и
(16.6) получим неравенства
Г» (*.«)] .
π
+
+ χ (tu * lUh и* {*u * [til *), ν lu]) > η. (16.7)
Из этих неравенств выводится оценка для изменения функции
γ*[£] (15.12) при £*<£<£<+1, подобно тому, как это было сделано
в § 15. Получается, что при всяком разбиении АьШ с достаточно
малым шагом δ < б* для формируемого движения χ [£*[·] ι?*!
справедливо неравенство
Ρ (τ*, χ [τ*]) > ρ (ί*, χ [*#]) —
- j χ (τ, χ [τ], и [τ], ι; [τ]) Λ+ -J (τ* - **). (16.8)
Σ f^rUi ^ ,гЛ<**» *ь *·(*ι, *ад, β),*])+
и
142
Примем, что на участке [tu tm] выполнены оба неравенства
ti+i — U ^ 6(η, ε) и ti+l — ti< δ*. На участке τ* ^ t ^ θ движение
х [τ* f · ] Φ] продолжает формироваться по закону управления °U
(16.4) при выбранном значении ε с шагом δ<δ(η, ε). Тогда,
согласно материалу из § 8, найдется такая реализация помехи
ι>[τ*[·]Φ)> что для реализации процесса, порожденной из
позиции {τ#, #[τ*]} законом управления Ш и этой помехой
ν [τ* [ · ] Φ), будет выполнено неравенство
J χ (τ, χ [τ], и [τ], ν[τ]) dx + σ (χ [0]) >
τ*
> ρ°(τ*, χ[τ*}) — -J (τ* — **) = ρ (τ*, я [τ*]) — ^- (τ* — **), (16.9)
так как р(т^., #[τ#]) является гарантированным результатом для
оптимальной стратегии и°(·) для исходной позиции {τ*, я [τ*]}.
Из (16.8) и (16.9) следует неравенство
J Χ (τ> х Kl· и Μ. ν Μ) <Ζτ + σ (я[θ]) > ρ (**, яг*) + -|-(т* — t#).
и
(16.10)
Однако неравенства (16.5) и (16.10) противоречивы.
Противоречие доказывает неравенство
к^ ; + mm max
01 uep veQ
[ii^^/i (*. *.«. »>+хс· *>». »>] <°
(16.11)
для всякой позиции {£, ж)еб, f0 < t < Φ.
Предположим теперь, что для какой-то позиции {ί*, χ%} е С*
справедливо строгое неравенство
^2 + minm«xf22E^/1(if,Iu,p)
1_г=1
+ χ(ί, *, и, у)
<0. (16.12)
Тогда придем к противоречию с равенствами р(£, х) =
= ρ°(ί, а:) = ρίν°(·)«, £, #], конструируя теперь движение ж [£* [·] θ]
из позиции {J*, x%) на основе закона формирования помехи
Т = {и°(-)и, ε, Δβί*<» (16.13)
с достаточно малыми значениями ε > 0 и δ > 0. Формируя
реализацию управления и [**[·]τ*) на первом подходящем малом
.143
участке t* <Ξ t < τ* из условия
2 P^rL^'il}f} {tu X Iiib " W· ν°(ίι' * lii1' " lth ε)) +
+ X (*i, ж fob и It], y° (iit χ [ti],u[t], ε)) =
i^(ilf zfo], w, ε)) + χ(*«, «ft], и, i;°(ib *[*<], u, β))J, (16.14)
получим теперь вместо (16.8) противоположное неравенство
ρ (τ*, χ [т*]) < ρ (**, я*) — J χ (τ, χ [τ], и [τ], ι; [τ]) ώτ — -J (τ* — t*).
t*
(16.15)
На втором участке τ* <1 £<; О реализацию управления и[т* [ · ] О)
будем формировать по закону (16.4), который отвечает
оптимальной стратегии »°(·) и определяется тоже достаточно малыми
значениями ε и δ. Для получающейся реализации процесса будет
справедливо неравенство
д
J χ (τ, χ [τ], и [τ], ν [τ]) άτ + σ(χ Щ) <
τ*
< ρ° (τ*, χ [τ*]) + -J (τ* — **) = ρ (τ*, ж [τ*]) + -J- (τ* — **), (16.16)
противоположное (16.9). Из (16.15) и (16.16) следует неравенство
о
j % (^ ж [τ], и It], ν [т]) йт + σ (χ Щ) <
**
< Ρ (**,**)--£ (τ*-f*). (16.17)
С другой стороны, эта реализация процесса порождена
законом формирования помехи Ψ (16.13), который отвечает
оптимальной контрстратегии ι>°(·)«. Поэтому одновременно с (16.17) будет
выполнено неравенство
J X С*· * Μ. и W, у И) ώτ + σ {χ [Щ) >
t*
>ρ°(**> **) — -J" (τ* — **) = Ρ (**, **) — Τ (τ* — **)> (16.18)
если только постоянные ε и δ достаточно малы. Неравенства
(16.17) и (16.18) противоречивы. Противоречие доказывает не-
144
равенство
££|Lf> + mmr^Jj^^Mt, *, и, ν) +χ(ί, x,u, ιφθ.
(16.19)
Вместе с (16.11) неравенство (16.19) доказывает (15.35).
Итак, в предположении дифферепцируемости функции р(£, х)
доказана и необходимость условия (15.35) для того, чтобы
функция ρ(ί, х) совпадала с ценой p°U, x) игры {7.1; 8.1}. Но тогда
при условии дифференцируемости цены р°(£, х) можно согласно
материалу из § 15 построить оптимальные стратегии ю°(·) и ν°(·),
исходя из условий (15.33) и (15.41). И функции и0 (·) = и* (')
(15.4), (15.33) и v°(-)u=v*{-)u (15.25), (15.41), определяющие
эти оптимальные стратегии, будут зависеть только от £, χ
(и функция i>#(')tt— еще от и), но они не будут включать
аргумента ε. Стало быть, при условии дифференцируемости цены
игры р°(£, х) существуют оптимальные стратегии ц°(·) и v°(-)u
вида
»·(.) = {u°(t, ж), {*, *} е G}, (16.20)
vo(.)u = {vo(h д,, tt), {^ rfeG, не ρ}. (16.21)
Если при этом выполнено условие (8.14), то существует
оптимальная стратегия ν°(·) в форме чистой позиционной стратегии,
которая определяется из условия (15.44).
Таким образом, из материала § 15 и данного параграфа
вытекает важность вопроса о том, насколько оправдано
предположение о дифференцируемости цены р°(£, х) дифференциальной игры
{7.1; 8.1).
К сожалению, можно указать немало задач, где такое
предположение не выполняется. Можно проверить, в частности, что
цена р°(£, х) дифференциальной игры {7.1; 8.2}, которая получается
для управляемой системы из примера 6.1 при показателе γ (6.2)
и при выбранных там значениях параметров m{i\ α, μ и ν, будет
функцией недифференцируемой. Например, дифференцируемости
р°(£, х) не будет для позиций {£, х), у которых г = 0, τ<ί<θ.
Здесь величина г определена равенствами (6.10), (6.20). Это
будет установлено в § 17. В главах IV и V, §§ 48, 62, вопрос о
дифференцируемости цены р°(£, х) исследован в связи с вопросом о
регулярности программного синтеза. Ответы получатся там как
следствие из общей теории. В § 20* из этой главы мы
рассмотрим еще один пример, где цена игры ρ°(ί, χ) тоже является
функцией недифференцируемой. Этот формальный пример будет
носить искусственный характер, однако он интересен тем, что
для рассматриваемой в нем дифференциальной игры {7.1;· 8.1} не
существует оптимальной стратегии ю°(·) (16.20), где функция
10 н. Н. Красовский 145
и°(·) не зависит от ε. В §§ 17, 19, напротив, будут даны такие
примеры, когда функция цены игры ρ°(ί, χ) является
дифференцируемой и оптимальные стратегии ц°() (16.20) и v°(-)u (16.21)
определяются по цене игры р°(£, х) из условий (15.33) и (15.41).
§ 17. Пример гладкой цены игры
Рассмотрим модельную задачу об управлении, для которой
оптимальный гарантированный результат Pu(t, x) (7.17)
оказывается дифференцируемой функцией в назначенной области G
возможных позиций {£, х). Более того, для
этого примера можно выписать
аналитические выражения для цены р° (£, χ) = ρ° (*> #)
получающейся дифференциальной игры {7.1;
8.1} и для функций и°(£, х) и v°(t, #),
которые определяют оптимальные стратегии.
Пример 17.1. Управляемый объект F
является материальной точкой т, которая
перемещается в плоскости {qu q2) под
действием сил и = {»ι, и2} и ν = {i>t, vz),
лежащих в этой плоскости. Здесь щ и Vi — про-
. " екции векторов и и ν на ось д1? щ, и ν2 —
проекции этих векторов на ось q2 (см.
рис. 17.1).
Возможные значения и и ν стеснены условиями
|"| = ("ι2 + "!)1/2<α, (17-1)
Μ = (*>ι + ι>!)1/2<β· (17·2)
Показатель γ назначен так:
θ
γ= $<u[t].v[t]>dt + \{qim, <72[0]}| =
= J' (^ It] v, [t] + u2 [t] v2 [t]) dt + (gl [Щ + q\ [0])1/2. (17.3)
f*
Сохраняя для массы точки обозначение т, запишем
уравнения ее движения в согласии со вторым законом Ньютона
mqi^Ui + v^ mq2*=u2 + v2. (17.4)
Фазовым вектором здесь будет четырехмерный вектор х =
= {#!, ..., xj[={qu ?2, gi, g2}. Пусть заданы значения параметров
371=1, α = 2, β = 1. Система уравнений (17.4) и показатель γ
(17.3) в записи через координаты вектора χ принимают вид
хг = х3, х3 = иг + ух,
(17.5)
#а = #4» #4 ^ U2 + У2>
146
γ = J (Ul It) V± [t] + Щ [t] V2 [t]) dt + {x\ [0] + X\ [0])1/2. (17.6)
При этом
(«? + «1Г<2, W + ^)1/2<1. (17.7)
Определим область G (4.18) возможных исходных позиций
{t*, #*} следующими параметрами: £0 = 0, Φ =2, λ(4,5) = 4,. R0
может быть любым положительным числом. (Число λ(4'5)« 4
действительно годится, так как при этом значении λ(4δ) правая часть
системы уравнений (17.5) удовлетворяет условию (4.5).)
В рассматриваемом случае цену р°(£, х) дифференциальной
игры {7.1; 8.1} можно вычислить методом из будущих §§ 52—59,
62. Это вычисление дано ниже в § 63. Сейчас приведем только
окончательные результаты. Оказывается, что для позиций {£, х) е
eG при 1^ί<2 функция цены р°(£, я)—ρ°(£, #1? ..., хк)
определяется равенством
ρ°(ί, *!,..., хА) =
Зк*
4 (θ - tf
к —
(о - tf
0<3&<2(О-*)3,
3&>2(Ο-ί)3>0,
(17.8)
где
k^UXi+Xtto-tW+iZt + ZiiQ-t))*)1'*.
(17.9)
В том, что функция ρ°(ί, χ) (17.8) действительно доставляет
цену рассматриваемой игры, можно убедиться, опираясь на
результаты из § 15. В самом деле, эта функция непрерывна во
всей замкнутой области G. Вычисляя ее частные производные
dt
9*а
\{хх + хъ (θ — г)) х3 +
д1
дх.
4(0— *)* 2(0 — tf
+ (х2 + хА® — t)) χ*); 0<3fc<2(0-*)3,
(fi _ ί)«_ -J-lfo + zs (θ- ί))*3 +
+ (a;2 + a:4(d-i))a:4]; 3&>2(θ- ί)3>0,
2(»-t)3 fo+ *■(»-*)]? 0<3fc<2(»-*)8,
4-1*1+ «»(*—*)]; 3fc>2(ft-i)3>0,
3
(17.10)
2(Ф-*)а
[ж2 + а;4(0— *)]; 0<3&<2(Ф — f)3,
т[ж2 + ж4(0— *)]; 3&>2(θ-ί)3>0,
дх*
10*
(17.11)
(17.12)
(17.13)
147
видим, что все они непрерывны в области Q при fl· — 1 < t < fl\
Значит, функция р°(£, х) (17.8) удовлетворяет условию I из § 15.
Кроме того, поскольку имеем
р°(Ъ,х) = (х1 + х1)1/\
(17.14)
то выполнено и краевое условие П.
Заметим далее, что в данном случае выполняется условие
(8.14) для седловой точки маленькой игры. В самом деле, можно
проверить, что при всяком выборе чисел Si (i = Ss 4, 5)
справедливы равенства
min max [s3 {Щ + vx) + s4 (u2 + v2) + sb (uxvx + u2v2)\ =
= max min [s3 (щ + vx) + s4 (u2 + v2) + sb (игиг + u2v2)] =
= ζ(53, 54, s6), (17.15)
1-lfe.MI1/*.; 0<|{s3,s4}|<|s6|f
-2»§-|{*„*Л; -2|{s3,s4}|<2s5<
C(«·. «4. *·)-:! <!{«·> «J I. (17.16)
2sb- 31{s3, St}|; |{s3t s4}|<2sb<2 |{s3, sA}|,
Согласно материалу § 15, чтобы функция ρ°(ί, χ) (17.8) была
ценой игры, достаточно, чтобы наряду с условиями I и II еще
выполнялось равенство (15.35), т. е. в данном случае —
равенство
-£- + min max
&4 +
*'
+ /ьГ (ц1 + »ι) + я*" (u2 + *>2) + (^i + и2Ръ)
дх
= 0. (17.17)
Используя равенства (17.15), (17.16), (17.11)—(17.13) и
учитывая условие θ =2, 1<К2, получаем, что левая часть в
(17.17) совпадает с выражением
dp"
а«
-2г + 2-* + £-*-<*-'У
$'♦(
0\2Ί
(17.18)
Подставляя в это выражение величины dp°/dt (17.10), dp°/dxt
(17.11), др°/дх2 (17.12), убеждаемся, что оно обращается в
тождественный нуль. Таким образом, равенство (17.17) действительно
имеет место, и значит, функция р°(£, х) (17.8) есть цена игры
для позиций {f, rfeG при 1 ·< t < 2.
148
Поскольку здесь выполняется условие (17.15) для седловой
точки маленькой игры, то в соответствии с материалом из § 15
обе оптимальные стратегии ю°() и ι;°(·), которые определяются
из условий (15.33) и (15.44), будут чистыми позиционными
стратегиями и°(£, хи ..., ж4) и ι>°(£, хи ..·, #4). Решая задачи на
минимум и максимум, фигурирующие в (17.17), получаем
следующие выражения для вектор-функций и°(·) = {и?(-)> и£(·)) и
р°(·) »> {ι?ι(·) ι>ι(·)Κ которые определяют оптимальные
стратегии при 1 < t < 2:
0<3&<2(d —ί)3;
3&>2(O-f)s>0;
-ior^^ + ^-^b
0<3*<2(θ —ί)3;
«ι(ί. «ι» ··.» ж4) =
(17.19)
U% (t, Χι, . . . , Λ?4/ — {
(17.20)
3&>2(θ-ί)3>0;
i;°tt, xu ..., я4) — u°(t, xu ..., s4), (17.21)
где величина к по-прежнему определена формулой (17.9).
Равенство (17.21) означает, что в области G при 1<ί<2
оптимальная стратегия v°(t, χ) направляет вектор силы ν так,
что эта сила, как и сила и, назначаемая оптимальной стратегией
ю°(£, х) (17.19), (17.20), способствует уменьшению величины
(х\ [Щ + х\ [θ])1/2. Это объясняется тем, что при таком выборе
силы ν второй игрок, проигрывая во втором слагаемом
показателя γ (17.6), выигрывает зато в первом слагаемом. В самом деле,
тогда при оптимальном воздействии и первого игрока
подынтегральное выражение в интеграле из (17.6) оказывается
положительным. В то же время выражения (17.19), (17.20) для ю°(£, х)
показывают, что первому игроку выгодно выбирать воздействие
и, способствующее уменьшению величины
хотя при этом он будет, может быть, что-то терять за счет
положительности первого слагаемого в (17.6). Заметим, что при
1 < t < 2 оптимальное воздействие и остается по норме
меньшим единицы и, следовательно, не достигает крайних пределов
своего ограничения (17.1), где αιβ=2.
В области G при 0<ί< 1 цена игры ρ°(ί, χ) остается
дифференцируемой функцией. Ее значения удобно описать
следующими соотношениями: —
ρ°(*> *ι, ..., я4) = max [vk + φ (ί, ν)], (17.22)
149
где
v2(0-*)s/3, ve[0; !/(<>-«)],
<p(i,v) = i-Tv(*-^-W + 2^-i)'vs
(17.23)
[<nri,rb]n[o,i],
и величина к по-прежнему определена равенством (17.9). И здесь
можно проверить непосредственными вычислениями, что
функция р°(£, χ) (17.22) удовлетворяет условиям I, II из § 15 и
равенству (17.17). Кроме того, при t = i выражения (17.8) и (17.22)
склеиваются непрерывным образом.
Оптимальные стратегии при 0 < t < 1 определяются
следующими вектор-функциями
о<М<1,
■2р/\р\, 1<|р1<2,
f —Pi
U° (t, «!,..., Χι) = J _ 2p
v4t χ x)-\~P' lP]<i'
|< 2,
(17.24)
(17.25)
где вектор р определен равенствами
ρ = {νο0θ - t)[xt + ζ3(θ - t)]/k,
ν°(θ-ί)[*2 + **(Φ-ί)]/Α:}, й>0, (17.26)
/?'={0, 0), & = 0.
Здесь v° есть максимизирующее число в задаче на максимум
(17.22), (17.23). Заметим, что выражения для ρ°(ί, χ) (17.8),.
0,11
ϋ-2
ifc
%11
У
t*-o
V>4t
i
o,U
0,95
&-2
Яг
\ы
//
t,-o
I »
3,0 qf
Рис. 17.2.
Рис. 17.3.
tt°(f, χ) (17.19), (17.20) и v°(t, x) (17.21) построены по тем же
правилам (17.22), (17.24), (17.25) с заменой в (17.22) функции
<р(£, ν) (17.23) на функцию
ф7 ν) = -ν2№-*)8/3, ν<Ξ[0; 1/(Ф-Й1 П [0, 11. (17.27)
150
Но для того случая, когда {£, х) еб, 1 < t < 2, более ясной
представляется лвная запись (17.8), (17.19), (17.20), (17.21).
На рис. 17.2—17.4 для рассматриваемого примера приведены
изображения на плоскости {qu q2) некоторых просчитанных на
ЭВМ реализаций {qt[t], q2[t]} (17.4), t* ^ t^0 = 2, исходящих
из позиции t* = 0, q*x = q+2 = 3, ςτ#1 = д*2 = 0. На рис. 17.2
представлена реализация, порожденная оптимальными
стратегиями и°(-) и v°(-). В этом слу-
чае объект движется в
плоскости {qu q2} по прямой, про- 1
ходящей через начало
координат, и показатель γι= 1,553
совпадает примерно с ценой игры
Р°(**, **) = Р°(0; 3; 3; 0; 0) =
— 1,578. На рис. 17.3
изображена реализация при и = и°{·) 2,
и v = {cosnt, sinnt). При этом ϋ"11>*6 δ>° Ъ
получилось, что γ = 1,025 < Рис. 17.4.
<р°(^, х+). На рис. 17.4
изображена реализация при υ = ν°(·) и и = {2cos πί, 2sinnrt. При
этом получилось, что γ == 2,555 >ρ0(ί^, χ#). Вычисления велись
с шагом ti+t — Uι = δ = 0,005.
В заключение следует сказать, что для управляемого объекта
(17.5) и показателя качества γ (17.6) при ограничениях (17.7)
цена игры ρ°(ί, χ) оказывается функцией,- дифференцируемой во
всех возможных позициях {£, х)у только при условии θ —£0'<2.
Если же выбрать число U < θ — 2 и область G достаточно
большой, то встретятся такие позиции {£, ж}еС, в которых функция
p°U, x) дифференцируемой уже не будет. Почему появляются
такие позиции, пояснено в § 63.
§ 18. Об условиях гладкой цены игры
В этом параграфе обсудим вопрос о том, когда можно
ожидать, что игра {7.1; 8.1} имеет дифференцируемую цену р°(£, х).
Ограничимся случаем, когда уравнение движения является
линейным и имеет вид
x*=A{t)z + B(t)u + Cit)v9 (18.1)
множества Ри^в условиях #
и^Р, v^Q (18.2)
суть выпуклые компакты и показателе качества γ имеет вид
Υ = J 1 (τ, χ [τ]) άτ + α (χ [Ο]), (18.3)
t*
причем χ(τ, χ) и с(х) суть выпуклые функции по переменной х.
151
Напомним, что некоторое множество S в пространстве
векторов s называется выпуклым, если выполнено следующее условие·
Каковы бы ни были векторы s{i)^S, s{2)^S и число осе (О, 1)т
вектор s*= [as(1) + (1 — a)si2)] e S. Некоторая функция фЫ от
переменной χ называется выпуклой, если выполнено следующее
условие (см. [24*], с. 39). Каковы бы ни были x{i\ x{2) и
постоянная ае(0, 1), справедливо неравенство
1р(ш;(1) + (1 - aW2)) < αψ(*(1)) + (1 - α)ψ(*(2)). (18.4)
В данном случае свойство дифференцируемости функции
р°(£, х) проявляется содержательно в следующем утверждении.
Лемма 18.1. Пусть функция цены р°(£, х) игры {7.1; 8.1}
имеет непрерывные частные производные dp°/dt, др°/дх} (/ = 1,...
..., п). Тогда для любого числа ξ > 0 найдется число б (ξ) > 0 такг
что для всякой исходной позиции {£*, х*} найдется программный
закон формирования помехи
У°ашл) - ivltl -с(0, U<t< it>1, ti+i -и< δ(ζ), i =-1, ..., *},
(18.5)
который гарантирует неравенство
V = J Χ (τ, * [τ]) dr + σ (* [θ]) > ρ° (**, *,) - ζ, (18.6)
какова бы ни была {измеримая) реализация управления u[t*[-\b)*
Иначе говоря, в рассматриваемом случае из
дифференцируемости функции р°(£, х) следует, что к оптимальному
гарантированному результату р£(**, я*) = Р°(**» #*){7.ι;8.ι> можно
приблизиться на любую, сколь угодно малую величину ξ уже за счет
выбора программного закона Тцв.ь) формирования помехи, который
задает ее всю сразу только по исходной позиции {ί*, χ%} в виде
реализации — функции времени ν [t# [·]$). Таким образом, га·
рантированные результаты, достижимые здесь в классе {У)ц*.*у
программных законов У(18.5), нельзя улучшить по существу, рас·
ширяя этот класс {Т}{18.Ъ) до класса законов {У}(8.2), которые
формируют помеху v[t* [·] θ) по принципу обратной связи на
основе текущей информации о реализующихся позициях {£<, xitil}
(и даже, может быть,—о реализующихся воздействиях uiti).
Докажем лемму. Пусть дана исходная позиция{£#, х*}. В
рассматриваемом случае выполнено условие (8.14). Согласно
материалу из § 8 игра {7.1; 8.1} в классах {чистые стратегии —
контрстратегии} эквивалентна игре {7.1; 8.2} в классах {чистые
стратегии—чистые стратегии}. Согласно материалу из §§ 15, 16 при
условии (8.14) в случае дифференцируемости цены р°(*, х) игры
{7.1; 8.2} существует чистая оптимальная стратегия, которая
определяется функцией ν°(·)Ύ не зависящей от ε. Итак, в данном
случае существует закон формирования помехи
Г(1М>-<*·(·), Δβ({)>, (18.7)
152
отвечающий оптимальной чистой позиционной стратегии
»·(.)=■ Wit, x\ {*, x}^G) (18.8)
и гарантирующий неравенство
ί
χ (τ, ж [τ]) dr + σ (ж [θ]) > р° (f*, **) - -§-. (18.9)
Ρ«.*[Ί]) +
Более того, выкладки из §§ 15, 16 доказывают еще и такое
утверждение. Можно указать число δ(ξ)>0 такое, что, какова
бы ни была реализация управления и [ί* ['·]*)» будет
гарантировано неравенство (18.9), если только разбиение Дд{£<}
удовлетворяет условию δ ^ δ(ξ) и на каждом шаге [£», ί{+ι) помеха
v[til-]ti+l) формируется в согласии с условием (15.44) согласно
равенству v[t]=v[ti] {ti<t<ti+i), где вектор p[fj«c(<)
удовлетворяет условию
[ dt \(Ч>*1Ч])
+ min У Щ±^- U (*, *> и, с<») + χ(ί, χ, щ сС«>)
L *
+ max min У дЦ^ U (*. *> «*.») + Χ (*. *. *■ ») · (18Л0)
На каждом шаге вектор c(i), удовлетворяющий условию
(18.10), может оказаться не единственным. Утверждение состоит
в том, что неравенство (18.9) будет гарантировано, если на
каждом шаге выбирается в качестве v[U] любой из векторов c{i\
удовлетворяющие условию (18.10). Выразим это кратко так.
Неравенство (18.9) гарантируется, каким бы ни оказался закон
управления У<18л>, т. е. какой бы ни оказалась стратегия νβ (ί, #),
удовлетворяющая условию (15.14), и каким бы ни было
разбиение Δβο.
Рассмотрим всевозможные кусочно-постоянные реализации
помехи вида
v[t*[-]b) = {v[t]=c№, ti<*<*1+1, i-Ι,...,Λ}, (18.11)
где значения U выбраны из некоторого фиксированного
разбиения Аб(с){*<}, фигурирующего в (18.7). Предположим, что при
всяком выборе реализации ν [t* [-]ϋ) (18.11) найдется (измеримая)
реализация u\t* [·] θ), такая, что для соответствующего
движения χ It* [ · ] Щ будет выполнено неравенство
о
V = \ % (τ, χ [τ]) dx + α (χ 1Щ) < р° (ί*, χ+) - ζ. (18.12)
153
Таким образом, всякой кусочно-постоянной реализации
v[t* [·]θ) (18.10) можно поставить в соответствие некоторое
(непустое) множество реализаций u[t% [·] θ), каждая из которых в
паре с данной реализацией ν [t* [ · ] θ) порождает из данной
исходной позиции {£#, х%) движение £[ί#[·]θ], удовлетворяющее
условию (18.12). Обозначим символом Х[М'1*1 множество всех
возможных движений x[t# [·]О], каждое из которых порождается
из позиции {г*, я*} какой-либо реализацией v[t* [·]θ) (18.11) и
какой-либо (измеримой) реализацией и [t* [·] θ). Можно
проверить, что X[£*[·!ft] является ограниченным, выпуклым и
замкнутым множеством функций tflM'l^l· В согласии с
определением выпуклости некоторое множество SB функций #[£#[·]θ]
называется выпуклым, если при любых χ(1>[ίΗί [·] θ] с=^,
^2) [** t · 1 #]£= ®В и числе а е (0, 1) функция *«*>[** [ - ] θ] =
= [α*ω [ij.] О] + (1 — а) *(*> [*„ [.]ft]]sS?. Множество X [** [·] Щ
замкнуто в метрике пространства Ψ{χ[·]}, которая определена
нормой
ИМ']*]Ь = max И*]|. (18.13)
СимволомX [£# [ · ] θ | ν [t* [ · ] θ), ζ] обозначим подмножество
таких движений x[t* [']д]ЕХ[^[-]9], которые порождены
некоторой зафиксированной помехой ν [t* [ · ] θ) (каждое порождено
помехой ν [t* [ · ] θ) в паре с каким-либо управлением и [t# [ · ] θ))
и удовлетворяют неравенству (18.12). Каждое множество
X\t* [·]θ|ι>[ί# Η Φ), ζ] также ограничено, выпукло и замкнуто
в пространстве Ψ. Более того, эти множества X[t* [·]θ|ζ>[**1 ·]*)>£]
полунепрерывны сверху по включению по изменению помехи
И** Η θ).
В § 3 дано определение свойства полунепрерывности
множеств, которые состоят из конечномерных векторов и зависят от
аргумента — конечномерного вектора. Это определение
переносится естественным образом на более сложные случаи. Именно,
пусть у и z суть элементы каких-либо пространств °Ц и j£, в
которых определены метрики ([28*], с. 70). Тогда свойство
полунепрерывности определяется теми же условиями (3.23)—(3.26),
только пределы (3.23) и (3.25) понимаются в смысле сходимости
по метрикам в ^ и £ соответственно. В данном случае в
пространстве Ά функций я [М-1*1 выберем метрику, которая
определяется нормой (18.13). Метрику в пространстве ^ функций
v[t* [·] θ) (18.11) определим нормой
/ft \l/2
ИМ·]») 11*- ΣΙ*0!1 - (18.14)
г=1 I
Свойство полунепрерывности множеств X [t* [·] θ|, ν [·], ζ] по
νί·] примем без доказательства.
Построим теперь некоторое отображение подходящих пар.
Возьмем пару {ν* [Μ·]*), ^ΙΜ']»]}» состоящую из помехи
**ΙΜ·]θ)(18.11) и движения ί·[ίί[·]»]εΧ[ίι[·]*1· В по-
154
зициях {tiy xlti]} вычислим все возможные значения c{i)^Q U —^
= 1, ..., к), которые удовлетворяют условию
<grad p° (*, a?Jttifx[fi]|-c(*)> = max <grad p° (t, х){ц,х[Щ-су. (18.15)
с —Q
Построим всевозможные реализации ν [t* [ · ] О) (18.11),
отвечающие таким значениям c(i). Множество V[t% [·]θ| я* [t% [·]^11
таких реализаций v[t%[-]$) будет ограниченным выпуклым и
замкнутым (в евклидовом пространстве к X $)-мерных векторов
с = {с(1), ..., с{к)) с нормой (18.14)). Более того, множества
V [t% [ · ] θ Ι χ* [t% [ · ] θ]] полунепрерывны сверху по включению по
изменению движения х* [t* [·] О]. Поставим в соответствие паре
{v* [t* [· ] θ), #* [£* [ · ] θ]} множество всех возможных пар
{ИМ·]**), *[*·[·]*]>, где
Hi*[']»)eFW']»|i*W·]»]], (18-16)
*[Μθ*1^Χ[ΜΊθ|**ΪΜ·]<0.α (18.17)
При отмеченных свойствах множеств X и V это отображение
имеет неподвижную точку (см. [12*], с. 75)г т. е. существует
такая пара {ν* [ί* [·] θ), я* U* [·]θ]}, что среди отвечающих ей
пар с компонентами (18.16), (18.17) содержится она сама. Но это
означает, что справедливы вложения
**[**[·]<>) = М*]=**(|\ h<t<ti+1, t = l, ...,fc}e
ε^[ί,[.]0|.*[ί*[·]% (18.18)
** ft, [.] θ] e Χ [ί*[ ·] 011;* [ί, [·] θ)]. (18.19)
Вложения (18.18) и (18.19) означают, что движение #*[£# Н*]
порождено законом формирования помехи Т{щЛ). Стало
быть, для него выполнено неравенство (18.9). Вложение (18.19)
означает, что для этого же движения x*\t* [·] Щ выполнено
неравенство (18.12). Но неравенства (18.12) и (18.9) противоречивы.
Из противоречия вытекает, что для всякого движения #[£*[·]θ],
порожденного некоторой реализацией ν [t *[·]$), будет
выполнено неравенство
V = J Χ (τ, * [τ]) άτ + σ (χ [θ]) > ρ° (**, **) - ζ. (18.20)
Вследствие произвольности ξ > 0 это означает, что существует
закон У («.в), который удовлетворяет условиям леммы.
Пользуясь леммой 18.1,. докажем утверждение о том, что цена
р°(£, х) дифференциальной игры {7.1; 8.2}, которая отвечает
задаче из примера 6.1, не является функцией, дифференцируемой
при t<$ (см. § 16). В самом деле, если в упомянутой задаче из
§ 6 переименовать переменные и на ν и ν на и, то получится
задача 7.1 для системы, описываемой линейным уравнением вида
(18.1) при ограничениях (18.2), где Ρ и Q суть выпуклые
компакты. При этом показатель γ (6.7), минимизируемый там по ι;,
155
сменит знак и превратится в показатель
γ = σ(*[#]) = Μθ]-*3[θ1Ι, (18.21)
минимизируемый здесь по и. Функция а(х) из (18.21) является
выпуклой. Поэтому для получающейся теперь игры были бы
выполнены все условия леммы 18.1, если бы цена ρ°(ί, χ) была
функцией дифференцируемой. Но согласно этой лемме тогда для
каждой позиции {£*, ##}при всяком значении ξ>0 нашлась бы
реализация помехи v[t* [·]θ), которая гарантировала бы
неравенство
о (х Щ) = | хх [Щ - xs [ϋ] | > р°т (**, Хщ) - ζ, (18.22)
гДе Ρ§ιβ(ί*> #*)есть цена игры {7.1; 8.2} для данных (18.2), (18.3),
(18.21).
В обозначениях из § 6 это означало бы, что нашлась бы
реализация управления u[t*[*]$), которая для данных {£#, х*} и
ξ > 0 гарантировала бы неравенство
V Ι «Ϊ [*1 — 4 ЩI < Р§6 (**, х*) + С, (18.23)
гДе Ρ§β(ί» #) = -—P§is(*> я) — цена игры {7.1; 8.2} для данных
(6.1), (6.4), (6.7). Согласно материалу из § 6 для
рассматриваемой там позиции {£#, х*} (6.31) (см. § 6) реализация и [t* [·] θ)
может гарантировать лишь результат, равный нулю. Стало быть,
при нашем предположении о дифференцируемости р°(£, #)<7j,8.2>
получается, что для этой позиции {£#, х*} цена
Р§°в (*·, **) = 0. (18.24)
Но это противоречит тому, что существует закон управления
°и* (см. § 6), который для данной позиции {ί#, χ*} гарантирует
строго отрицательный результат
ρ («V, «»,**)< 0, (18-25)
и в то же время согласно § 11 имеем
9Ъ (**, хт) < ρ (2/*; **, xm). (18.26)
Это противоречие между (18.24)—(18.26) доказывает, что
функция peU, x) дифференцируемой быть не может.
§ 19. Второй пример гладкой цены игры
Пусть уравнение движения является линейным
χ = A{t)x + B(t)u + C(t)v (19.1)
и показатель качества γ имеет вид
ΰ
Υ - J [<х [τ] · Χ (τ) χ [τ]> + <w [τ] Φ (τ) и [τ]> -
- <ν [τ].ψ (τ) ν [τ]>] άτ + {χ [θ] · Sx [*]>, (19.2)
156
где подынтегральные выражения и последнее слагаемое
определяются квадратичными формами
г
<и.ф(*)и>= Σ 4>ij{t)UiUh (19.3)
8
{ν. Ψ (t) ν} - 2 фу (*) ι;4ι>* (19.4)
<* · X (t) *> = Σ Χϋ (*) *i*i, (19.5)
η
<ж-5х>= 2 ayaw (!9·6)
Полагаем формы (19.3), (19.4) определенно-положительными,
т. е. предполагаем, что при всех значениях ie= [£0, ф] справедливы
неравенства
<u-Q>it)u>>au\u\2, (19.7)
<ι;·ψωι;>>α,|ι;|2, (19.8)
где att и a„ суть положительные постоянные. Матрицы-функции
Ait), Bit), Cit), Xit)7 Φ(ί), Ψ(ί) полагаем непрерывными при
ί0<ί<θ. Кроме того, матрицы ХШ, Ф(£), Ψ(ί) и постоянную
матрицу S считаем симметричными.
Управляющее воздействие и и помеху ν сначала не стесним
какими-либо ограничениями вида (4.1) и (4.2). Это не позволит
ссылаться на результаты § 15 без оговорок, так как эти
результаты сформулированы при ограничениях (4.1) и (4.2), где Ρ и Q
суть замкнутые ограниченные множества. Однако это, очевидно,
не препятствует использованию дифференциальных соотношений
из § 15 для поиска оптимальных законов управления °U и
формирования помехи Ψ. Следует только не забывать о различии
между условиями общей задачи из § 15 и теми условиями,
которые фигурируют в рассматриваемом примере. Поэтому, если
удастся найти некоторые подходящие стратегии и°(·) или ι;0(·),
смысл их оптимальности должен быть пояснен дополнительно
вместе с обоснованием этой оптимальности. Заметим еще, что
показатель γ (19.2) по виду напоминает показатель γ (1.13).
Однако между этими показателями ееть существенное различие.
Слагаемое в (19.2), зависящее от х[$]г является квадратичной
формой, а слагаемое в (1.13), зависящее от xWi, есть
квадратный корень из квадратичной формы.
Итак, следуя пока по форме соотношениям из § 15, будем
искать функцию pit, х), которая удовлетворяет условию (15.35),
а стратегии и°(·) и ν°(·) будем искать из условий (15.33) и
(15.44). При этом априори мы не объявляем искомую функцию
pit, χ) из (15.35) ценой какой-либо дифференциальной игры, а
искомые стратегии ю°(·) (15.33) и ι;°(·) (15.44) заранее не
объявляем оптимальными в том или ином точно определенном смысле.
Выяснение этих обстоятельств пока отложим.
157
Пусть сначала и и ν суть скаляры. Тогда Cit) и Bit) суть
гг-мерные вектор-столбцы 6 (£)= {&<(*)> ι = 1, ..., η) и c(t) =
= {сг(^), ί = 1, ..., η). Пусть показатель γ (19.2) имеет вид
? η
γ = f [φ (τ) и2 [τ] - ψ (τ) ι;2 [τ]] dx + Σ Wi Щ Щ №], (19.9)
где φ(τ)^αω>0, г|)(т)>а„>0. Условие (15.35) принимает в
таком случае форму следующего равенства:
ft + <gradp(*, z)·;4(ί)я> +
+ max Kgrad ρ (£, χ) - с (t) ν} — ψ (£) ζ;2] +
+ min [<grad ρ (ί, *)·& (ί) w> + φ (ί) w2] = 0. (19.10)
U
Решая известным образом получившиеся задачи на
максимум и минимум, получим для экстремальных аргументов v =
ч = v*it, x) и и =* #*(£, #) значения
y*U, ж) = <grad pit, x) · c(t)>/2$(t), (19.11)
Β*(ί, ж) = -<grad p(i, jc) · 6(f)>/2q>(f). (19.12)
Подставляя (19.11) и (19.12) вместо ν и и в (19.10), получим
следующее уравнение для функции ρ = pit,. #):
g- + <gradp (i, ж).Л (t) χ) + щ^ <grad p (f, ж).с (ί)>2 -
~4^)<^radP^x)-feW>2 = a (19ЛЗ)
Это уравнение, расписанное через компоненты a^it) матрицы
Ait), компоненты др/дхг вектора gradp(£, x) и компоненты &»(£),
dit) векторов bit) и cit), принимает вид
Получившееся уравнение в частных производных следует
решать при краевом условии
η
Ρ (θ, х) = Σ GijXiXj. (19.15)
Будем искать решение pity x) уравнения (19.14) при данном
краевом условии (19.15) в виде квадратичной формы
η
ρ (*,*) = Σ 9i}{t)xiXj. (19.16)
158
(t)
= 0. (19.14)
Здесь pij(t) = pad) суть искомые коэффициенты-функции
pa(t), to^t^il·, которые согласно (19.15) удовлетворяют краевым
условиям
р«(0),s= Gi» ί«1, ..., га, /==1, ..., га. (19.17)
Вычисляя производные др/dt, dp/dxi (ι·—1, ..., га) для
функции pit, χ) (19.16) и подставляя найденные выражения в (19.14),
получим в левой части (19.14) квадратичную форму относительно
переменных #<. Эта квадратичная форма должна быть равна
нулю при всех возможных значениях tux. Поэтому ее
коэффициенты при всяком произведении XiXj должны быть равны нулю.
Отсюда получаем систему обыкновенных дифференциальных
уравнений для переменных py(f)
η
-^ — 2 [ρ**α« о + α« w ρ«] +
+ ftZ i^pw φΐϊ)—Ιρ«ρ«· <19·18>
Такие уравнения называют обычно уравнениями Риккати.
Систему уравнений (19.18) надлежит интегрировать при краевом
условии (19.17). Искомое решение {р#(£)} существует по крайней
мере на некотором полуинтервале f < t < Φ. Утверждать
существование решения (р^Ш) при всех i«e [f0, -θ·], вообще говоря,
нельзя, так как при некоторых значениям параметров о^(£), Ьгй),
^{(ί), Су, <ρ(ί) и ψ(ί) некоторые переменные ρ«(ί) из решения
{рцШ} (19.18), (19.17) могут уходить в бесконечность (+°° или
—оо) при t-> f + 0r где £°>ί0. Итак, во всяком случае, из (19.18),
(19.17) можно найти дифференцируемые функции ptj(t) (ί — Ι, ...
..., тг, / = 1, ..., и), которые удовлетворяют этим условиям (19.18),
(19.17) на некотором отрезке времени [?0, #] с (*°, θ]. Эти
переменные определят функцию р(£, χ) (19.16),
удовлетворяющую уравнению (19.14) при ie[f0j φ] и при краевом
условии (19.15). Вместе с тем определятся и функции ι;*(·) (19.11)
и и*(·) (19.12). Эти функции будут иметь вид
η η
ν* <*» *) = ш 2 2 р« w с> w ^ь (19·19)
η η
и* α, χ)=- -ΐ^ 2 2 pu w fci w *ι· (49·2°)
В общем случае системы (19.1) и показателя γ (19.2)
соотношение (19.10) принимает форму следующего равенства:
|f· + <grad ρ (ί, χ) · A (t) χ} + <*. Χ (*) я> +
+ min [<grad ρ (f, #)·£(*) w> + <и-Ф (ί) и>] +
u
+ max[<gradp(f, ar).C(i)i;> — <ι;·Ψ(ί)»>] — 0. (19.21)
159
Отсюда для симметричной матрицы Hit) искомых
коэффициентов pad) (i*=l, ..., η, / = 1, ..., η) уравнения, отвечающие
уравнениям (19.18), получаются в форме следующего матричного
дифференциального уравнения:
kit) - -[R(t)A(t) + А'ШШ +R(t)[B(t)<I>-l(t)B'(t) -
- ат-*{1)си)Шг) - χω, (19.22)
которое снова надлежит решать при краевом условии (19.17),
т. е. при условии
Ж*)-5. (19.23)
Кроме того, в общем случае выражения (19.19) и (19.20) для
функций u*(t, χ) и v*{t, x) преобразуются в такие матричные
выражения:
u*(t, χ) - -Ф-ЧЙЯЧЙЖЙ*. (19.24)
vHt, x) - Чг-ЧЙСЧйЖЙ*. (19.25)
Теперь, когда функции w*(i, χ) (19.24) и y*(i, x) (19.25)
найдены, можно проверить, что для них. справедливы следующие
утверждения.
Рассмотрим закон управления
<2/<ΐ9.2β)=-»*(·)(19.2β), (19.26)
определенный функцией »*(·) (19.24) и работающий в
непрерывной схеме из § 5, т. е. так, что движение χ [t# [-]$ | ц* (·)] (при
ie[?o, Φ]) определяется как решение дифференциального
уравнения
x^A(t)x + B{t)u*it, x)+C(tMth (19.27)
Здесь v[t] — значение произвольной измеримой и
ограниченной функции ν [t% [·]^)· Все допустимые функции ν [t* [·] ϋ) не^4
предполагаются ограниченными равномерно. Но полагаем, что
каждая допустимая реализация ограничена своей постоянной Jf,
так что i;[t*[-]«) = {|i;[4|<Af, **<ί<0}.
Из вида функции ю*(£, х) (19.24) следует, что для всякой
начальной позиции {£#,#*}, £# е [£0, 0)уравнение (19.27) имеет един·
ственное решение χ [t# [·]0]. Вычислим производную d^/dt для
функции
γ [t] = ρ (*, χ [t]) - J [<* [τ]. Χ (τ) * [τ]> +
t
+ <u* (τ, χ [τ]) ·Φ (τ) μ* (τ, χ [τ])> — <ρ [τ]. Ψ (τ) ν [τ]>] άτ. (19.28)
Используя формулу (15.18), которая вытекает из формулы
(15.17) для дифференцирования сложной функции, получим по
выбору функции р(£, х), удовлетворяющей уравнению (19.21), и
по выбору функции ю*(£, х) (19.24) из условия минимума в (19.21)
160
следующие соотношения:
£ - ί SSI , + <tgrad рь.*1> · (л о * м +
+ B(t)u* (t, л: [f ]) + С (t) ι; [*])> <я [*] · Χ (*) χ [φ +
+ <"* (*, *14) ·Φ (*) "* (*, χ [*])> - <ι> [q · Ψ (*) ν [φ < 0. (19.29)
Интегрируя неравенство (19.29) в пределах t*^t^0,
получим с учетом (19.15) неравенство
Υ [·] - Υ I**] = Ρ (О, х Ш) - Ρ (*·, *·) +
о
+ j [{χ [τ]-Χ (τ) χ[τ]> + <и* (τ, χ [τ]) ·Φ (τ) и* (τ, ж[τ])> -
t*
ο
- <y [τ] · Ψ (τ)ν [τ]>] dr = (χ [Ο]. S* [θ]> + J [<* [τ].Χ (τ) χ [τ]> +
t*
+ <и* (τ, χ [τ]) ·Φ (τ) и* (τ, ж [τ])> — <» [τ] · Ψ (τ) ν [τ]>] dx —
— p(**, #*)<0·
Но это неравенство означает, что реализуется значение
показателя
γ< ρ (**,**), (19.30)
какой бы ни оказалась реализация помехи ν [t* [·]0).
Стало быть, величина р(£#, #*) не меньше, чем
гарантированный результат для закона управления Ф/(и>.2в), работающего в
непрерывной схеме из § 5.
Пусть теперь выбран закон формирования помехи
Г(1М1)-»·(·)(!·..„, (19.31)
определенный функцией ι;*(·) (19.25) и работающий в
непрерывной схеме из § 5, т. е. движение #[£*[·] О | ν*(·)]> ** ^ [*о>
^определяется как решение дифференциального уравнения
x = A(t)x + B(t)u[t]+Cit)v*(t, x), (19.32)
где u[t] — значения произвольной измеримой и ограниченной
функции u[t% [ · ] О). Все допустимые реализации и[t% [ · ] О) не
предполагаются ограниченными равномерно. Каждая допустимая
реализация u\t* [ ·] ϋ) = { I и [t] I <; Μ, £# <! t < Ό} ограничена своей
постоянной ЛГ. Из (19.25) следует, что для всякого начального
условия x[t%] = я*, £# е [£0, θ) уравнение (19.32) имеет
единственное решение. Оценивая производную dy/dt для функции
γ [*] = ρ (f, ж [ί]) - J [<* [τ]. Χ (τ) *[τ]> +
t
·+ <Ц [τ] ·Φ (τ) и [τ]> — <у* (τ, ж [τ]). Ψ (τ) у* (τ, ж [τ])>] йт
11 Η. Η. Красовский 1W
с учетом выбора функции р(£, х) из (19,21) и функции vHt, x)y
из условия максимума в (19.21) получим неравенство
§>0. (19.33)
at
Интегрируя это неравенство при £* ^ ί^Φ, с учетом (19.15)
получим
о
<*[θΜ*[θ]>+ J [<*Μ-Χ(τ)*[τ]> + <u [τ]·Φ (τ)ι*[τ]> -
**
— <у* (τ, χ [τ])· Ψ (τ) ι;* (τ, я [τ])>] dr — ρ (**, χ*)> 0.
Но это неравенство означает, что реализуется значение
показателя
Υ >Р (**■*·). (19·34)
какой бы ни оказалась реализация управления и [t# [·] θ).
Стало быть, величина ρ (£#, я*) не больше, чем
гарантированный результат для закона формирования помехи Ψ^.%^
работающего в непрерывной схеме из § 5.
Если одновременно управление формируется по закону Ф/<«.2в)»
а помеха формируется по закону ^Vg.si), то согласно (19.30) и
(19.34) реализуется значение показателя
Y = p(f*,**). (19.35)
Соотношения (19.30), (19.34) и (19.35) означают, что
величина р(£#, х%) является гарантированным результатом ρ(^αβ.2·)>*
t*, x*) и гарантированным результатом ρ(^(ι9.3ΐ)ϊ **> #*) для
законов <2/(10.2б) и ^(ΐ9.3ΐ), работающих в непрерывной схеме (θτηο-
сительно оговоренных в этом параграфе классов допустимых реа-^
лизаций ν [£# [ · ] ϋ) и и [t* [ · ] О) соответственно). Неравенства
(19.30) и (19.34) дают основание назвать функцию р(£, х) (19.16)
ценой р°(£, х) дифференциальной игры для системы (19.1) и
показателя γ (19.2) в классах стратегий u(t, х) и ι;(ί, χ), где a(t, x)
и v(t, x) суть непрерывные функции, причем соответствующие
движенияx[t# [-]Щ формируются в непрерывной схеме. А
функции ιι*(ί, χ) (19.24) и ι;*(ί, χ) (19.25) согласно неравенствам
(19.30) и (19.34) оказываются оптимальными стратегиями κ°(ί, χ)
и v°(t, x) этой игры. Таким образом, в рассматриваемом случае,
благодаря возможности получить решение р(£, х)
дифференциального уравнения в частпых производных (19.29) при краевом
условии (19.15) при ίο^ί^θ, непрерывная схема управления из
§ 5 вполне оправдывает себя.
Обратимся теперь к вопросу об использовании функций α*(ί, χ)
(19.24) и i;*U, x) (19.25) в дискретной по времени схеме
формирования управления и помехи. Так как воздействия и и ν
априори не ограничены по величине, то нельзя назначить
заранее некоторую ограниченную область G в пространстве позиций
162
U, χ), которая содержала бы все возможные текущие позиции
{£, #[*]}, которые могут случиться для движений я[?0М<Н,
начинающихся в какой-либо заданной сфере
1*о1<Яо. (19.36)
В связи с этим здесь возникают трудности при попытке
доказать, что для всякого числа ξ >0 можно указать число δ(ξ) >0
так, чтобы законы управления
%19.з7) = {»*(·), Δβ} (19.37)
и формирования помехи
Λΐ9.38) — {**(·>, АЛ (19.38)
гарантировали соответственно неравенства
Υ<ρ(**,**) + ζ, (19.39)
7>р(**,**)-ζ, (19.40)
если только
δ<δ(ξ). (19.41)
Однако, учитывая явный вид функций и*(£, х) (19.24),
v*(t, x) (19.25), можно проверить справедливость следующего
утверждения.
Каковы бы ни были числа t% е [£0, θ] и Μ > 0, для всякого
числа ξ>0 можно указать число δ (ζ, £*, ##, Μ) так, что для
всякого движения χ [t* [ ·] О], формируемого по закону управления
Ф/( 19.37) (для всякого движения, получающегося при законе
формирования помехи У°(19.з8)), будет справедливо неравенство (19.39)
(будет справедливо неравенство (19.40)), каковы бы ни были
исходная позиция {J*, х#}, где | я* Ι^·/?*, и измеримая
реализация помехи ν [t* [ · ] О) = { | ν [t] | ^ Μ, ί# ^ t < Щ (измеримая
реализация управления и [t* [·]0) = { \u[t] \ ^M, t*^. t < θ}),если
только будет выполнено неравенство
δ<δ(ζ, **, R*,M). (19.42)
Это утверждение доказывается оценкой производной dy/dt
для функции
Υ[4 = ρΜ-|[<*[τ]·Χ(τ)*[τ]> +
t
+ (и [τ] Φ (τ) и [τ]> — (ν [τ]. Ψ (τ) ν [τ]>] άτ
подобно тому, как это было сделано в § 15 в общем каноническом
случае для функции γ*[ί] (15.12). Такую проверку здесь опустим.
Пример 19.1. Проиллюстрируем материал настоящего
параграфа на конкретной задаче, подобной задаче из § 1. Отличие
здесь будет состоять лишь в том, что в показателе γ (1.13) штраф
D (1.1) заменен на величину
Я* = е^Ш + ъй*Ш. (19.43)
4** 163
Тогда с учетом (1.2), (1.13), (19.43) получим рассмотренную
в настоящем параграфе задачу для системы (19.1), где положено
—te> г).
b<o-»(«)-(J), ew-«(o-(5),
и для показателя γ (19.9), где положено
<Тн *= ^i, σ12 ,г= σ2ι *- 0, σ2ί ■— е*. (19.44)
По формулам (19.19), (19.20) находим интересующие нас
функции
и* (*, х) - - ^ [р21 (*) *х + р22 (») *2], (19.45)
у* ('· *) - т[р12 (ί) *х + р22 (ί) *»Ь (19·46)
где коэффициенты р»,(£) (<«= 1, 2, / = 1, 2) в соответствии с (19.18)
дают решение системы дифференциальных уравнений
*u_[j LL*
Л L<P(0 Ψ(ί)]Ρΐ2'
<*Р12 _ Γι 1 1 (19-^7)
"5Γ - — Рп + [φ(ϊ) ψ (i)J Ρ12Ρ22,
-# = - 2ρ12 + [^ - ^J ρ^
с краевыми условиями, которые задаются значениями для σ#
U = l, 2,/-l, 2) (19.44), т. е.
Pii(*)«=elf Pi2(ft)=p2,(ft)-=0, p22m = e2. (19.48) ^
Пусть для простоты φ (ί) ^φ* > 0 и ψ (£) ξξ^^Ο. Обозначим
Ι/φ* — Ι/ψ* = α.Β таком случае решение системы (19.47),
удовлетворяющее краевому условию (19.48), записывается в явном
виде:
р"»-1гет^^ + а^-4 (19'49)
Pi. (0 - P.i W - β(«,»-,) [ζ" (*"') + Ϊ (° - *4 (19·5°)
P22 W - p^TT) [^ + ζ <* - <>2 + Τ (° " '4 (19'51)
где
β(α,Ο-ί)=ά«2(θ-04 + ^(θ-ί)3 + ^(θ-ί) + τν· (19·52)
1Z °*2 β1 V2
Если a > 0, τ. β.φ* <! ψ*, то из (19.52) видно, что β(α, О — t) >
>0 при всех ίο^ί^Φ? каковы бы ни были числа ί0 и Φ. Таким
№
образом, в случае φ* <1 ψ* рассматриваемая задача всегда имеет
решение, а искомые функции u*(i, χ) (19.45) и v*(t, χ) (19.46),
определяющие в данном примере оптимальные стратегии ю*(·)
и ι>°(·), с учетом (19.50), (19.51) принимают следующий явный
вид:
+(к+к(θ ~tf+%(θ -t)S) ж4 (19·53)
+{k+k(p~t)2+^(p~t)3)X2\ (19,54)
Цена рассматриваемой игры в соответствии с (19.16)
определяется здесь формулой
Р° (*, Хи *i) = Pll (*) *1 + 2Pl2 С) *1*2 + Р22 (*) «5f (19.55)
где функции ρ^Μ заданы выражениями (19.49)—(19.51).
Иное дел^ если φ*>ψ*, т. е. а < (^Положим, к примеру,
φ* = 1/(2 1^13), ψ* = 1/8, так чтоа = 2У13—8. Кроме того, пусть
для определенности el — l, e-s = l, Ф^З. Тогда для величины
β (α, θ — ί) (19.52) при выбранном α будем иметь, что β (α, 3 — t) >
>0, когда *е(2, 3], и β(α, 3 — ί)·= 0, когда ί = ί°=2. При этом
получается, что коэффициенты р^(£) (19.49)—(19.51) уходят в
+«>, когда t приближается к значению ί==2 справа.
Следовательно, в данном случае задача имеет решение только при £е[?0, 31,
где ?о>2, а, например, на всем отрезке [0, 3] рассматриваемая
задача решения не имеет.
Стратегии, задаваемые функциями и*(£, х) (19.53) и v*(t9 x)
(19.54), естественным образом симулируются в непрерывной
схеме (19.26) и (19.31) на аналоговых вычислительных машинах.
В таком случае вопрос о подборе шага δ<!δ(ζ, t*, /?*, Μ)
(19.42) автоматически снимается. Теперь можно сказать, что в
конце § 5 приведены результаты моделирования на АВМ как
раз оптимальной стратегии ю°(·), задаваемой выражением (19.53)
при φ* = ψ*.
В заключение параграфа приведем еще результаты симуляции
стратегии и*(£, х) (19.45) в случае, когда
** = 0, q* 1, ^ = 0,0 = 3, (19.56)
φ^; 1(ί--3)8 + 0,01, 1,5<ί<3, TW
На рис. 19.1 в фазовой плоскости {g, q) изображены
следующие три реализации движения объекта. Сплошная линия на
165
рис. 19.1 отвечает случаю, когда b паре с w*(i, χ) (19.45)
работает стратегия у*(£, χ) (19.46), и тогда получается, что уж
« p°(i*9 <7*> Q*) = 0,0058. Точечной линией изображена реализа-
1,5 δ t
й
/
А
/1
-/+
/
Рис. 19.1.
I I
\ /
\ /
ция движения при vitl ξ~—1 (0<£<3)„ а пунктирной линией —
при v[t\=+i (0<£^3); значения γ получились при этом
равными соответственно —1,9248 и —1,9316.
§ 20*. Пример в пользу параметра точности
Функции »(£, #, ε) и v(t, х, иг ε)Μ, которые определяют
стратегии и контрстратегии, содержат среди аргументов параметр
точности ε. В § 8 изложен тот основной результат, что
дифференциальная игра (7.1; 8.1} в классах таких стратегий и{·) и
v(-)u имеет цену р°(£, х) и седловую точку {ю°(0, v°(-)u}. При этом
оптимальные стратегии ю°(·) и v°(-)u являются универсальными,
т. е. одна и та же функция u°it, χ, ε) и одна и та же функция
v°(t, χ, и, &)и определяют оптимальные стратегии для всех
исходных позиций {£#, х*} из области G. В § 15 установлено, что в
случае существования гладкой цены игры ρ°(ί, #) = р(£, #),
которая удовлетворяет условиям I, II и (15.35), существуют
универсальные оптимальные стратегии ю°(·) (15.33) и ι;°(·)« (15.41) без
параметра ε. В связи с этим возникает вопрос о том, насколько
оправдано в общем случае введение аргумента ε. В настоящем
параграфе рассматривается такой пример, когда не существует
универсальной чисто позиционной оптимальной стратегии ю°(·),
которая описывалась бы функцией ю°(£, #), не зависящей от ε.
166
Это будет довод в пользу параметра ε. Кроме того, приведенные
построения пояснят, как включение ε улучшает схему
управления.
Пример 20.1. Управляемый объект F характеризуется
двумерным фазовым вектором х = {хи х%), который подчинен
уравнению
x = u + v (20.1)
при ограничениях
Ы<1, Ы<1. (20.2)
В подробной записи
Χι — tti + vu х2 = и2 + v2, (20.3)
ι*; + ι*5<1, ιί + ι;«<1. (20.4)
Показатель γ определен равенством
γ —σ(*Η>])*- Utt*] I +х%Ш. (20.5)
Область G возможных позиций {£, χ} назначим так:
G = [{*, x): \x\<Ru + 3(t-to\ f.<t«0], (20.6)
полагая θ — t0 > 1, /?0 > 1. Этот выбор G допустим. Всякое
решение уравнения (20.1) при ограничениях (20.2) удовлетворяет
неравенству \x[t] К | χ [t*] I + 2 (t — ί#) при £* < ί < О. Поэтому из
{**,*1**1}е G следует {*, ж[*]}eCfi^KО).
В данном случае выполнено условие (8.14). Стало быть, все
три дифференциальные игры {7.1; 8.1}, {7.1; 8.2} и {8.3; 8.2}
имеют одну и ту же цену р°(£, х) (см. § 8). Это позволяет сразу
проверить равенство
p°(f, ϊ)-ο(ϊ)« Ш +X2. (20.7)
В самом деле, для любой исходной позиции {t%, x*} при выборе
любого закона управления <2/ = {н°(·), ε, Δ} в игре {7.1; 8.1}
может случиться реализация помехи v[t*[-\b), построенная по
правилу контруправления vltl ==— u[t]. Тогда движение χ [t* [·] θ]
будет решением уравнения
x=>u\U, хШ, ε) + ν[ί]=0, ti^t<ti+l, i = l, ..., ft, (20.8)
и будет справедливо равенство
х[Ъ] = х*. (20.9)
Отсюда вытекает, что никакой закон управления ^2/ = {и°(·),
ε, Δ} не может обеспечить значение о(х[Щ)<о(х*)· Но это
означает, что для цены р0(£#, х*) = р£(£#» #*)(7.ΐ7) справедливо
неравенство
р° (**,**) 5* <*(**)· (20.10)
С другой стороны, для любой исходной позиции при выборе
любого закона формирования помехи >" = {ι;0(·), ε, Δ} в игре
{8.3; 8.1} может случиться реализация управления и [t* [·] θ1),
167
построенная по правилу контрпомехи ulil = — v[ti. Тогда
движение χ [£# [ · ] Щ будет решением уравнения
x = u[t]+v0(ti, хШ, ε)=0, ti<t<ti+i, i — 1, .../*, (20.11)
и опять будет справедливо равенство (20.9). Отеюда вытекает,
что никакой закон формирования помехи 3^={y0(0t ε, Δ} не
может обеспечить значение о{х[Щ)>о(х*)> Это означает, что
для цены ρ°(ί*, χ*) — Ρ?(**>#*)(8.ΐ9) справедливо неравенство
Ρ°(<·,«*)<α(4 (20.12)
Из (20.10) и (20.12) следует справедливость (20.7).
Теперь вопрос таков. Существует ли оптимальная стратегия
»■(·)-<ae(t, хи Хж), {*, rfeffl, (20.13)
для которой справедливо равенство
p[w°(·); **,#*] = σΟτ*) = |**ιΙ + χ*2 (20.14)
для всех позиций {ί*, χ*} е G? Ответ отрицателен. Докажем это.
Пользуясь тем, что функция цены игры р°(х) ■= а(х)
дифференцируема при ^ι^Ο, выпишем при а?4 =^ 0 для нее и для
некоторой функции
ffe(-)-{ffeUi, я2), я^О) (20.15)
формально условие (15.33). Получим
max
h»l ^i
\1 2) ("1° (*ι, Ъ)+ vt) + ^ аЧ»8° (*ι, *,) +Уг) -
1 2 J
2 + »l) j =
да (χ,, χ.), % ίσ (*., χΛ
= mm max
|к|<1 \ν\<1
= min max [(— sign хг) (иг + ντ) + (щ + ν2)]. (20.16)
\и\^1 \ν\<1
Из этого условия функция S°() (20.15) определится так:
и°(-) = {и°1(хих2) = -1/У2, х,>0; 2}(*lf х2) = 1//2,
«!<0; ttS(«!,^)--l//2}, (20.17)
и при этом в (20.16) будет справедливо равенство
min max [(— sign хг) (иг + ух) + (и2 + v2)] = 0. (20.18)
Выбор вектора й°(х) (20.17) имеет следующий
геометрический смысл. В любой точке #, где xi Φ 0, единичный вектор й°(х)
прямо противоположен вектору grado(#). Если для некоторого
движения χ [t* [·] Щ при ΧιΙίϊΦΟ в уравнениях (20.3) имеем и —
*= u[t]=u0(x[il) и если при этом v=*v°[i\, где вектор v°lt]
выбран из условия максимума (20.16) (т. е. единичный вектор i;°[fl
направлен прямо по вектору gradoGr) в точке xltl), то в этот
момент скорость itfl точки хЫ равна нулю. При ulil =u°(x[tl)
168
я каком-то не максимизирующем значении vlil скорость x[t]
точки xlt] направлена в сторону уменьшения функции σ(#).
В этот момент функция оЫЙ) убывает. Речь идет о тех (почти
всех) значениях t, для которых производная x[t] существует и
определяется правой частью уравнений движения (20.3).
Наоборот, если при χΑύΦΟ вектор v = v°[i\ выбран из условия
максимума (20.16), a u[t\ ¥=u°U[fl), то скорость xltl точки xit] в
этот момент направлена в сторону увеличения функции о(х).
В этот момент функция oixitl) возрастает (см. рис. 20.1).
Рис. 20.1.
Таким образом, функция й°(х) строится при Xi¥O подобно
тому, как в § 15 строилась функция и°(£, #), которая определяла
там оптимальную стратегию. Однако отсюда нельзя сделать
вывод, что функция й°() (20.17) здесь тоже определяет
оптимальную стратегию (хотя бы при #t¥=0). Отличие от ситуации из
§ 15 состоит в том, что здесь функция цены р°Ы = о(#) недиф-
ференцируема при xt = 0. Это разрушает весь механизм
управления на основе функции к°Ы, если пытаться использовать ее в
качестве оптимальной стратегии, даже дополняя как-либо при
Ж!<=0.
Докажем следующее утверждение.
Утверждение 20.1. Предположим (от противного), что
оптимальная стратегия ю°(·) (20.13) существует. Тогда, какое бы
число а > 0 ни выбрать, а затем какими бы ни оказались позиция
{^*> #т#} еб, τ* <θ, x%¥il Ф0 и число η > 0,, найдется позиция
{τ*, χχ*} gC, τ* > τ*, удовлетворяющая условиям
|τ*-τ*|<η, |*τ*-*τ*)<η, (20.19)
| и°(т*, χχ*) — Ζ°(χχ*) |<α. (20.20)
Предположим, что утверждение 20.1 неверно. Тогда найдутся
число а* >0, позиция К,^}еб, τ^.<θ, χχ^Λφ0 и число
η*>0 такие, что в области
S = l{t,x}:{t,x}<=G, *>τ*, |*-т*|<г)*, μ-*τ*|<η*] (20.21)
169
справедливо неравенство
\u°(t,x)-u°(x)\>a*. (20.22)
При этом можно полагать η^^θ — τ*, η* < "2*1^*1·
Сформируем из позиции {τ*, χχ+} движение #[τ#[·]θ] подобно тому,
как это было сделано в § 16 при опровержении неравенства
(16.1). Выберем закон управления
<U = {u°{·), Δβ>, (20.23)
отвечающий оптимальной стратегии ю°(·) (20.13), существование
которой мы предполагаем. Шаг δ в (20.23) полагаем достаточно
малым. Его полную оценку укажем ниже. Пока примем во
всяком случае, 4τοδ<η#/4 и момент τ* + ц*/2 является одним
из моментов tm разбиения Δβ. Каким бы ни было такое разбиение
Δβ в (20.23) и какой бы ни была реализация помехи ν[τ% [·]θ,
для формируемого движения χ [τ* [·]θ] позиция it, x[t\] в течение
времени τ* ^ t ^ tm = τ* + η^,/2 будет оставаться в области S
(20.21). Пусть для определенности #т*д >0. Тогда xdflX) при
всех ^е[т$, tm], так как x1[t]^—2, #τ*,ι> 2η* =rA(tm — τ*).
Пусть реализация помехи у[т#[·] ϋ) определена равенствами
^[T*[-]*) = [^m = U//2, 1//2},т*<*<*т;
ν [t] и [t] = — и0 (**, x[и]), ti < t < tm, im < ii< θ]. (20.24)
Эта реализация ν[t*[-]θ) при T^^i<im удовлетворяет
условию максимума из (20.16) при #==#[£], где xlt] есть значения
фазового вектора на рассматриваемом движении.
Итак, отрезок χ [τ* [ · ] tm] формируемого движения
определяется дифференциальным уравнением
*[Я — в[Й+»[*], (20.25)
где иЫ==и\и, хЩ) (ti<t<ti+u ί==»1, ..., то —1); vltl =
= {1/V2, 1/У2}. При этом вектор иШ с модулем ЫЙ|<1
отличается от вектора
й°(хШ) — {—1/У2, —1У2> (20.26)
на вектор ult] — и°{хШ), удовлетворяющий условию
|м И-£·(*[*«])!>а*. (20.27)
Для каждой точки χ = χ[ί\ при τ^^ί^ίτ» вследствие
неравенства χΜλ > 0 имеем для вектора градиента функции aix)
выражение
[grad a (X)hm = [Ц&, Ц&}^ = {1,1}. (20.28)
Оценим изменение функции
чИ)=оШ]) (20.29)
(70
при T^^i^im- Используя формулу дифференцирования
сложной функции
*№ = <[grado(x)]x[trx[t]) =
= <[grade(*)я[<]-(иΜ + v[t])) (20.30)
и учитывая (20.24), (20.26), (20.27), получим следующую оценку:
Ш> min /{|,1}.{„_(- » -»}})_
dt Μ<ι,|«-ίΙβ|>α» \ I I V2 V2JJ/
= lj(aj2 = i*>0. (20.31)
Исходя из равенства
γ[ί»] = Υ[τ*] +j^di (20.32)
и учитывая оценку (20.31), получим неравенство
σ (χ [tm]) - σ (*tJ > ξ* (ί„ - τ*) = ξ*η*/2. (20.33)
По выбору помехи v[t]*= — u[tl при ie[im, Φ) имеем яШ =
= #[£tJ, t. е. имеем
оШ)=оЫУ). (20.34)
Из (20.33) и (20.34) получаем оценку
о (х Щ) > о {хи) + ξ*η*/2, (20.35)
которая верна для движения я[т# [·]θ], порожденного из
позиции {τ*, Χχ+) законом управления <U (20.23) с разбиением Δβ,
каков бы ни был его шаг б<Л#/4, если только это разбиение Δβ
включает момент τ* + i\J2 и реализация помехи ν[χ* [·]$)
формируется по правилу (20.24).
С другой стороны, закон управления °U (20.23) отвечает
оптимальной стратегии ιι°(·) и величина о (χχ+)— цена игры.
Поэтому для любого наперед выбранного значения ζ > 0 можно
указать такое δ(ξ)>0, что для любого движения χ [τ* [·] Φ],
порожденного из позиции {τ*, хх+} законом управления °U (20.23) при
б<б(£)г будет справедливо неравенство
σ(*[θ])<σ(*τ.) + ε. (20.36)
Полагая в (20.36) ζ = ξ*η*/4, замечаем, что неравенства
(20.35) и (20.36) противоречивы. Противоречие доказывает
утверждение 20.1 о существовании позиции {τ*, χχ*}, которая
удовлетворяет условиям (20.19), (20.20).
Таким образом, предполагая, что существует оптимальная
универсальная стратегия и°(·) (20.13), следует исходить из того,
что для чее справедливо утверждение 20.1. Это снова создаст
171
противоречие. Не приводя подробно все выкладки, поясним лишь
ход дальнейших рассуждений.
Итак, примем (от противного), что универсальная
оптимальная стратегия w°(·) C20.13) существует. Зададимся некоторыми
малыми числами α > 0 и б > 0. Обозначим символом Еа
множество тех позиций {£, x)e=G (20.6), х^ФО, для которых
справедливо неравенство
Ια°(ί, x)-tt°(t, x)\<a. (20.37)
Выберем из множества Еа некоторую исходную позицию
{£#1#*}и рассмотрим движение χ[t% [·] θ], являющееся решением
пошагового уравнения
kit] = и*(% хЩ) + v[i\ (20.38)
h < t < fi+lf ii+1 — ti < δ, tt = £*, tk+1 = ΰ1, χ [t#] = x*,
где значения U U = 2, ..., &) и векторы vin U=l, ..., к)
определим рекуррентно следующим образом. Пусть уже сложилась
позиция {и, £[£<]} = {£», 2w}eJEe. Переберем всевозможные пары
{τ, г>}г где
те[ь + б/2, tt + 61, (20.39)
»-{*!, г?2>, Ι*ιΙ<α/2, Ш&И-а, i-a/2]. (20.40)
Построим на отрезках t{^t<% все возможные решения
x[t{l']r] уравнения (20.38), где положим vli] = v (20.40), хШ —
=»2т. Множество конечных позиций {τ, £[τ]} для этих движений
составит некоторую область Η в пространстве {£, х). Эта область
будет содержать такую η-окрестность
|τ-τ*|<η, |£[x]-*J<4f *τ*,ι¥=0, (20.41)
которая фигурирует в утверждении 20.1. Но согласно этому
утверждению в η-окрестности (20.41) найдется позиция {τ*, χτ*} =
= {τ** % fr*l} ^ #α· Момент τ* и вектор 2;*, отвечающие
соответствующему движению x[t{[ ·]τ*], и выберем в качестве £ί+ιβ
= τ* и i;[il = г;*. Таким образом, оказывается возможным выбрать
ti+i и vli} в (20.38) так, что соответствующее решение xlul ·]ί<+ι]
уравнения (20.38) из позиции {£», x[t{]}^Ea перейдет в позицию
iti+i, x[ti+i]}<ξξЕа. Отсюда следует такой вывод. Какие бы ни
задать малые числа а>0иб>0и как бы ни выбрать исходную
позицию {t%9 x%} e Еа, можно найти такое разбиение Δβίί*} и
такую помеху ~ >-**?::^f5
ν It* I·] О) - [ν It] = y[il, ii < t < f1+b i —1 *}f (20.42)
что для движения я[£*[в]Ф], порожденного из этой позиции
{£*» #*} соответствующим законом управления (20.23)
« = {»·(·), Δβ{*,}} (20.43)
έ72
и помехой (20.42), будет выполнено условие
{*,, хШ)^Е«, t-lf ..., к. (20.44)
Выберем для определенности ίο — Ο, 0 — 5, а=*0,01, δ<0,1.
Возьмем исходную позицию {£#, х*} е Еа, удовлетворяющую
условиям
0<ί*<1, |**|<0,1. (20.45)
Согласно утверждению 20.1 такая исходная позиция {*#, х#)
существует. Назначим разбиение Δβ{*<} и помеху ν [£*[·]#)
(20.42)^ так, чтобы для
движения χ [t# [ · ] θ], порожденного
законом Ш (20.43) и этой
помехой ν[t*[-]$), выполнялось
условие (20.44).
Из условий (20.45), (20.44),
(20.40), (20.37), (20.17),
учитывая выбор α = 0,01, δ < 0,1,
можно вывести, что построенное
движение £[£*[·] Ф] пци всех
ί е [ί#, Щ остается в полосе
#* = {*: -Ο,Κ*!
;ο,ΐ}
(20.46)
Рис. 20.2.
(см. рис. 20.2).
Это получается потому, что
по определению й°(·) (20.17) и
по выбору νίη = ν (20.40) и
α = 0,01 при всех* е [г*, Щ имеем с учетом неравенства (20.37)
sign xt [t] = — sign^! [ti],
ίϊιΜΙ<Ι"ι(*ι,ΪΜ)| + |ι;ϊ4ΐ|<
< 1/ Ϋ2 + α + α/2 < 0,75, U < t < *i+1.
Но поскольку в соответствии с (20.45) IgJiJI <0,1 и
ti+i — U<δ <0,1, то движение #[£<[·]£i+1] при любом ielf ..., к
не может при хШ > 0 пересечь всю полосу —0,1 < я4 < 0, а при
хШ < 0 — всю полосу 0 < Χι < 0,1.
Наряду с этим согласно (20.37), (20.17), (20.40) и по выбору
числа а справедливы неравенства
^Ю= κί(ί4, £fo])+ iJ.41>
>u°2(x[ti]) - α + (1 - α) = - 1//2 + 1 - 0,02 > 0,25,
U<t<ti+U ί = 1, ...,k.
Интегрируя эти неравенства с учетом (20.45), получим, что
х2 Щ >Х2 V*] + 0,25 (# - tm) > - 0,1 + 0,25-4 = 0,9. (20.47)
ДО
Учитывая (20.47), (20.45) и включение Ш^Я* (20.46),
получаем следующее неравенство:
σ(ϊ[θ]) = \хг[Щ\ + *2[0]>0,9 = 0,7 + 0,2 >
>0,7 + \хг1^]\ + хМ = σ (*[**]) + 0,7.
Это неравенство означает, что при всяком выборе 6 ^ 0,1 для
указанной исходной позиции (20.45) найдутся такой закон
управления °U (20.43) и такая помеха ν[ί+[·]ϋ) (20.42), что для
соответствующего движения #[£#[·]$] будет выполнено
неравенство ;
! σ(*[θ])>Ρ°(**,**) + 0,7.
А это означает, что стратегия и°( ·)= {w°(i, x), U < t < Φ, — <χ> <χ{ <
< °ο, i = 1,2} не является оптимальной. Полученный вывод
доказывает, что в рассматриваемом случае действительно не
существует оптимальной чисто позиционной стратегии и*(·). Этим
основная цель данного параграфа достигнута.
Сделаем ряд добавлений.
Мы обсудили вопрос о существовании оптимальной
универсальной стратегии и°(·), не использующей других аргументов,
кроме tux. При этом исходили из определения
гарантированного результата р[и(·); t%,x%] (7.13). Убедились на данном
примере, что, вообще говоря, такой оптимальной универсальной
стратегии и°(·) не существует. Иначе обстоит дело, если исходить
из определения гарантированного результата р*[и(·); £*, х*\
(11.20). Тогда такая универсальная оптимальная чисто
позиционная стратегия и°(·) обязательно существует. Это доказывается
следующим образом. Имеем (см. §§7, 29), что для данной
области существует оптимальная стратегия
u4-)M-W(t, я, ε), tt, tf>eG, ε>0}, (20.48)
которая гарантирует оптимальный результат Pw(**? #*) =
= р0(^, х%) (в смысле определения (7.13)) равномерно. Зададим
последовательность чисел ξ<>0 (ίβ1, 2, ...)
Ππιζ,-Ο (20.49)
и соответствующие последовательности чисел ε*>0 (i=l, 2, ...)
Ηπιε* = 0 (20.50)
нв<>0 (i-l, 2, ...)
Итб{ = 0 (20.51)
так, что каждый закон управления ^ = {и°(-)(в\ ε<, Δβ> при
условии
δ < б, (20.52)
174
гарантирует неравенство
γ(<W, v[t*l·] θ)) < p° (**, **) + Сь (20.53)
какова бы ни была исходная позиция {£#, ж$}бС.
Каждому числу δ< поставим в соответствие разбиение Δ*1* {*}г)}
отрезка ί0 ^ * ^ θ с шагом 6f ^ 6^. При этом, кроме начального
и конечного моментов *ί = t0 и 4\+ι β *» разбиения, отвечающие
различным ί, не должны иметь общих элементов ty. Это можно
сделать. Определим функцию и°(£, х) равенствами
и0 (tf\ χ) = и0 (#>, χ, гг) (20.54)
при 1 = 1, 2, ..., / = 2, ..., hi. При всех остальных значениях
£«=[£„, ф] функция w°(£, x) определяется произвольно. Теперь
можно проверить справедливость следующего утверждения. Пусть
дана любая исходная позиция {t%, x* }. Зададимся любым числом
ξ > 0. Тогда, как бы ни выбрать б* > 0, можно указать закон
управления
2/ = {и°(·), Δ*}, δ<δ*, (20.55)
отвечающий стратегии (20.54), который гарантирует неравенство
Τ (<W, ν[ί* [·] θ)) < ρ° (**, **) + ζ. (20.56)
В самом деле, для выполнения неравенства (20.56) достаточно
выбрать разбиение Лй{£,} таким, что начиная с момента tj (; = 1)
все значения t$ совпадут с моментами из разбиения Δ(<) с
достаточно большим номером L Проверку этого утверждения мы
опустим.
Однако возможность выбора такого закона управления Ш
(20.55), который гарантирует неравенство (20.53), означает, что
построенная стратегия и°(·) (20.54) удовлетворяет условию
р[и°(·); **,**] β
= lim inf ρ[{и0(·), Δ6}; **, χ*\ = ρ°(**, xm), (20.57)
δ-Μ) Δ6
т. е. согласно материалу из § 11 эта стратегия является
оптимальной по показателю р*[и(·); £#, х#] (11.20). Это и
доказывает, что универсальная оптимальная стратегия м°(·), не
использующая аргумент ε, существует во всяком каноническом случае,
если за основу понятия оптимальности выбирается
гарантированный результат, определенный согласно (11.20) (где аргумент
ε тогда уже исчезает). Однако, в связи с замечаниями из § 11,
содержательный смысл этого формального утверждения вряд ли
следует переоценивать.
В заключение этого параграфа опишем для рассматриваемого
объекта F (20.1), (20.2) при данном показателе γ (20.5)
построение оптимальной стратегии α°(·)(β), которая включает аргумент ε.
175
Итак, выберем любое число ε > 0. Пусть имеем любую
позицию ίί, χ) s G. Найдем для точки χ сопутствующую точку w%
из условия
Р° (t, и>*) = min p° (i, w), I w — χ |2 < ε2 + ε2 (t - t0). (20.58)
Из вида функции р°(£, w) яа g(w) (20.7) следует, что при
данном ^для каждой точки χ такая сопутствующая точка ш*
единственна и притом | χ — if* |2 = ε2 + ε2 (t — tQ) > 0. Выберем вектор
M*,*,e)--,55g{- (20·59)
(см. рис. 20.3).
Покажем, что стратегия и#(·) (20.59) является искомой
оптимальной стратегией. В самом деле, пусть выбран отвечающий
Рис. 20.3.
ей закон управления °U =*{и% (·), ε, Δβ}. Пусть реализовалась
позиция iU, xlti]}. Обозначим через witil сопутствующую точку
для момента U для точки #[ij. Оценим изменение величины
\хЫ — гаШ\2 за время ti^t<ti+l при реализации управления
и [t] e= u% (iit x[ti], ε) (20.59) и при какой-либо реализации помехи
vltl. Имеем
lattH.il - юЫ I2 - I («[fef J - *W) + (*М ~ »i*J)I2 -
- larrij - wtu] \2 + 2<(x[ti+i] -x[t{]) · (xlt{] - irfij» +
+ Ι*[ί*|]-*ΜΙ*. (20.60)
Из уравнения движения (20.1) при выбранном управлении
имеем
χ [ii+1] — χ ИД =
— (*i+1 — *0 (ш[ЗД — a:[*«])/| a:[*J — ш[*€] | + j v\t]dt. (20.61)
«ι
176
Стало быть, справедливо неравенство
φ tti+i] - х \Ч) · (х Ш - ν [«,])> <
<-(ti+x-ti)\x[ti)-w[ti]\ +
+ sup 11; It] I (*<+1 — ii) | χ Щ - и; Щ | < 0. (20.62)
Из (20.60) и (20.62) следует оценка
Utii+J - wttj I2 < \хЩ - i«?[ij l2+ hiti+J -*[tj I2 <
<г2 + еЧи - U) + 4(tHi - *<)2· (20.63)
Полагая
ίί+1-ί,^δ = ε74, (20.64)
получим неравенство
\xlti+il - w[t{] I2 ^ ε2+ s2(ti+i - ίο). (20.65)
Однако это неравенство означает, что «бывшая»
сопутствующая точка wltil лежит в той области из условия (20.58), в
которой должна лежать «новая» сопутствующая точка w[U+i] для
новой позиции {£<+1, x[ti+i\}. Но тогда согласно условию (20.58)
имеем неравенство
оЫи+ЛХоЫф, (20.66)
если только шаг б разбиения ΔΛ удовлетворяет условию (20.64).
Из (20.64) следует также неравенство
σ {w 1ίχ]) < σ (χ [f J) = σ (я*). (20.67)
Из (20.66) и (20.67) получаем по индукции неравенство
σ (и; [θ]) < σ (χ [**]) = σ (я*). (20.68)
Наконец, из оценки
Ισ(α:(ϊ))-σ(«<1>)|^ί2|«<1)-«(1>|ϊ (20.69)
из условия (20.58) и из (20.68) получаем
σ(«[θ])<σ(^) + ζ, (20.70)
где
6-вУ2У1 + (Ф-*.). (20.71)
Это и доказывает оптимальность стратегии и(-) (20.59).
Поясним, в чем состоит разница при формировании
реализаций управления стратегией ю°(£, #), которая по не оправдавшейся
гипотезе должна была оказаться оптимальной, и стратегией
u*(t, χ, ε) (20.59), оптимальной на самом деле. В точках xltH,
которые встретились при обсуждении стратегии ц°(£, х) и
располагались вблизи оси #2, стратегия и°(£, х) назначает вектор и°(£<,
#[*<]), близкий к вектору й°(и, x[tt]) (20.17). Это сохраняет
движение #[£.|.[·]θ] в полосе Я* (20.46) и дает в целом за время
**^ t^θ существенное возрастание функции oixlil).
12 н. Н. Красовскнй 177
В отличие от этого, стратегия щ (£, я, ε) (20.59) в точках #[ij,
близких к оси х2, направляет вектор и* (tiy χ [ti]9 ε) на
сопутствующую точку w[til (см. рис. 20.3); Вместе с любой реализацией
помехи vltil-]ti+i) это дает такой сдвиг точки x[t{] в точку xlti+J,
при котором функция oixit]) существенно возрасти за время
U < t < ti+i уже не может.
Рис. 20.4.
Для примера на рис. 20.4 приведена просчитанная на ЭВМ
реализация движения, порожденная из позиции £# = 1, х*х =
= 0,05, ##2 = 0,05 законом управления <U = {и#(-)(2о.59)> ε, Δβ}
и помехой ρ [**[·] Ф) = (yi Щ ==0» ^Ю =1> ** < *<*}· При этом
было взято ε = 0,01, 0 = 5, ti+l - U — δ =Ί0~4. Для этого
движения в согласии с теорией получилось, что о (х [Щ) « 0,07 <
<р°(**, я*) =0,1.
§ 21*. Движение в контингенциях
В § 13* определен обобщенный процесс управления. Там
обобщенное воздействие описывается функцией-мерой η [t% [ · ] θ) =
= {η(β|^), j8g%q], **<*<#} (13.12), обобщенное
движение я [£*[·]#] строится как предел (13.1) и оказывается
решением дифференциального уравнения (13.22). Правая часть
этого уравнения есть результат усреднения функции /(£, #, и, ν)
из (4.3) по мере r\(B\t). В текущем параграфе обобщенный
процесс управления определим несколько иначе. Построим его на
базе дифференциальных включений, или контингенций. Этот
аппарат широко используется в теории дифференциальных
уравнений с разрывной правой частью (см., например, [27*], с. 99—
128). Дадим новое определение стратегии. Назовем стратегией в
контингенциях функцию
t/(.) = {tf(*,*)c=P, {t,x)<=G*}, (21.1)
которая каждой позиции {£, х} е G% ставит в соответствие замк-
178
нутое множество Ζ7(ί, χ) элементов и из Р. Здесь G* —такая же
область, как и в условии I из § 15. Допустим только такие
функции (21.1), для которых множества U(t, χ) полунепрерывны
сверху относительно включения по изменению £, х. Согласно
материалу из § 3 для (τ, Χχ) для любого ε > 0 найдется δ(ε) > 0, так,
что при условии |£ — τΙ<δ(ε), \χ — χτ\ < δ(ε) множество U{t, x)
будет содержаться в ε-окрестности
UB (τ, χτ) = \и: min | и — их | < ε, ит <= U (τ, χτ)
\и: mil
(21.2)
множества Ϊ7(τ, #τ). В дополнение к условиям из §§ 4 и 7
примем, что функции /(·) и χ(·) в (4.4) и в (7.3) непрерывны по
всем аргументам. Введем множества
Ф(С/(£, х); t, х, у)=>
=»со[{/, χ): / = /(£, χ, щ ν), χ = χ(£, χ, и, ν), u^Uit, χ)]. (21.3)
(Символ со [А] обозначает выпуклую замкнутую оболочку
множества А. Это означает, что со [А] есть наименьшее
выпуклое замкнутое множество, которое содержит А.) Обратим
внимание, что множество Φ (21.3) есть множество (гс+1)-мерных
векторов {/, χ). Можно проверить, что множества Ф()
полунепрерывны сверху по включению по изменению t, x, v.
Для данных позиции {£#, х*},стратегии U(-) (21.1) и кусочно-
непрерывной реализации помехи у [**[·] θ) реализацией
обобщенного процесса в контингенциях будет всякая пара функций
{# U* [ · ] Щ, X [** [ · ] θ) Ь которая удовлетворяет следующим
условиям. Функция #[£#[·]$], x[t*\ = x*, абсолютно непрерывна.
Функция χ [t* [ · ] θ) измерима. Справедливо включение
Ы*], χ[*]>€=φ(ϊ7(ί, x[t\); t, £tf], vW) (21.4)
при почти всех t e (£#, Щ.
Согласно результатам из теории дифференциальных
включений (см., например, [26*], с. 27) для данных {t*,^x*}, U(·),
И*# [ · ] О) по крайней мере одна пара таких функций χ [£# [ · ] Щ и
X [£* [ · ] θ) обязательно существует. Но эта пара может быть
не единственной. Реализацию [#[£# [·]θ], χ[£#[·]0)1 можно
построить так. Пусть дана стратегия в контингенциях 17(0 (21.1).
Поставим ей в соответствие стратегию и(-) (7.6), которая
удовлетворяет условию
u(.) = {u(t,x)*=U (*, χ), {*, χ} е G*}. (21.5)
(При t = t0 функцию w(£, x) можно выбрать как угодно.)
Выберем последовательность разбиений А1Л{^Л) (i = l, ..., kjr
7 = 1, 2, ...) такую, что
lim 6i = 0, Ь] = max (4+i - tf). (21.6)
12* 179
Построим последовательность^ обычных реализаций процесса
{*«>[**[-]О], и(Л[**[·]θ), v[tml·]*)} (7.3) (/ = 1, 2, ...),
порожденных из данной позиции {£#, x$) законами управления
«Йя-МО.А^} (21.7)
при некоторой фиксированной кусочно-непрерывной реализации
v[t*[-]$). (В (21.7) аргумента ε нет, так как его нет в (21.5).)
Из последовательности {я0)М, w(i)[·], ι;[·]} можно выделить
подпоследовательность U^t·], и^[·]» ι>[·]} (s = l, 2, ...),
которая удовлетворяет следующим условиям. Последовательность
функций sW[f#[-li>] (s = l, 2, ...) сходится равномерно к
некоторой абсолютно непрерывной функции χ[ί*\·\$\.
Последовательность функций
X(is) Щ = Χ (ί, *(ie> И, a(is> [*], у 1*1), (21.8)
**<*<ft, 5 = 1,2,...,
сходится слабо к некоторой измеримой функции χ[£#[·] θ). Для
предельных функций справедливо включение (21.4). Таким
образом, эти предельные функции составляют реализацию
обобщенного процесса, управления в контингенциях. Итак, каждой
тройке данных {£#, х*}, U (·), ν [£#[·] Ф) отвечает пучок
реализаций (я [£*[·]#], χ[ί*[·]^)) обобщенного процесса в
контингенциях. Каждая реализация 1^[ί^ [·] О], χ [t% [·] ϋ)}
определяет число
γ - J σ(ί, x[t])ii(dt) + J χ[t]dt. (21.9)
Это число γ будем трактовать как значение функционала γ(·)
(7.4) для реализации обобщенного процесса в контингенциях.*
Это значение γ (21.9) для реализации Ш·], χ[·]}, построенной
описанным выше предельным переходом, связано со значениями
vfc)= |σ(*,*(*>[*])μ(Λ)+ [χ№)[ί]Λ, ί-1,2, ..., (21.10)
предельным равенством
γ -Нту<4 (21.11)
S->00
Обозначим символом Γ(ί7(·), ν[·]\ £#, α?*) совокупность всех
значений γ (21.9), которые могут получиться для выбранной
стратегии ?/(·), данной исходной позиции {ί*, χ*} и назначенной
реализации помехи v[t*l-]O). Назовем гарантированным
результатом ρ [U (·); £#, ##] для стратегии Ζ7(·) для данной позиции
{**> ##}число
ρ К? (·);*·.*·!- sup ν, νsг(#(.),ι>Μ;'*,**). (21.12)
180
Величину
P?,(**, **) = inf ρ[Ζ7(·); tm9 x*\ (21.13)
назовем оптимальным гарантированным результатом для позиции
{**» #*)в классе стратегий Ι7(·) (21.1).
Оптимальной стратегией U°(-) назовем такую, для которой
выполнено условие
ρ [U°(·); **, х*\ = minp [U (·); **, я*] = р°,(**, я*). (21.14)
Вообще говоря, величина Ρϋ(£#, ##)(2ΐ.ΐ3)не равна величине
Pu(i*i #*)(?.17)· Однако можно указать достаточные условия, при
которых справедливо равенство
Pu(t*, #*)(21.13) = Ри(^*» #*)(7.17) (21.15)
для каждой позиции {i*, a;*} G G. Рассмотрим в этом параграфе
более подробно только случай, когда функционал γ(·) имеет вид
(15.1) и выполнено условие (8.14). Именно для этого случая и
удобна данная выше конструкция множеств Φ (21.3).
Пусть нашлась функция р(£, #), удовлетворяющая условиям
I, II и (15.35) из § 15. Для каждой позиции {£, x}&G*
составим множество ί/°(ί, χ) всех векторов и°&Р, которые
удовлетворяют условию
Г η
dp
S^ + Sf
+ min max 1
Li=l *
+ %(t,x,u°,v)
ά=1 *
\v) +
dp (f, x)
~~ dt
v) + % (t, *
, v) = 0. (21.16)
Согласно материалу из § 3 множества U°(t, χ) будут
компактами и они будут полунепрерывны сверху по включению по
изменению переменных £, х. Стало быть, функция Ϊ7°(·)
определяет допустимую стратегию.
Оказывается, что оптимальный гарантированный результат
Рсг(£, а:) удовлетворяет равенству
Р°* (*,*) = Ρ (*,*) (21.17)
и стратегия U°(t, χ), определенная условиями (21.16), является
оптимальной.
Для доказательства оценим изменение функции
о
YW = P(t,x[t])- jχ[τ]άχ (21.18)
t
181
за время t% ^ t ^ 0 подобно тому, как это сделано в § 15 при
оценке изменения функции γ*[ί] (15.12). Из условий (21.4) и
(21.16) с учетом определения множеств Ф(·) (21.3) выводится,
что для всякой реализации (#[£#[·] ft], X U*l·] ft)},
порожденной стратегией ί/0(·), справедливо неравенство
l at j{t,oc[t]} f^i axi j{t,x[t]}
при почти всех τ. Используя для переменной рЫ=р(£, хШ)
формулу дифференцирования сложной функции (15.17), (15.18),
получим из (21.18) и (21.19) неравенство dyltl/dt^O для почти
всех t е (ί*, θ). Интегрируя это неравенство на отрезке [£*, Щ
и учитывая (21.18) и (15.2), получаем оценку
V= ίχ[ί]^ + σ(ϊ[θ])<ρ(^, хт). (21.20)
t*
Эта оценка справедлива для всякой реализации {#!**[·] ft],
Χ [**[·] ft)}, порожденной стратегией U(-). Поэтому имеем
неравенство
ρ [IP (·); **, χ*} < ρ (ί*, **), (21.21)
какова бы ни была исходная позиция {ί*, χ*}.
С другой стороны, для любой стратегии Ζ7(·) (21.1) можно
доказать неравенство
ρ [tf(0;^*»l> ρ (**.**). (21.22)
формируя реализацию помехи ν [t* 1·]θ) на основе закона
управления
Г = Ь°(0, Δβ>, (21.23) *
который отвечает оптимальной стратегии ν°(-) для игры {7.1;
8.1), где функция
»°(·)-{^(*.*), {^}eG#} (21.24)
определена из условия (15.44). В самом деле, можно проверить,
что при выборе любого числа ξ>0 для всякой реализации
процесса {x[t% [-]Щ, X[** f · 1 ft)Ь порожденной любой стратегией
J7(0 при выборе реализации помехи ν [£#[·] ft), построенной на
основе закона Ψ (21.23) с достаточно малым шагом δ < δ (ξ),
будет справедливо неравенство
' Щ^\ ~ η + Σ ΝΗ *i М + X W > - δ (21.25)
для почти всех τ е (£# + ξ, θ — ξ). Это неравенство выводится из
условий (15.44) и (21.4) с учетом определения множеств Ф()
Ш
(21.3). Но при условии (21.25), оценивая изменение функции
γΐί] (21.18), получим соотношения
?
σ(ϊ[θ])+ |χ[ί]Λ =
f*
=σ(ϊ[θ]) + ρ(ϊ[θ - ξ]) - ρ (ΐ [0 - ξ]) + ρ(*[ί* + ξ]) -
>ρ(**,«*) —δ(« —**) —С(6). (21.26)
где limξ(ξ) == О при |-*0. Число |>0 можно выбрать сколь
угодно малым. Поэтому из (21.26) следует (21.22). Неравенства
(21.21) и (21.22) доказывают равенство (21.17). А отсюда,
согласно материалу из § 15, следует и равенство (21.15). Наше
утверждение доказано. Но теперь, благодаря выводу равенства (21.15)
из условий I, II и (15.35) из § 15, мы в соответствии с
материалом из этого параграфа имеем право сказать вдобавок, что
равенство (21.15) справедливо всякий раз, когда цена р° (£#, х#) =
= Pw(£*i #*) игры {7.1; 8.1} является функцией
дифференцируемой и выполнено условие (8.14).
Аналогичным образом можно определить стратегию У(·)
формирования помехи как функцию
V(.) = {V(t9x)cQ, {t,x}e=G*}, (21.27)
которая каждой позиции {£, х) е G% ставит в соответствие
замкнутое множество У(£, х) элементов ν из Q. При этом множества
V(t, x) должны быть полунепрерывны сверху относительно
включения по изменению {£, х). Не будем приводить определения
реализации обобщенного процесса в контингенциях, порожденной
стратегией V(-) (21.27) и кусочно-непрерывной реализацией
управления и [£#[·] θ), а также определений гарантированного
результата p[V(-)\ £#, я#], оптимального гарантированного
результата Рг(£#> х*) и оптимальной стратегии У°(). Они
получаются понятной инверсией соответствующих определений для
стратегии U(-) (21.1). Таким образом получаются величины
Ρ [F (.);**,**]- inf γ, (21.28)
P°v(t*, ^*)(2i.29) = sup ρ [У (·); **, **], (21.29)
V(·)
и оптимальная стратегия У°(·) определяется равенством
p[V°('); **, **] = Pv(h, zm). (21.30)
В (21.28) значение γ снова определено равенством (21.9),
но уже для реализации {#[·], χΜ}, порожденной стратегией V(·)
и кусочно-непрерывной реализацией управления и [£* [ · ] ft).
183
И здесь, если цена ре(£, о:) = pCi, x) дифференциальной игры
{7.1; 8.1} имеет непрерывные частные производные в области
£#, то существует оптимальная стратегия У°(·), которая в
каждой позиции {£, х) е G* определяется множеством У°(£, х) всех
элементов ν°, удовлетворяющих условию
±d±^UUit,x,u,v) +
dp
dp (f, χ)
+ max mm
+ Xft*,tt,»)J = 0. (21.31)
Оптимальный гарантированный результат py(£#, #*) УД°В-
летворяет равенству
Pv (**, λ:*)(21.29) = Ρ (**, λ:*) = Ρ° (**> #*)· (21.32)
Итак, пусть цена ρ°(ί, ж) игры {7.1; 8.1} имеет непрерывные
производные в области С?*. Тогда функция р(£, ж) = р°(£, х)
необходимо удовлетворяет равенству (15.35). Если при этом
выполнено условие (8.14), то в соответствии с доказанным выше можно
из двух задач об оптимальных гарантированных результатах
Ра(*:м #*) и Ρν(**» ^*) составить формально дифференциальную
игру. Эта игра будет иметь цену, равную цене р0(£#, #*) игры
{7.1; 8.1}, и новая игра будет иметь седловую точку Ш°(·), F4·)},
которая складывается из оптимальных стратегий Ζ7°(·) (21.14) и
У°(·) (21.29), (21.30), определенных условиями (21.16) и (21.31).
Эту формальную игру можно, однако, несколько
трансформировать и придать ей характер большего противоборства. Для этого +
разрешим обоим игрокам формировать их воздействия
одновременно на основе их стратегий Е/(·) и F(·). Именно, допустим
такую картину. Пусть первый игрок выбрал некоторую стратегию
i7(·), второй игрок пусть выбрал некоторую стратегию У(/).
Введем множества
ФШИ, х), F(i, x), f, я) = со[{/, χ}: / = Μ χ, щ ι>),
χ = χ(ί, х, и, ν), u&Uit, x), yeV(i, *)]. (21.33)
Эти множества Φ(·) (21.33) полунепрерывны сверху по
включению по изменению ί, χ. Назовем реализацией обобщенного
процесса в контингенциях, порожденной из позиции (ί*, я*}
стратегиями U(-) (21.1) и У(·) (21.27), всякую пару функций
{# [ί# [ · ] О], χ [t* [ · ] О] ], которая удовлетворяет следующим
условиям. Функция #[£#[·]$]» x[t*] = x* абсолютно непрерывна.
Функция X [£*[·] ^) измерима. Справедливо включение
Qd, хШ&ФШИ, £td), У(*, Ufl), *, ЙЙ) (21.34)
184
при почти всех ie(^, О). Значение γ функционала γ(·) (7.4),
отвечающее реализации {£[£#[·]{)], χ [£* [·]0)}, определим
прежним равенством (21.9). (Это равенство, однако, имеет теперь
новый смысл в связи с новым определением реализаций [х [t% [·] θ],
% [£# [·]*))·)Обозначим символом Г(С/(·), V(·); £#, ж*)
совокупность всех значений γ (21.9), которые могут получиться для
данной исходной позиции {£#, χ*} при выборе стратегий U(-) и
F(). Гарантированный результат ρ [£/(·); t%, χ*\γ определим
равенством
p[tf (·); **, x*]v -supγ, γ(=Γ(ί/(.), 7(.); **, **), (21.35)
где верхняя грань вычисляется по всем возможным стратегиям
V(·). Эту же величину ρ [£/(·); £*, x*\v можно определить
иначе. Именно, можно положить
ρ[17(.);*#, ^*]f = suPv, ?^Γ(Ϊ7(0,Μ·); *·.*·). (21-36)
где верхняя грань вычисляется по всем значениям γ (21.9),
которые могут получиться при выборе вторым игроком тривиальной
стратегии
Ут (·) = {V(t, χ) = ?, {t, χ) e= <?*}· (21.37)
Оптимальный гарантированный результат pu(t*t x*)v и
оптимальная стратегия С/°() определяются равенствами
Pu(h, x*)v = inf p[f/(·); **, **]v, (21.38)
ρ[ί7Θ(·); **, **lr = Рсг(*·. **)г- (21.39)
Понятной трансформацией этих соотношений, связанной с
переменой местами стратегий £/(·) и У(·), получаются определения
гарантированного результата рП^ (·); **» я*]сь оптимального
гарантированного результата ру(£#, ##)ϋ и оптимальной
стратегии V°(·).
Если цена р°(£, #) = ρ(£, ж) игры {7.1; 8.1} имеет непрерывные
частные производные в области G^, то подобно предыдущему
доказывается путем оценки изменения функции γ[ί] (21.18) на
отрезке £# ^ί^Ο, что стратегии Ζ7°(·) и У°(·), определенные
условиями (21.16) и (21.31), остаются оптимальными и для
новой игры {7.1; 8.1}. Эта новая игра {7.1; 8.1} в классах
стратегий U(·) и V(-) имеет ценур°(^, x*)utv = Р°(**> %*)- Для
реализаций обобщенного процесса {#[£* 1-]Щ, %[**[а]Ф)]ц*,у*'
{ί[ί* [·]*], χ[ί·[·]*)Ιϋ·^ и {*[**[·]*], χ[ί*[·]θ)}^γ0,
порожденных из позиции {£*, #*} парами стратегий {Ϊ74·), У°(·)},
(Ζ70(·), V(-)} и {С/(), У°(·)} соответственно, справедливы
185
йеравенства
σ(ϊ[θ]ί7θγ)+ ] χ [t]uovdt^a(xmuovo)+ § %[t]vo vodt =
θ
= р°(**, ^Χσ^Ι^ vo) + J %lt}uvodt. (21.40)
**
Если цена ρ°(ί, χ) внутри области G не является функцией
дифференцируемой в каких-либо позициях {*, ж}, то подобные
утверждения, вообще говоря, неверны. Покажем это на примере
в следующем параграфе.
§ 22*. Пример, оценивающий движения в контингенциях
Пример 22.1. Обратимся к управляемому объекту F из § 6.
Выберем снова показатель качества γ (6.2). Пусть опять
параметры μ, ν, m(i\ а выбраны так, как в § 6. Переходя к величине
г (6.20), получим
γ = —lr[0]|. (22.1)
Переменная г связана с воздействиями и и ν
дифференциальным равенством
r = q>[flw--\|)[di;, (22.2)
где
φ[ί] = 1 - e«-*)/w, φ] = 0 - t. (22.3)
Назначим опять исходную позицию {£*, х%) (6.31), которая
удовлетворяет условию £#= Ь — 4μ, г* =0. Выберем какую угодно
стратегию U(t, xu ..., хк) (21.1) и оцепим ее гарантированный
результат ρ[ί7(·); £*, χ*λ, ..., я*4] (21.12) для заданной
исходной позиции {ί*, я*!, . ..,£*4}а Как и в § 6, окажется, что для
этой оценки достаточно испытать лишь реализации помехи
v[t%[-]b), постоянпые при ί*^ί<θ. Итак, пусть имеем
некоторую помеху
*>э [**[·]<>)- to Μ - Μ· < * <*Ь (22·4)
где фиксированное число β^[—1, 1].
Стратегия U(-) и помеха ^β[ί*ί·]^) определяют обобщенные
движения χ [£# [·]*]> я [**]=#*· Вообще говоря, таких
движений χ [t# [·] θ], отвечающих зафиксированным Ζ7(·), ι>β[·] и
{**> #*}» будет не одно. Обратимся к какому-нибудь из этих
движений. По его определению, производная xlt] существует при
почти всех t е (£#, θ) и при почти всех t e (£*, ΰ) она
удовлетворяет включению
2[Йеф(Е7(*, 2ЕЙ), *, Ш], ΐ7ρ[·1). (22.5)
186
Здесь согласно (21.3) и (6.4) имеем
Ф(.) =
/:
и
,ме со U(tjc[t])
(22.6)
— M'l + ^r»
т т
xA[t]
|_- α ж4 μ] + β J
Но из соотношений (22.5), (22.6) определяется измеримая
функция μ[£*[·]Φ)ι Для которой при почти всех ί е (ί*, О)
справедливо равенство
Ж[Й = Лг[Д + bttltl + οβ, (22.7)
где матрица Л и векторы Ъ и с отвечают правой части (22.6) и
определены равенствами (6.6). Однако равенство (22.7) означает,
что χ [t* [·] θ] — решение уравнения (6.5) при и =»и ЕЙ, ι; = β.
Рассматриваемому движению я [J* [ · ] Щ отвечает функция
^♦[·]Φ]ι которая при почти всех ie(i*, ϋ) удовлетворяет
дифференциальному равенству
?Μ=φ[*]δΜ-ψ[*]β. (22.8)
Теперь осуществим одно вспомогательное построение. Для
функции u[t* [·]О), подберем число β*^[— 1, 1] так, чтобы
функция г* [ί* [·]θ], которая является решением
вспомогательного уравнения
r*[fl =ф[ЙкЫ -ψΜβ* (22.9)
при начальном условии г*[£#] = 0, удовлетворяла также
конечному условию
г*[О]=0. (22.10)
Существование числа β* проверяется подобно тому, как это
сделано в § 6. Эту проверку опустим.
Итак, получается следующая цепочка. Выбрано число , β Q
е= [—1, 1], по нему назначена помеха урМ (22.4), помеха ι>&[·]
и стратегия U(-) определяют движение χ [**[·] θ] (среди прочих
отвечающих им движений), это фиксированное движение
определяет реализацию управления u[f*[-]u), реализация управления
и U*!·]^) определяет число β* (может быть, не одно число,
удовлетворяющее условию (22.10), фиксируем одно из таких
чисел). Пусть удалось выбрать исходное число β так, что для
такой цепочки справедливо равенство
β-β*. (22.11)
(Выбор движения я[£#[«]д] и затем выбор β* в цепочке,
вообще говоря, неоднозначны. Поэтому условие (22.11) надо пони-
187
мать так. Пусть при выбранном β нашлась по крайней мере одна
цепочка, для которой справедливо равенство (22.11).) Выбор
числа β, которое удовлетворяет условию (22.11), означает, что из
данной исходной позиции {t%, χ*} рассматриваемая стратегия
U(-) и помеха ρρ·[·] порождают движение #* [£# [·] ft], для
которого справедливо равенство г*[ф] ~ 0, т. е. справедливо
равенство
γ* = - | г* [Щ | = - Ι^ί [θ] -£f [θ] Ι - 0. (22.12)
Но это равенство (22.12), вследствие неположительности
возможных значений γ, означает, что
plU(-);t*,x*] = 0. (22.13)
Таким образом, если можно выбрать β так, чтобы
выполнялось равенство (22.11), то это означает, что для данной исходной
позиции {ί*, χ*} и выбранной стратегии Ш·) гарантированный
результат равен нулю. Покажем, что для данной позиции {£#, х%}
подходящее число β действительно существует, какой бы ни была
стратегия U(·). Доказательство использует метод неподвижной
точки. Оно подобно доказательству леммы 18.1.
Выберем какую-нибудь пару {и [t* [·]θ), β}, где
ΠΜ·]ϋ)==Μί]<=[-μ, μ], **<*<θ}, (22.14)
βθ[-1, 1]. (22.15)
Сначала это есть произвольно выбранная пара {и [£# [·]θ), β},
никак не связанная с предыдущими построениями. Эта пара
{иМ, β) определит движение #РМ как решение уравнения
x = Ax + bu[t]+c$ (22.16)
при данном начальном условии x[t%] = х%. Далее, для
получившегося движения х$[-] и выбранного β найдем все измеримые
функции и [£#[·] θ), удовлетворяющие условию
-т&*
т
*β4 14
_ -α*β4[ί] + β
; <D(U(t, х^ [ί]), ί, х$ It], и^ [.]), (22.17)
т. е. условию
uit]& со U(t, хъЫ) (22.18)
при почти всех t е (£*, θ). Множество ί/β,η[] {w [t% [·] θ*)] таких
функций и [ί*[·]θ) будет выпуклым и слабо компактным в
пространстве i?(2){M£* [·] #)} ([2*], с. 35). Кроме того, множества
^β,«[] будут слабо полунепрерывны по изменению В, и[].
Эти термины означают следующее. Пространство.2? {h [t%[-] О)}
есть совокупность всех измеримых функций h[t%[-]$), для ко-
188
торых существует интеграл от квадрата их модуля (см. § 2)
2(= \ | A [ill1 Л.
и
Этот интеграл определяет норму
ΙΙΜ·]|| = ( f \h[t]\*dt
элемента hi·] в j?(2). Некоторое множество Ж функций
Л[**[·]О) из &{%){h[t*l-]Q)} слабо компактно, если из любой
последовательности h(i) lt% [·] θ) е Ж (i = 1, 2, ...) можно выбрать
подпоследовательность h^3\t* [·]θ) (/ — 1, 2, ...), которая
сходится слабо в ,ί?(2){Λ[*Π·]θ)} к функции h* [t* [·]θ) е <?#, т. е.
какова бы ни была функция £[£#1·]$) с интегрируемым на
отрезке [£#, θ] квадратом ее модуля, для подпоследовательности
h^ [£* [ · ] θ) справедливо равенство
lim f Л(*й [*] g [t] dt= f /г* It) g [t] dt.
Множества £^,и[.] {и [£* [·] О)} е j?(2) {Α [£* [· ] О)} слабо
полунепрерывны по β, иМ, если при βι-^β*, lim (ел) и<*>[·] = и» 1*1
(i = 1, 2, ...) для всякой слабо сходящейся последовательности
w(i) [** [·] О) <= ί7βί§«(«)[.] ее слабый предел и* [ί* [·] О) е= Ζ7ρ*,«*[-ι·
Указанные свойства множеств ί/β,Μ[·;ι {и [£# [·]$)} следуют из
результатов теории функций (см. [9*], с. 457), так как функции
и [£*[-]О) стеснены условием (22.18), где ограниченные
замкнутые множества в правой части выпуклы и меняются
полунепрерывно сверху по включению с изменением *€[£*,Ф), жэ[·].
С другой стороны, для фиксированной функции utt#[-]0)
из выбранной пары (22.14) найдем множество -Btt[.] чисел β*,
которые удовлетворяют условию (22.10), где г* №#[·]&] есть
решение уравнения
г* - φ[«] ultl - ψΜ β* (22.19)
при начальном условии г* [£*] = 0. Множество Z?ui.j будет
отрезком и оно будет полунепрерывно по изменению иЫ, если
изменение и [t% [ · ] Φ) оценивать в слабой топологии. Это надо
понимать так. Пусть последовательность w(i) [£*[·] θ) сходится слабо
*
к функции u%[t%[-]$) и Z?u(*)[.] —множество, отвечающее
w(i)[£* [·]θ). Пусть последовательность β(ί) е #*(i)t. j сходится к
β*, тогда β^ efiu*[. ] ? где Вищ [. 3 есть множество, которое отвечает
функции u*[t*[·] О).
а/2
189
Поставим в соответствие паре {иМ, β} множество ί7β,η[.]Χ^*[·]
пар [и [·], β*}, где и [.] е= t/p,u[.] 1и [·]} и р*е5ф]. Согласно
теореме, приведенной в ([5*], с. 495), это отображение имеет
неподвижную точку. Иначе говоря, найдется пара {иМ, β)
(22.14), (22.15) такая, что
{«[•ЬИеС/мнХй;.]. (22.20)
Но это и означает, что для такого числа β справедливо
равенство (22.11).
Итак, какой бы ни была стратегия £/(·), найдется такая
помеха ι>β·[ί* [·]θ), что для одного из движений, порожденных из
данной позиции {£#, х*} этой стратегией и этой помехой, будет
справедливо равенство (22.12), т. е. будет справедливо равенство
(22.13). Отсюда следует, что для данной исходной позиции {ί*, χ*}
оптимальный гарантированный результат удовлетворяет
равенству
Р&(**,**) = 0. (22.21)
Однако в § 6 указано, что для рассматриваемого объекта при
показателе качества γ (6.2) для данной исходной позиции {ί#, χ*}
оптимальный гарантированный результат (7.17) есть
pi (*♦. *♦)(?.ι?) = —j (μφ [t] — Ψ Щ) dt =
' я _ μ (f> - ΐ) _ ίΐζΐ2Ϊ +τημ[ΐ _ e(?-*)/m] < _ £. (22.22)
Здесь τ — корень уравнения (6.28).
Таким образом, рассмотренный пример показывает, что
возможны случаи, когда рс/(£#, #*)=т^ри(£*, х*). Так как функция
Γ(·)-Μ*.*)-β. **<*<«} (22.23)
определяет допустимую стратегию F(), то рассмотренный
пример доставляет также случай, когда для данной исходной позиции
{**> #*} оптимальный гарантированный результат (21.31) есть
Р?К**,**)г = 0, (22.24)
хотя справедливо неравенство (22.22). На этом обсуждение
примера 22.1 закончим.
§ 23*. Сравнение обобщенных процессов
Возвратимся к общему каноническому случаю, когда вдобавок
выполнены условия непрерывности функций /(·) в (4.3) и χ(·)
в (7.4) и выполнено условие (8.14).
В § 22* на примере 22.1 показано, что в случае, когда цена
р°(£, χ){ίλ;β.2) не является функцией дифференцируемой, возможно
190
строгое неравенство
9ϋ (*#, #*)<21.13) > Р° (**, ^*){7.ΐ;8.2> = Ри (**, #*)(?.17)· (23.1)
Более того, в этом примере для выбранной исходной позиции
{£*» ##} получается, что оптимальный гарантированный
результат ри(£#, х*) равен нулю и он совпадает с оптимальным
гарантированным результатом
p£[.](**,**)==mfp[u[·]; **, я*], (23.2)
м[·]
достижимым в классе законов управления Е/ = ц[·], каждый из
которых отождествляется с фиксированной реализацией
и[£*[#]Ф)· Этот результат не является случайным. Можно
указать не слишком узкий класс задач, для которых переход от
программных законов управления или программных законов
формирования помехи, отождествляемых каждый с
фиксированной реализацией управления или помехи, к формированию
обобщенного управления или обобщенной помехи на основе стратегий
в контингенциях не улучшает по существу гарантированный
результат. Например, справедливо утверждение, похожее на
лемму 18.1. Рассмотрим объект, описываемый уравнением (18.1) при
ограничениях (18.2). Пусть показатель γ снова имеет вид (18.3).
Пусть для этих данных выполнены условия, указанные в § 18.
Справедливо следующее утверждение.
Лемма 23.1. Какова бы ни была стратегия 7(0 (21.27),
исходная позиция {ί*, χ*} и число ξ>0, найдется программный
закон формирования помехи У(1в.в)» который гарантирует
неравенство
V = \ 1 (τ, х [τ]) dx + о (χ Щ) > ρ [V (·); **, **](21.28) - ζ. (23.3)
ί*
Здесь я[£*[·]О] есть движение объекта (18.1), порожденное
законом 3^(18.5) в паре с какой угодно допустимой измеримой
реализацией управления и [t% [·] θ).
Лемма 23.1 доказывается методом неподвижной точки.
Рассуждения во многом подобны рассуждениям из доказательства
леммы 18.1. При этом также во многом повторяется анализ
примера 22.1. Поэтому доказательство леммы 23.1 опустим.
Приведенный в § 22* пример 22.1 показывает возможность
неравенства (23.1). Стало быть, при переходе от стратегий и()
(7.6) (или ν(-) (8.15)), формирующих процесс по законам ^(7.7)
(или TiSAS)), к стратегиям £/"(·) (или У(·)) в контингенциях,
формирующим обобщенный процесс, оптимальный гарантированный
результат может ухудшиться по существу. Более того, пример
22.1 и лемма 23.1 показывают, что при этом оптимальный
гарантированный результат может ухудшиться до результата,
гарантируемого уже программными законами, которые в момент ί*
для исходной позиции {£*, х*} задают управление или помеху
191
априори, как фиксированную функцию времени. Это сближает
формирование процесса на основе стратегий Ζ7(·) (или УЫ)
в контингенциях с формированием процесса на основе
непрерывной схемы управления из §§ 5, 6. Сходство усиливается еще
следующим обстоятельством. В §§ 11, 12* доказано, что переход
к законам формирования процесса в непрерывной схеме не
может улучшить по существу оптимальный гарантированный
результат,, достижимый в классе законов ^(7.7) (или Т{ВЛв)).
Аналогичным образом обстоит дело и при переходе к стратегиям
U(·) или Vl·) в контингенциях. Покажем это, т. е. проверим
справедливость неравенства
Ри (**, #*)(7.17) < PU (**, Я*)(2ЫЗ) (23.4)
для всякой исходной позиции {^,^}еС в рассматриваемом
каноническом случае при условии (8.14). В самом деле, пусть
выбрана некоторая стратегия U(-). Для данной исходной позиции
{**, #*} рассмотрим все реализации обобщенного процесса
{ζ [£*[·]θ], χ[**[·]θ)|, которые порождаются стратегией {/(·)
и кусочно-постоянной реализацией помехи ν[t# [·]$),
формируемой законом
Г = {у°(·), ε, Δβ>, (23.5)
отвечающим оптимальной стратегии ν°(·). Выберем произвольно
число £>0. Назначим ε(ζ) >0 и δ(ξ) >0 так, чтобы для всякого
процесса, порожденного законом Τ (23.5), при ε = ε(ξ) и б = δ(ξ)
при всякой допустимой кусочно-постоянной реализации
управления и [^ЫФ) было выполнено неравенство
V > Р° (**, **){7.r,8.2> — С- (23·6)
Зафиксируем в (23.5) ε = ε(ξ) и разбиение Δβ с шагом δ =
= δ(ζ). Назначим последовательность разбиений A^.{t\^},
удовлетворяющую условиям (21.6). Сформируем реализации процесса
U(i)[**Hft], *>(i)tt*Hft)> м(Я [**[·]<>)}, где реализации va)[t*[·] Ъ)
формируются зафиксированным законом Ψ (23.5), реализации
и0) U* Ι·]*) формируются законом (21.7), который отвечает
стратегии и(-) (21.5). Для каждой такой реализации справедливо
неравенство (23.6). Подобно тому, как это.сделано в § 21, из
последовательности этих реализаций {#0)[·], wU)M, vU)[-]} можно
/ Us) г , Us) г , Us) , Л
выделить подпоследовательность \х '[·], υ/ '[.], ν ι·]},
удовлетворяющую следующим условиям. Движения χ [£#[·]$]
будут сходиться равномерно к некоторой абсолютно непрерывной
функции «[**!·] О]. Функции ν '[**[·]*) будут сходиться
равномерно к некоторой кусочно-постоянной функции ν[ί+[·]ϋ).
Функции X(is)[M']ft)=W*, Л], u{h)[t), vl%]), **<*«>}
будут сходиться слабо к некоторой измеримой функции %[t% [·]θ).
Для предельных функций будет справедливо включение (21.4),
192
т. е. предельная реализация [χ[ί*[·1θ], χ [£#[·] θ)} будет
реализацией обобщенного процесса, отвечающей стратегии U(-) и
предельной помехе у [f*[·] ft)· Доказательство этого утверждения,
которое вытекает из известной теории уравнений во включениях,
опустим. Для соответствующих значений γ функционала (7.4)
справедливо снова предельное соотношение (21.11). Но тогда для
получившейся предельной реализации из (23.6) следует
неравенство
у = σ(0, χ [Щ) + J χ [τ] dt>p° (**, xn) - ζ. (23.7)
и
Вследствие произвольности ξ > 0 отсюда вытекает (23.4).
Аналогичным образом проверяется неравенство
Ρ°ν (**, **)(8.19> > PV (**, **)· (23·8)
Исследуем еще связь между обобщенными процессами,
введенными в § 13* и в этом параграфе.
Пусть выбрана стратегия U(-) (21.1). Этой стратегии {/(·)
поставим в соответствие некоторую стратегию и(-) (21.5). Можно
опять проверить, что всякая реализация обобщенного процесса
1#[£* [·]θ], η [£* {·]#)}» порожденная в согласии с
определениями из § 13* стратегией и() (21.5) и какой угодно
фиксированной кусочно-непрерывной реализацией помехи ν[£#[·Η0»
является и реализацией обобщенного процесса [х [f*rl·] θ], χ [£#[·] ft) U
порожденного стратегией U(-) и реализацией ν[t% [-]$). (Точный
смысл этого утверждения таков. Движения #[£#[·]$] в обеих
реализациях совпадают, и справедливо равенство
XU1 — f %(t,x[t],u,v)r\{du,du\t) (23.9)
PXQ
при почти всех £е (£#, ΰ·).) Выражение «реализация {х [t% [·]θ],;
Л1*#Н*Л порождена фиксированной реализацией помехи
tf[f*l·]^) (в паре со стратегией и(·))» следует понимать так.
В двойных последовательностях (13.1), (13.19), определяющих
[х [t% [.] О], η [ί* [ ·] О)}, каждый член определен одной и той же
данной помехой υ [t# [ · ] θ).
Можно далее проверить, что всякая реализация 1# [£#[·] О],
Ή U* Ι·]1*)}» порожденная стратегией (21.5), является и
реализацией обобщенного процесса ΐ£[ί*1·]ΰ], %!*♦ 1"1*)К
порожденной стратегией £/(·) в паре с тривиальной стратегией (21.37).
Отсюда сразу вытекает неравенство
Ри (*·, ζ*)ν > Ри (**, **) = Ри (**, хщ) (23.10)
Для каждой исходной позиции {^,^}еб. Здесь р2 (£*, я*) есть
13 н. Н. Красовский 193
величина (7.17), а ^еличинар2(£#, х*) определена равенством
(13.8), где значение р[и(·); ί*,^] вычисляется согласно (13.24).
С другой стороны, пусть выбрана некоторая стратегия (7.6)
ι*(·) — Μί, я, ε), If, *}e=G, ε>0>. (23.11)
Для каждой позиции {£, х] и числа η построим множество
= [и: и = и (τ, χτ, ε), |ί — τ|<η, |я — ^τ|<η, ε<η]*, (23.12)
где верхний индекс * означает замыкание. Определим стратегию
U(-) (21.1) множествами
U(t,x)= Π υΆ{ί,χ). (23.13)
η>0
Можно^снова проверить, что всякая реализация обобщенного
процесса U[i#[·]*], η [£# [·] О)}, порожденная стратегией (23.11)
и любой кусочно-непрерывной реализацией помехи ^[£# Н^)»
является и реализацией обобщенного процесса {#[£# [·]θ],
Х['* ϊ"]#)1· порожденного стратегией U(-) (23.13) в паре с этой
помехой ρ If * [ · ] θ). И всякая реализация [х [t% [ · ] θ], η [t% [ · ] О)},
порожденная стратегией и(-) (23.11), является и реализацией
1# [£#[·] ^Ь Х[*#Н^)}» порожденной стратегией U(-) (23.13) в
паре с тривиальной стратегией VT(·) (21.37).
Обратные утверждения, вообще говоря, неверны. Для
некоторой пары стратегий ύ(·) и £/(·), связанных условиями (23.11)—
(23.13), множество реализаций {#[*#[·]$], χ [£*[·] ^)] может
оказаться шире, чем множество реализаций [χ [ί* [·]θ]^ Η
η[£*[·]^)Κ которые определяются конструктивно, как пределы
(13.1), (13.19) для последовательностей, построенных из обычных
реализаций UifotHub ид!*»!·!*)· vL[t# [·]$)}. Поэтому и
оказывается возможным неравенство для гарантированных
результатов
Ри (**, **) = р2 (**, **) Φ Ρυ (**, **) (23.14)
и в левой части (23.10) оказывается возможным строгое
неравенство.
Завершим на этом обсуждение канонического случая при
дополнительном условии (8.14). Если отказаться от условия (8.14),
то в определение реализаций обобщенного процесса {#[£#[·]θ],
X U*H^)} целесообразно внести некоторые дополнения. Именно,
если условие (8.14) не выполнено, то надлежит учесть
специальным образом возможность формирования помехи ν [t* [ · ] ft) на
основе механизма контруправления. Тогда удобно расширить
совокупность множеств Ф(·) (21.3) и определить эту совокуп-
194
ность так. В добавление к множествам (21.3) введем множества
Ф(Е/(£, #), ί, χ, ν(·)) = со [{/, χ},: / = /(ί, χ, щ ι>),
χ = χ(ί, χ, и, ν), и e Uit, χ), ν = v(u)], (23.15)
отвечающие всем возможным функциям
у(-)=(Л)е^, и&Р). (23.16)
В частности, если ν (и) = ν = const, то получаем в (23.15)
множество Ф() (21.3). Если теперь реализация *>[**['ДО) будет
формироваться на основании механизма контруправления
v[t] = v(t,u[t]), **<*<*, (23.17)
то реализация процесса {&[ί*[-]Φ], Х[£#Н^)} должна
удовлетворять включению
ώί],χ[ί]}^φ(Ρ(ί, iltl), f, хЫ, ι>(ί, 0). (23.18)
При таком подходе можно аналогично предыдущему обсудить
тот же круг вопросов, как и выше в случае условия (8.14).
Однако это обсуждение в данную книгу мы не включаем.
Отметим только, что для соответствующих оптимальных
гарантированных результатов справедливо неравенство, аналогичное
неравенству (23.4). Его доказательство повторяет в основных
чертах доказательство неравенства (23.4). При этом в случае
стратегии £/(£, х) в контингенциях в качестве допустимых
реализаций помехи ι>[£*[·]θ) (23.17) можно выбрать такие, которые
порождаются кусочно-неизменными по t функциями. В таком
случае, повторяя с незначительными изменениями рассуждения,
получим, например, что справедливо неравенство
inf sup v>p£(**,**)(7.7b (23.19)
где в левой части верхняя грань вычисляется по всем
допустимым реализациям из указанного класса, а нижняя грань
вычисляется по всем стратегиям Ζ7(·) в контингенциях, причем
обобщенные реализации процесса [x[t% [·]θ], χ [£#[·] θ)}
определяются как решение для дифференциальных включений (23.15),
(23.18).
В заключение параграфа приведем для примера обобщенные
движения я1£# [·]θ], которые порождаются в случае объекта F
из примера 22.1 при выборе стратегии Ζ7(·), построенной в
соответствии с равенствами (23.11)—(23.13) по функции и(-) = и*(·),
определенной условиями (6.48), (6.49). Эта стратегия
определяется множествами л
\и (t, r) при г Φ О, t0 < t < ft,
U (ί, χ) = I r = 0, t0 < t < τ, (23.20)
(Ι— μ»μ] при г — ο, τ^ί^θ.
13* 195
Выбраны следующие значения параметров: 'θ· = 10, m = 0,l, μ=*
= 2,5; исходные позиции {t%,r%} и реализации помехи:
(1) £>= 6,0, ^ = 2,0, ι;[ί]- —1,0, 6<ί<10, .
(2) *i2) = 8,0, г<?> = 0, i;[q-f —9, 8<ί<10.
На рис. 23.1 приведены графики этих движений.
Обратим внимание на движения χ [£#[·]$]? которые могут
случиться для исходной позиции {£*,£*}> гДе **е1т'^}
и г* = 0 при всякой
реализации помехи ν [ί* [·] θ).
Среди них будет такое, для
которого r*[fle0, и, стало
быть, **[#]= 0 и σ(«[01)—
= 0. Такого движения не
может получиться при выборе,
стратегии и*(·) (7.6) ни
при каких законе
управления ад —{и*(0, ε, Δ> и
реализации помехи ν [t* [ - ] θ).
Всякое движение х\ [£# [· ] θ],
порожденное стратегией
ю*(·) из данной исходной
позиции {{*,£*}, а следовательно, и всякое конструктивное
обобщенное движение £[£*[·]θ] в смысле определения из § 13*,
отвечающее стратегии и*(), проходит в области
| г | ^ μ (t - и) - μ/η (e(<-*)/m - e(u~b)lrn) +
+ -5-ΚΟ-*)'-(θ-**),1· (23·21>
Граница такой области показана на рис. 23.1 пунктиром. Как
указано выше в § 6, стратегия и*(·) является оптимальной. Для
рассматриваемых исходных позиций (1), (2) ее гарантированные
результаты суть А
ρ [и* <.); е, «?ч=р^ (е, &)=з,?5,
р[«*С); «?>,«»]-piie*?')-2,75. ^"^
Таким образом, ж [£# [ · ] Щ является как раз тем движением,
которое иллюстрирует утверждение, что для пары стратегий
и*(·) и Ι7*(·), связанных условиями (23.11)—(23.13), множество
обобщенных движений #[£#{·]θ] в контингенциях, вообще
говоря, шире множества конструктивных обобщенных движений
£[*·[·]*] из § 13*.
Рис. 23.1.
Глава III
СЕДЛОВАЯ ТОЧКА
§ 24. Движения модели
Содержание этой главы составляет доказательство
существования цены р°(£**£*) и седловой точки {w°(·), Vu(-)}
дифференциальной игры {7.1; 8.1} в каноническом случае.
Предлагаемое доказательство использует вспомогательную модель
управляемого я-объекта F. Ее описание является предметом текущего
параграфа.
Сначала пополним движение #[*#[·]**] объекта F. Введем
(п+ 1)-мерный вектор y = iyi, ..., уп, Уп+ih первые η координат
которого совпадают с координатами фазового вектора х, так что
Уг = Хг (ϊ = 1, ..., η). Переменную уп+М подчиним уравнению
£η+ι = χ(ί, х, Щ ν). (24.1)
Таким образом, в соответствии с (4.3) и (24.1) изменение
вектора
HU <24·2>
во времени будет определяться дифференциальным уравнением
у = hit, х, и, у), (24.3)
где (гс+1)-мерная вектор-функция МО определена равенством
*(«A^^-[ii,;,::3l· <2">
Поясним смысл переменной yit]. Пусть движение #[ί*[·]Φ]
началось из позиции {i#,^}s6 (4.18) и порождено
реализациями Μ[ί#[·]θ) и у [£#[·] θ). Для пополненной исходной
позиции {t%, у%} = {t%, x%, y*n+i} для всякого текущего момента
времени ί^ί* полагаем y[t] = {#М, yn+l[tl}, где
t
Уп+ι [t] = J χ (τ, χ [τ], и [τ], ν [τ]) άτ + y«n+i· (24.5)
и
Из (24.5) следует, что переменная уп+М удовлетворяет при
почти всех значениях t e (ί*, £*) дифференциальному равенству
£η+ιΜ=χ(ί, хЫ, uli\, vlt\). (24.6)
Это и означает, что рассматриваемая векторная переменная
У Щ (t* ^k^ t*) является решением уравнения (24.3) при и =
197
« ult], v — vlt] и при начальном условии
У [**1 - {х [**], Уп+i [**]} = {**, ^η+ι}· (24.7)
В частности, при уя+ι [£#] = 0 из (24.5) имеем
θ
f Χ (τ, * Μ," [τ], у [τ]) dx = yn+i [θ]. (24.8)
и
Таким образом, согласно (7.4) и (24.8) получаем равенство
о
γ= J σ(τ,ζ[τ])μ(<2τ) + J χ(τ, я[т],и [τ], ΐ7[τ])ότ =
= j σ(τ,ζ[τ])μ(Λ) + ^+1[θ], (24.9)
если уп-ы [**] = 0.
В общем случае исходная позиция {£#, у*} = {£#, ##, #*η+ι}
будет выбираться в области
GCv3 = [{i, у}: ίο^ί^θ, {*, rfeG, ly.+il<rfd]. (24.10)
Здесь область G определена равенством (4.18) или как-то
иначе в соответствии с конкретными условиями задачи (см. § 4).
Функция r[t] определена равенством
Κί]=η(ί-ί0), (24.11)
причем постоянная η выбрана согласно условию
η=ΐ)^χΙχ(ί, #, и, i?)|, ft, ж)еб, и&Р, v&Q. (24.12)
По построению области Gw (24.10) всякая текущая пополненная
позиция О, y[t]}, {t*^.t^t*) удовлетворяет включению
{t,y[t]}&Gb\ (24.13)H
Таким образом, работая с переменной #[Д, достаточно
рассматривать позиции {£, у), лежащие в области Gtvl (24.10).
Решения y[t*[-]t*] уравнения (24.3) при начальном условии
#U*] = #*i гДе {**> У*} е Gw, будем называть тоже движениями
(пополненными) ^-объекта. Вследствие разницы в обозначениях
не должно возникнуть смешения движений я№*[·]**! с
пополненными движениями y[t* [·] £*].
Опишем теперь вспомогательную модель, которую назовем
z-моделъю. Она копирует пополненный я-объект. Текущее
состояние 2-модели описывается (п+ 1)-мерным вектором z = {zi, ...
..., Zn+i). При этом удобно выделять вектор, составленный из
первых η компонент. Обозначим его w = {wu ..., wn). Таким
образом, при чтении дальнейших записей следует иметь в виду
равенства ζ»=μ;* U = l, ..., η). Изменение переменной zlt]
определяется дифференциальным уравнением
z = h{t,w,u*, у*), (24.14)
198
где (w + D-мерная вектор-функция h(-) определена равенством
(24.4). Возможные значения и% я ν* стеснены такими же
условиями, как и в случае х-объекта, т. е.
w*e=i\ v*t=Q. (24.15)
Рассматриваемая z-модель является вспомогательной
абстрактной конструкцией. Оба воздействия и* и р# в этой модели будем
называть управлениями. В качестве их реализаций допустим
любые кусочно-постоянные функции и* [t% [·] £*) = {щ [t] е Ρ
t*<t<t*} и »*[t*l-li*) = {i;#[i]e^t#<t<t*}. Под иу-
сочно-постоянной будем далее понимать функцию q[t*[-]t*),
сохраняющую постоянное значение с(<) на каждом из конечного
числа полуинтервалов £»^£<£ί+1, на которые разбивается весь
полуинтервал [**, ί*). Таким образом, q[t* [·] £*) = {q[t] =
= c(i), ii< ί < *h-i, ίχ = **, is+i = **, i = 1, ..., s]. Движение
ζ [**[·]**], порожденное из позиции {t^z^} реализациями
и* [**[·]**) и у* [ί* [·] ί*), определяется как решение уравнения
(24.14) при и* = и* [£], ν* == р# [£] и при начальном условии
*[**] = {и> [**]> *η+ι [**]} = {">*, ***τι+ι} β **· Будем рассматривать
движения z[t% [·]£*], U#, i*]cz [ί0,θ], начинающиеся в позициях
О*»2*} из области
G* = [{*, ζ>: *0<*<Ф, Ы<Я*[Й, Un+1l^r*WJ, (24.16)
которая является, расширением области Glv] (24.10). Здесь
функции R*[t] и r4t] определены равенствами
д*[й - (1 + R0 + а) ехр {λ(4·5)(* - fc)> - 1, (24.17)
Γ*Μ-η*(ί-*·) + α, (24.18)
причем α — малое положительное число, постоянная η*
определена равенством
Л* = тах!х(*, w, и, v)\9 U<t^<&, \w\ <i?*[tf, (24.19)
U €3 Ρ, у €Ξ ρ.
Каковы бы ни были исходная позиция {ί*, ζ*} еС*и пара
реализаций u* [t% [·]£*), у* U* [·] ί*),всякая текущая позиция
it, zlt]}, реализующаяся на соответствующем движении
z[t* И**], лежит в области G*. Из свойств функций /(·) и χ(·)
вытекает, что всякое движение ζ[ί* [·]£*] удовлетворяет
условиям Липшица
\ζ№>]-ζ№>]\<λ<η·Μ>Η™-#ι>\, (24.20)
где
λ<24·20> = λ(4δ)(1 + Λ*[θ]) + η*. (24.21)
Вследствие условий (4.4) и (7.2) функция МО (24.4)
удовлетворяет в области G* (24.16) по переменной ζ условиям
Липшица
'«*, и>(1\ и, »)-*(«, ы;(2), и, ι;)| <
< λ(24·22) I w(i) — w{2) I ^ λ(24·22) I z(1) - z(2) I, (24.22)
199
где
X^-Xgifo + X&fo, (24.23)
причем величина ϋ*[ΰ>] определена в соответствии с равенством
(24.17). Из (24.22) вытекает, что для всяких двух движений
*(1' [*#!·] **1 и z(2)U* ί·] **]» порожденных одной и той же парой
реализаций и* [t* [·] £*), ι;* U* [·] £*), но из разных позиций
U^z*1*} ебг* и |^,42))е6*» справедливо неравенство
j 2(1) [ί] - z(2) [q I < I ,?>-s?> I exp {λ^θ - g} -
= λ(24.24)|ζα)_^2)|> (24β24)
Область G*, определенная условием (24.16), годится для
всякого уравнения (24.14), когда область G определена условием
(4.18). Этот выбор областей G и С* предполагается в общем
случае. Однако, в согласии с замечанием в § 4, для того или
иного конкретного уравнения (24.14) при конкретных условиях
(24.15) может оказаться более удобной другая форма области G,
а вместе с ней и другая область G*. В таких случаях
специальный вид области G будем оговаривать. Но во всяком случае
область G будет удовлетворять условиям, указанным в § 4. При
этом будем предполагать без дополнительных оговорок, что
область G* подбирается по области G с выполнением следующих
условий. (1) Всякое сечение G области G* .гиперплоскостью
t = τ, т. е.
G; = [{y}:{y}eC*l, (24.25)
содержит некоторую е*-окрестность
6?·-[{τ,*>: ""« |*-*τΙ<β·], ε*>0, (24.26)
L *T=GTw J
сечения
G[yl = [{τ, ζ}: {τ, w) e= G, | ζη+11 < η (τ - t0)] (24.27)
области GCvl той же гиперплоскостью t = τ. (2) Для любой
исходной позиции {ί*, ζ*} е G* всякое движение ζ [£* [·] £*] остается
в данной области G* в том смысле, что {£, zldleG* при всех
t%^t^.t*. (3) В области G* функция М·) (24.4) удовлетворяет
условиям Липшица (24.22). Разумеется, постоянная λ(24,22)
определится, может быть, уже не равенством (24.23), а как-то иначе
в соответствии с формой области G*. Постоянная λ(24·20) также
определяется тогда, может быть, не равенством (24.21), а иначе
по конкретной области G*.
§ 25. Близость движений объекта и модели
Одно из главных мест в доказательстве существования седло-
вой точки (μ°(·), ι>°(·)} занимает оценка близости подходящих
движений ^-объекта и z-модели. В этом параграфе приводятся
200
способы формирования реализаций управления иМ"и помехи
ι?[·], а также реализаций управлений щ[-] и !;*[·], которые
обеспечивают нужную близость движений у[Л и ζ[·]. Всюду
ниже в данной главе, если не оговорено противное, будем
предполагать в дополнение к условиям из §§ 4 и 7, что функции /(·)
из (4.3) и χ(·) из (7.4) непрерывны по всем их аргументам. При
этом условии будет доказано в основном тексте существование
цены р°(·) и седловой точки 1^°(·), у£(·)) дифференциальной
игры {7.1; 8.1}. Однако теорема о существовании р°(·) и{и°(·),
1>и('Л остается в силе и при более слабом предположении о
характере зависимости функций /(·) и χ(·) от аргумента t. Эта
теорема верна при условии, принятом в §§ 4 и 7, что функции
/(·) и χ(·) по t лишь измеримы. Изменения в доказательстве,
вызванные указанным ослаблением свойства непрерывности по£,
приведены в дополнительном § 32*.
Образуем (гс +1)-мерный вектор
s=-y-z. (25.1)
Пусть так или иначе определились позиции {τ*, Ητ*]}£^*
и {τ*, zIt^gCI Для некоторого полуинтервала времени τ*^
<Ιτ < τ* выберем реализацию
иеЬ* I· 1 τ*) - {и[τ] = иее= Ρ, τ*<τ < τ*} (25.2)
и функцию
!>*·(·) = &*е (и) eQ,ue P}, (25.3)
исходя из условий
max <5 [τ*] - h (τ*, χ [τ*], ue, ν)} =
*= тттах<$[т*]-/г(т*, х[%*\, и, у)>, (25.4)
<s [x*]-h (τ*, χ [τ*], и, v*e (и))} =
= max (s [τ*]. h (τ*, χ [τ*], и, ν)}. (25.5)
Здесь символ <s · h> обозначает скалярное произведение
(тг+ 1)-мерных векторов s и /г, a s[x%] в согласии с (25.1) есть
вектор s [τ*] = у [τ*] — ζ [τ*]. Значений ие, удовлетворяющих
условию (25.4), может быть больше одного. Выберем
какое-нибудь из них. Получим вектор юв, который определит реализацию
Ив [τ* [ · ] τ*) (25.2), постоянную на полуинтервале τΗί^τ<τ*.
При том или ином и^Р значений ι;*β, которые удовлетворяют
условию (25.5), также может быть больше одного. Чтобы
определить функцию v*e(-) (25.3), выберем для каждого и^Р по
одному определенному значению v*e(u).
Пусть далее так или иначе определились кусочно-постоянная
реализация управления и#Гт* t' 1 τ*) и измеримая реализация
помехи ν [τ* [-] τ*). Рассмотрим движение у [τ* [·] τ*]= {χ [χ* [·] τ*],
Уп+ilx* [·]τ*]}, порожденное из данной позиции {τ*, у [τ*]}
201
реализациями управления ие [τ* [ · ] τ*) и помехи ν [τ* [ · ] τ*)·
Иначе говоря, рассмотрим решение #[τ*Ητ*] уравнения (24.3)
при и = ие, ν = ν[χ] и при данном начальном условии у [τ*].
Наряду с этим рассмотрим движение модели ζ [τ* [ · ] τ*] ==»
= {^[т* [·] τ*], ζη+1[χ* [·]τ*]}, порожденное из данной позиции
{τ*, ζ[τ*]} реализациями управления щ[т*[-]т*) и контруп-
равлейия
ν.β Ιτ* Μ τ*) = {ν* [τ] = vu (и* [τ]), τ* < τ < τ*}. (25.6)
Введем функцию
ν(ί, у, z) = \y- ζ\2 exp {-2λ(24·22)(ί -10)}. (25.7)
Верна следующая лемма
Лемма 25.1. Для любого ε > 0 найдется δ = δ(ε) > 0 так,
что справедливо следующее утверждение. Пусть {τ*, у[х%]}е
^ G*> {τ#> z tT*l)e &* и число τ* е (τ*, Щ удовлетворяет
неравенству
τ* —τ*<δ(ε). (25.8)
Пусть движения у[ъ*[-]т*] и ζ [τ# [·]%*] порождены
реализациями (25.2), (25.6) при каких угодно допустимых реализациях
ν [τ* [·] τ*) и и% [τ*!·] τ*). Тогда выполняется неравенство
ν (*, у [*], z [t]) < ν (τ*, у [τ*], ζ [τ*]) + ε (t — τ*) (25.9)
для всея значений ie [τ*, τ*].
Докажем лемму. При всех t &[х*, τ*] обе позиции {t,y[t\} и
{£, zU]} остаются в области G* (24.16).
Функции у[х] и ζ[τ] при τ^,^τ^τ* удовлетворяют условиям
Липшица (24.20). Функция ν(τ, у, ζ) (25.7) также удовлетворяет
условиям Липшица по всем аргументам. Поэтому сложная
функция ν(τ, ι/[τ], ζ[χ]) удовлетворяет условиям Липшица по τ при.
^*^τ^τ*· Стало быть, она имеет производную при почти всех
τ^(τ^., τ*). Эту производную вычислим по правилу
дифференцирования сложной функции ([28*], с. 262, см. также выше
равенство (15.17)). Получим
dv(x, у [τ], ζ [τ]) ^
dx
- - 2λ(2422) Ι у [χ] - ζ [τ] |2 exp {- 2λ(2422) (τ - t0)} +
+ 2/(Нт]~.[т]).(^--^))ехр(-2Х(2-2>(т^д} =
= [-2λ(24·22)|^[τ]-ζ[τ]|2 +
+ 2 {(у [τ] - ζ [χ]) · (h (τ, χ [τ], и [τ], ρ [τ]) -
- λ (τ, w [τ], и» [τ], ^ [τ]))>] exp {- 2λ(24'22) (τ - ί0)}. (25.10)
Согласно (24.22) справедливо неравенство
I h (τ, χ [τ], и* [χ] ν* [τ]) — h (τ, w [τ], и* [τ], ι;* [τ]) | <
<λ(24·22)|Πτ]-ζ[τ]|. (25.11)
202
Поэтому
<(у Μ — ζ [τ]) · (h (τ, χ [τ], и [τ], ν [τ]) —
— h (τ, ζ? [τ], и* [τ], у* [τ]) ± h (τ, ж [τ], и* [τ], ι;* [τ]))> <
< <(У Μ — ζ Μ) * (fe (τ> * Μ» Μ Μ» *>1τ1) — h (τ, ж [τ],
и* [τ], ι;» [τ]))> + λ(24'22)\у[τ] - ζ [τ] |2. (25.12)
Из (25.10) и (25.12) вытекает неравенство
<?ν(τ, у [τ], ζ [τ]) ^
dt ^
< 2 <(г/ [τ] - ζ [τ]). (Λ (τ, χ [τ], и [τ], ι; [τ]) -
-Λ (τ, *[τ], и. Μ, ^М))>ехр{-2Я(2422)(т-дЬ (25.13)
Вследствие непрерывности функций й(·), у Μ и ζ[·] при
условии (25.8) справедлива оценка
<(У [τ] — ζ [τ]) · (ft (τ, χ [τ], и [τ], ι; [τ]) —
— /г (τ, χ [τ], и* [τ], ν* [τ]))> ±
± <(# [τ*] — 2[т*]) · (Λ (τ*, χ [τ*], и [τ], ι; [τ]) —
— h (τ*, ж [τ*], и* [τ], ι>* [τ]))><
<<(*/[τ*] — ζ [τ*])·(/г (τ*, я [τ*], и [τ], ν[τ]) —
— Λ (τ*, χ [τ*], и* [τ], ν* [τ]))> + φ (δ), (25.14)
где функция φ (δ) удовлетворяет условию
1πηφ(δ) = 0. (25.15)
Оценка (25.14), (25.15) равномерна для всех всевозможных
позиций {τ*, у[т%]} и {τ*, ζ [τ*]} из области G*.
По выбору реализаций и[х)=*ие (25.2), v^[r]^v*e(um[x])
(25.6) из условий (25.4), (25.5) и учитывая равенство у [τ*] —
— * [τ*] = $[τ*]» для скалярного произведения в правой части
(25.14) имеем следующие соотношения:
<s[T*]-(h(%+, ж [τ*], ие, ν [τ]) — ft (τ*, ж [τ*], щ [τ], υ„ (щ [τ])))> =-
= <s [τ*] · h (τ*, ж [τ*], we, v [τ])> —
— <* [τ*] · h (τ*, ψ;*], щ [τ], ν** (и# [τ]))> <
<тах<5[т*].Л(т^, χ [τ*], и*, ν)} —
— <*[τ*]·Λ(τ*» χ [τ*], и* [τ], ι;** (и* [τ]))> =*
= тттах<5[т*]./г(т*, я[т*], и, ν)} —
— max <*[τ*]·Λ (τ*, ж [τ*], и*[т], ι;)> <
<тттах<фг*].й(т*, ж [τ*], и, ν)}—
— тттах<5[т*]-/г(тн., a? [τ*], и, p)> = 0. (25.16)
203
Из (25.14) и (25.16) получаем следующую оценку:
*КТ,У|Ц,«М) < 2φ (δ) βχρ {_ 2λ(24.22) (τ _ g|# (35 1?)
Интегрируя это неравенство при τ* ^ τ ^ f, получим
ν (ί, У It], z [ί]) < ν (τ*, у [τ*], ζ [τ*]) +
φ (θ)
(exp{-2X(24a2)(^-i0)}-
^ ^(24.22)
- exp {_ 2λ(2422) (t - g}) < 2φ (δ) (t - τ*). (25.18)
Из (25.18) следует, что при выборе δ(ε) >0 из условия
φ(6(ε))<ε/2 (25.19)
будет справедливо неравенство (25.9). Это доказывает лемму.
Построим еще одну пару движений у [τ* [·] τ*] и ζ [τ* [·] τ*],
удовлетворяющих оценке (25.9). Пусть опять определились как-то
две позиции {τ*, у [τ*]}^ G* и {τ*, ζ [τ*]} е (?* и назначен
отрезок времени τ* <11 ^ t*. Выберем измеримую функцию
ve(-) = {ve(u)e=Q, и^Р} (25.20)
и реализацию управления
ы*ЛтЛ-]т*]={Мт]=и*беР, τ*<τ<τ*} (25.21)
из условий
= min <5 [τ*] · h (τ*, χ [τ*], и, ι;)>, (25.22)
min (s[τ*]-h (τ*, я [τ*], w*e, ν)} =
= max min <s [τ*]-ft (τ*, я [τ*], и, ι;)>. (25.23)
Значений ve(u) и и*е, которые удовлетворяют условиям
(25.22) и (25.23), может быть не по одному. Опять выбираем
одно из этих значений и*е и по одному значению ve(u) для
каждого вектора и^Р. При этом значения ve(u) выбираем
так, чтобы функция νβ(·) получилась измеримой. Такой
измеримый выбор v*e{u) при условии (25.22) действительно возможен
согласно материалу из § 3.
Пусть далее даны какие-нибудь реализации и [τ* [ · ] τ*) и
ν* [τ* [ · ] τ*). Рассмотрим движения у [τ* [ ·] τ*] и ^τ* [ ·] τ*],
порожденные из указанных позиций {τ*, #[τ*]} и {τ*, ζ [τ*]}
реализациями и [τ* [·] τ*),
ve [τ* [ ·] τ*) = {ve (и [τ]), τ* < τ < τ*}, (25.24)
и*е [τ* Ι ·] τ*) - {и.е [τ] = w*„ τ* < τ < τ*} (25.25)
и ν# [τ# Η τ*) соответственно. Верна следующая лемма.
204
Лемма 25.2. Для любого ε>0 найдется δ(ε)>0 так, что
справедливо следующее утверждение. Пусть {τ*, ^[т^еб*,
{т*, z[t%]}&G* и число τ*^(τ#, Φ] удовлетворяет неравенству
(25.8). Пусть движения у [τ* [·] τ*] и ζ [£* [·] τ*] порождены
реализациями (25.24), (25.25) совместно с какими угодно допустимы-
ми реализациями и [τ* [·] τ*) и ν* [τ* [·]τ*). Тогда выполняется
неравенство (25.9) при всех ie^, τ*].
Доказательство леммы 25.2 строится по тому же плану, как
и доказательство леммы 25.1. Изменения, связанные с переходом
от условий (25.4), (25.5) к условиям (25.22), (25.23), понятны.
Поэтому доказательство леммы 25.2 опустим.
Рассмотрим теперь случай, когда выполнено условие (8.14)
седловой точки для маленькой игры. В этом случае внесем
следующие изменения в предыдущие построения. Вместо функции
v*e{u), которая удовлетворяет условию (25.5), определим вектор
V*e ^ Q ИЗ УСЛОВИЯ
min <s [τ*]·/г (τ*, я [τ*], и, v*e)} =
== maxmin <s [τ*]·h (τ*, χ [τ*], и, ν)} (25.26)
и вместо реализации у*Лт# [·] τ*) (25.6) используем реализацию
v*e [τ* Ι · ] τ*) = {ν* [τ] = ι;,β1 τ* < τ < τ*}, (25.27)
постоянную на полуинтервале τ* ^ τ < τ*. Остальные построен
ния, предшествующие лемме 25.1, сохраним прежними. При
указанных изменениях лемма 25.1 остается справедливой, если
только выполнено условие (8.14). Для доказательства получающегося
варианта леммы 25.1 надлежит повторить выкладки (25.10)—
(25.19), внеся в них лишь то изменение, что переменная
v*e [τ] = v*e {и [τ]) заменится на величину v*e [τ] = v*e. Стало
быть, для скалярного произведения в правой части (25.14) в
рассматриваемом случае будут справедливы следующие
соотношения:
<5 [τ*] - (h (τ*, χ [τ*], ue, ν [τ]) — h (τ*, χ [τ*], щ [τ], v*e))> =
= <*[τ*]·Μτ*> *fr*b ue, ν[τ])> —
— <s [τ*] -h (τ*, χ [τ*], щ [τ], v«e)> <
< max <5 [τ*] -й, (τ*, χ [τ*], ue, ν)} —
— min <5 [τ*] -h (τ*, ж [τ*], и, ν^)> =
wep
= min max <s [τ*] · Α (τ*, ж [τ*], и, ν)} —
USP »=Q
— maxmin <s [τ*]-й (τ*, χ [τ*], w, р)>. (25.28)
i?eQ usp
При условии (8.14) правая часть (25.28) равна нулю. Но
тогда из (25.14) снова следует оценка (25.17). Это и доказывает
обсуждаемый вариант леммы 25.1.
Сформулируем его отдельно.
205
Лемма 25.3. Пусть выполнено условие (8.14). Тогда для
любого ε>0 найдется δ(ε)>0 так, что справедливо следующее
утверждение. Пусть {τ*, y[T„.]}e(j*, {τ*, zl^JJeC* и число
τ* е (τ*, Щ удовлетворяет неравенству (25.8). Пусть движения
^[τ*[·]τ*] и ζ[χ%[-]τ*] порождены реализациями (25.2), (25.27)
совместно с какими угодно допустимыми реализациями
yfr#[']T*) u и*[т*Ыт*)· Тогда выполняется неравенство (25.9)
при всех ίεΐτ*, τ*].
В построения, предшествующие лемме 25.2, внесем следующие
изменения. Вместо функции ve(u), которая удовлетворяет
условию (25.22), определим вектор ve^Q из условия
тах<5[т^./г(т*,#[т*], и, ve)> =
и(=р ι
= лаптах (s [x#]-h (τ%, χ [τ*], и, ι;)> (25.29)
и вместо реализации (25.24) используем реализацию
ve [τ* [ · ] τ*) = {ν [τ] = »„ τ* < τ < τ*}. (25.30)
Остальные построения сохраним прежними. При указанных
изменениях лемма 25.2 также остается справедливой, если
только выполнено условие (8.14). Доказательство получающегося
варианта леммы 25.2 отличается от доказательства
соответствующего варианта леммы 25.1 опять
лишь деталями, связанными с
переходом от условий (25.4), (25.5)
к условиям (25.23), (25.29). Это
доказательство опустим.
Итак, верна следующая лемма·
Лемма 25.4. Пусть
выполнено условие (8.14). Тогда для лю-
~^Т бого ε>0 найдется δ(ε) >0 таку
что справедливо следующее ут-
Рис. 25.1. верждение. Пусть {τ*, у[т#]}^
бб*, {τ*, z[tJ}gC* и число
τ* е (τ*, Φ] удовлетворяет неравенству (25.8). Пусть движения
У [τ# ['] τ*1 и ζ Ιτ* [·] τ*1 порождены реализациями (25.30), (25.23)
совместно с какими угодно допустимыми реализациями и[х*[-\%*)
и у* [τ* [·] τ*). Тогда выполняется неравенство (25.9) при всех
*е=[т*, τ*].
На рис. 25.1 приведены результаты вычисления движений
#[**Н**] и *tf*["l**l на отрезке £*<*<**, где t* = 1, ί* = 2
для случая, когда уравнения (24.3) и (24.14) имеют вид
-Й-ft-V0—1- <25·32)
а ограничения таковы: Μ ·< 3, \ν\ ^ 3.
206
ζ —
Здесь выполнено условие (8.14). Отрезок [£#, £*] разбит
точками U на четыре части [£*, t2) = [tu t2), [£2, £3)> 1*з> h)i [*4>
ί6] = [ί4ί ί*]. Каждый из частичных отрезков [£*, ti+i] играет роль
того отрезка [τ*, τ*], который фигурировал в леммах этого
параграфа.
Исходные данные таковы: ί* = 1, t* = 2, χ* = 1, ##2 = 0,05,
ζ*ι=0,95, ζ*2=0· В каждый момент U выбраны воздействия ие=*
*=иеШ и у*б = г>*Л**] из условий (25.4) и (25.27) (при τ* = ί|),
воздействия и* [τ] и ν[χ] выбраны такими:
(-1,2,
0,8,
0,4,
1 1Д
ί—0,8,
0,5,
0,2,
0,8,
1,0 <τ< 1,25,
1,25 < τ < 1,5,
1,5 <τ< 1,75,
1,75 <τ< 2,0,
1,0 <τ< 1,25,
1,25 < τ < 1,5,
1,5 <τ< 1,75,
1,75<τ< 2,0.
Для первого отрезка [£#, t2] = [tu t2] вектор sltj — yitA —
— z[ij определен выбранными исходными позициями: sjij =»
= 0,05, s2UJ=0,05. Для каждого из последующих отрезков
[£*, £{+1] (i = 2, 3, 4) значения вШ = уШ — zlt{] определены
векторами y[t{] и zUJ, которые получаются на движениях я-объекта
и z-модели, реализующихся на предыдущем отрезке [£*-4, ij.
На рис. 25.1 изображены фазовые траектории систем (25.31)
и (25.32) при выбранных начальных условиях и управляющих
воздействиях.
§ 26. Оценка оптимального результата
Дадим оценку гарантированного результата ри(-) (7.17),
используя функцию р(£, ζ), которая обладает ^важным для этой цели
свойством стабильности. Пусть удалось тем или иным способом
построить функцию р(£, ζ), которая определена в области G*
(24.16) и удовлетворяет следующим условиям.
1. Справедливо равенство
ρ(θ, ζ) = σ(0, Η?)μ(ί - θ) + ζη+ι (26.1)
при всех |и?|<Я*[ф], |ζη+1| ^Γ*[ΰ·]. Здесь символ μ(ί = 0)
обозначает меру из функционала (7.4), отвечающую точке £ = 0.
2. Функция pit, z) удовлетворяет по переменной ζ условию
Липшица
Ιρ(ί, *<*>) -p(f, z(2))l <λ(2β·2)|ζ(1) -ζ<2>| (26.2)
для tt, ζ(1>} e G*, {ί, ζ(2>} s G*.
3. Справедливо равенство
ρ(ί, ζ) = ρ(ί, {и?, 0» + ζη+ιι (26.3)
207
какова бы ни была позиция {£, zleG*. Функцию p(J, {w, 01)
будем для краткости обозначать р(£, w). Таким образом, следует
иметь в виду равенство
ρ(*,{α>,0}) = ρ(ί,Η>). (26.4)
Будем использовать также символы pit, у) и
p(f,a:) = p(M*,0», (26.5)
которые получаются из предыдущих обозначений при замене ζ
на у и w на х. Вследствие принятого в § 24 условия о неизменной
связи между векторами у и χ, ζ и w названные символы не
должны приводить к недоразумениям.
4\ Функция р(£, ζ) обладает свойством и-стабильности. Это
означает следующее. Какова бы ни была позиция модели {τ*,
z[tJ}gC*, каковы бы ни были значение τ* е (τ*, θ], число
ε >0 и функция у(") = Ым)е^ и<^Р}, найдется
кусочно-постоянная реализация и% [τ* [ · ] τ*) = {щ [τ] gP, τ* ^ τ < τ*}
такая, что для движения модели ζ [τ* [·] τ*], порожденного из
позиции {τ*, ζ [τ*]} этой реализацией управления и* [τ* [·] τ*) и
реализацией контруправления ν* [τ* [· ] τ*) = {ν (щ [τ]), τ* ^ τ < τ*},
будет выполнено неравенство
Ρ (τ*, ζ[τ*])+ J σ(τ, «;[τ])μ(ώτ)<
[τ*,τ*)
< Ρ (τ*, ζ [τ*]) + ε (τ* - τ*). (26.6)
Обратим внимание, что в условии (26.6) интеграл
вычисляется по полуинтервалу [τ*, τ*). Точка τ = τ* в область
интегрирования не включается.
Справедливо следующее утверждение.
Лемма 26.1. Пусть выполнены условия 1—3, 4tt. Тогда
существует стратегия и*(£, χ, ε), для которой гарантированный
результат ρ [и* (·); £*, ж*](7.13) удовлетворяет неравенству
Ρ№*(·); **, я*]<р(**, я*), (26.7)
какова бы ни была исходная ПОЗициЯ {*%, «£*/ €= (*·.
Докажем лемму. Искомая стратегия w*U, ж, ε) (7.6), для
которой справедливо неравенство (26.7), определяет законы
управления ^2/(7.7), работающие на основе информации о
реализующихся позициях {и,хШ}. Построим подходящую функцию и*(·).
Пусть выбрано какое-то значение ε > 0, удовлетворяющее
неравенству
ε < ε* = α2 ехр {_2λ(24·22)(# - ί.))/(1 + * - ίο) =
- (α/λ(24·24))7(1 + Ο - ί0), (26.8)
где α —число из условий (24.16)—(24.18). Такой выбор ε
обеспечит в дальнейшем сохранение всех рассматриваемых позиций
в области G*. Так как по смыслу параметра ε требуются лишь
достаточно малые его значения, условие (26.8) не ограничивает
208
общности построений. Возьмем какую-нибудь пополненную
позицию {*, y)=*it, {#, yn+l)}^G[y\ где Glvl есть область (24.10).
Определим для точки у сопутствующую точку z{t, у, в) = {w(t, у, ε),
zn+l(t, у, ε)} согласно условию
ρ (ί, ζ (t, y, ε)) = min ρ (ί, ζ), (26.9)
ζ
где минимум находится при ограничении
vU, ι/,ζ)<ε + ε(ί- ίο). (26.10)
По определению функции ν(·) (25.7) неравенство (26.10)
равносильно неравенству
|^-ζΙ^[ε + ε(ί-ί0)]1/2βχρ{λ(24·22)(ί-ίο)}. (26.11)
Вследствие непрерывности функций р() и ν(·) по аргументу
ζ значение этого аргумента, дающее минимум (26.9) при условии
(26.10), существует. Минимизирующая точка ζ может быть не
единственной. Выберем в качестве ζ(ί, г/, ε) какую-нибудь одну
определенную из этих точек. Таким образом, при всяком ε > 0
из (26.8) для каждой позиции {ί, у} е Giv] определится по одной
определенной сопутствующей точке ζ(ί, г/, ε). Вследствие (26.11)
по выбору ε, стесненного условием (26.8), и по выбору {ί, у) ^
е= G[y} (24.10) всякая сопутствующая позиция {£, z(t, у, в)} лежит
в области G* (24.16). Обсудим задачу (26.9), (26.10). Пусть
s = y-z. (26.12)
Обозначим символом I = {Zt, ..., Zn} вектор, составленный из
первых га-компонент вектора s. Таким образом, s — {Ζ, sn+i} (Si =
= Ζι, i=l, ..., n), и вследствие обозначений у — {#, yn+il, z =
= {м7,2n+1} имеем 1 = х — га. С учетом равенства (26.3) задача
(26.9)—(26.11) о вычислении вектора
z(t, г/, ε) = {w(t, у, ε), zn+i(t, у, ε)} (26.13)
принимает вид
Ρ (t, w & у, ε)) + zn+1 (*, у, ε) = min [p (ί, w) + zw+1], (26.14)
где минимум вычисляется при ограничении
\χ-ιν\2 + Ι^η+ι-2η+1|2^
<[в + ε(ί - /о)! ехр {2λ(24·22)(ί- ίο)>. (26.15)
В записи через переменную s (26.12) задача (26.14), (26.15)
сводится к такой проблеме: найти вектор
Ч = {Z*, s^Ti} = y — z(t,y, ε), (26.16)
который удовлетворяет условиям
ρ (£, χ — Ζ*) + уп+i — **л+1 =
= min [ρ (ί, χ — Ι) + уп+1 — 5Л+1] (26.17)
14 η. Η. Красевскмй 2Θ9
при
\l\2 + 4+i < [ε + β (t - ί0)] exp {2λ(2422) (ί - ί0)}. (26.18)
Из (26.17), (26.18) явно видно, что для вычисления вектора
(26.16) не требуется знать величину #η+ι, так как значения yn+i
в левой и правой частях (26.17) взаимно уничтожаются. Стало
быть, искомый вектор s# можно определить из условий (26.17),
(26.18) как функцию только от t, ε и х. Итак, сопутствующая
точка zit, у, ε) (26.13) определяется равенством
zit, У,г)=*у- sit, χ, ε), (26.19)
где вектор
sit, χ, ε) я {lit, χ, ε), sn+iit, χ, ε)} (26.20)
является решением задачи
ρ (£, χ — Ι (ί, χ, ε)) — sn+1 (£, ж, ε) =
= min [ρ (t, χ — Ι) — sn+1] (26.21)
{*»4ι+ΐ}
при ограничении (26.18). Задача (26.17), (26.18) может иметь не
одно решение s%. Выбираем для каждой позиции U,ж}еб в
качестве вектора sit, χ, ε) (26.20) одно из этих решений. Этот
вектор sit, χ, в) определит для каждой пополненной позиции it, у) =*
— {t, ix, i/n+i)} e Glyl единственную сопутствующую позицию
{t, zit, у, ε)> = it, {wit, у, ε), zn+iit, у, ε)» e= G*, где вектор zit, у, ε)
определен равенством (26.19).
Определим значение и*it, χ, ε) для конструируемой функции
&*(·) условием
max <5 it, χ, г) ·h it, χ, и* it, χ, ε), ι;)> =
= minmax<s(£, χ, ε)·&(£, ж, и, ν)}. (26.22)
Это условие назовем условием экстремального сдвига для и.
Вследствие непрерывности функции М) (24.4) по и, ι; и
компактности множеств Ρ и Q значение и, удовлетворяющее
условию минимакса (26.22), существует. Оно может быть не
единственным. Для всякого ε > 0 из (26.8) и каждой позиции it, x] e
^ G назначим одно определенное значение u*it, χ, ε). Таким
образом, определится искомая функция и*(·).
Зафиксируем некоторое значение ε и выберем разбиение
Δδίίι) с шагом б, который в соответствии с леммой 25.1
обеспечивает условие (25.9). Рассмотрим для объекта пополненное
движение ]/[**[·] θ], порожденное из некоторой позиции {£#, ##}е
^ G^y\ i/*n+i = 0 законом управления
%2в.23) = {"*(·), ε, AJ, (26.23)
который отвечает сконструированной функции u*i·) (26.22),
выбранным параметру ,ε и разбиению A6iti). Пусть при этом
работает какая-то реализация помехи ν It* [·]θ). Рассматриваемое
210
движение определяется как решение пошагового
дифференциального уравнения
У = Ш, у, иЧи, хШ, ε), vlil), f<<t<fi+i, ί-l,..., ft, (26.24)
при начальном условии у [t#] = y[tx\ = у*. Наряду с движением
# U* l·]^] рассмотрим сопутствующее (воображаемое) движение
з[**[']*1 Для модели. Это движение строится из позиции {£#,
ζ*} = {£#, z(t*, у*, ε)} по шагам U^t<ti+l следующим образом.
(Здесь U — моменты из того же разбиения Δβ{£<} из (26.23), на
котором базируется движение у[£* 1·]θ].) Пусть к моменту
^реализовалась часть движения у [t% [·] ti]={x[t% [·] £*], yn+i [*# [·] it]}
В том числе реализовалась пополненная позиция iU, y[tt]}.
Этой пополиежной позиции {£*, y[Q) отвечает сопутствующая
ей позиция
{U, z(U, уШ, ε)} =
= {U, {w(th хШ, ε), zn+l(ti, уШ, ε)» =
= Uu {хШ - KU, аЗД, ε), Уп+М - sn+l(tu хШ, ε)». (26.25)
Часть z[ti[-]ti+i) сопутствующего движения ζ [£*[·]*]
формируется, исходя из сопутствующей позиции (26.25). (Значение
Уп+Ли] в (26.25) мы можем не знать. Это не мешает нам
вообразить движение z[ti[-]ti+l).) Построим функцию *>*<»(·) (25.3) в
соответствии с условиями (25.5), где х% = t^
s [τ*] - s [ti] = s (tu χ [t^ ε) (26.26)
и χ[τ%] =χ[ti\, причем xiu] есть компонента реализовавшейся
пополненной позиции {и,уШ). Для позиции {£<, z(tu уШ, ε)>
(26.25), для функции v*e (·)> значения τ* =» ti+l и числа ε подберем
в соответствии со свойством и-стабильности 4й подходящую
реализацию управления и* [£{[·] ti+1). Рассматриваемый кусок
сопутствующего движения z[til-]ti+i) ={z[tl, ti^t<ti+i} будет
частью zli}lii[-]ti+i) вспомогательного движения ζίι3[ί<[·1ί<+1] ==»
■=- izli][ti, U < t < ti+i], которое порождается из позиции {tu
z(ti, уШ, ε)}, выбранной реализацией управления и* [ti [·] ti+1)
и реализацией контруправления v*e [ti [ ·] ti+1) (25.6), построенной
на основе функции v*e(>) (см. рис. 26.1).
Итак, z[i\ - (wit], Zn+dtl) = zl4ti - iwl4il, ζ^\λ Щ] (и <
<ί<ίί+ί). Согласно (26.6) для вспомогательного движения
zli4ti[']ti+i] будет справедливо неравенство
ρ (im, ζίύ [tl+1]) + J σ (τ, и<« [τ]) μ (άτ) <
< Ρ (tu * fa у [hi ε)) + ε (ί<+1 - fj)· (26.27)
Обратим еще раз внимание на разницу между частью ζ[£<[·]£ί+1)
сопутствующего движения ζ [£*[·] θ] и вспомогательным дви-
14* 211
жением 2w[fJMf<+il. Эта разница состоит в том, что движение
ζ|Λ·[·]*ί+ι) определено на полуинтервале [U, ti+i), где оно
совпадает с движением zm[rf, которое продолжается непрерывно до
момента t*=ti+i включительно. Сопутствующее движение в
момент ti+l будет определено уже новой сопутствующей точкой
- —·№
м
Рис. 26.1.
z(ti+u y[ti+l], ε). Таким образом, z[ti+il = z(ti+u */[£»·+J, ε) =
— zI<+11[f,+1l, и, вообще говоря, zU]lti+l\ ¥* z[ti+l] = zli+i][ti+il.
Поэтому сопутствующее движение z[i^.[-]d] получится, вообще
говоря, разрывным в точках t = tt.
По выбору в (26.24) реализации управления
aUMti+i) —ЫЙ = и*(*,·, zW, ε), *ι< *<{,„},
которая удовлетворяет условию (26.22) (при t = U, x = x[ti\),
и по выбору реализации контруправления и*е№ [·'] ii+i) Для
модели, для пары движений y[ti[-]ti+l] и zm[i<Mfc+1] будут
выполнены условия леммы 25.1. Таким образом, для этой пары
движений согласно (25.9) справедливо неравенство
v(f, уЫ, zU][t])^v(ti, уЩ, zitt, уШ, г)) + вИ-и) (26.28)
для всех значений ie [tu ti+i\.
Итак, мы рассматриваем пополненное движение у [£# [·] О]
объекта, сопутствующее движение ζ [t% [·] Щ модели и
вспомогательные движения z[<1[£iM£i+1] (1 = 1, ..., /с).
Будем рассуждать по индукции. Предположим, что
справедливо неравенство
Ρ (tu i( tu У Uil ε)) + J σ (τ, w [τ]) μ (άτ) <
<p(*^y*) + e(ti-i0). (26.29)
Неравенство (26.29) во всяком случае справедливо при i = 1,
т. е. для *г = **» !/[£г] = ]/*· В самом деле, по определению
212
сопутствующей точки z(t, у, ε) (26.9)—(26.11) имеем
p(ff*(ffy,e))«p(f,0) (26.30)
и, следовательно,
Ρ (*ι, ζ {tx, у [*d, ε)) < ρ (tlf у [*J) - ρ (*„, ym). (26.31)
Покажем, что при условии (26.29) будет справедливо
неравенство
ρ (fi+1, z (fi+1, ι/Ui+i], ε)) +
+ J σ (τ, ι* [τ]) μ (άτ) <ρ (*„ Λ) + ε (ti+1 - ί0), (26.32)
['••'i+l)
какой бы ни была реализация помехи i;[fc[-]£<+1). В самом деле,
учитывая условие (26.11) для сопутствующей точки z(U, уШ, ε),
получаем из (26.28) при t = ti+l следующее неравенство:
ν(ίί+1, yiti+l], z[i][ti+i\) <в + ε(ίί+ι - О. (26.33)
Это неравенство означает, что точка zii]lti+i] лежит в той же
области (26.11) (при t = ti+i), где лежит сопутствующая точка
zUi+i, yiti+l], ε). Отсюда по условию минимума (26.9) следует
неравенство
p(ii+1, z(f,+1, y[ti+i], ε» < p(ii+1, zl4ti+l\). (26.34)
Из (26.27), (26.29), (26.34) и следует доказываемое неравен^
ство (26.32). (При этом учитываем равенство w[t] = wli][t] при
ti<t<ti+l.)
Таким образом, по индукции, переходя от неравенства (26.29)
при значении U к такому же неравенству (26.32) при значении
ti+u притом начиная от tx = t% и кончая tk+l «=* φ, получаем, что
выбранный закон управления Ш^лъ) и выбранный способ
построения сопутствующего движения ζ [t% [·] О] гарантируют
неравенство
Р(*. *(»,?[»], в)) + J σ(τ,κ;[τ])μ(<Ζτ)<
< ρ (*„, ^) + ε (θ - ί0). (26.35)
Вследствие условия Липшица (7.1) для функции σ(ί, #), по
определению функции ν(·) (25.7), вследствие условий (26.10),
(26.11) для сопутствующих точек ζ(ί<, y[£j, ε) и вследствие
неравенства (26.28) получаем соотношения
Ισ(τ, ινίτ]) — σ(τ, χ[τ])\ ^
<λ(71)Ι*[τ] - ιν[τ]\ <Ь™\у[%] -ζίτΙΙ <
< λ(71)(ε + β (θ - О)1'2 ехр (λ(24·22)(θ - to)) (26.36)
213
при t* ^ τ < Φ. Таким образом, справедлива оценка
I J σ (τ, χ [τ]) μ (άτ) — J* σ (τ, μ; [τ]) μ (dx) Ι <
< Γ \ο(χ,χ[χ]) — σ(χ,ινΙχ])\μ(άχ)^
< λ(Μ)μ ([**, θ)) [ε + ε (θ - *0)]1/2 exp {λ(2422) (θ - *0)}. (26.37)
Из (26.35) и (26.37) вытекает неравенство
Ρ(*,*(θ,0[θ1,β))+ ί σ(τ,^[τ])μ(ώτ)<ρ(^,^) + ε(θ-ίβ) +
+ λ(7Λ)μ ([ί0, θ)) [ε + ε (θ - ί0)]1/2 exp (λ(24'22) (θ - ί0)}. (26.38)
Далее, согласно. (26.2) и по определению сопутствующей
точки z(t,y,e) (26.9)—(26.11) имеем
>р(«, уШ)-Х«*2)Ы®, уШ, г)-уШ\>
>p(fl, ^])-λ(2β·2)ίε + ε(θ-ί0)]1/2βχρίλ(24·22)ω-ίο)}. (26.39)
Из (26.39) и краевого условия (26.1) (где полагаем z~yl$],
w = хМ) вытекает неравенство
р(0, z(0, ι/[0], ε)) ^ σ(*[0])μ(* = *) + '
+ 0»*ι[φ] -λ(2β·2)[ε + ε(^-#α)]1/2βχρ{λ(24·22)(θ-ί0)}. (26.40)
Теперь из (26.38) и (26.40) имеем
yn+i№]+ f σ(τ, #[τ]) μ(dr)<ρ(ί*, у*) + ε (θ— ί0) +
[ί*,θ]
+ λ(7Λ) [ε + ε (θ - ί0)11/2 μ ([«,, 0]) exp {λ(24'22) (0 - ί0)} +
+ [ε + ε (θ _ g]Wx("-f) exp {λ(24·22) (θ - ί0)}. (26.41)
По смыслу величины ^п+ДЯ (24.7) при у*η+ι β 0 справедливо
равенство
θ
Уп+i [θ] - J χ (τ, χ [τ], и [τ], ι; [τ]) dx, (26.42)
и, стало быть, неравенство (26.41) означает оценку
j Χ (τ, χ [τ], и [τ], ι; [τ]) dx +
+ J σ(τ,^[τ])μ(ίίτ)<ρ(^, ^) + ψ(ε), (26.43)
где
lim ψ (ε) = 0. (26.44)
214
Эта оценка равномерна для всякого движения у [t% [ · ] Щ в
области G[y3, порожденного законом управления ^2/(2в.23), который
отвечает стратегии и*(·) (26.22) и у которого шаг разбиения
АьШ обеспечивает условие (25.9) для движений */[£*[·]£i+J и
zli][ti[-]ti+i] (i —1, ..., к). Но это означает следующее. Каким бы
ни задать число ξ > 0, при выборе достаточно малого значения
ε(ξ) > 0 (так, что ψ(ε) < ξ при ε < ε(ξ)) закон управления ^(2β.23)
при ε^ε(ξ) и при достаточно малом шаге δ(εΧ>0 (так, что
справедливо (25.9) при (25.8), где δ = δ(ε)) гарантирует
неравенство
о
J Χ (τ, # [τ], и [τ], ν [τ]) dx + J σ (τ, χ [τ]) μ (dx) <
< Ρ (**, У·) + ζ = Ρ (*·, **) + ζ- (26.45)
Вследствие произвольного выбора ξ > 0 это означает, что для
построенной стратегии и*(·) = {и*(£, ж, ε)} гарантированный
результат р[и*(·); £#, ^*1 удовлетворяет условию (26.7). Лемма
доказана.
Обратим внимание на следующее обстоятельство. При
определении гарантированного результата ρ №*(·); **» х*\ (7.13) он
был истолкован в § 7 следующим образом. Величина р[н*(·);
**» х*\ — наименьшее число, обладающее тем свойством, что для
любого ξ>0 найдутся ε(ξ)>0 и δ(ξ, ε) >0, ε<ε(ξ), такие, что
будет справедливо неравенство (7.14), если выполнены условия
(7.15). Для стратегии м*(·), которая построена при
доказательстве леммы 26.1, доказано по отношению к величине р(£#, х#)
несколько более сильное утверждение. Именно, доказано, что
найдутся ε(ξ)>0 и δ(ε) >0 такие, что для любого ξ>0 будет
справедливо неравенство (26.45), если выполнены условия
ε<ε(ξ), δ<δ(ε). (26.46)
Так как функция δ(ε) > 0 — частный случай функции δ(ξ, ε) >
>0, то из доказанного тем более вытекает неравенство (26.7).
Из леммы 26.1 следует такой вывод. Если некоторая функция
р(£, ζ) удовлетворяет условиям 1—3, 4й, то оптимальный
гарантированный результат
р° (f*, xm) - inf р[и(·); **, **] [(26.47)
удовлетворяет неравенству
pi (**,«*)< Ρ (*·.**), (26·48)
какова бы ни была исходная позиция {£#, г#}еб. (Напомним,
что по нашему соглашению ρ (ί*, χ*) = ρ (£*, ζ*) при z# = {χ*, 0}
(см. (26.5))). Определение оптимального гарантированного
результата pi(·) равенством (26.47) является более осторожным, чем
его определение равенством (7.17). Это более осторожное опреде-
215
ление (26.47) величины р£ (£*, х*) через нижнюю грань, а не
взятием минимума, используем здесь потому, что пока еще не
доказано существование оптимальной стратегии и°(·),
анонсированное в § 7. Доказательство существования и°(·) будет
завершено в §'29.
§ 27. Оценка оптимального контррезультата
Перейдем к оценке оптимального гарантированного результата
р?(·) (8.10). Пусть нашлась функция р(£, ζ), которая определена
в области G* (24.16) и снова удовлетворяет условиям 1—3 из
§ 26. (Как и выше в § 26, обозначаем для краткости pit, ίιν, 0)) —
= ρ(ί, w),) Пусть далее выполнено следующее условие.
4°. Функция р(£, ζ) обладает свойством v-стабилъности. Это
означает следующее. Каковы бы ни были позиция {τ*, zft^DeC*,
значение τ* е (τ*, О], число ε > 0 и кусочно-постоянная
реализация щ [τ* [·]τ*), найдется кусочно-постоянная реализация
ρ* [τ* [ · 1τ*) такая, что для движения ζ[τ#[·]τ*], порожденного
из позиции {τ*, ζ [τ*]} названными реализациями управлений
н# [τ* [ · ] τ*) и ι>*[τ*[·]τ*)» будет выполнено неравенство
ρ (τ*, ζ [τ*]) + j σ (τ, w [τ]) μ (άτ) >
[τ*,τ*)
>ρ(τ*,ζ[τ*1)-β(τ*-τ»). (27.1)
Условие стабильности 4υ отличается от условия стабильности
4U из § 26. Помимо изменения направления неравенства при
переходе от (26.6) к (27.1), отличие в условиях 4й и 4υ вызвано
различием в характере функций u(t, х, г) и v(t, x, и, ε), которые
определяют стратегию и(-) (7.6) и контрстратегию vu(-) (8.1),
Справедливо следующее утверждение.
Лемма 27.1. Пусть выполнены условия 1—3 из § 26 и уело-
вие 4°. Тогда существует контрстратегия ν*(ί, #, и, ε), Зля которой
гарантированный результат Ρ [*;*(·); *#, я#] (8.7) удовлетворяет
неравенству
р[^(-);**>я*]>р(**> **)> (27.2)
какова бы ни была исходная позиция {£#, ^} G (?·
Контрстратегия νΜ(·)» для которой справедливо неравенство
(27.2), строится следующим образом. Пусть зафиксировано
некоторое значение ε > 0, удовлетворяющее условию (26.8). Возьмем
какую-нибудь пополненную позицию {£, у) е GIyl, где G[yl есть
область (24.10). Построим для точки у сопутствующую точку
z(t,y,s), исходя из условия
Ρ (*, ζ (ί, у, ε)) — max ρ (f, ζ), (27.3)
ζ
где максимум вычисляется при ограничении (26.10) или, иначе
говоря, при ограничении (26.11). Как и выше в случае сопутствуй
216
ющих точек z(t, у, ε), удовлетворяющих условию (26.9), здесь тоже
при всяком ε >0, которое удовлетворяет условию (26.8), для
каждой позиции it, у] е G[y] назначим по одной определенной
сопутствующей точке zit, у, ε). Рассмотрим вектор
sit,х,е)=у — zit, у, ε). (27.4)
Как и в случае вектора sit, χ, ε) (26.20), выясняется (см. для
сравнения § 26), что вектор sit, χ, ε) (27.4) действительно
определяется как функция от ί, е и лишь от компоненты χ вектора у =
={х, yn+J. При этом вектор sit, χ, ε) = {lit, χ, ε), sn+lit, χ, ε)}
является решением задачи
pit, χ—I it, χ, ε)) — sn+1 it, χ, ε) == max [ρ (£, χ — Ι) — sn+1], (27.5)
{ι**η+ι}
где максимум ищется при ограничении (26.18).
Имея вектор-функцию sit, χ, ε) для {t, x)^G, определим
искомую контрстратегию у* (·) = {у* Ц, х, и, ε), {t, rfeG, и^Р, 0 <
< ε < ε*} условием
<s(£, x, в)-hit, χ, и, ν* it, χ, и, ε))> =
= min<s(£, χ, ε)-hit, χ, и, ν)}. (27.6)
t>sQ
Это условие назовем условием экстремального сдвига для v.
Вследствие непрерывности функции W·) по и и ι; и вследствие
компактности множества Q заключаем согласно материалу из § 3,
что можно определить функцию v*it, x, и, ε), удовлетворяющую
условию (27.6) и измеримую по и&Р. Итак, мы определили
некоторую контрстратегию i;u(·). \
Рассмотрим для ^-объекта пополненное движение у [£# [·] θ],
порожденное из какой-либо исходной позиции {£#, у*} = {t%, {х%,
0}}> {**, x*)^G законом формирования помехи
K7.7)=lv*ui.),e, Δ6}, (27.7)
отвечающим контрстратегии νΖ(·) (27.6). Предположим, что для
назначенного ε шаг δ разбиения Ай в (27.7) в соответствии с
леммой 25.2 обеспечивает условие (25.9). Пусть при этом
осуществляется какая-то реализация управления u[t# [·]$).
Рассматриваемое движение определяется как решение пошагового
уравнения
у = hit, у, uit], v*iu, хЩ, ιάί\, ε)),
U ^ t < *i+1, i = 1,..., k, (27.8)
при начальном условии у [t #] = у* = {х#, 0}. Для такого движения
У U*l·] Ф] оказывается справедливым следующее неравенство:
о
Уп+i №]+ ) о (τ, χ [τ]) μ (eft) = ) Χ (τ, χ [τ], и [τ], ν [τ]) dx +
+ ί oix,xb\)vidi)>pit*, **)-ζ, (27.9)
[ί*,θ]
217
каким бы ни было наперед указанное число ξ > 0, если только
число ε > 0, а вместе сей число δ > 0 будут выбраны достаточна
малыми. Доказательство неравенства (27.9) проводится по такому
же плану, как и доказательство неравенства (26.45). Изменения в
рассуждениях связаны только с другим направлением
доказываемого неравенства, с заменой свойства ^-стабильности на
свойство ^-стабильности, с заменой условия (26.22) на условие (27.6)
и, наконец, с заменой леммы 25.1 на лемму 25.2. Отмеченные
изменения понятны.
При этом шаг индукции от U к £i+1, который при
доказательстве леммы 26.1 состоит в переходе от неравенства (26.29) через
(26.27) и (26.28) к неравенству (26.19), здесь при доказательстве
леммы 27.1 будет состоять в переходе от неравенства
р(*ъ zfc, у [til ε)) + J о (τ, w [τ]) μ (άτ) >
['••'ι)
>р(Ь,У*)-*(Ь-Ь) (27.10)
через неравенства (26.28) и неравенство
ρ (f1+1, *W [ί1+1]) + J σ (τ, ΐρΓ«[τ]) μ (άτ) >
[Vi+i)
> Ρ (*i, ζ (tu у [**], ε)) - ε (ί1+1 - Ц) (27.11)
к неравенству
Ρ (*ι+ι, ζ (tf+lt у [ίί+J, ε)) + J* σ (τ, χ [τ]) μ (άτ) >
1'·»**+ι)
> Ρ (**, У*) - ε (ί1+1 - f0). (27.12)
Промежуточное неравенство (27.11) доказывается
рассмотрением пополненного движения y[ti[-]ti+i] (27.8) и вспомогательного
движения ζ[<1[£|[·]£*+1]. Это вспомогательное движение
порождается из позиции {£<, z(i<, уШ, ε)} управлениями и* [£$ [·] £i+1) -«
= {u+[t] = w,g, ii< t < f4+1} и ν* [ti [·] ii+1), где вектор и«е выбран
по условию(25.23), а реализация ν* [£* 1·1 h+i) подбирается затем
по условию ^-стабильности так, чтобы было справедливо
неравенство (27.1) (при τ* = tu τ* = fi+1, χ [τ*] = χ Щ, s [τ*] = s (tu
z[ti\, ε))· Для этой пары движений справедлива лемма 25.2, т. е.
справедливо неравенство (26.28), которое вместе с (27.1) и
доказывает (27.11). А отсюда следует неравенство (27.12),
обосновывающее нужный шаг индукции от U к ii+i. Эта индукция и
приводит к оценке (27.9).
Вследствие произвольного выбора ξ > 0 неравенство (27.9)
означает, что для построенной контрстратегии vu(-) = {у* (£, х, и, ε)}
гарантированный результат p[tfu(·); £*, #*] удовлетворяет
условию (27.2). Это доказывает лемму 27.1.
Из леммы 27.1 следует вывод. Если некоторая функция р(£, ζ)
удовлетворяет условиям 1—3 из § 26 и условию 4°, то оптималь-
218
ный гарантированный результат
р2(**, **) = sup ρ[Μ·); **, **] (27.13)
удовлетворяет неравенству
Ρ? (**, л:*) >Ρ (**, **)> (27.14)
какова бы ни была исходная позиция {£#, ж*} е б.
Предположим теперь, что нашлась функция р(£, ζ),
определенная в области G* (24.16) и удовлетворяющая всем условиям 1—3,
4й из § 26 и условию 4". Тогда функция р(£, χ) =ρ(ί, ix, 0»
оказывается ценой дифференциальной игры {7.1; 8.0. В самом деле,
согласно леммам 26.1 и 27.1 существуют стратегия и*(·) и
контрстратегия vu(·), для которых справедливы неравенства
ρ [и* (·); *·, х*] <Р (*·, *·), (27.15)
Ρ [vt('); **, **] >Р (*♦, **) (27.16)
для всех {i*, x%}^G. Согласно лемме 8.1 справедливо
неравенство
ρ Ы (·); **, **] > р 1М-); **> **Ь (27.17)
каковы бы ни были стратегия и(·), контрстратегия vu(·) и позиция
{**, #*}<=<?. Из (27.15)—(27.17) следует, что
Ρ [и* (·); *·, **] = min Ρ Iй (·); **» ~*Ь (27.18)
u(.)
Ρ [*>*(·); **> **] =maxp[yu(.); **, **], (27.19)
причем
ρ [и* (·); ί*, яг«] = ρ [^(·); **» **] = Ρ (**> **) (27.20)
для всех позиций {ί*, ^}eG. Но равенства (27.18) —(27.20)
означают, что функция р(£, х) есть цена игры
p(t,x)=p°(t,x), (27.21)
а стратегии w*(·), vu(m) суть оптимальные стратегии
»·(·)-»·(·), *:(·)-«£(■), (27·22)
составляющие седловую точку игры {7.1; 8.1}. Добавим еще, что
вследствие равномерности оценок для ε > 0 и δ > 0, которые при
условиях 1-3, 4tt и 4" для данного ξ > 0 гарантируют неравенства
(26.45) и (27.9), заключаем, что цена игры р°(£, х) (27.21)
является равномерной по {£#, х*} е G. Вспоминая еще замечание из
§ 26, отметим следующее. Оптимальные стратегии и°(·) и ι>°(·)>
построенные по цене игры р°(£, х) в соответствии с условиями
экстремального сдвига (26.22) и (27.6), обеспечивают
соответственно правое и левое из неравенств (8.23), если параметр ε>0 и
шаг δ > 0 выбираются из условий (26.46), в которых ограничение
219
на δ > 0 не включает непосредственно значение ξ. Иначе говоря,
конструируя оптимальные стратегии и°(·) и Vu(-)kblk стратегии,
экстремальные к цене игры р°(£, #), можно обеспечить
неравенства (8.23), выбирая шаг δ > 0 разбиения Δδ{£<} только по
значению ε, которое уже назначается по заданной величине ξ > 0. Это
утверждение в согласии с замечанием из § 26 следует прямо из
доказательства леммы 26.1 и из доказательства леммы 27.1, к
которому можно было бы сделать такой же комментарий, как и
упомянутое замечание из § 26.
Рассмотрим теперь случай, когда выполняется условие (8.14)
седловой точки маленькой игры. Тогда согласно замечанию в
конце § 25 будут справедливы леммы 25.3 и 25.4, т. е. такие варианты
лемм 25.1 и 25.2, в которых вместо функций v*e (·) и i>e(),
удовлетворяющих условиям (25.5) и (25.22), фигурируют векторы v*e
и ve, определенные из условий (25.26) и (25.29). Но тогда при
выполнении для функции р(£; ζ) условий 1—3, 4υ можно доказать
следующий вариант леммы 27.1.
Лемма 27.2. Пусть выполнено условие (8.14) и справедливы
условия 1—3 из § 26, 4°. Тогда существует чистая стратегия
ν*(·) = {y*(i, χ, ε)}, для которой гарантированный результатρ[ι?*(·)»
£*, х*\ (8.7) удовлетворяет условию
Ρ [у* (·); *#, х.] > Ρ (**, *#), (27.23)
какова бы ни была исходная позиция {i*, x#}eG.
Стратегия v*(-) строится следующим образом. Назначим число
ε > 0, удовлетворяющее условию (26.8). Построим для позиции
{£, х) и зафиксированного ε вектор s(t, #, ε) (27.5), (26.18).
Искомая стратегия ν*(·) определяется для данных {£, #, ε} из условия
max <5 (£, х, е)-/г (ί, χ, и, у* (£, χ, ε))> =
= minmax <s (t, χ, ε)-/г (t, x, u, y)>. (27.24)
v~Q u<=P
Доказательство неравенства (27.23) для стратегии ι;*(·),
определенной условиями (27.24), проводится по тому же плану, как
и доказательство неравенства (27.2) для контрстратегии уп(-)>
определенной условием (27.6). Рассматривается пополненное
движение у [t* [ · ] θ] для ^-объекта, порожденное из какой-либо
позиции {ί*, {α:*, 0}}, {ί*, x*}^ G законом формирования помехи
Ли.««-<»*(·), в, М, (27·25)
отвечающим стратегии ι>*(·) (27.24). Это движение определяется
как решение пошагового дифференциального уравнения
у = Ш, у, u[tl, vHti, хШ, ε)), t,< ί < fc+11 i = 1,..., k, (27.26)
при начальном условии у [t*\ = {χ*, 0}. Здесь uiil — какая-либо
реализация управления. Для рассматриваемого движения у №*[-]Щ
опять будет справедливо неравенство (27.9), если только число
220
ε > 0, а затем πο_ ε число δ > 0 будут выбраны достаточно
малыми. Доказательство (27.9) здесь будет отличаться от
доказательства его в случае леммы 27.1 только в одном пункте. В ходе
доказательства леммы 27.1, где не предполагается выполненным условие
(8.14), при обосновании шага индукции от (27.10) через (26.28)
и (27.11) к (27.12) надлежит рассматривать пару движений
y[ti[]ti+l] и z[i3[iiMif+1], для которых справедлива лемма 25.2. Это
и позволяет использовать неравенство (26.28). Теперь при
выполнении условия (8.14) на каждом шаге ti<t<ti+l индукции
рассматривается пара движений y[tii-]ti+l] и ζ1ι1[£»ϊ·]£ί+1], которые
порождаются управлениями ultJL 1 ti+i) и и% [ti [ · ] £i+1) =
=и*ЛМ-]£н-1), *>* [** [·] h+i)и помехой vltil-]tl+l) = {vit] =v*{tir
хШ, ε), ti < t< ti+i). Здесь u**fa [·] ti+1) есть управление (25.21),
(25.23), а реализация ν* [ti [·] ti+1) подобрана по условию 1>-ста-
бильности так, что выполнено условие (27.1) (при τ* = t{, τ* = tr
χ [τ*] = χ [ti], s [τ*] =s fa, x [ti], ε)).Рассматриваемая пара
движений yltii-tii+J и z[i}[t{[']ti+l] будет удовлетворять условиям
леммы 25.4. Поэтому неравенство (26.28) остается справедливым.
Таким образом, здесь сохраняют силу все оценки, которые
используются при доказательстве неравенства (27.9). Вследствие
произвольного выбора ξ>0 неравенство (27.9) означает
выполнение условия (27.23). Это доказывает лемму 27.2.
Заметим еще, что при выполнении условия (8.14) свойство
w-стабильности 4W (§ 26) достаточно формулировать в следующей
ослабленной форме. Назовем этот ослабленный вариант 4й усло-
вием 4#.
4^. Какова бы ни была позиция {τ*, ζ [τ*]} е С?*, каковы бы
ни были момент τ * е (τ*, О], число ε > 0 и вектор ν* ^ Q, найдется
кусочно-постоянная реализация управления и* [τ* [·] τ*) такая,
что для движения ζ[τ#[·]τ*], порожденного из позиции {τ*, ζ [τ*]}
управлениями щ [τ* [ · ] τ*) и ν* [τ* [·] τ*) = {ι; [τ] = ν*, τ* <
2^τ< τ*}, будет выполнено неравенство (26.6).
В самом деле, при выполнении условия (8.14) будет справедлив
следующий вариант леммы 26.1.
Лемма 27.3. Пусть выполнено условие (8.14) и справедливы
условия 1—3 из § 26, 4*. Тогда существует стратегия u*(t, χ, ε),
для которой гарантированный результат ρ [и* (·); ί*, χ%] (7.13)
удовлетворяет неравенству (26.7), какова бы ни была исходная
позиция {£#, х*} е G.
Доказательство леммы 27.3 повторяет доказательство леммы
26.1 с той лишь разницей, что здесь при обосновании шага
индукции от (26.29) через (26.27), (26.28) к (26.32) используется лемма
25.3 и условие ^-стабильности 4*. При этом рассматривается
пополненное движение #[£»[·] ii+1] (26.24) и вспомогательное
движение zlu[ti[-]ti+i]. Это вспомогательное движение порождается из
позиции {и, ziti, уЩ, ε)} управлениями ν* fa [·] ί,+ι) = {ν* [t] = i;*e,
ti^t<Cti+1} и щ [ti [·] fj+i)» где вектор v*e выбран по условию
221
(25.26), а реализация и* [ί|Ι·1 ii+ι) подбирается затем по условию
ы-стабильности 4^, так чтобы было выполнено неравенство (26.6)
(все при τ* = fif τ* = im, χ [τ*] = x\U], s [τ*] = s (tu χ [ij, ε)).
Для этой пары движений справедлива лемма 25.3. Поэтому опять
неравенство (26.28) вместе с (26.6) обосновывает шаг индукции
от (26.29) к (26.32). А эта индукция приводит опять к оценке
(26.45). Это и доказывает лемму 27.3.
Из лемм 27.2 и 27.3 следует такой вывод. Предположим, что
нашлась функция р(£, ζ), определенная в области G* (24.16) и
удовлетворяющая условиям 1—3, 4*, 4". Тогда при выполнении
условия (8.14) функция р(£, х) = р(£, {#, 0}) оказывается ценой
дифференциальной игры {7.1; 8.2}. В самом деле, согласно леммам
27.2, 27.3 существуют чистые стратегии и*(·) и у*(·), для которых
справедливы неравенства
р[и*(·); **,**]<Ρ (**, *·)<Ρfo*(·); i*, x*\ (27.27)
для всех {ί*> #*}^ίτ· Согласно лемме 8.1 справедливо
неравенство (27.17), каковы бы ни были стратегия и(·) и контрстратегия
ι\ι(·). Чистая стратегия у*(·) является частным случаем
контрстратегии у£(·)· Поэтому из (27.27) и (27.17) следует (27.18)
и следует равенство
ρ [у* (·); tmt ζ*] = max ρ [у (.); tm, я*], (27.28)
Κ·)
причем
Ρ [у* (·); **, **] — Ρ № (0; **> *·1 = Ρ (*·ι **) (27.29)
для всех позиций {£#, ^}e(?. Равенства (27.18), (27.29) и (27.19)
означают, что функция ρ(ί, χ) есть цена
р°(*э*)-р(*,*) (27.30)
игры {7.1; 8.2}, а стратегии и*(·) и у*(·) суть оптимальные
стратегии
ц*(.) = и°(.), !>*(·)-»·(·>, . (27.31)
составляющие седловую точку этой игры.
Более того, из (27.27) и (27.17) следует и равенство
Ρ №*(·); **,**] = max p [yu (·);**, я*], , (27.32)
которое показывает, что при условии (8.14) оптимальный
гарантированный результат ρ [у0 (·)'»**» #*] нельзя увеличить, расширяя
класс допустимых чистых стратегий у(·) до класса -допустимых
контрстратегий у„(·) (и сужая при этом допустимые законы
формирования управления за счет исключения законов контрпомехи).
Наконец, аналогично неравенству (27.17), можно доказать
неравенство
ρΙΜ'); *·ι *·1>ρΗ·); **> **]> (27.33)
каковы бы ни были стратегия у(·) и контрстратегия и,(·). Но
222
тогда при условии (8.14) из (27.27) и (27.33) следует равенства
Ρ [и* (·); **, **] = min P \-uv (·); **> **h (27.34)
которое означает, что при условии (8.14) оптимальный
гарантированный результат р[и°(·)» £#, х*\ нельзя уменьшить, расширяя
класс допустимых чистых стратегий и(-) до класса допустимых
контрстратегий uv(·) (и сужая при этом допустимые законы
формирования помехи за счет исключения законов контруправления)..
Итак, материал данного параграфа приводит к выводу, что для
доказательства существования седловой точки {w°(·), Vu(-)}
дифференциальной игры {7.1; 8.1} в каноническом случае достаточно
доказать существование функции р(£, #), которая удовлетворяет
условиям 1—3, 4W § 26, и 4υ. Это будет сделано в следующих
двух параграфах.
§ 28. ^-процедура
В этом параграфе рассматривается один способ
формирования управления ν*[τ%[-]ϋ) для z-модели. Будем называть его
Q-процедурой. Определим эту процедуру так. Рассмотрим
множество всех возможных кусочно-постоянных функций
Μ[τ*[-]θ) = {Μ'[τ]€=Λ τ*<τ<θ}. (28.1)
Для данной исходной позиции {τ*, ζ%] ^-процедура есть
правило, которое каждой реализации и [τ* [ · ] О) ставит в
соответствие кусочно-постоянную функцию
1>Н-Мт]е& τ*<τ<0}. (28.2)
При этом выполнено условие неупреждаемости ν[-] по йЫ.
Это означает следующее. Если для двух функций ю(1)[·] и и(2)Ы
справедливо равенство
и(1) [τ] = и(2) [τ], τ* < τ < τ, (28.3)
то для отвечающих им функций v{i)[-] и у(2)[·] справедливо
равенство
νω [τ] = у(2) [τ], τ* < τ < τ. (28.4)
Функцию νΙΊ (28.2) мы называем кусочно-постоянной, если
весь полуинтервал τ* ^ τ < θ разбивается на частичные
полуинтервалы Хг < τ < ri+1 (г = 1, ..., Α, τχ = τ*, τΛ+1 = θ), на каждом
из которых справедливо равенство
уЫ = yfxj, т< < τ < τ<+1. (28.5)
Кусочно-постоянные функции и [τ* [·] θ) (28.1) также
полагаем непрерывными справа. Полуинтервалы постоянства
функций и[-] и функций ν[·] могут не совпадать.
Исходная позиция {τ*, ζ*} и некоторая ^-процедура
^[т#, ζ*] определяют пучок движений ζ[τ*[·]Φ], каждое из
22з
которых порождается некоторой реализацией υ,[τ*1-]ϋ) и той
кусочно-постоянной реализацией ι;[τ#[·]θ), которая поставлена в
соответствие реализации и [τ* [ · ] ft) выбранной ^-процедурой.
Зададимся некоторым числом β. Скажем, что ^-процедура
является β — Q-процедурой, если для всякого
порожденного ею движения 2[т.|.[*]Ф] справедливо неравенство
Ζη+ι [ft] + \ о (τ, w [τ]) μ (άτ) «
[ι*,θ]
о
= Zn+i [τ*] + J χ (τ, и; [τ], u [τ], ν [τ]) dr +
τ*
+ J σ (τ, μ; [τ]) μ (Λ) > β. (28.6)
[τ*,θ]
При этом в случае позиции {ft, 2*} будем говорить, что для
нее существует β — ^-процедура тогда и только тогда, когда
справедливо неравенство
σ (ft, w+) μ (τ = ft) + ζ*η+ι = σ(0, w [ft]) μ (τ = ft) + 2η+1 [θ]>β.
(28.7)
Отметим ряд свойств β — ^-процедур.
Лемма 28.1. Пусть дана позиция {τ*, ζ*} е G*, T^-^Cft,
для которой при данном значении β* we существует β* — (?-
процедуры Q[i*, z#]. Пусть выбраны момент времени τ* е
^(τ*» ^] ^ функция ν(·) — iv(u) e^, кеР}. Тогда существует
кусочно-постоянная реализация управления и* [τ* 1·] τ*), ι/3οβ-
летворяющая следующему условию. Реализации управлений
и* [τ* [·]τ*) и у* Ь* [·]**) = {у(^* W), τ* < τ < τ*} гаорождают'
ггз позиции {τ*, 2*} движение ζ[τ#[·]τ*], приходящее в позицию
{τ*, 2[τ*]} = {τ*, 2*}, для которой не существует β* — Q-npo-
цедуры £?[τ*, 2*], где
β* = β* — j <* (τ, μ; [τ]) μ (dr). (28.8)
[τ*,τ*)
Докажем лемму. В случае τ* = ft утверждение леммы
вытекает прямо из определения β — ^-процедуры Q [ft, z«] (см. (28.6),
(28.7)). Поэтому полагаем x*<ft. Предположим от противного,
что лемма неверна. Тогда при всяком выборе
кусочно-постоянной функции и* \%*\-\ τ*) получающиеся реализации управлений
^*[τ*[·]τ*) и у*1т;*[.]т*)= {ν (и* [τ]), τ*<τ<τ*} порождают
из позиции {τ*, ζ*} движение ζ[τ*[·]τ*], приходящее в
позицию {τ*, 2*}, для которой существует β* —- ^-процедура
<?[τ*, 2*], где значение β* определено равенством (28.8). Таким
образом, по нашему предположению всякой возможной позиции
{τ*, г*} = (τ*, 2ίτ*]} соответствует некоторое множество β* —
^-процедур £?[τ*, 2*1. Сделаем произвольный выбор (см. [12*],
с. 39) и поставим в соответствие каждой возможной позиции
{τ*, 2*} = {τ*, 2[τ*]} по одной отвечающей ей β* — ^-процедуре
224
#[τ*, 2*1. Назовем выбранные процедуры Ql%*, ζ*]
отмеченными. Склеим из отмеченных процедур ^Ιτ*, ζ*] подходящую
процедуру Q{x*> ζ*] следующим образом. Пусть выбрана
реализация
и [τ* [·] О) = {и [τ] gP, τ» < τ < θ}. (28.9)
Ее часть и [τ* [·] τ*) вместе с реализацией
ν[τ*[·]τ*)-{ι;(^[τ]), τ*<τ<τ*}, (28.10)
которая порождена этой частью и функцией ν(-) из условий
леммы, определит из позиции {τ*, ζ*} движение ζ[τ*[·]τ*]. Это
движение придет в позицию {τ*, ζ*}. Второй части ιι[χ*[·]ϋ)
выбранной реализации (28.9) отмеченная процедура ί?[τ*, ζ*]
поставит в соответствие кусочно-постоянную функцию
ν*ί·1={Ό*[χ\, τ*<τ<0>. (28.11)
Правило, которое реализации и[х%[-]$) (28.9) ставит в со*
ответствие кусочно-постоянную функцию
*Η==Μτ1-ι;(κ[τ]), τ*<τ<τ*;ι;*[τ], τ*<τ<#}, (28.12)
будет ^-процедурой Q[x*, ζ*]. В самом деле, это правило, как
вытекает прямо из его построения, удовлетворяет условию неуп-
реждаемости, которое выражено равенством (28.5) при условии
(28.4). В то же время по выбору отмеченных ^-процедур
Q[x*, ζ*] для каждого движения ζ [τ* [·]$], порожденного
склеенной ^-процедурой έ?[τ*, £*], т. е. порожденного из позиции
{τ*, ζ*} парой реализаций и[т*[-]т·) и ρ[τ*[·]0), будет
справедливо неравенство
Ζη+ι Щ + J σ (τ, w [τ]) μ (dx) > β* -
£τ·,0)
= β*- J σ (τ, и? [τ]) μ (Λ), (28.13)
[τ*,τ*)
т. е. неравенство
ί σ (τ, w [τ]) μ (dx) + ζη+1 Щ > β*. (28.14)
[τ*,θ]
Это означает, что склеенная процедура является β*—С-про-
цедурой Q[x*i ζ*]. Итак, предположение от противного,
сделанное в начале доказательства, позволяет построить
β*—^-процедуру ^[τ*, ζ*]. Но эта возможность противоречит условиям
леммы. Противоречие доказывает лемму.
Справедливо также следующее утверждение, в известном
смысле противоположное лемме 28.1.
Лемма 28.2. Пусть дана позиция {τ*, ζ*}, для которой
при данном значении β* существует β* — Q-процедура Q [τ*, ζ*].
Пусть выбраны момент времени τ* е (τ*, Щ и
кусочно-постоянная реализация управления и# [τ* [·]τ*). Тогда существует
кусочно-постоянная реализация управления ν* [τ* l·] τ*), удов-
15 н. н. Красовский 225
летворяющая следующему условию. Названные реализации
и* [τ#Ητ*) и ν#[τ*[·]τ*) порождают из позиции {τ*,ζ*}
движение ζ[τ#[']χ*], приходящее в позицию {τ*, ζ[τ*]} = {τ*, ζ*},
для которой существует β* — ^-процедура, где значение β*
определено равенством (28.8).
Докажем лемму. Опять достаточно рассмотреть случай τ* < О.
Пусть, стало быть, выбраны значение τ*<Φ и реализация
Щ 1τ# [·] τ*). Обратимся к β* — ^-процедуре Q [τ*, ζ*],
существующей по условиям леммы. Эта процедура и выбранная
реализация Μ#Ιτ*Μτ*) породят управление ι># [τ* Η τ*)> Τ0>
которое существующая β*— ^-процедура Q[x*,z*\ согласно
условию неупреждаемости ставит в соответствие при т^^т<;т*
всякой реализации и [τ* [·]$) (28.10), для которой
и [τ] = щ [τ], τ* ^ τ < τ*. (28.15)
Из позиции {τ*, ζ*} реализации управлений щ [τ* [·]τ*) и
ζ>*Ιτ*(')τ*) породят движение ζ[τ*!·] τ*], которое придет в
некоторую позицию {τ*, ζ*}. Построим для этой позиции
^-процедуру ^[τ*, ζ*] следующим образом. Пусть
»И-]*) = Ыт]еР, τ*^τ<<Μ (28.16)
есть некоторая кусочно-постоянная реализация. Соединяя ее с
данной реализацией Μ#Ιτ* 1·]τ*), получим реализацию
^[τΗί[.]θ) = {^[τ],τΗί<τ<τ*; и [τ], τ*<τ<#}/ (28.17)
Существующая β*—^-процедура Q{x*,z*\ ставит в
соответствие реализации йМ (28.17) некоторую функцию
у[.] = {у[т], τ*<τ<θ}. (28.18)
Правило, которое реализации и[т*МО) (28.16) ставит в соот- Л
ветствие функцию
νί·] = {ν[χ], τ*<τ<Φ}, (28.19)
будет ^-процедурой Qlx*, ζ*]. В самом деле, таким образом
вследствие условия неупреждаемости для Q [τ*, ζ*] каждой
реализации ulrH-]®) оказывается поставленной в соответствие
одна определенная функция (28.19). В то же время данное
правило, как вытекает прямо из его построения, удовлетворяет
условию неупреждаемости. Из построения этой ^-процедуры ί?[τ*, ζ*1
следует также, что всякое движение ζ[τ*Μ0], ею порожденное
из позиции {τ*, ζ*}, является частью движения ζΐτ,υ [·]θ],
которое порождено из данной позиции {χ%,ζ%} существующей β* —
^-процедурой Q[x*,z*\. Но для такого движения ζ [τ* [·] θ}
справедливо неравенство
ζη+ι№]+ J σ(τ,κ;[τ])μ(<Ζτ)>β*, (28.20>
[τ*,0]
226
т. е. справедливо неравенство
«я+1[0]+ J" σ(τ,ι*[τ])μ(Λ)>β*-
-β*- J σ(τ,ιυ[τ])μ(άτ). (28.21)
Ετ*,τ*)
Однако это означает, что для всякого движения г[т*Ыф],
порожденного построенной ^-процедурой ζ?[τ*, ζ*], справедливо
неравенство (28.21), т. е. построенная ^-процедура является β* —
^-процедурой ζ?ίτ*, ζ*], где число β* определено правой частью
(28.21). Это доказывает лемму 28.2.
Справедливы еще следующие утверждения о свойствах
^-процедур.
Лемма 28.3. Пусть существует β* — ^-процедура Q [τ*, ζ*]·
Тогда для позиции {τ*,ζ**} существует β** — ^-процедура
Git*,ζ**], где
Ρ** в Ρ*— ^ Ιζ#* ζ*|· (28.22)
35есь w
Я(2822) = λ(24·24)[(#- ί0)λ(2422) + μ([ί„ <Й)λ(71)] + 1. (28.23)
В самом деле, определим процедуру ζ?[τ*,ζ**] следующим
юбразом. Пусть всякой возможной кусочно-постоянной
реализации uft*[-]u) процедура Q [τ^, ζ%%] ставит в соответствие ту
же самую функцию νί·) = {уЫ, т#<1т<С0}, как и данная β*—
^-процедура Q [τ*, ζ*]. Тогда всякому движению ζ** ft* [·] θ],
порожденному из позиции {τ*, ζ**} построенной процедурой
Cft*>s**L будет отвечать движение ζ* [τ* [·]#], порожденное
из позиции {τ^ζ*} данной процедурой <?[τ*,ζ«] и такое, что
оба движения ζ*%[·] и ζ* [·] будут порождены одной и той же
парой реализаций управлений щ ft* [·] О) и у* [τ* [·] θ), только
из разных исходных позиций. Но тогда вследствие условий
Липшица (24.24) для таких движений, а также вследствие условий
Липшица (7.1) и (24.22) для функций σ(·) и А(·) заключаем, что
справедливо неравенство
^♦♦n+i Щ + ί σ (τ, и;** [τ]) μ (dx) >
>*.»Η-ι[θ]+ ί ^τ(τ,^[τ])μ(ώτ)-λ(28·22)|ζ:ί:ί|ί-ζίί!| =
= β*-λ(28·22)|***-**Ι> (28.24)
где постоянная λ = λ(28·22) определена соотношением (28.23). Так
как неравенство справедливо для всякого движения ζ## [τ* [·]θ],
то видим, что построенная процедура есть β** — ^-процедура
С? ft*» я**]· Это доказывает лемму.
Лемма 28.4. Пусть существует β* — Q - процедура Q[x*y
г*]· Пусть w%% = и?# и z##n+1 — z#n+1 + с. Гогда существует
15* 227
β** — Q-процедура # [τ*,^*], где
β** - β* + с. (28.25)
В самом деле, определим процедуру QVc*,z**\ по процедуре
Q\t*iZ*\ так же, как это было сделано при доказательстве
леммы 28.3. Тогда опять всякому движению ζ** [τ* [·]θ] будет
отвечать движение ζ* [τ* [ · ] ft] такое, что оба движения
порождены одной и той же парой реализаций управлений щ [τ* [ · ] θ) и
*>#[*# [·]*)> но из разных позиций {τ*, ζ*} и {τ*, ζ**}. Для
этих движений в соответствии с уравнением (24.14) справедливы
равенства
w* [τ] = w** [τ], τ* < τ < θ, (28.26)
***η+ι fr] = ζ*η+ί [τ] + с, τ* < τ < θ, (28.27)
из которых следует равенство
***η+ι [*1 + f о (τ, и?** [τ]) μ (άτ) —
= ζ*η+ι№] + j σ(τ,^[τ])μ(£ΐτ) + ο. (28.28)
По условию леммы 28.4 для всякого движения «¥Ιτ*Μ^1
справедливо неравенство
*·«+ιΙ*] + J σ(τ,^Μ)μ(*0>β·· (28.29)
[τ*,0]
Следовательно, согласно (28.28), (28.29) для всякого
движения ζ##η+ι [τ* [ · ] Щ справедливо неравенство
*··η+ι!θ]+ J ο(τ,ν**Ιτ])μ№)>Ρ* + с = $**. (28.30)
[τ*,θ]
Но это означает, что построенная процедура £?[т#, ζ**] есть
β**—^-процедура для значения β** (28.25). Лемма 28.4
доказана.
Введенные в этом параграфе ^-процедуры послужат основой
для построения в следующем параграфе функции р(£, ζ), которая
удовлетворяет условиям 1—3, 4й из § 26 и условию 4* из § 27.
Выполнение этих условий получится там как следствие тех
свойств ^-процедур, которые установлены в леммах 28.1—28.4.
§ 29. Седловая точка и цена игры
Построим функцию ρ(ί, ζ), которая удовлетворяет условиям
1—3, 4й из § 26 и условию 4" из § 27. Возьмем позицию U, z} e=
е G*. Определим значение р(£, ζ) как точную верхнюю грань тех
чисел β, для каждого из которых существует β — ^-процедура
Qit, z] (для позиции {£, ζ}, как для исходной). Итак,
р(£, z) = sup β, β<=£{<|Ζ}, (29.1)
228
где числовое множество B{t, *> определено условием
B{ttZ} = [β: 3β - ^-процедура Q [ί, z]]. (29.2)
Здесь 3 — квантор существования.
Проверим, что функция р(£, ζ) (29.1) удовлетворяет условиям
1—3, 4tt и 4\
Равенство (26.1) следует прямо из определения (29.1), (29.2)
функции pit, ζ) и из условия (28.7) существования β —
^-процедуры Q\t, zl.
Условие Липшица (26.2) для функции ρ(ί, ζ) (29.1) следует
из леммы 28.3. В самом деле, возьмем две позиции {£, ζ(1)} и
{£, 2(2)). Положим в лемме 28.3 τ* = t, ζ* = ζ(1), ζ** = ζ(2).
Тогда согласно ее утверждению точная верхняя грань р(£, ζ(2))
тех значений β, для каждого из которых существует β —
^-процедура Qlt, z(2)], не может быть меньше, чем pit, z(i))—
—λ(2,·22)Ιζ(2) —ζ(1)|. Наоборот, полагая z+ = z(2), z*% = z(1\
получим из леммы 28.3, что точная верхняя грань pit, z(1)) тех β,
для каждого из которых существует β — ^-процедура Qlt, z(1)J,
не может быть меньше, чем pit, ζ(2)) — λ(28·22)Ιζ(2) — ζ(1)|. Итак,
имеем
P(f, Z™)>pii, ^))-λ(28·22)|2(2>-2(1)|,
ρ(ί, z(1))^p(*, 2(2>)—λ(28·22)Ιζ<2> —ζ(1>|.
Эти неравенства и доказывают (26.2), где оказывается λ(26,2) =
= λ(28·22).
Равенство (26.3) для ρ(ί, ζ) (29.1) следует из леммы 28.4.
В самом деле, возьмем две позиции {t, ζ(1)} = {t, {w,4ί+ι}} и
[t, ζ(2)] = [t, {и?, «n+i}}. Положим в лемме 28.4 τ* = ί,ζ* = z(1)f
ζ** = 2(2), Ζη2+ι = Ζη+ι + с. Тогда согласно ее утверждению
точная верхняя грань pit, ζ(2)) тех β, для которых
существуют β — ^-процедуры QU, ζ(2)], не может быть меньше, чем
pit, z{l)) + c. Итак,
ρ (ί, *<*>) > ρ (ί, *«>) + (4?ii - AW- (29.3)
С другой стороны, согласно той же лемме, полагая ζ* = z(2 f
s** = я , с = (4ι+ι — 2(η+ι), получаем неравенство
ρ (ί, ζ(1>) > ρ (ί, ζ<2)) + «ι - «2U). (29.4)
Из (29.3), (29.4) следует равенство
Ρ («, *(2)) - Ρ (t, *(1)) + Λ - 4Ui, (29.5)
которое и доказывает (26.3) (при ζ%+ι = 0, ζ(2) = ζ).
Свойство и-стабильности 4U для функции р(£, г) (29.1)
следует из леммы 28.1. В самом деле, возьмем позицию {τ*, z*}g
<=*G*, τ#<θ. Пусть выбраны τ*€Ξ(τ*, Щ, ε>0 и функция
vi-) = {viu)^Q, ю €=/>}. Возьмем число
β· = Ρ (**,**) + *(**-**)· (29.6)
229
Из (29.1), (29.2) следует, что не существует β* —
^-процедуры QVc*, з#]. Тогда согласно лемме 28.1 существует
управление щ [τ* [·] τ*), которое в паре с контруправлением ν [τ* [·] τ*) =
= {ν (щ [£])f τ* <I t < τ*} порождает движение ζ [τ* [ -] τ* | ζ+],
приходящее в позицию {τ*, 2*} = {τ*, ζ[τ*Ι), для которой не
существует β* — ^-процедуры ^[τ*, 2*]. Здесь согласно (28.8) и
(29.6) имеем
β* = ρ (τ*, 2*) + ε (τ* -τ*)- J σ(τ, υ>[τ]) μ(άχ). (29.7)
[τ*.τ*)
Но это означает, что верхняя грань ρ(τ*, 2*) тех β, для
каждого из которых существует β — ^-процедура ζ?[τ*, 2*], не может
быть больше, чем β*, т. е. согласно (29.1), (29.2) и (29.7)
справедливо неравенство
ρ (τ*, ζ*) < ρ (τ*, zj- j σ (τ, w [τ]) μ (άτ) + ε (τ* - τ*), (29.8)
[τ*,τ*)
которое совпадает с (26.6) и доказывает тем самым свойство
и-стабильности для функции ρ(ί, ζ) (29.1).
Свойство у-стабильности 4υ для функции ρ(ί, ζ) (29.1) следует
из леммы 28.2. В самом деле, возьмем позицию {τ*, z#}gG*,
τ%<Ζ$- Пусть выбраны τ*^(τ*, О], ε >0 и управление
Щ ίτ* [·] τ*). Назначим число
β* = ρ (τ*, *ф)-ε (τ*-τ»). (29.9)
Из (29.1), (29.2) следует, что существует β* — ^-процедура
Q[t*, ζ*1· Тогда согласно лемме 28.2 существует управление
*>*[τ*Ητ*)> которое в паре с назначенным управлением
и# [τ* [ · ] τ*) порождает движение ζ [τ* [ · ] τ* | ζ*\, приходящее
в позицию {τ*, г*} = {τ*, ζ[τ*]}, для которой существует β*—
^-процедура ζ?[τ*, 2*]. Здесь согласно (28.8) и (29.9) имеем
β* = ρ (τ*, 2*) -ε (τ* -τ*)- J σ(τ, ιυ[τ]) μ (Λ). (29.10)
[τ*,τ*)
Но это означает, что верхняя грань ρ (τ*, 2*) тех значений β,
для каждого из которых существует β — ^-процедура £?[τ*, ζ*),
не может быть меньше, чем β*, т. е. согласно (29.1), (29.2) и
(29.10) справедливо неравенство
ρ (τ*, 2*) > ρ (τ*, 2*) — J σ (τ, w [τ]) μ (άτ) — ε (τ* — τ*), (29.11)
£τ*,τ*)
которое совпадает с (27.1) и доказывает свойство ^-стабильности
для функции р(£, ζ) (29.1).
Итак, функция ρ(ί, ζ) (29.1), (29.2) удовлетворяет всем
условиям 1—3, 4й и 4*. Согласно материалу из § 27 эти условия
достаточны для того, чтобы функция
ρ°(ί, *) = ρ(ί, {χ, 0» (29.12)
230
была ценой p°it, χ) дифференциальной игры {7.1; 8.1). Таким
образом, построения из §§ 24—28 доказывают существование
цены p°U, #){7.1:8.i> и седловой точки (и°(·), ι#(·)}{7.ι;β.ι>· Из
свойств цены р°(£, #){7.ι:8.ι>, которые выражаются неравенствами
(8.23), ясно, что функция р°(£, х), определяющая эту цену при
{t, х) е G, единственна. Это означает, что для всякого
канонического случая цена игры p°it, х) может быть определена
построениями из §§ 24—28. Но отсюда вытекает, что функция
ρ(ί, ζ) = p°it, w) + zn+l (29.13)
необходимо удовлетворяет условиям 1—3, 4U и 4υ в области GIyl.
И эта функция pit, ζ) может быть продолжена в область G* с
сохранением условий 1—3, 4й и 4".
Итак, справедливо следующее утверждение.
Теорема 29.1. В каноническом случае дифференциальная
игра {7.1; 8.1} имеет цену p°it, χ), {t, х) ^ G и седловую точку
{и°(·), Vu(·)}. Цена p°it, #){Μ;8.ι> необходимо связана
равенством (29.13) с функцией pit, ζ) (29.1), которая определена в об-
ласти G* и удовлетворяет условиям 1—3, 4й и 4". Обратно, если
некоторая функция pit, ζ), определенная в области G*,
удовлетворяет условиям 1—3,4й и 4υ, то этого достаточно, чтобы
функция p°it, х) (29.12) была ценой игры {7.1; 8.1} для всякой
исходной позиции {t, з;}е(?. Оптимальную стратегию ю°(-) =
= {и*(£, ж, ε)} можно найти, опираясь на функцию pit, x) и
вычисляя значения u*it, χ, ε) по условию экстремального сдвига
(26.22), где вектор sit, χ, ε) (26.20) определяется из условий
(26.21), (26.18). Оптимальную контрстратегию Vui-)={v*(t, x, и, ε)}
можно найти по функции pit, x), исходя из условия
экстремального сдвига (27.6), где вектор sit, χ, ε) определяется
из условий (27.5), (26.18).
Обратимся теперь к случай, когда выполнено условие (8.14)
седловой точки маленькой игры. Тогда согласно материалу из
§ 27 условия 1—3, 4й и 4* достаточны для того, чтобы функция
pit, x), которая этим условиям удовлетворяет, была не только
ценой p°it, #){7.i;8.i> игры {7.1; 8.1}, но и ценой p°it, #){7.1;8.2>
дифференциальной игры {7.1; 8.2} в классах чистых стратегий ui·)
и у(·)* Более того, согласно материалу из § 27, при выполнении
условия (8.14) достаточно, чтобы функция pit, z) удовлетворяла
условиям 1—3, 4° и хотя бы условию 4^. Тогда функция
pit, #) = pU, {#, 0}) опять будет ценой p°it, #){7.1;8.2> =
= p°it, #){7.i;8.i>. Таким образом, справедливо следующее
утверждение.
Теорема 29.2. Рассмотрим канонический случай. Пусть
выполнено условие (8.14). Тогда дифференциальная игра {7.1; 8.2}
имеет цену p°it, х){1Л;В2), {t,x}e=G и седловую точку Ы°(·),
у°(-)}{7Л;8.2>. Эта цена р°(£, #){7.ι;8.2> совпадает с ценэй
p°it, х){7Л; 8.1} игры {7.1; 8.1} для того же уравнения движения,
для того же показателя γ и при тех же ограничениях на и и v.
231
Цена ρυ(£, #){7.ΐ;8.2> необходимо связана равенством {29.12) с
функцией р(£, ζ) (29.13), которая определена в области G* и
удовлетворяет условиям 1—3, 4* и 4*. С другой стороны, если некоторая
функция pit, ζ), определенная в области 6?*, удовлетворяет уело-
виям 1—3, 4° и ослабленному условию и-стабильности 4^, то
этого достаточно, чтобы функция ρ°(ί, χ) (29.12) была ценой
игры {7.1; 8.2} для всякой исходной позиции {t, x)^G.
Оптимальная стратегия и°(·) = {»*(£, х, г)) может быть построена по
функции pit, x), исходя из условий (26.22), (26.21), (26.18).
Оптимальная стратегия v°i·) = {v*it, χ, ε)} может быть построена по
функции pit, x), исходя из условий экстремального сдвига (27.24),
(27.5), (26.18).
Обратимся к дифференциальной игре {8.3; 8.2}. Если в
предыдущих построениях из §§ 24—28 и из этого параграфа
поменять местами способы формирования воздействий и и ν, а. также
воздействий щ ж ν%, заменяя контруправления на контрпомехи,
и в соответствии с этим изменяя понятным образом условия
w-стабильности и ^-стабильности, то функция ρ(ί, χ), которая
получится в результате таких измененных построений, окажется
ценой р°(£, #){8.з;8.2> дифференциальной игры {8.3; 8.2}. Поэтому
справедливо следующее утверждение.
Теорема 29.3. В каноническом случае дифференциальная
игра {8.3; 8.2} имеет цену р°(£, #){8.з;8.2>, it, x)^G и седловую
точку {и% (·), v° (·)}. Оптимальная контрстратегия ul(-) =
= {и* (t, χ, ν, ε)} может быть определена по функции pit, χ) —
= p°it, x) из условия экстремального сдвига
<5 {ί, χ, ε)·Ιι {t, x, w* it, χ, ν, ε), ν)} —
= min<s(£, χ, г)-hit, χ, и, ν)}, (29.14)
где вектор sit, χ, ε) определяется из условий (26.21), (26.18).
Оптимальная стратегия ι;°(·) = iv*it, χ, ε)} может быть
определена по функции pit, x) из условий (27.24), (27.5), (26.18).
В заключение параграфа приведем еще теорему,
характеризующую изменение цены дифференциальной игры pit, x) вдоль
движений #[£#[·]О], порождаемых законами управления °U и
законами формирования помехи У, которые отвечают
оптимальным стратегиям. Ограничимся игрой {7.1; 8.1}. Изменения в
формулировках для других игр понятны.
Справедливо следующее утверждение.
Теорема 29.4. Каково бы ни было число ξ > О, найдутся
число ε(ζ) >0 и функция δ(ξ, ε) >0, такие, что закон
управления
^(29.15) = {ю°(·), ε, Δ J, (29.15)
отвечающий оптимальной стратегии и°(·), при условиях
ε<ε(ζ), δ^δ(ξ, ε) (29.16)
232
гарантирует неравенство
Ρ(ί*. У [**])< Ρ (*·.?[**])- ί σ(τ,*[τ])μ(Λ) + ζ (29.17)
[W*)
для всякого порожденного им пополненного движения y[t% [·]£*],
а закон формирования помехи
П>9.18)=-{*£(·), ε, Δ6}, (29.18)
отвечающий оптимальной контрстратегии Vu(-), при условиях
(29.16) гарантирует неравенство
Ρ(**,И**1)>Ρ(**.*[**])- ί ο(χ,χ[χ])μ(άχ)-ζ (29.19)
для всякого порожденного им пополненного движения у [t# [·]ί*]
каково бы ни было значение t* e (£*, 0].
Учитывая равенства
р(*, #) = ρ(ί, ж) + уп+и (29.20)
Уп+i [**] - Уп+i [*♦] + J χ (τ, ж [τ], и [τ], ι; [τ]) ώτ, (29.21)
t*
можно записать неравенства (29.17) и (29.19) в такой
эквивалентной форме:
*·
ρ (ί*, х It*)) <p(h,x [ί*]) - J χ (τ, χ [τ], и [τ], ν [τ]) dx -
- J ο(χ,χ[χ])μ(άχ) + ζ; (29.22)
Ρ (**, λ: [ί*]) > ρ (ί*, ж [**]) — J χ (τ, я [τ], и [τ], ν [τ]) ώτ—
ί*
— J* σ (τ, ж [τ]) μ (dx) — ζ. (29.23)
Докажем теорему. Обратимся сначала к неравенству (29.17).,
Согласно теореме 29.1 существует цена р(£, х) игры и
существуют оптимальная стратегия н°(·) и оптимальная контрстратегия
ии(')у которые составляют седловую точку. Это означает, что
для любого ζ*>0 найдутся ε(ζί|.)>0 и δ (ζ*, ε)>0 такие, что
для всякого пополненного движения y[t#[']$], порожденного
законном управления ^*29.i5) при условиях
ε<ε(ζ*), 6<δ(ζ*,ε), (29.24)
будет справедливо неравенство
Уп+ЛЩ+ j σ(τ,α:[τ])μ(ώτ)<ρ(^,^[^]) + ζ*. (29.25)
[**,о]
233
Выберем ζ* = ζ/2. Тогда закон управления ^*29.ΐ5)
обеспечит неравенство (29.17). В самом деле, предположим от
противного, что это не так. Т. е. предположим, что для закона
управления ^(29.15) при условиях (29.24) найдется
порождаемое этим законом ^(29.ΐ5) пополненное движение ]/[£#[·]£*],
для которого справедливо неравенство
Ρ(**, У[**])>Ρ(*·.?[**])- J ο(τ,χ[τ])μ(άτ) + ζ. (29.26)
Это движение y[t#[-]t*] порождается из некоторой исходной
позиции {£#, у [£#]} указанным законом управления ^(29.is)
в паре с некоторой реализацией помехи ν [t# [·] £*). Продолжим
эту помеху на полуинтервал [£#, О). Пусть это продолжение
помехи ρ[ί*[·]φ) формируется на основе закона У^ылв» такого,
который согласно свойствам оптимальной контрстратегии νΐ,(-)
обеспечивает для всякого порождаемого им движения #[£*[·]$]
неравенство
?»+ι[θ] + f σ(τ,χ[τ})μ(άτ)>ρ(Ρ,νϋ*])-ζ: (29.27)
Тогда для движения y[i*[·]^], порожденного из
рассматриваемой исходной позиции {£#, у [£#]} выбранным законом
^(29.15) и ПРИ **^t<ί* — указанной ранее помехой v[t%[-]t*),
а при t* < J < Φ — выбранным законом У^лъ, будут выполнены
неравенства (29.25), (29.26) и (29.27). Но из (29.26) и (29.27)
следует неравенство
Уп+г1Щ+ J σ(τϊ«[τ])μ(£ϊτ)>ρ(ίι>,^[ί»]) + ε-;ει>. (29.28)
[**,θ]
Вследствие выбора ζ* = ζ/2 неравенства (29.28) и (29.25)
противоречивы. Противоречие доказывает неравенство (29.17).
Неравенство (29.19) доказывается аналогичным образом с понятной
переменой ролями воздействий и ж v.
Итак, в этом параграфе завершено доказательство
существования цены и седловой точки для дифференциальных игр {7.1;
i5.1}, {7.1; 8.2} (при условии (8.14)) и {8.3; 8.2} в каноническом
случае. Напомним, однако (см. § 25), что предыдущие
построения из §§ 25—28 и из этого параграфа были обоснованы при
условии, что функции /(·) и χ(·) в (4.3) и (7.3) в добавление к
условиям из §§ 4 и 7 непрерывны по всем аргументам. Теоремы
29.1—29.4 справедливы, однако, и при более общем
предположении из §§ 4 и 7, т. е. в предположении, что по аргументу t
функции /(·) = {/(ί, #, и, ν)} и χ(·) = {χ(£, х, и, ν)} только измеримы.
Изменения в доказательствах, которые надлежит сделать в этом
случае, приведены в § 32*.
234
§ 30. Устойчивость оптимального управления
Стратегии ю°(0, vl(-), v°(-) я ul(-), построенные по цене
игры р(£, х) в соответствии с условиями (26.22), (27.6), (27.24),
(29.14), будем называть экстремальными (по отношению к
функции pit, Z) = p(i, W) + Ζη+ι).
Обсудим в этом параграфе вопрос об устойчивости процесса
управления, который формируется на основе оптимальных
стратегий. По отношению к экстремальной стратегии ю°(·) этот
вопрос можно сформулировать так. Пусть выбрано малое число
ζ>0. В соответствии с оценками из §§ 26, 27 можно выбрать
ε(ξ) > 0 и δ(ε, ξ) > 0 так, что закон управления
«/(••.η-<вв(->, ε, Δ J (30.1)
гарантирует неравенство
7<р°(*«, **)<7.ι;β.ι> + ζ (30.2)
для всякой исходной позиции {t%, х%) e G, если ε < ε(ξ) и
разбиение Δδ{ί»} удовлетворяет условию
ti+i - ti < δ ^ 6(ζ, ε), ι - 1, ..., k. (30.3)
Предположим, однако, что управление по закону <2/(зол)
осложнено ошибками в измерении реализаций хШ и в
формировании воздействий и. Эти ошибки могут быть трех видов.
(1) В момент U точное значение хШ неизвестно. Известно
лишь приближенное значение xHtil. Ошибка удовлетворяет
неравенству
\х*Ш - хШ I < г|{зо.4}. (30.4)
(2) При вычислении ю*(£*, xltil, ε) из условия (26.22) (где
должно быть t = ii, ε = ε (ξ), χ = xltil) появляется неточность
вследствие ошибки в значении вектора s(£f, xitj, ε). Эта ошибка
может быть следствием и неточного измерения #[ij, и неточного
решения задачи (26.21), (26.18). Если бы имелась только ошибка
в измерении #[£<], то получилась бы величина и*(&, #*[ί<], β)',
которая определяется из условия
max <s* (ilf я* [ti], e)-h(ti, я* ft], и* ft, я* ft], ε), ι;» =
= min max <s* ft, #* ft]> e)-h(tir χ* ft], и, ν)}, (30.5)
где вектор s*ft, #*ft], ε) = {Ζ*, s*+1} находится из условия
Ρ ft, ** ft] - Ζ*) - 4+ι = min [ρ ft, χ* [U] - I) - *η+ι1, (30.6)
причем минимум по 5 ищется при ограничении (26.18). Примем,
однако, что возможна еще ошибка, связанная с неточным
решением задачи (30.6), (26.18). Пусть эта ошибка проявляется в том,
235
что вместо равенства (30.6) выполняется только неравенство
Ρ (tu х* [Ы — Ζ*) — s*+1 <
< min [ρ (tu s* [ti] — I) — sn+1] + η(30.7), (30.7)
s
где минимум по s определяется по-прежнему при ограничении
(26.18).
(3) При вычислении й*(и, х*Щ, г) из условия (30.5) также
возможна ошибка. Она проявляется в том, что вместо (30.5) для
получающегося значения ю(£*, я*[£<], ε) справедливо только
неравенство
max <s* (tu χ* [ti], &)-h (tu χ* Щ, и (tu χ* [ti], ε), ν)} <
< min max < s* (tu x* [ij, s)-h(tu #* [i4], w, ι;» + η{30.8}. (30.8)
Возникает вопрос, можно ли, задавшись числом ξ > 0, выбрать
значение ε > 0, разбиение Δβ и назначить достаточно малые
положительные числа г|(зо.4), Л(зол), Ή(3ο.8) так, чтобы обеспечить
неравенство
γ = J σ (τ, χ [τ]) μ (βτ) + J χ (τ, # [τ], и [τ], υ [τ]) dx <
[**,&] t*
<ρ(**, **) + ζ. (30.9)
Ответ на этот вопрос оказывается положительным. Именно,
справедливо следующее утверждение.
Теорема 30.1. Каково бы ни было число ξ>0, можно
указать ε(ξ)>0, 6(ξ, ε)>0, выбрать какое-либо ε<ε(ξ), назначить
для данной исходной позиции {£#, х*} какое-либо разбиение
Две, 8){^ϊ, а затем указать положительные числа тьзо.м, Л(зол),
Л(зо.8) так, что для всякой реализации процесса {x\t* [·]θ],
^[ί* ί·]θ), v[t% [·]θ)}, которая формируется из позиции {ί*, χ*}
при выбранных ε, Δβ и при условиях (30.4), (30.7), (30.8), будет
справедливо неравенство (30.9).
Доказательство этой теоремы дано в § 31*.
Обратимся теперь к оптимальной контрстратегии Vu(·).
'Предположим, что формирование помехи *>[£#[·]$) по закону
У-№(·)", β, Δβ} (30.10)
осложнено следующими ошибками.
(1) В момент U известно лишь приближенное значение х*Ш
реализации х[и]. Ошибка удовлетворяет неравенству (30.4).
(2) Вектор sUi, #[£»], ε), который в соответствии с условиями
г(27.6), (27.5), (26.18) должен определять значение v*(tu хШ, щ ε),
заменяется вектором s* {tu #*Ui]> ε) = U*? 5η+ιΚ удовлетворя-
236
ющим только неравенству
Ρ(U, х*Щ-1*)-8*п+х>
> max [ρ (tu x*[h] — I) — sn+1] — г\ШЛ1), (30.11)
8
где максимум ищется при ограничении (26.18).
(3) Вычисление y*(i», #*[£»], щ ε) по вектору s*(tu х*Ш, г)
в соответствии с (27.6) сопровождается ошибкой. Получается
величина v*°(ti, я*Ы, щ ε), которая лишь удовлетворяет
неравенству
<s*(tit х*Ш, г) -Ми, х*Ш, щ ι;*°(ίι, х*Ш, и, ε))><
s^min <$*(£»·, х*1и\, ε) · Mfc, s*[ij, и, ι>)> + η(3ο.ΐ2) (30.12)
при всех и^Р.
(4) Значения uit] измеряются с ошибкой. Поэтому в процессе
управления при формировании помехи vlt] используется вторым
игроком искаженное значение u*lt] воздействия ultl, связанное
со значением uit] неравенством
I u*ltl - uit] Ι ^ η(3ο.ι3), U < t < f<+1. (30.13)
Таким образом, реализация помехи vltil-]ti+i) определяется
равенством
vlt] = v*0(ti, х*Ш, »*М, ε), t{ < t < ti+l. (30.14)
Согласно (30.12) и (30.13) можно предполагать, что
справедливо неравенство
<**(««, х*Ш, e)-h(ttt х*Ш, uit], v*0(ti, «*Щ, «*М, ε))><
^mm<s*(ii, **[*«], ε) · h(tu х*Ш, вМ, ι;)> + η(«0.ιβ), (30.15)
причем, задавшись любым числом Л(зо.15>>0, можно указать
настолько малые числа η(8ο.ΐ2)>0 и η(3ο.ΐ3)>0, что при выполнении
неравенств (30.12) и (30.13) будет выполнено заданное
неравенство (30.15). В самом деле, вследствие равномерной
непрерывности функции А(·) по и можно в (30.13) подобрать число η(3ο.ΐ3) >
> 0 так, что будет справедливо неравенство
<**(«!, х*1Ь], e).h(tu x* [t^ и It], *>*°(*i, **N, и*ОД, e))><
< <** (tu x* [til ε)·Λ (tu x* Uil u* [tl
v*° (tu x* [hi "* [*b β))> + τ *»·«>' (30.16)
С другой стороны, вследствие равномерной непрерывности
функции min <**(·) ·Μ·)> по и (см. § 3) можно в (30.13) подо-
брать число η(3ο.ΐ3) > 0 еще и так, что наряду с (30.16) будет
237
выполнено неравенство
min<s* (tu x*[ti]9 e)-h(tu χ* [**], и* [f], i;)><
< min<s* (i4, a* [id, ε).A (*<f ж* ft], u [q, ι;» +4-4(30.16). (30.17)
Выберем η(3ο.ΐ2)<Ξ-3-η(3ο.ΐ5)· Тогда из (30.12), (30.16) и
(30.17) следует (30.15).
Справедливо следующее утверждение.
Теорема 30.2. Каково бы ни было число ζ>0, можно
указать ε(ξ)>0, δ(ξ, ε)>0, выбрать ε<ε(ξ), назначить для
данной исходной позиции {£#, х*} разбиение АЙ(С, е){£*}, а затем
указать положительные числа η(3ο.4), Лсзо.н), Лсзо.м), Л(звлз) так,
что для всякой реализации процесса, которая формируется из
позиции {i*, x%} при выбранных ε и Δδ и при условиях (30.4);
(30.11)—(30.13), (30.15), будет справедливо неравенство
γ= J σ(τ, χ[τ])μ(άτ) + J χ (τ, .τ [τ], и [τ], ι;[τ])ώτ>
>ρ(*♦,**)-ζ. (30.18)
Доказательство этой теоремы также отнесено в § 31*.
§ 31*. Доказательство устойчивости оптимального управления
В этом параграфе доказываются утверждения об
устойчивости процесса управления, сформулированные в § 30. Приведем
сначала вспомогательные утверждения. Рассмотрим некоторую
скалярную функцию φ (ζ), определенную в области Η некоторого
пространства Ы и удовлетворяющую условиям Липшица
|φ(ζ(1>)-φ(ζ(Ι>)Ι<λ(ΙΙ·1)Ιζ(1)«ζ(Ι)Ι. (31.1)
Пусть D^H — ограниченное, замкнутое множество.
Обозначим
φ*[#] = ππηφ(ζ), (31.2)
<p*[Z>] = max(p(z). (31.3)
Возьмем два таких множества Z)(1) и D{2). Обозначим через
7Ί,2 хаусдорфово расстояние между ними ([7*], с. 171), т. е.
гг 2 = max [max min | z^> — z<2> [, max min | № — z<2> I,
2(2) z(l) 2(D z(2)
*«еЛ(1\.*»еЛ(1,)]. (31.4)
В частности, если D(1) и Z>(2) суть сферы
Ιζ-ζ[ί1Ι^β(ι\ (31.5)
238
то
Γι>2=|2"]__£[*Ι| + |β(ΐ>_β<2>|
(31.6)
(см. рис. 31.1).
Верно следующее утверждение.
Лемма 31.1. Пусть выполнены условия (31.1). Тогда
справедливы неравенства
| φ* [DW] - Φ* [Ζ><2)] Ι <Γ1ι2λ(311), (31.7)
j φ* [D(1)] - φ* [D(2)] | < rlj2X(311). (31.8)
Докажем лемму. Пусть
фЛяа)1 = ф(^), (31.9)
φ*[β(ί)] = φ(ζ*(0). (31.10)
Рис. 31.1.
По определению величины rlt 2 (31.4) найдутся значения z* e
е D^\ z*m e D(j), удовлетворяющие условиям
U^-zi^r^, 1Ф1, i-1,2, (31.11)
j z*[j] _ z*(i) | ^ Гги j φΐ( i = l, 2. (31.12)
Согласно (31.2), (31.3), (31.9) и (31.10) справедливы
неравенства
φ (ά{)) < φ (Α*1), ί = 1, 2,, (31.13)
φ (**«>) > φ (z*W)t i = 1, 2, (31.14)
а согласно (31.1) и (31.11) — неравенства
φ {ζψ) - φ (ζψ) < Х(31Л) I Λ1 - ζ? | < К(31Л)г1Л> (31.15)
<ρ (ζ*[{1) — φ (ζ*«>) > — λ»·« | ζ*[*1 — ζ*«> | > — λ<Μ·»>Γ1Λ (31.16)
ίφ}, ΐ = 1,2.
\ Из (31.13)—(31.16) вытекают неравенства
φ(^>)<φ(42)) + λ(31·1)Γ1,2,
φ(ά2))<φ(ά1)) + λ(31·ιν1,2;
φ(«·(1))>φ(ζ·(Ι>)-λ(11·1)Γ1§ι»
φ(ζ*(1))>φ(ζ*(1))-λ(β1·1)Γ1.,.
(31.17)
(31.18)
Вследствие (31.9) и (31.10) неравенства (31.17) и (31.18)
равносильны неравенствам (31.7) и (31.8). Это доказывает лемму.
Пусть вектор-функция hit, ar, и, ν) = {/(*, ж, щ ν), χ(ί, #, и, ι;)}
удовлетворяет условиям, которые указаны в §§ 4 и 7. Тогда при
всяком выборе области G* (24.16) для всякого ε>0 найдется
вектор-функция &[е1(£,я, и, ν), непрерывная в области G* повеем
2S9
аргументам и удовлетворяющая условиям
max \ h (ί, #, и, ν) — Α[ε] (£, #, u, ν) | <
{x,utv}
<*мИ,0,«}еб*| ueP, ι;<=<?, f0<*<^ (31.19)
причем измеримая ограниченная функция ψ[ε][ί] удовлетворяет
неравенству
θ
jt|)^MdT<8. (31.20)
Ό
В (31.19) максимум вычисляется при каждом фиксированном
значении t по всем позициям {£, rfeG* и по всем значениям
»gP? v^Q. Справедливость этого утверждения следует из
известных теорем об аппроксимации измеримых функций
непрерывными (см., например, [12*], с. 291).
Рассмотрим два движения # [τ* [·]τ*] и ζ [τ*[·]τ*1. Первое
из этих движений порождается из позиции {τ*, у[ъ*]}^ 6?*
некоторым управлением ιι№[τ# [·]τ*) и какой-то помехой
ι>[τ*Ητ*) и является решением дифференциального уравнения
y = h{t, у, ииМ, »[*]). (31.21)
При этом управление
и[в1 [τ· [·] τ*) = {мМ [τ] - u\*\ τ* < τ < τ*} (31.22)
удовлетворяет условию
max <s [τ*] · &[ε] (τ*, χ [τ*], и[Д ι;)> <
^ min max <s [τ*] · fe[ (τ*, ж [τ*], щ ν)} + η. (31.23)
Здесь η > 0 — постоянная, а функция А[е1() связана с
функцией МО из (31.21) неравенством (31.19), где ψ[β3[τ] (τ*<τ<
< τ*) — ограниченная измеримая функция (которая, может быть,
удовлетворяет условию (31.20)). Как и раньше,
s [τ] = у [τ] - ζ [τ], τ* < τ < τ*. (31.24)
Движение модели *[τ*[·]τ*] порождается из позиции
{т*, ζ [τ*]} e G* некоторыми управлениями и* [τ* [ · ] τ*) и
*4ε1 [τ* [ · ] τ*) и является решением дифференциального
уравнения
ζ = λ(τ, ζ, щ [τ], ι;£ε1 [τ]). (31.25)
При этом реализация ι>*ε1 [τ* [ · ] τ*) строится как
контруправление
ι>[*ε1[τ* Ητ·) - {ι** [τ] = ν[*ε?(и* [τ]), τ*<τ<τ*}< (31.26)
240
где функция у*|]/ удовлетворяет условию
<*[τ*]·/*[ε](τ*, х\хт], и, !7Й3(и))>>
>тах<$[т^-/г[81(т*> я [τ*], и, у)> — η. (31.27>
Верно следующее утверждение, которое обобщает лемму 25.1..
Лемма 31.2. Для любого ε >0 найдется δ(ε)>0 так, чта
справедливо следующее утверждение. Пусть К^[т*]}бС*,,
{τ*, 2 [τ*]} е G* и число τ* е (τ*, θ] удовлетворяет неравенству
(25.8). Пусть движения у [τ* [·]τ*] и ^[^[^т*] порождены
реализациями (31.22), (31.26) при каких угодно допустимых
реализациях ν [τ* [·] τ*) и и* [τ# [·] τ*). Тогда справедливо неравенство-
ν (*,»[*],*[*])<
< ν (τ*, у [τ*], ζ [τ*]) + ε (t — τ*) + Μ J ψ[«1 [τ] <2τ + 2η (ί — τ*),
(31.28>>
для всех значений t e [τ*, τ*].
Здесь ν(£, г/, ζ) — снова функция (25.7). В (31.28) число Μ не*
зависит от ε и от позиций {τ*, у [τ*]} е С?*, {τ*, ζ [τ*]} е G*.
Для доказательства леммы 31.2, как и при доказательства
леммы 25.1, надлежит сначала оценить производную по времени
τ от сложной функции ν(τ, ι/Μ, ζίχ]). Эта производная снова
будет определена равенством (25.10), которое справедливо при-
почти всех значениях те (τ*, τ*). При этом в (25.10) в
соответствии с (31.21) и (31.25) будем иметь юЫ = и[еЧт] и ν* [τ] =
= ν\* [τ]. Соотношения (25.11)—(25.13) повторяются снова без
изменения. Далее, учитывая (31.19), преобразуем неравенство,,
которое отвечает (25.13), следующим образом:
^(τ,^[τ],2[τ])θχρ {2λ(24.22)(τ _ g} <
< 2 {{у [τ] - ζ [τ])·[h (τ, χ [τ], иЩт), ν [τ]) -
- fe (τ, * [τ], щ [τ], νΦ [τ]) ± (/г[е] (τ, * [τ], uM [τ], ι; [τ]) -
- /*[ε1 (τ, χ [τ], щ [τ], ι;[*ε1 [τ]))]> <
< 2 <(*/ [τ] - ζ [τ]) .(&[ε] (τ, χ [τ], и№ [τ], ι; [τ]) -
- /г[е] (τ,4 χ [τ], и* [τ], ζΛε] [τ]))> + Jlf φΜ [τ], (31.29).
где
M = 4m*x\y-z\, (31.30)
причем с большим запасом максимум в (31.30) можно взять по
всем у и 2, для которых {τ, у] е= G*, {τ, 2} e= G*. Вследствие
непрерывности функций /г[8], у[·] и zl·] теперь можно оценить
скалярное произведение в правой части (31.29) с учетом условий
(31.23) и (31.27) таким же путем, как и в § 25 было оценено
скалярное произведение в правой части (25.13) с учетом условий
16 н. Н. Красовский 241ι
<25.4) и (25.5) (см. § 25) и неравенств (25.14) и (25.16). Разница
состоит лишь в том, что неравенства (31.23), (31.27) отличаются
от строгих равенств (25.4), (25.5) добавкой η. При замене hi-)
на й[8](·), иМ на и[81[т], у* [τ] на νι*] [τ] и φ(δ) на φ[β3(δ)
неравенство, соответствующее (25.14), и условие, отвечающее
{25.15), сохраняются в неизменной форме. А в неравенстве,
которое заменит (25.16), в правой части вместо нуля появится
постоянная 2η. Таким образом, получаем следующую оценку:
*<т.у[т],«М) е1 (б) + 2 + [eJ м I (31 31)
СИ» j
Предположим, что число δ(ε)>0 выбрано из условия
φ[β1(δ(ε)Χε. (31.32)
Тогда, интегрируя неравенство (31.31) при τΗί^τ<
^получим неравенство (31.28). Это доказывает лемму 31.2.
Построим еще одну пару движений #[τ*Ητ*1 и 2: [т^ [ ·] т*],
удовлетворяющих оценке (31.28). Возьмем опять две позиции
{τ#> У [τ*]} ^ £*> (τ*> ζ ίτ*]} s G* и отрезок времени τ* ^ t ^ τ*.
Выберем измеримую функцию
!£е1(.)-{Йв1(и)€=0, и^р) (31.33)
и реализацию управления
ttlel[x#[-]T*)-{ulelfT] = ut?, τ*<τ<τ*} (31.34)
так, что выполнены условия
<* [τ*1 -/г[8] (τ*, χ [τ*], и [τ], ι;?1 (ι*· [τ]))> <
< min <s [τ*] -fe[e! (τ*, χ [τ*], и [τ], ι>)> + η, (31.35)
min <5 [τJ ·Λ|β1 (τ*, ж [τ*], иЙ1, ι;)> >
;> max min <s [τ*] -/г[83 (τ#, ж [τ*], и, ι>)> — η. (31.36)
В (31.35) функции и[%\ и »*[τ] связаны условием (30.13) с
достаточно малой постоянной η(ίο.ι*)· Пусть далее даны какие-
нибудь реализации и [τ* [ ·] τ*) и ρ* [τ* [·] τ*). Движение
0[*·Ητ*1 порождается из некоторой позиции t{T*/Vfr*]}^G*
управлением κ[τ#[·]τ*) и контруправлением
*|8i [t*[ ·] τ*) - {i;W [τ] = ν[ε] (и* [τ]), τ* < τ < τ*} (31.37)
и является решением дифференциального уравнения
tf-Μτ, yf αίτΐ, ι;[β][τ]), (31.38)
причем выполнено условие (31.35).
Движение ζ[τ#[·]τ*] порождается из некоторой позиции
{τ*, ζ [τ*]} е С?* управлениями и[*&] [τ* [.] τ*) (31.34) и ρ* [τ* [·] τ*)
242
и является решением дифференциального уравнения
^-Λ(τ,ζ,ι*Ιβ1[τ], у* Μ). (31.39>
Верно следующее утверждение, которое обобщает лемму 25.2.
Лемма 31.3. Для любого ε>0 найдется δ(ε)>0 так, чт&
справедливо следующее утверждение. Пусть {τ*, у [т^.]}е £?*>_
{τ%, z[x*]}^G* и число τ* е (τ*, О] удовлетворяет неравенству
(25.8). Пусть движения у[т% [·]τ*] и ζ[τ%[-]τ*] порождены
реализациями (31.34), (31.37) при какой угодно реализации
ί>*Ιτ*Ητ*) и реализации и[т% [·]τ*), связанной с κ*[τ#[·]τ*)
условием (31.35). Тогда справедливо неравенство (31.28) для всех
значений t e [τ*, τ*].
Доказательство строится по тому же плану, как и
доказательство леммы 31.2. Отличие лишь в деталях связано с переходом
от условий (31.23), (31.27) к условиям (31.35), (31.36). Эти
изменения понятны. Поэтому доказательство леммы 31.3 опустим.
Обратимся к доказательству теоремы 30.1. Зафиксируем
некоторое значение ε и выберем разбиение AjiJ с шагом б, который
в соответствии с леммой 31.2 обеспечивает условие (31.28) (при
/г[е1() = /г() и, стало быть, при грЫ^О, τ^^τ^τ*; значение
η>0 уточним ниже, выбор б не зависит от η). Рассмотрим для
^-объекта пополненное движение ]/[£*['! θ], порожденное из
некоторой позиции {£*, у*} = {£*, {я*, 0}}, {**, х*} е G
управлением и* [£#[·] О), которое формируется на основе оптимальной
экстремальной стратегии ю°(·) в соответствии с условиями (1)—
(3) из § 30. Стало быть, выполнены неравенства (30.4), (30.7) w
(30.8). Пусть при этом работает какая-то реализация помехи
*>U# Ы^)· Рассматриваемое движение определяется как
решение пошагового дифференциального уравнения
у = hit, у, иЩ, vU\), U<:t< ti+i, ι = 1, ..., k, (31.40)
где вектор
иШ = и(Ь, х*Ш, ε) (31.41)
удовлетворяет условию (30.8). Дальнейшие рассуждения повто.·
ряют доказательство леммы 26.1 с некоторыми дополнениями,
которые связаны с неточным выполнением условия (26.22). При
этом опять основную роль будут играть оценки изменения
функции pit, ζ) вдоль подходящих движений у*[·] и ζ*[·]. Эти
(воображаемые) движения строятся следующим образом. Пусть
к моменту U реализовалась часть настоящего пополненного
движения y[t *[·]*<] »Mf *[·]£<], yn+iit+l-hji} для я-объекта.
В том числе реализовалась пополненная позиция (U, уШ) =»
^iU, {хЩ, i/nfl[£j}}. Наряду с ней реализуется информационная
пополненная позиция {U, y*[U]} = {th {z*[t{]9 г/n+t[*<])}, где вектор
x*[t{] связан с реальным фазовым состоянием я-объекта x[tt]
неравенством (30.4). (Так как значение уп+Ли] при
формировании воздействия ultt] (31.41) не используется, можно полагать,
что значения #П+1Ы для реального процесса управления и для
16*
24а
информационного пополненного движения У* [£*[·] О]
совпадают.) Примем, что часть y*[£fNii+i) информационного движения
#*U* l·]^] порождается из позиции U*, у*Щ) той же парой
реализаций
ttitilИш) — {иЫ = иШ, U<t<W (31.42)
и vttiMfi+i), которая определяет реальное пополненное движение
#[£»[·] £ί+1] из позиции {£<, у [£<]}. Информационной позиции {tu
у*иЦ} отвечает сопутствующая ей позиция {tu г*Щ). Здесь
сопутствующая точка zHtil определена равенством
г*Ш = **(*,, #*Ы, ε) = p*[f J - **(*,, **[*<], ε), (31.43)
где вектор s*(£», #*[£j, ε) удовлетворяет неравенству (30.7).
Таким образом, для сопутствующей точки г*Ш (31.43)
справедливо неравенство
Ρ (tu z* (tu У* ft], ε)) < min ρ (tu ζ) + η(30.7), (31.44)
ζ
где минимум вычисляется при условии
v(b, y*lt{], *)<ε + β(ίι-ί.). (31.45)
Кусок z*[ftMi*+1) сопутствующего движения 2* [ί^ [·]*&]
определяется как часть zlu[tii-]ti+i) вспомогательного движения
zlil[ti[-]ti+l]j которое порождается из сопутствующей позиции
it{, zHtiY) некоторым подходящим управлением и% [ti [·] £$+ι) я
контруправлением ν* [ίχ [ - ] fi+1) = {г;* [ί] = 1;*б (и*[£]), ί* < ί <
<£i+1}, где функция v*e (и) удовлетворяет условию
<S*lti]-h(tUX*[ti], U, V*e(u))} =
= max(s*[ti]-h(tu х*Щ, и, у)>, (31.46)
причем
s*[t]=y*lil-z*lt]. (31.47)
Здесь управление и* [U[*\ £i+1) подобрано в соответствии со
свойством и-стабильности 4tt функции р(£, ζ) так, чтобы для
вспомогательного движения zCil[ftL-]ii+i] было выполнено неравенство
p(i1+1, zCiI[ii+il)<
< Ρ (*ь *·!«)- J σ(τ,^3[τ])μ(ώτ) + ε(ίί+1~ίί), (31.48)
[Vi+l)
где й?тЫ—компонента zm[·]. Рассмотрим также
вспомогательные движения g^iifNfi+J, непрерывные при й<£<£г+1 и
совпадающие с y*lti[-]ti+i) при ί»^ί<ίί+1. Итак, будем иметь
следующие движения: (1) пополненное реальное движение
#[**[·]Φ] для я-объекта; (2) его искаженное изображение в
виде информационного движения у* [t% [·]#]; (3) движение
2* [£# [*]fr|? сопутствующее информационному; (4)
вспомогательные движения zli4til-]tt+i] (i = l, ..., к) и (5) вспомогательные
движения y[i][ti[]ti+i] (ΐ=1, ..., к). Движения y*[t*[-]$] и
244
s* [*♦!·] Φ]ι вообще говоря, разрывны. Их точки разрыва могут
приходиться только на моменты U. Но во всяком случае в точках
t = U эти движения непрерывны справа. Каждое вспомогательное
движение ζ[ί1[£ίΜίί+1] и yu4tii-]ti+i] непрерывно при ίί<τ<ίί+1
Рис. 31.2.
и на полуинтервале U < τ < ti+l совпадает соответственно с
zHui-hi+i) и y*iti[']ti+i) (см. рис. 31.2).
Оценим изменение функции р(£, z*[il) за время £f<£<£i+1.
Изменение функции pit, zli]ltl) за это время удовлетворяет
условию (31.48). Поэтому достаточно оценить разность p(ti+u z*[ti+i\) —
-р(*я-1, ζ[<3[ίί+1]). Для движений 2w[f,Mf<+J и £Μ[ί,[·]ί<+1]
выполнены условия леммы 31.2, где полагаем &(·) = АСе3(·), τ* = £ь
τ* =» ίι+1, η = η(3ο.β). Поэтому для них согласно (31.28)
справедливо неравенство
v(f,yw[«], zl4t])<
<v(*,, ffwM, 2ΜΙί<1) + β(ί-ί<) + 2η(Μ.β,(ί-ίι) (31.49)
для всех ie [£i? tl+1]. При этом по определению движений f/Щ·] и
2тМ имеем равенства
fi^M = !/*W, 2In[tJ -z*[f«] = zHU, у*Ш, ε). (31.50)
Из (31.49) и (31.50) по определению сопутствующей точки
z*[fj, которая лежит в области
vtti, у*ВД, z)=v(t,, ymW, «Χε + βίίι-ίβ), (31.51)
следует неравенство
v(f, Ут[Й, ζΓ<1[ί])<ε + ε(ί-ί0) + 2η(3ο.8)(ί-ίί) (31.52)
245
или, по определению функции ν(·) (25.7), неравенство'
\gltliil-2l4il\*
< te + ε(ί- ί.) + 2η(Γο.8,(ί- tt)]1'2 · exp W!4i2'(i- *,)> (31.53>
для всех ie[((l £<+1]. Поэтому имеем следующее неравенство:
ρ (*|+1, zt<] [ί1+1]) > min p (ti+1, ζ), (31.54>
Ζ
где минимум вычисляется при условии
Ι0κι[ί*.]-*1<
< [ε + ε(ί*+1 - ί0) + 2η(3ο.8)δ]1/2 exp {λ(24·22)(ίί+ι - ίβ)>. (31.55)
С другой стороны, для сопутствующей точки z*[ti+i]
справедливо неравенство
р(£<+1, z*[ti+l]) < min ρ(ίί+ι, ζ) + η(3ο.7), (31.56)
1
где минимум вычисляется при условии
\y*lti+i] - zl < [ε + ε(ί<+1 - *ο)11/2 exp {λ(24·22)(*<+1 - t0)h (31.57)
Теперь из условий (31.54)—(31.57) с учетом условия (30.4) и
в соответствии с леммой 31.1 получаем следующее неравенство:
р(*,+1, z4ti+il) < p(*i+1, zl4ti+i\) + К2в-2)гЩ + η(3ο.7), (31.58)
где
гЩ = η(30.4)(1 + exp {λ(24·22)δ» + exp (λ(24·22)(ίί+1 - ί0»(Ιβ +
+ ε (ti+l -1.) + 2η(3ο.8)δ]1/2 - [β + ε (ί<+1 - U)] 1/2)\ (31.59^
Из (31.48), (31.58) и (31.59) получаем нужную оценку
Ρ («i+i, ζ* [*i+1]) < ρ (tu ζ* [Ц]) + η(8ο.7) —
- j* σ(χ,ιν*[χ])μ(άχ)+λ(2*·2)Γΐίί] + ενι+1--η). (31.60)
Здесь .ιν*ίτ] — компонента ζ*[τ], которая при U < τ < fi+ft
совпадает с компонентой й>т[т] движения ζ"][τ].
Для начального момента tx = £# справедливы следующие
соотношения:
ρ(ί1? z*ltil) ^minp(fi, z) + η(ί0.7)ι (31.61)
ζ
где минимум вычисляется при условии
\ζ - y*W К [ε + βί*. - ίο)11/2 exp {λ(24·22)(ίι -10)}. (31.62)
Кроме того, вследствие условия (30.4) справедливо
неравенство
\y*ltil - уШ I = \x4tj - хШ I < η(3ο.4). (31.63)
246
Из (31.61)—(31.63) вследствие условия Липшица (26.2) для
функции pit, z) по ζ вытекает следующая оценка:
11(30.7) **=
< р(*„ уШ) + λ(2«·2)η(30.4, + η(,..τ,. (31.64)
Предположим, что для момента ί< справедливо неравенство
i> (h, ζ* Щ) < ρ (ί1? у [ij) + λ(26·2)η(30.4) +Щ(гол) -
- f σ(χ,ιν*Ιτ])μ(άτ) + ε(ίί-ί0) + Κ(2βΛ)Χ^[ί)]. (31.65)
l*vU) ,=1
Тогда вследствие (31.60) будет справедливо неравенство
p(ti+1, ζ* [<|+11)<р (tlt y[tj) + λ(2β·2)η(30.4) + (ί+1)η(80.7) -
С i
- J σ (τ, w* [τ]) μ (ώτ) + β (ίι+1 - ί0) + λ(2β·2) Σ г Щ. (31.66)
VvU+i) i=1
Из (31.64)—(31.66) заключаем по индукции, что
Ρ (Ο, ζ* [θ]) < ρ (ία, у Μ) + (Λ + 1) η(30.7) -
- f α (τ, u>* [τ])μ (dx) + λ(2β2) Γ η(80.4) + 2 г [f,] 1+ε(θ-ί0).
[«!·*) L i=i J
(31.67)
Далее, вследствие краевого условия (26.1), которое
справедливо для функции ρ(θ, ζ), получаем из (31.67) неравенство
Zn+ЛЩ + σ (О, w* Щ) μ (t= θ) < ρ (tu у [ί,]) + (*+1)η(30.7) -
- f σ(τ,^*[τ]')μ(ώτ) + λ(2β·2)|η(80.4)+ 2 r[fj] |+β(θ-ί0).
[t ,#) L i=i J
(31.68)
Для пары движений ylttl-Ut+J и y*[i<Mii+1) согласно (24.24)
(30.4) справедливо неравенство
1у*[т] -yix]I < ly*W -уШΙλ(24·24) <η(3..4)λ<"·24\
tt<x<t(+u (31.69)
а для у*[*Д-]£{+1) и z*[£j[-]f<+i) согласно (31.53) — неравенство
\у*Ш -z4i\\ ^
< te + e(i - ίο) + 2η(,„.8)(ί - ί,·)]1'2 exp {λ(24·22>(ί - *,)). (31.70)
Вследствие условия Липшица (7.1) для функции σ(ί, χ) из
(31.69) и (31.70) получаем оценку
J σ (τ, и;* [τ]) μ (dx) — \ σ (χ, χ [χ]) μ (dx) Ι <
Ρι··ΐ ΙΊ··] Ι
< [η(8ο.4)λ(24·24) + [ε + ε (0 - ί0) +
+ 2η(Μ.8)(θ-ί0)]1/2βχρ[λ(24ί!2)(0-ίο)}]μαίο, *1) (31-71)
247
и из (31.69) и (31.70) — неравенство
I zUi [Щ - Уп+1 [Щ | < η(30.4)λ(24·24) + [ε + ε (Ο - t0) +
+ 2η(3ο.8)(θ-ίο)]1/2βχρίλ(24·22)(θ-ί0)}. (31.72)
Учитывая равенство (26.42), выражения для гШ (31.59) и
оценки (31.71), (31.72), приходим на основании неравенства
(31.68) к выводу, что справедливо неравенство
θ
J χ (τ, χ [τ], и [τ], ν [τ]) άτ + J σ (τ, χ [τ]) μ (dr) <
< Ρ (**, **) + Ψ (ε) + Ψκ (ε, η<8ο.4>» Лсадль Л(эо.8)), (31.73)
причем функции φ(ε) и φΛ(ε, η(3ο.4), Л(зо.7), Л<зо.8>) удовлетворяют
условиям
Ππιφ(ε) = 0, (31.74)
ε-* о
lim q>fe (ε, η(30.4), Л(зол), Л(зо.8)) = 0. (31.75)
[^(30.4)^(30.7)^(30.8)1^0
Таким образом, каково бы ни было число ξ > 0, выбирая
сначала значение ε > 0 достаточно малым, затем выбирая шаг δ
достаточно малым так, чтобы была справедлива лемма 31.2 (при
всех достаточно малых значениях η > 0), а затем выбирая
значения η(3ο.4)>0, г|(зо.7)>0, г|(зо.8) > 0 достаточно малыми, можно
обеспечить неравенство (31.73), где
φ(ε)<ξ/2, (31.76)
<ρ*(ε, т)(зо.4), т)(зо.7), г|(зо.8)) < ξ/2. (31.77)
Но это означает, что можно обеспечить неравенство (26.45).
Тем самым теорема 30.1 доказана.
Приведенное доказательство обосновывает возможность
выбора достаточно малых значений η(3ο.4)>0, г](зол)>0 и η(3ο.8)>Ον
которые обеспечивают неравенство (26.45), лишь для выбранного
уже разбиения Δβ{£*} (при выбранном ε>0). В самом деле,
в оценке (31.73) фигурирует функция φ*(·), которая
удовлетворяет условию (31.75). Эта функция зависит от числа А, которое
определяет количество точек U разбиения Δ = {tx = ί*,. . .
... ,£ft+1 = 0}. Из выкладок, которые привели к оценке (31.73),
видно, что с увеличением к функция <pft(·) при прочих
одинаковых параметрах возрастает. Отсюда следует такой вывод. При
данном значении ξ>0, чтобы удовлетворить неравенству
(31.77), опираясь на (31.75), приходится выбирать значения
т](зо.4) >0, г)(зол)>0 и т)<зо.8)>0 тем меньшими, чем большим
будет значение к. Это показывает, что выбор подходящих значений
η зависит от разбиения Δ, поскольку он зависит от к. Но с
другой стороны, выбор числа к лимитируется лишь следующим об-
248
стоятельством. Для справедливости оценки (31.73) достаточно,
чтобы шаг δ > 0 разбиения Δ = Δβ, не превосходил величину
δ = δ(ε), для которой справедливо заключение леммы 31.2.
Поэтому, просмотрев все выкладки, которые приводят к (31.73),
можно убедиться в справедливости следующего утверждения,
усиливающего теорему 30.1.
Пусть задано число ζ > 0. Тогда по нему можно выбрать число
8>0. Затем по этому ε можно выбрать число 6>0. Это число
δ > 0 определит натуральное число ft* ^ (θ — t0)/6. (Например,
ft* может быть наименьшим целым числом, которое
удовлетворяет указанному неравенству.) К числу ft* выберем какое-нибудь
большее его число ft*. (Например, ft* может быть равным 2ft.,..)
По выбранным ε, ft*, к* выберем числа η(30.4)>0, η(ίο.7)>0,
Лосе) > 0. Весь этот выбор, который определен лишь одним
данным числом ξ > 0, можно осуществить так, что для всякой
реализации процесса {χ [ί* [ · ] О], и [t* [ ·] О), ν [t* [ ·] О)},
формируемого при условиях (30.4), (30.7) и (30.8) из какой угодно
исходной позиции {^,^}е6, будет справедливо неравенство
(26.45), если только шаг разбиения Δδ{ί»} не превзойдет
выбранное значение δ > 0 и если при этом число к для разбиения
АбШ (ΐ = 1, ..., k+l) будет лежать в пределах fte[^, ft*].
В самом деле, названный выбор параметров можно
осуществить следующим образом. Выберем сначала ε > 0 так, чтобы
была справедлива оценка (31.76). Для ее справедливости
достаточно, чтобы было выбрано должным образом значение ε > 0 и
затем по ε выбрано должным образом число δ > 0. Это
определит числа ft* и к*. Теперь при выбранных ε, δ и к*, ft*
выбираем η(3ο.4)>0, г|(зол)>0, т)(зо.8)>0 так, чтобы была справедлива
оценка (31.77) при всех fte [ft*, ft*]. Этот выбор осуществляется
так, что при этом не разрушается первая оценка (31.76).
Заметим, что назначить априори (только по ξ, ε и δ)
подходящие значения η(30.4)>0, η(30.7)>0, η(3ο.8)>0, которые
обеспечивали бы неравенство (26.45) для всякого разбиения АьШ (ί =
= 1, ..., ft+1), без ограничения сверху на ft, т. е. на количество
точек U разбиения Δβ{£<}, вообще говоря, не удается. Можно
привести пример, когда для данного значения ξ > 0 и данной
исходной позиции {i*, x%} e G при любом выборе ε > 0 и δ > 0, сколь
бы малыми ни назначить потом числа η(30.4) > 0, η(30.7) > 0 и
4(30.8) > 0, неравенство (26.45) будет нарушаться по крайней
мере для одной реализации {х [t% [·] θ], и [t* [·] θ), ν [£#[·] О)}
процесса, формируемого при условиях (30.4), (30.7), (30.8), если
только количество ft точек U разбиения АЛи) не будет ограничено
сверху. Такой пример можно сконструировать на базе системы
из примера 6.1. Читатель может сделать это, имея в виду ту-
картину движения я !**[·] О], приведенную в §§ 6, 30, где это
движение формируется с малыми информационными
запаздываниями.
Обратимся теперь к теореме 30.2. Она доказывается по
такому же плану, так и теорема 30.1. При этом в ходе доказатель-
249
ства вместо (31.68) получается неравенство
σ (θ, w* 1Щ) μ (ί = θ) + ζί+1 [Щ >
>Ρ (ίχ, У Γίιΐ) — (Λ + 1) η(8ο.π) — ε(θ — t0) —
- J α (τ, и;* [τ]) μ (άτ) - λ(2β!!) Γ η(„.4, + 2 г [iJ, (31.78)
где в выражении для г[^·] следует лишь заменить величину η(30.8>.
на величину η(3ο.ΐ5). Затем вместо (31.73) здесь из (31.78)
получается неравенство
J χ (τ, χ [τ], и [τ], ν [τ]) dx + J σ (τ, χ [τ]) μ (άτ) >
> Ρ (**, **) — Φ (ε) — 4>k (ε, η<30.4), Ήοο.ιι), %ο.ΐ2), %o.i8))» (31.79)
где функции φ(·|) и <pft(·), как и в (31.74), (31.75), снова сходятся
к нулю при стремлении их аргументов к нулю. Таким образом,
из (31.79) выводится неравенство (27.9). Это неравенство
доказывает теорему 30.2. Изменения в рассуждениях связаны лишь
с другим направлением доказываемых неравенств (31.78) и
(31.79), с заменой свойства и-стабильности на свойство г-стабиль-
ности для функции р(£, ζ), с заменой условий (30.7), (30.8) на
условия (30.11)—(30.15) и с заменой леммы 31.2 на лемму 31.3,
Эти изменения понятны. Поэтому доказательство теоремы 30.2
опустим. Заметим лишь, что для теоремы 30.1 сохраняется
замечание о порядке выбора по данному значению ξ > 0 чисел ε > 0,
δ>0, η(3ο.4)>0, η(3ο.ϋ)>0, η(30.ι2)>0, η(3ο.ΐ3)>0 и разбиения
Δβ. Т. е. и в случае теоремы 30.2 выбор этих чисел и
натуральных чисел &#, &* можно осуществить по данному числу ξ>0
так, что для всякой реализации процесса {я[*И'1^Ь u[t* [·]#),
у[**Н^)}> формируемого при условиях (30.4), (30.11)—(30.15)
из какой угодно исходной позиции {£*, ^}еС, будет
справедливо неравенство (27.9), если только ti+i — fc<6 и^е [&*, &*]·
§ 32*. Оптимальные стратегии в случае измеримых
правых частей уравнений движения
Обратимся к доказательству теоремы 29.1 при условии, что
функции /(·) в (4.3) и χ(·) в (7.4) только измеримы по L Прежде
всего заметим, что все конструкции и утверждения из § 28
имеют силу как в случае, когда функции /(·) и χ(·) непрерывны по
всем аргументам, так и в случае, когда непрерывные по
совокупности остальных аргументов эти функции по t лишь измеримы
(и в обоих случаях удовлетворяют условиям Липшица по х).
В самом деле, в упомянутых конструкциях и при доказательстве
соответствующих утверждений дополнительное предположение о
непрерывности функций /(·) и χ(·) по ί не используется.
Поэтому, следуя материалу, приведенному в начале § 29, убеждаемся,
250
что и в рассматриваемом теперь более общем случае функция
•pit, 1), определенная соотношениями (29.1) и (29.2),
удовлетворяет условиям 1—3, 4й из § 26 и условию 4* из § 27. Таким
образом, и теперь для доказательства теоремы 29.1 достаточно
доказать существование стратегии и*(·) и контрстратегии νη(·)>
которые удовлетворяют утверждениям лемм 26.1 и 27.1
соответственно. Стратегия и*(·) конструируется следующим образом.
Пусть зафиксировано некоторое значение ε>0, удовлетворяющее
условию
ε < (α/λ(24·24))7(1 + Μ + Ъ - ί0), (32.1)
где число Μ определено равенством (31.30). Такой выбор ε
обеспечит сохранение всех рассматриваемых позиций в области G*.
Выберем непрерывную функцию fcIel(·), которая удовлетворяет
условиям (31.19), (31.20). Возьмем какую-нибудь пополненную
позицию {ί, у) е Gw. Построим для точки у сопутствующую
точку ζ(ί, г/, ε), исходя из условия
ρ(ί, ζ(ί, у, ε))=πιίηρ(ί, ζ), (32.2)
г
где минимум вычисляется при ограничении
t
ν (ί, у, ζ) < ε + ε (ί — ί0) + Μ J* ψ[β] [τ] dx. (32.3)
'·
Как и в случае из § 26, введем вектор s(i, #, ε) (26.20), который
определяется из условия (26.21), но теперь в этом условии
минимум ищется при ограничении
ИI2 + 4+1 < ε + ε (ί - g + Μ f ψ[8] [τ] dr 1 βχρ{2λ(24·22)(ί - ί0)}.
(32.4)
Искомая стратегия и*(·) определяется теперь из условия
max <5(ί, χ, ε)·/ι[ε1 (ί, #, и* (ί, ж, ε), ν)} =
= min max <s (ί, я, ε) ·Α[ε] (ί, χ, и, ν)}. (32.5)
Рассмотрим для я-объекта пополненное движение ^[ί*Ι·]θ],
порожденное из какой-либо исходной позиции {ί*, у*} =
*={^*7 {#*> 0}}? {**, ж*}е^ законом управления
«(·ι.β)-{и*(0, ε, Δβ>, (32.6)
отвечающим стратегии и*(·), определенной условием (32.5). При
этом шаг δ разбиения Δδ выберем таким, чтобы выполнялось
утверждение леммы 31.2 (при η=»0). Предположим, что для
251
момента ίί справедливо неравенство
Ρ (U, z (th у [t{], ε)) + J σ (τ, w [τ]) μ (άτ)<
[< Ρ (*·, У*) + ε (U - g + Μ f ψ[ε] [τ] Λ, (32.7)
где и?[т] — компонента сопутствующего движения ζ[£ίΜίί+1) =*
— {wltil^ti+J, Zn+i[ti[-]t{+l)}, выходящего в момент U из
сопутствующей позиции {t{, z(t{, гД£<], ε)}. Это движение имеет тот
же смысл, как и в § 26. Только теперь оно порождается
управлением и* [til-] ti+1) и контруправлением v[e} [til-] ti+1),
построенными в соответствии с условиями (31.23) и (31.27), где η = О,
τ# = tu s[t#] = s[ti\ = s(tu x[ti\, ε). Повторяя рассуждения
из § 26, в которых только условие (26.10) заменится условием
(32.3) и лемма 25.1 заменится леммой 31.2, придем к выводу, что
из (32.7) следует неравенство
Ρ (ti+ъ 2 (*i+i, У fa+ιϊ, ε)) + J σ (τ, "> [τ]) μ (<*τ)<
[*·.'*+ι)
4+ι
< ρ (**, yj + ε (f1+1 - t0) + Μ J ψ[ε1 [τ] dr. (32.8)
При ι = 1 неравенство (32.7) верно. Таким образом, по индукции
получаем из (32.7), (32.8) с учетом (31.20) неравенство
Ρ (θ, ζ (О, у [θ], β)) + Ι σ(τ,!*[τ])μ(£ΐτ)<
< Ρ (**, У*) + ε (θ - t0) + Μ j ψ[ε1 [τ] dr<
< Ρ (**,#*) +Με + ε (θ-ί0). (32.9)
Из этого неравенства, повторяя рассуждения из § 26 с тем
незначительным изменением, что условие (26.39) заменяется
условием
р(Ф, *(<>, уШ, ε)) > р(0, г/М) -
-λ(26·2)|ζ(θ, »[*], ε)-»[<>] I >p(0, »[*])-
^λ(2β·2)[(1 + Λί)(ε + ε(θ-ίο))]1/2βχρ{λ(24·22)(θ-ί0)}, (32.10)
получим снова оценку вида (26.43) с условием (26.44). А эта
оценка показывает, что для любого ζ>0 можно указать ε(ξ)>0
и δ(ξ, ε)>0 так, что при ε^ε(ξ) и δ<δ(ξ, ε) закон
управления ^2/(32.6) обеспечивает неравенство (26.45). Стало быть, для
стратегии и*(·) (32.5) справедливо неравенство (26.7).
Точно так же, повторяя с понятными изменениями
рассуждения из § 27, убедимся, что контрстратегия ι>Μ(·)> построенная
252
по условию
<s(t, χ, ε) · hu4t, χ, и, v4t, x, и, ε))> «
= min <s(i, χ, ε) · hu4t, χ, и, v)>, (32.11>
uSQ
где вектор s(t, у, ε) (26.20) определен из условия (27.5) при·
ограничении (32.3), удовлетворяет неравенству (27.2), если
функция &[в1(0 удовлетворяет ограничениям (31.19) и (31.20).
Но из выполнения неравенств (26.7) и (27.2) следует снова
справедливость теоремы 29.1, теперь уже лишь при условии?
только измеримости функций /(·) и χ(·) по t. При этом в
конструкцию оптимальных стратегий м°(·) и Vu(·) вносятся
соответствующие небольшие изменения, которые связаны с введением
функции /гСе1(·) и условия (32.3).
Изменяя в теоремах 29.2 и 29.3 конструкцию оптимальных
стратегий за счет введения функции &Се3(·) и условия (32.3) ir
изменяя в деталях их доказательство, подобно тому, как эта
сделано выше для теоремы 29.1, убедимся опять в
справедливости этих теорем уже в общем каноническом случае при
условиях из § 4 и §§ 7, 8. Этим завершается доказательство
существования цены игры р°(£, х) и седловых точек {и°(·)» ζ;£(·)Κ
{и°(·), v°(-)} (при условии (8.14)) US(-)> v°(-)} для всех трех
типов рассматриваемых дифференциальных игр {7.1; 8.1}, {7.1;
8.2}, {8.3; 8.2}.
В § 31 была доказана устойчивость процессов управления,,
отвечающих оптимальным стратегиям и°() и ι>£(·)»β случаях*
когда функции /(·) в (4.3) и χ(·) в (7.4) непрерывны по всем
аргументам. Эти доказательства понятным образом переносятся
на случай, когда функции /(·) и χ(·) по переменной t лишь
измеримы. При этом, в соответствии с построением стратегий и*(->
и vu(-) теперь уже из условий (32.2)—(32.5) и (32.11),
изменяются лишь в деталях и понятным образом промежуточные
оценки. Таким образом, теоремы 30.1 и 30.2 верны в общем
каноническом случае.
Надлежит еще сказать следующее. В § 12* для формирования
помехи ν [£#[·]$) была использована оптимальная
контрстратегия Vu(-). При этом помеха ν [£#[·]$) формировалась в
соответствии с равенством (12.8) при условии (12.9). Оптимальная
контрстратегия Vu(-) определяется из равенства (32.11), которое
и используется в соответствующих оценках при доказательстве
неравенства (27.2) при условии, что u = u[t], где u[f] есть
действительно работающая в объекте реализация управления. Однако
в случае из § 12* в соответствии с (12.8) реализация ι; !**[·] θ)
определяется функцией u*[i\, которая связана с действительной
реализацией иЫ = иЩ(\ неравенством (12.9). Так как h[t4t,x,u,v)
есть равномерно-непрерывная функция и минимум в (23.11)
есть равномерно-непрерывная функция от щ то заключаем, что
25а
ва интервале U<t<ti+l реализация ι;(η)[ί! = i>*(£f, хЩ, u*[fl, ε)
сбудет удовлетворять неравенству
<s(U, хШ, ε) · кЩи, xltj, и(ч)М, v4th хЩ, и*И, ε))> <
< min <s(tu хШ, ε) · hl'4tu хШ, w, v)> + η(32.ΐ2), (32.12)
.где
lim η(32.ΐ2) (η) = 0. (32.13)
η-»0
Это неравенство может играть такую же роль, как
неравенство (30.15) при выводе оценки вида (27.2). А это и обосновывает
то свойство экстремальной контрстратегии Vu(-), которое было
использовано в § 12*.
В заключение параграфа приведем обоснование неухудшае-
мости оптимального гарантированного результата р£ (ί*, χ*) при
расширении класса допустимых реализаций помехи от множества
измеримых функций υ [£# [ · ] θ) до множества слабо измеримых
но t функций-мер ν(Α;|ί*[·]Φ) (см. § 13). Ограничимся случаем,
когда функции /(·) и χ(·) непрерывны по всем аргументам. Это
юбоснование использует следующее утверждение, которое
заменяет лемму 25.1. Как и в той лемме, рассмотрим два движения
4J[t* [ · ] **] и ζ [t* [ · ] ί*]. Движение ζ [f* [· ] ί*] строится так же,
лак в § 25 (см. (25.3), (25.5), (25.6) при τ*=ί*, τ* = ί*).
Движение ]/[£*[·]£*] является обобщенным пополненным
движением y[t* [·] ί*] = {x[t* [-] t% yn+1 [t* [·] i*]} (см. § 13*),
которое порождено управлением (25.2), (25.4) и какой-либо
обобщенной реализацией-мерой v* (dv \ t% [ · ] £*). Движение у [t% [ · ] £*]
является решением дифференциального уравнения
у= f h (i, x[t], и tf], ι;) ν* (dv | ί). (32.14)
Q
Только в этом последнем пункте и состоит отличие от условий
леммы 25.1. Но это отличие не нарушает ее вывода. Справедливо
следующее утверждение.
Лемма 32.1. Для любого ε>0 найдется δ(ε) >0 так, что
будет выполнено неравенство
ν (*, у It], z [t]) < ν (**, у [ί J, ζ [ί J) + β (ί — ί*) (32.15)
<9ля всея значений ief^, i*], ес/ш только справедливо
неравенство (25.8).
Доказательство леммы 32.1 повторяет доказательство леммы
25.1. Различие проявляется лишь в одном пункте.
В выражении (25.10) для dv/άτ величина Μ τ, χίτ], и[х], ν[τ])
заменяется на величину
h (τ, χ[τ], и [τ], ν* (dv \ τ)) = j h (τ, ζ [τ], и [τ], ν) ν*(άν\ τ). (32.16)
Q
254
Здесь
При такой замене оценки (25.11) —(25.15) сохраняют силу
очевидным образом. Поэтому остается рассмотреть еще только
величину, которая заменяет соответствующую величину в левой
части (25.16). Получим такую цепочку соотношений:
<s [t*]-(h (f*, *[**], ие, ν* (do Ι τ)) -
— h{t*, x[t*], и*[т], v+e(u* [τ])))> =»
= <s [t*] -h (**, χ [**], ue, v* (dv | τ))> —
— <s [t*]-h(t*, x[t#], щ [τ], v*e (u* [τ]))> <
< max <5 [**] · h (£*7 я [**], ue v)} —
— <s[t*]-h(t*, x[t*], и#[т], !;*«(«♦ [τ]))>. (32.17)
Мд = ИУ-2[у. (32.18)
Правое неравенство в (32.17) получается из таких неравенств:
<s It*) -h (ί*, x U*], u€, ν* (Α; Ι τ))> =
β <f*1**] · ί fe ('♦» χ [**], ив, у) ν* (dv | τ)^ <
<max/* [**]. f й,(**, я [**], ue, ν) ν(&;|τ)^ =
V \ Q /
= max <*[**]./&(£*, !r [**], ue, ν)}. (32.19)
Далее, из (32.17) по выбору ие (25.4) и v*e(u) (25.5), как и в
§ 25 (см. (25.11)—(25.17)), получим оценку
*<''У[;Ь'Ц><φ(б)ехр {- 2λ(24*22)(t- *0)}. (32.20)
Интегрируя это неравенство при условии φ(δ) < ε, получим
неравенство (32.15). Это доказывает лемму 32.1.
Теперь, опираясь на лемму 32.1, можно повторить целиком
доказательство деммы 26.1 с той лишь разницей, что роль помехи
ν[t* [-]$) будет играть обобщенная помеха v(dv\t+[*]i)) Ы
движение у [t# [·] Щ заменится обобщенным движением у U* [·] θ]ν.
Таким образом, оказывается справедливым утверждение,
аналогичное лемме 26.1, где гарантированный результат р[и*(·)'» £*, x*\
понимается уже в смысле р[и*(·); £#, #*]аз.24)· Отсюда в
соответствии с результатами из §§ 28, 29 и вытекает, что оптимальный
гарантированный результат Pu(t#, ЯД13.31) тоже удовлетворяет
равенству
ри (**, я*)из.з1) = р° (**, **){7,ι;8,ι> (32.21)
и достигается для той же оптимальной экстремальной стратегии
и°(·), которая входит в седловую точку дифференциальной игры
255
'{7.1; 8.1). Этим доказывается соответствующее утверждение из
§ 13.
Если выполнено условие (8.14), то рассуждения, относящиеся
ι? чистым стратегиям ι;(·), получаются автоматической
трансформацией рассуждений, относящихся к стратегиям и(-). Следует
-лишь заменить показатель γ на —γ и поменять местами буквы
и и v. Поэтому из предыдущих рассуждений вытекает, что при
условии (8.14) справедливо также равенство
Ρ? (**, #*)(13.37) = Р° (**, #*){8.2;8.3} = Р°(**, #*){7.1; 8.2}· (32.22)
Отметим еще такой результат. Пусть в (23.13) стратегия
С/(£, х) является тривиальной, т. е. Ζ7(ί, χ) =Ρ при всех ί, χ.
Рассмотрим процесс в контингенциях (23.18), порожденный законом
У ={Уи(·)» ε» Δδΐ формирования помехи, отвечающим
оптимальной экстремальной контрстратегии *>£(·)> и стратегией Ζ7(ί, χ)=*
— Р. При всяком выборе ξ > 0 справедливо неравенство
Ύ= f σ(χ,χ[τ])μ(άτ)+ J χ[τ]ίίτ>ρ0(^, ^b.i;8.i> - ζ, (32.23)
ясли только ε<ε(ξ), δ<δ(ξ, ε). Это означает, что расширение
класса управлений u[t%[-]$) включением обобщенных
управлений, отвечающих процессу в контингенциях (23.18), не
ухудшает оптимальный гарантированный результат Р2(£#, я#)(8.ю) =
*= ρ (ί-υ, ^*){7.ι;8.ΐ}·
Доказательство неравенства (32.23) подобно доказательству
неравенства (32.21). При этом только лемма 32.1 —аналог леммы
25.1 — заменяется на лемму, которая является аналогом леммы
25.2, и аналог леммы 26.1 заменяется аналогом леммы 27.1.
Выше приведено обоснование неравенств (32.21) и (32.22) при
условии, что функции /(·) и χ(·) в (4.3) и (7.4) непрерывны по
всем аргументам. Однако это обоснование переносится понятным
•образом на случай, когда по переменной t эти функции лишь
измеримы. Это достигается введением непрерывных
аппроксимирующих функций А[е1(·) = {/[е3(·), χίβ3(·)}, подобно тому, как это
было сделано выше в других случаях перехода от непрерывных
функций /(·) и χ(·) к функциям, измеримым по t.
§ 33. Обобщенный канонический случай
В число условий, которые определяют канонический случай
<см. §§ 4, 7), входят ограничения (4.1) и (4.2), где
предполагается, что Ρ и Q суть замкнутые и ограниченные множества.
В этом параграфе откажемся от предположения об
ограниченности множеств Ρ и Q, заменив его следующим условием.
Возьмем какую угодно позицию {£, х), *е= [£0) φ]. Выберем какой-либо
(гс+1)-мерный вектор s = {Z, sn+l}, удовлетворяющий условию
sn+i>l\l\ (33.1)
256
или условию
*»+i<-Sl/l, (33.2)
где I > 0 — некоторая постоянная.
Предположим, что для любого числа |>0 найдутся числа
Μι и М\ такие, что при всяком выборе вектора s (33.1)
существует по крайней мере один вектор ие, удовлетворяющий
условиям
sup<s-ft(i, χι и^ ν)} = min sup <$·/&(£, χ, и, ν)}, (33.3)
\ue\<Ml (33.4)
и при всяком выборе вектора s (33.2) для всякого значения
цеР существует по крайней мере один вектор ve(u),
удовлетворяющий условиям
(s-h(t,x,u,ve{u))y =min<s.fe(i, χ, и, ν)>, (33.5)
\ve(u)\^Ml (33.6)
Кроме того, предположим, что функции /(·) в (4.3) и χ(·) в
(7.4) непрерывны по всем аргументам и по переменной χ
удовлетворяют условиям Липшица
Ι/ίί, x{i\ щ ν)-fit, я<2), щ ν)\ <λ(33·7)Ι*(1)-*(2)Ι,
|χ(ί, *(1), щ ν) - χ(ί, *<2>, щ ν) | < λ(33·7) \χ™ - χ™ Ι (33'7)
для всех возможных значений £^[f0, ΦΙ; # = {#!, ..., #η},
—οο <Χ{ < οο? ί = 1, ..., η; ueP, v^Q. Измеримую по t
функцию σ(ί, ж) полагаем ограниченной при ж = 0и удовлетворяющей
условию Липшица по χ
|σ(ί, *(1))-σ(ί, я(2))1 ^λ(33·8)Ι*(1)-*<2>|. (33.8)
От специальной оговорки о выполнении неравенства (4.5) теперь
откажемся. При данных условиях назовем случай
квазиканоническим. Подчеркнем следующее обстоятельство. В данном случае
мы отказываемся от предположения, что рассматриваемые
движения #[£#[·]$], а вместе с ними и пополненные движения
У U* [·]*] = {* U* [·] ϋ]ι Уп+ι lh[-] Щ} лежат в ограниченных
областях G и G[y} соответственно. Допустимы априори любые
значения хЫ и у it] при t0<t<$. В качестве реализаций
управления u\t* [·]θ) = {и [t] е Ρ, t* < t <0} и помехи v[t+ [·]#) =
= {ι; [£] e @, t* ^ £ < θ} допустимы любые измеримые функции,
каждая из которых ограничена при £# ίξΐί <#. Однако мы не
требуем, чтобы все функции были ограничены по модулю
равномерно одной и той же постоянной, если такая ограниченность не
вытекает из условий (4.1), (4.2). В таком случае любая исходная
позиция {t%,x*} (или любая пополненная исходная позиция
{**, у*}) и какая-либо пара реализаций {и [t* [ ·] θ), ν [t* [ · ] 0)}
порождают единственное движение я* [£# I · ] $] (единственное по-
17 н. Н. Красовский 257
полненное движение у [t% [·] θ]). И для соответствующей
реализации процесса {х [t% [ · ] θ], и [t# [ · ] ft), ν [ί* [ · ] Щ получается
конечное значение показателя γ (7.4).
Пример, когда выполнены все условия, перечисленные для
квазиканонического случая, доставляется системой, которая
описывается линейным дифференциальным уравнением
χ = A (t)x + b(t)u + c(t)v, (33.9)
где A(t) = {шМ\ i — lf ···» w; / = 1, ..., η) — непрерывная
матрица-функция, Mi) = {&i(£), ..., bn(t)} и c(i) — {с4(Й, ..., c*(i)}
суть непрерывные вектор-функции, и и ι; суть скаляры, не
стесненные априори никакими ограничениями, т. е.
Р=[и: -оо<ц<оо]1 Q = [v: —οο<ι;<οο] (33.10)
и при этом показатель γ (7.4) определен равенством
Υ== |[ф[т]и2(т)-я|)[т]1;2(т)]йт+ J |*[τ]|μ(Λ), (33.11)
где
φΜ > ос, > 0, ψ[*] > α* > 0 (33.12)
при ίο^ί^Φ; ос, и а* — постоянные.
Условия (33.7) и (33.8) выполнены, причем
λ(33л) = max | A (t) ||, || А («) || - max | Л (*) * |, (33.13)
λ(ί3·8) = 1. (33.14)
Значение ие (33.3) определяется здесь из условия
<Ζ.&(ί)^> + 5η+1φ[ί] uf^min [<Ζ·6(ί)^> + 5Λ+1φ[ί]^21, (33.15)
т. е.
<l-b(t)>
ие =
(33.16)
2φ It] sn+1
и, стало быть, согласно (33.1) имеем
max \b(t)\
Значение ve (33.5) определяется здесь из условия
{1-е (ί) ι;β> — δη+1ψ[ί] ιί = max[</· c(t)v) — sn+1t|)[ί] ν% (33.18)
*-#$h <33·19>
258
и, стало быть, согласно (33.2) имеем
шах | с (ί) |
Вернемся к общему квазиканоническому случаю. В этом
случае определим z-модель так же, как это сделано в § 24 для
случая канонического. Отличие будет только в характере
ограничений на воздействия и% и ν%.
Движения «[·] для модели будут опять определяться
уравнением (24.14). Будут допустимы кусочно-постоянные реализации
и* U* ·] **) и *>*[** Ы t*) управлений и% и ν#, удовлетворяющие
включениям (24.15), имеющим, однако, новый смысл. Каждая
допустимая реализация и% [t% [·] £*) или v*[t*[-]t*) должна
быть ограничена по модулю своей постоянной. Равномерная
ограниченность всех реализаций, если она не вытекает из условий
(24.15), теперь априори не требуется. Впрочем, ниже
равномерная ограниченность всех рассматриваемых реализаций управлений
щ и ν+ для модели порой потребуется. Тогда это будет
специально оговариваться. Рассмотрим два движения z(1) [t% [ · ] θ] и
z(2)U*[*]fr] для модели, порожденные одной и той же парой
реализаций управлений и% Ιί*[·10) и ν* [£# [·]θ) , но из разных
позиций U*,z(#x)} и и#?4,2)Ь Вследствие условий Липшица (33.7)
для рассматриваемых движений справедливо неравенство
12(1> щ - z(2> т ι < ι *<;> - ζ? | βχρ ΐλ(38·2ΐ) (* -«.ж
< 14" - 42) I exp 1λ(83·21) (t -QI (33.21)
где можно выбрать λ(83·21) = 2λ(33·7). Далее, вследствие условий
(33.7) и (33.8), для функционалов
J ο(τ,ιυΗ)[τ])μ(άτ)1 i = 1,2, (33.22)
вычисленных для движений z(i) [t% [ · ] Щ = {ii?(i) [J* [ · ]Щ,
ζ(η+1 tf* [·] 0]}, справедлива оценка
I J σ (τ, ινω [τ]) μ (ώτ) - J σ (τ, ш(2) [τ]) μ (Λ) Ι <
< λ("·β) 1ζ™ - 4,2) | μ ([f,, Щ) βχρ {λ(33·21) (θ - ί,)}. (33.23)
Из (33.21) и (33.23) вытекает неравенство
+ J α(χ,ινω[τ])μ(άτ)-ζ(2)[4- f σ(τ, ι^>[τ]) μ(ίτ) | <
<[(1 + λ<33·8)μ([ί0,*]))βχρ {λ(3321) (0- f0))] k» -<2) | -
-λ»····»!*?»-*?*!· (33.24)
*7* 259
Рассмотрим ^-процедуры, определенные в § 28. Только теперь
в качестве функций ν[·] (28.2) допустим кусочно-постоянные по
τ функции
v*fr* И<>)= {ν[τ] е= <?, Ι ν [τ] |<Μ, τ*<τ<θ}, (33.25)
где число Л/ будет уточнено немного позже. При этом и кусочно-
постоянные реализации управлениям* [£# [·] θ) стесним условием
м»1т*[-]0)-{и[т]еЛ|и[т]|<М,т|||<т<«}. (33.26)
Таким образом, всякое движение ζ [τ* [·] О], формируемое
допустимой теперь ^-процедурой, порождается из назначенной
исходной позиции {τ*, ζ*} реализациями управлений и% [τ* [·]0)
(33.26) и ι>* [τ* Η θ) (33.25). Для двух движений ζ(1) [**[·] О] и
* U* [ · ] Щ, порождаемых одной и той же парой реализаций
(33.25) и (33.26) (при ί% = τ%), но из разных позиций U*»**1*}»
U*,z* }, справедливо неравенство (33.24), где постоянная
Липшица λ(33·24) не зависит от числа М.
Для рассматриваемых ^-процедур сохраняются все
конструкции и утверждения из § 28, если в соответствии с (33.25),
(33.26) все рассматриваемые реализации и* [τ* [·] ft) и ν* [τ* [·] θ)
будут удовлетворять дополнительному ограничению числом М.
Но тогда согласно материалу из § 29 функция ρ(ί, ζ),
определенная соотношениями (29.1), (29.2), будет удовлетворять условиям
1—3, 4й из § 26 и условию 4υ из § 27. При этом условия
стабильности 4й и 4* будут сформулированы для реализаций управлений,
стесненных дополнительным ограничением числом М. В условии
Липшица (26.2) постоянная λ(2β,2) получается равной числу λ(33·24).
Важно, что эта постоянная λ(2β·2) = λ(33·24) не зависит от числа М.
Выберем постоянную ξ > 0 из условия
ξ<1/λ(33·24). (33.27)
В соответствии с определением из § 26 найдем для какой-либо
позиции {£, у} при каком-либо ε > 0 сопутствующую точку
z(t, ι/, ε) (полагая в (26.18) λ(24·22) =λ(33·21)). Вектор s(t, я, ε) из
(26.16), определяющий эту точку, удовлетворяет условию (26.21).
Для этого вектора будет выполнено условие (33.1) при ξ из
(33.27). В самом деле, предположим от противного, что это
условие не выполнено, и, следовательно, справедливо неравенство
*«+i(*, x> βΧξΙΚί, я, β)Ι. (33.28)
Из условия (26.17) видно, что sn+i(£, х, в) >0. При этом
справедливо равенство
4+1 (*, χ, ε) + \l(t, χ, ε) |2 =
= [ε + ε (ί __ gj eXp {2λ(8321) (t - t0)}. (33.29)
В самом деле, если бы вместо (33.29) левая часть (26.18) (при
s =s% = s(t,x, ε), λ(24·22) =λ(33·21)) была строго меньше правой, то
260
Рис. 33.1.
δ/7+/
увеличивая s*n+i до осуществления в (26.18) равенства, можно
было бы уменьшить левую часть в (26.17). А это невозможно,
так как вектор s(t, χ, ε) (26.20) согласно (26.21) является
минимизирующим. Выберем вектор s{l]= {Ζ[ξ], 4+ι}, удовлетворяющий
условию (26.18) со знаком равенства [s+e(t-t0)y/z2xpWJJ20(t-t0)}
и условиям | ^——-^/
*Si-6|l[al, 4!?i>0, (33.30)
где число \ назначено в согласии
с неравенством (33.27). При этом
полагаем, что вектор 1Ш направлен
вдоль вектора Ζ(£, #, ε) (см. рис. 33.1).
Сравним величину р(£, χ — 1) + уп+1 —
— $Л+1 из (26.17) для s = s(t, χ, ε)
и s — s1*3. Согласно условиям
(33.24), (33.28)-(33.30) и (26.2), где λ(26·2) =λ(33·24\ имеем
ρ (ί, χ — I (*, χ, ε)) + уп+1 — 5η+1 (ί, χ, ε) >
> Ρ(t,x- Zm) + yn+1 -4Si- λ(3324)| Ζ(ί,*,ε) -
- Ζ[|]|- *η+1 (ί, я, ε) + 4#ι = ρ (f, a: - Zm) + yn+1 — *j#i +
+ [λ(33·24)(| ΙίΏ I - | * (*. *. ε) I) + *$ι - *η+ι (*,*, ε)]. (33.31)
Оценим величину в квадратных скобках в правой части (33.31).
Для этой цели составим функцию
φ[Γ]-λ»··«(|ΐΚ1|_Γ) + *&-
([ε + ε (t - ί0)] exp {2λ(83·21) (ί> ί0)} - r2)1/2. (33.32)
Имеем
φ[|Ζ["Π=0.
(33.33)
Вычисляя производную άφ/dr при г> Цт| и учитывая (33.27),
получим неравенство - ^
d£ = _ λ(38.24> + г ([ε + ε (t - t0)] exp {2λ(83·21) (t - t0)} - r2)"1/2>
dr
>-λ("·Μ) +|iel|/4Si- -λ(β»·Μ)+ i/6>
> _ λ<33.24) + λ(33.24) _ Q (33 34)
Из (33.33) и (33.34) заключаем вследствие \l(t, χ, ε)Ι>ΙίΙξ,Ι,
что оцениваемая величина в квадратных скобках в правой части
(33.31) положительна, т. е. справедливо неравенство
ρ(ί, x—l (t, χ, ε)) + уп+1 — sn+1 (t, χ, ε) >
> ρ (ί, χ - lm) + Уп+ι - sn+hu (33.35)
261
которое противоречит определению вектора &(£, х, ε) как
минимизирующего. Это противоречие исключает неравенство (33.28).
Итак, действительно, для вектора s(t, #, ε) выполнено условие
(33.1) при выбранном значении ξ (33.27). А это согласно (33.3),
(33.4) означает, что может быть построена экстремальная
функция и*(·), которая удовлетворяет условию (26.22) и притом
удовлетворяет неравенству
| и* (*, я, ε) 1< М£ (33.36)
при всех возможных £, #, ε.
Аналогичным образом с понятными изменениями проверяется,
что вектор sit, ж, ε) из (27.6), определяющий сопутствующую
точку z(t, у, ε) из (27.3), удовлетворяет условию (33.2) при
значении | из (33.27). А это согласно (33.5), (33.6) будет означать,
что может быть построена экстремальная функция i>u(·)' которая
удовлетворяет условию (27.6) и притом удовлетворяет неравенству
I у* (*, χ, и, ε) |< Μζ (33.37)
при всех возможных значениях £, х, ε и и е Р.
Число |, выбранное в соответствии с условием (33.27),
зафиксируем. Зафиксируем далее число Л/, которое удовлетворяет
неравенствам
Μ > М\, Μ > Ml, (33.38)
где Λ/|, Μ\ суть числа из условий (33.4), (33.6). Будем допускать
исходные позиции {ί*, χ%} в областях GN, которые определяются
числом N следующим образом. Именно, выберем какое-либо
число N. Пусть L есть большее из чисел N л М. Обозначим
/* = max | /(*, 0, и, ι?)|, (33.39)
где максимум вычисляется при
t0<t<®, мер, \u\<L, v<^Q, \v\<L. (33.40)
Вследствие условий Липшица (33.7) справедливо неравенство
|/(ί, χ, щ ν)\ </* + λ(33·7)Ι*Ι <λ<33·41)(1 + 1*1) (33.41)
при всех значениях £, и и ν из (33.40) и при всех значениях
χ = {#i, , xj, —°° < Хг < °°, ί = 1, ..., п. Здесь
V33-41>=max[/*, λ(33·7)]. (33.42)
При условиях (33.7) и (33.41) определим область G (4.18) (где
постоянная λ(4,5) =λ(33·41)). Эту область и выберем в качестве
области GN. Она будет обладать тем свойством, что для всякого
движения #[ί#[·1θ; х*], {£#, х*} <= GN, порожденного
управлением и [t* [ ·] θ) и помехой ν [t* [·] θ), которые удовлетворяют
условиям (33.40), будет выполнено включение {i, xitD^G*.
Область GN будем пополнять до области G$* в соответствии с
262
(24.10), причем величина η из (24.11) будет определена
равенством
η = η^χΙχ(ί, я, Щ v)\, ft, x)^GN,
u = P,v^Q, M<L, \v\<L. (33.43)
В свою очередь область погрузим в область G%,
построенную согласно (8.16)—(8.18) с должным выбором постоянной
^(*5) =λ(3341) и постоянной η*, для которой максимум (24.19)
вычисляется с учетом ограничения (33.40). Построенные так
области GN, G[n] и G* обладают по отношению к движениям
х [** f · ] *Ь У ['* I' 1 *1 и z Ι** Ι * 1 ®Ь порождаемым в
квазиканоническом случае при дополнительном ограничении (33.40), теми же
свойствами, как и области G, GIvl и G* по отношению к
движениям х It* [·]&], У [** [·] *] п «[ί#[·]θ1 в каноническом случае.
Это позволит ниже в текущем параграфе в квазиканоническом
случае при дополнительном ограничении (33.40) повторять
нужные построения из канонического случая.
Построим стратегию и*(·) согласно условию экстремального
сдвига (26.22), в котором переменные и ж ν стеснены еще
дополнительным ограничением
\и\<М9 \ό\<Μ. (33.44)
Зададимся произвольно некоторым числом N. Допустим лишь
реализации помехи v[t% [·] θ), стесненные условием
*t**H*) = WqeG, И*]|<ЛГ, **<*<*}. (33.45)
В соответствии с материалом, изложенным выше, будем
рассматривать лишь исходные позиции {ί#, х#} е GN, пополненные
позиции {£, у} е Gjv] и позиции {£, 2} <= G^. Теперь можно
повторить с небольшими изменениями рассуждения из
доказательства леммы 26.1 (см. § 26). Изменения будут связаны лишь с
тем обстоятельством, что свойство ^-стабильности 4й для функции
р(£, ζ) будет выполнено при дополнительном ограничении (33.44)
для реализаций щ [t* [·] ft) (33.26) и !;*[*♦ Η*) (33.25), а
реализация помехи ν [£#[·] θ) стеснена только условиями из (33.45),
где, может быть, Ν>Μ. Это обстоятельство проявится так.
Следуя материалу из § 26, зафиксируем некоторое значение ε > 0
и выберем разбиение АъШ с шагом 6>0, который в
соответствии с леммой 25.1 обеспечивает условие (25.9). Только теперь в
условиях этой леммы допустим все реализации управлений и
помехи, стесненные дополнительным ограничением
1и|<#, \ό\<Ν. (33.46)
В соответствии с материалом, приведенным выше, нас в
дальнейшем будут интересовать только такие ситуации, когда
позиции {τ*, у [τ*]} — {τ*, χ [яг*], уп+1 [τ*]} и {τ*, ζ [τ*]} = {τ*, w [τ*],
zn+i [τ*]/ι фигурирующие в условиях леммы 25.1, стеснены ус-
263
ловием (33.1) при ξ из (33.27), где I = х[т*\ — ιν[τ#], sw+i =?
— ^η+ιΐτ*] —ζη+1[τ*]. В самом деле, нужная лемма о близости
движений у [τ* [ · ] τ*] и ζ [τ* [ · ] τ*] используется ниже лишь
в случае, когда движение ζ [τ* [ · ] τ*] начинается из
сопутствующей к {τ.|., ι/[τ*]} позиция {τ*, ζ [τ*]}. А согласно упомянутым
рассуждениям в таком случае обязательно выполнено условие
(33.1) при | из (33.27). Но тогда по выбору числа Μ (33.38)
можно полагать, что участвующие в формулировке леммы 25.1
экстремальные управления ие и v*e удовлетворяют и условию
(33.44). Однако выбор шага 6 будет зависеть теперь от ε и от N.
Таким образом, выберем
δ = δ(ε, Λ0>0 (33.47)
так, чтобы при этом значении δ выполнялось условие (25.9),
какова бы ни была помеха ι>[τ#[·]τ*), удовлетворяющая
ограничению (33.45). В дальнейших выкладках из доказательства
леммы 26Л величина помехи ν [t# [ · ] θ) уже не влияет на оценки
(при условии, что выполнено условие (25.9)). Все участвующие
в этих оценках реализации u[t{l ·]ίί+1), и* [ί{ [ ·]ί|+ι)» *>♦ ΙΜ · 1 *i+i)
стеснены дополнительным условием (33.44). Но при этом
условии справедливо и неравенство (25.9) и свойство ^-стабильности.
Отсюда следует, что мы снова придем к неравенству (26.45).
Итак, справедливо следующее утверждение.
Лемма 33.1. Пусть имеем квазиканонический случай и
функция р(£, ζ) определена равенством (29.1) на базе ^-процедур,
стесненных дополнительным условием Ы^Д/ из (33.25) и
работающих при дополнительном ограничении \и\^М из (33.26).
Здесь Μ— число из (33.38) при ξ из (33.27). Тогда при всяком
выборе числа ζ>0 и числа Ν>0 найдется число ε(ξ) >0
и функция δ(ξ, Ν, ε) >0 так, что закон управления
3/(зз.48) = {и*(·), ε, Δ*}, (33.48)
отвечающий стратегии и*(·), построенной по условию (26.22) при
дополнительном ограничении (33.44), гарантирует неравенство
(26.45), какова бы ни была исходная позиция {£#, х*} из области
GN и какова бы ни была помеха v[t*[-]b) (33.45), если только
будут выполнены неравенства
ε<ε(ξ), δ<δ(ξ, Ν, ε). (33.49)
Аналогичным образом, следуя с понятными изменениями
рассуждениям из доказательства леммы 27.1 (см. § 27), можно
доказать справедливость следующего утверждения.
Лемма 33.2. Пусть имеем квазиканонический случай и
функция р(£, ζ) определена, как в лемме 33.1. Тогда при всяком
выборе числа ξ>0 и числа Ν>0 найдутся ε(ξ) >0 и δ(ξ, Ν, ε)>
> 0 так, что закон формирования помехи
rlnM)-\vU·), ε, Δβ}, (33.50)
264
отвечающий контрстратегии vu(-), построенной по условию (27.8)
при дополнительном ограничении (33.44), гарантирует
неравенство (27.11), какова бы ни была исходная позиция {£#, ^}effjv
и каково бы ни было управление
и[**[-]^) = М*]е=Л ИЧКЛГ, **<*<#}, (33.51)
если только будут выполнены неравенства (33.49).
Леммы 33.1 и 33.2 приводят к следующим определениям
оптимального гарантированного результата р£(£#, ##) и
оптимального гарантированного контррезультата pS (t%, x%) в
квазиканоническом случае.
Пусть дана исходная позиция {ί*, ##}, которая лежит в
областях GN при всех достаточно больших значениях N. Выберем
закон управления
^!52) = WM)(-)^,A6}, (33.52)
отвечающий какой-либо стратегии
u<*>(.)-Mf, χ, е)^Р, |и(*, χ, ε)ΚΜ, {ί, x)^GN). (33.53)
Назовем гарантированным результатом для закона 52>
и позиции {ί*, х%) для Ν>Μ величину
p(t*,x*,<U(M\N) = sup т(«(ВД,*[М^*М·.*·)· (33.54)
Здесь величина γ {°U, v [t* Ι·]θ), £#, χ*) имеет тот же смысл,
что и в (7.9), но верхняя грань вычисляется по всем помехам
ν [ί*[·]*) (33.45).
Гарантированным результатом для стратегии ц(1°(·) для
позиции {£#, х*} назовем величину
Ρ (**, **, и<м> (·)) = ПЕ lim lim sup ρ (**, я*, 2/(Μ), iV). (33.55)
Из леммы 33.1 заключаем, что для стратегии и{ы)(-) = w*(-)f
где число Л/ удовлетворяет условиям (33.38), справедливо
неравенство
ρ (**, *„, и* (·)) < ρ (**, ж») = ρ (**, {**> °})> (33.56)
какова бы ни была исходная позиция {£#, х%}> Здесь р(£, ζ) —
функция из леммы 33.1.
Выберем теперь закон формирования помехи
^&) = Ιι4Μ)(·),ε,Δ6}, (33.57)
отвечающий какой-либо контрстратегии
*4М)(-) =
= {ν (ί, χ, и, ε) е <?, 11; (ί, я, и, ε) |< Λί, {*, я} €= Gjv, w e=P). (33.58)
265
Назовем гарантированным результатом для закона У°(зз?57)
позиции {£*, х*} и N>M величину
ρ(ί*,ζ*, Τ^\Ν)= inf ν(^(Μ),^[^[·]θ),ί*,^). (33.59)
u[f*[·]*»
Здесь величина γ(^% и [£*[-] θ), £#, ##) имеет тот же смысл,
что и в (8.5), но нижняя грань вычисляется по всем управлениям
и [£#[·]ft) (33.51). Гарантированным результатом для
контрстратегии vu (·) для позиции {ί*, χ*} назовем величину
р(**, z„ y(uM)(·)) - Ι™ lim lim inf p(tm, x„ T{M\ N). (33.60)
e_»0 N-+oo δ-»0 Δ6
Из леммы 33.2 заключаем, что для контрстратегии i/uM)(·) =
= ι>υ(·)> где число Μ удовлетворяет условиям (33.38),
справедливо неравенство
р(**, #*, vt (·))>Ρ(**> χ*) = ρ(**, {λ:*, 0}), (33.61)
какова бы ни была допустимая исходная позиция {£#, х*}- Здесь
ρ(ί, ζ) — та же функция, что и в (33.56).
Так как всякий закон управления Ф/(зз!52) совместим с любым
законом формирования помехи У°ш.ы) (и мы можем при
вычислении величин (33.55) и (33.60) полагать Ν>Μ), то в согласии
с материалом из § 8 (см. лемму 8.1) справедливо неравенство
ρ(*·,*·. ^Μ)(·))<ρ(**, х*,и(М)(.)), (33.62)
каковы бы ни были стратегии и(ю(·) (33.53) и контрстратегия
ι4Μ)(·) (33.58). Но из неравенств (33.56), (33.61) и (33.62)
заключаем, что справедливы равенства
p(i*, zm, α·(.)) = min р(**, **, #)(·)), (33.63)
Ρ (**,**, ^(·))= max p(**> **> ^uM)(·))» (33.64)
т. е. стратегии и*(·) и i>u(·) являются оптимальными.
Более того, любые два закона °USM^ и У' 2> совместимы при
значениях Λί{ (ι = 1, 2), которые удовлетворяют условию (33.38).
Но тогда наряду с (33.62) справедливо неравенство
ΡΪ*·, *·. *>Г2) (·))<?('·. *·. ^(Ml) (·)) (33.65)
для всяких двух стратегий ι;£ 2'(·) и и^ ^ (-). В том числе
это неравенство справедливо и для оптимальных стратегий
ι*(Μι)*(.)Ι(33.63) и ι4Μ2>*(·) (33.64). Однако согласно (33.56),
(33.61) и (33.62) для этих стратегий справедливы равенства
ρ(ί„ *., i;W (·)) - Ρ (ί*, **)(*Ч (33.66)
ρ(ί„ *., u(Mi)*(.))= ρ(ί.,. %)(Μι). (33.67)
266
(Функцию ρ (*#, χ*) из (33.56) и (33.61) мы из осторожности
снабдили пока в (33.66) и (33.67) соответствующим верхним
индексом Шг) (i = 1, 2).)
Но из (33.65)—(33.67) следует неравенство
ρ (ί*, **)(Μι) >ρ (**, xJM*). (33.68)
Меняя в предыдущих выкладках ролями Mi и Л/2, получим
противоположное неравенство
Р (**, я*)(м*>< Ρ (**, »·)<"«>. (33.69)
Из (33.68) и (33.69) вытекает, что
p(h,x*)(MJ = p(h,xJM') (33.70)
для всех значений М, которые удовлетворяют условию (33.38).
Это дает основание обозначать функцию p(f#, x*) из (33.56) и
(33.61), не вводя индекс М. Но все сказанное означает также,
что оптимальные стратегии и*(·) и i>u(·)* найденные для
некоторого значения М* из (33.38), остаются оптимальными и
относительно стратегий и{М){·) и i>LM) (·) при всяком Μ>Λ/#. Итак,
справедливо утверждение.
Теорема 33.1. В квазиканоническом случае существуют
оптимальная стратегия и*() и оптимальная контрстратегия vu(·),
которые строятся в соответствии с леммами 33.1 и 33.2 при
каком-либо значении Μ = Μ* из (33.38). Для этих стратегий
справедливы равенства (33.63) и (33.64), где в правых частях Μ суть
любые числа из (33.38). При этом
р(**, #*, и* (·)) = Ρ(**>**> рЦ(')) = р('*,«#), (33.71)
какова бы ни была допустимая позиция {ί*, ##}.
В соответствии с этим в квазиканоническом случае величину
Р(**> х*) будем называть ценой игры, а пару стратегий и°(-)=*
= и* (·) и Vu (·) = vu (·) — седловой точкой.
Если выполнено условие (8.14) седловой точки маленькой
игры, то в качестве оптимальной стратегии vu(-) можно выбрать
чистую стратегию ν*(·). Понятную проверку этого утверждения
опустим.
Наконец, отметим, что подобно теореме 29.4 в каноническом
случае, в квазиканоническом случае справедливо следующее
утверждение.
Теорема 33.2. Каково бы ни было число ζ>0, найдутся
число ε(ξ)>0 и функция δ(ξ, iV, ε) >0 такие, что закон управ-
ления
%и.»>-W4·), ε, Δδ} (33.72)
при условиях (33.49) гарантирует неравенство
Р(**, 0!**])<Ρ(*·· »[*·])- J ο(τ,χ[τ])μ(άτ) + ζ (33.73)
267
для всякого порожденного им пополненного движения у [t% [· J £*],
каковы бы ни были исходная позиция {£#, У It]}, полуинтервал
времени [£#, f*), i* e (£#, θ], и измеримая реализация помехи
ρ[*♦[·!**)» стесненная условием \v\ <iV, α закон формирования
помехи
3%.74>-№(·). β, Δβ] (33.74)
тгри условиях (33.49) гарантирует неравенство
p(t\ylt*])>p(U,y[t*])- J σ(τ,«[τ])μ(ίϊτ)-ζ (33.75)
для всякого порожденного им пополненного движения у [t% [·] £*],
каковы бы ни были исходная позиция {i*, ]/[£#]}, полуинтервал
времени [£#, £*) и измеримая реализация управления и [ί* [·]£*),
стесненная условием \u\^N.
Учитывая равенства
p(i, i/)=p(f, х) + ул+1, (33.76)
*.*
Уп+i [**] - y«+i [**] + J χ (τ, χ [τ], u [τ], ι; [τ]) άτ, (33.77)
ί*
можно записать неравенство (33.73) в такой эквивалентной
форме:
- J Χ (τ, х [τ], α[τ], ι; [τ]) Λ — J σ (τ, ж [τ]) μ (dx) + ζ, (33.78)
а неравенство (33.75) — в такой эквивалентной форме:
p(i*,«U*])>p(**^I**])-
— J Χ (τ, ^ [τ], и [τ], ν [τ]) ώτ - j σ (τ, ж [τ]) μ (άτ) - ζ. (33.79)
t* [**,**)
Теорема 33.2 доказывается на основании теоремы 33.1
подобно тому, как теорема 29.4 доказывается на основании теоремы
29.1. Поэтому доказательство теоремы 33.2 опустим.
§ 34. Квазиканонический случай. Линейный объект
Обратимся к тому квазиканоническому случаю, когда
уравнение движения является линейным
χ = A(t)x + Btt)u + Cit)v (34.1)
268
и показатель качества γ имеет вид
Τ- Ι Κ"[τ]·Φ(τ)Μ[τ]>-<ι;[τ].ψ(τ)ρ[τ]>]£ίτ +
+ j σ(τ,*[τ])μ(<ίτ), (34.2)
причем непрерывная функция σ(£, а:) удовлетворяет условию Лип-
пшца но #. Здесь я, и, у —векторы; А(£), Ж£), С(£) суть
непрерывные матрицы-функции при to^t^il·; Φ(*) и Ψ
(^—симметричные непрерывные матрицы-функции. Стало быть, скалярные
произведения <и-Ф(£)и> и <ι;·Ψ(ί)ι;> являются квадратичными
формами. Предполагаем, что эти квадратичные формы являются
определенно-положительными, т. е. для них справедливы
неравенства
<и - ФШи> > аи\и\\ (34.3)
<ν-Ψ№ν>>αΌ\ν\2 (34.4)
при всех t<o, О]. Здесь аи и av суть положительные
постоянные. Предположим также, что значения и и у не стеснены
никакими дополнительными ограничениями. Частный случай
системы (34.1) и показателя γ (34.2) рассмотрен для примера в § 33,
где в уравнении (33.9) величины и и υ суть скаляры.
Значение ив, которое удовлетворяет условию (33.3), т. е. здесь
условию
(1-В (t) ие} + sn+1 (ue.O{t) ue} =
= min[<Z.#(*)i/> + sn+1(u-0(t)uy]^
и
= min [VB (t) и + sn+1uO (t)u], (34.5)
и
где Sn+i > 0, определяется из равенства
VB (t) + 2$п+1иеФ (t) - 0, (34.6)
причем верхний индекс «штрих» обозначает транспонирование.
Матрица Ф(£) имеет непрерывную обратную матрицу Φ~4ί).
Поэтому
и.--2Γ-ΙΦ-1 (*)*'(*)*]· (34.7)
Значение vei которое удовлетворяет условию (33.5), т. е. здесь
условию
<«>С(*)>.>-*η+ι<ι;.·Ψ (*)»·>-
= min[<Z.C(#) v> - sn+1 <ι;·Ψ (*) ν}] =
Ό
= min [I'C (t) ν — δ„+1ι/Ψ (t) v], (34.8)
269
где sn+i < 0, определяется из равенства
VC (*) - 2sn+1veO (t) - 0, (34.9)
и, стало быть, имеем
ve= * [W-x(t)Cf(t)ll (34.10)
Вследствие ограниченности матриц Φ~4ί) и Ψ~4ί) при ί0^
<ί<# заключаем из (34.7) и (34.10), что условия (33.1)—(33.6)
квазиканонического случая выполнены.
Важно отметить, что в рассматриваемом случае (34.1), (34.2)
шаг δ в тех утверждениях, которые приведены в § 33, можно
выбирать не зависящим от N. Так, в леммах 33.1 и 33.2
достаточная оценка для δ определяется числом δ(ξ, ε) > 0, не
зависящим от N. В определении гарантированных результатов число N
исчезает и т. д. Причина этого состоит в том, что в случае (34.1),
(34.2) те леммы, которые отвечают леммам 25.1 и 25.2 о
близости движений у[·] и ζ[·], можно сформулировать так, что
в формулировках не будут участвовать ограничения на
воздействия vltl или u[t] соответственно. Покажем это.
Справедливо следующее утверждение.
Лемма 34.1. Рассмотрим движения #[т*Н τ*] и ζΙτ*Ητ*]ι
порожденные из позиций {τ*, ι/Γι*]} и {τ*, ζ [τ*]}, τ* е [ί0, ft]
соответственно какой-либо ограниченной измеримой помехой
»[τ*[.]τ*)-{|ι;[τ]|<ΛΓ,τ,<τ<τ·} (34.11)
и управлением
ие [τ* [ · ] τ*) - {и [τ] = ие$ \ ие | < Μ, τ* < τ < τ*}, (34.12)
а также управлением
и* Ιτ* Η τ*) = { К [τ] |<Μ, τ* <τ<τ*} (34.13)
и управлением
Μτ*Ητ*) =ΚΙτ] - ι;[τ], τ*<τ<τ*}, (34.14)
где вектор ие определен условием (25.4), в котором, однако,
ограничения на и и ν имеют вид
\и\<М, Ы<М, (34.15)
причем число Μ выбрано из условий (33.39).
Пусть позиции {τ*, #[т#]} == {τ*, х\х*\?Уп+ fr*]} и {τ*,
*[τ*]} = {τ*, wU*\i zn+ilt*]} стеснены условием (33.1) при ξ
из (33.27), где 1 = х[τ*] — ιν [τ*], sn+i = #η+ι [τ*] — ζΛ+ι It*].
Гогда Зля любого ε > 0 найдется б > 0 гак, чго Злл функции
ν(·) (25.7) (га/ш λ(2422) =λ(88·7)) б#дег справедливо неравенство
(25.9) для всея значений ie [τ*, τ*], если только будет
выполнено неравенство (25.8).
Для доказательства леммы, как и в § 25, оценим
производную сМт, гДт], z{%\)/d%. Повторяя выкладки (25.10)—(25.12)»
270
придем к ^неравенству (25.13). Это неравенство с учетом вида
функции Μ0~{4(τ)χ + 5(τ)ι* + ατ)ι\ <и -ФМи> - <ν · Ψ(τ)ν»
и равенства ν+[τ]***ν[τ] для реализаций (34.11) и (34.14)
принимает вид
dv (τ, у [*Ь « Μ) ^
dx ^
< 2 [<(* [τ] - w [τ]) · (β (τ) и [τ] - β (τ) и* [τ])> +
+ (Уп+ι [τ] — ζη+ι [τ]) [{и [τ] ·Φ (τ) и [τ]> -
- <"* [τ] ·Φ (τ) щ [т]>]]ехр {- 2λ(337) (τ - ί0)}. (34.16)"
Имеем в соответствии с формулой Коши (см. [18*], с. 173)
χ [τ] — w [χ] = Χ (τ, τ*) (χ [τ*] — w [τ*]) +
τ
+ J Χ (τ, *) β (t) (u [t] - и* [ί]) Λ, (34.17)
τ*
Уп+i [τ] — Ζη+ι [τ] = уп+ι [τ*] — ζΛ+ι [τ*] +
τ
+ J [<и [t] ·Φ (t) и М> - <u* [ί] ·Φ (t) и* [φ] Λ. (34.18)
т*
Вследствие ограничений на и и и* в (34.12) и (34.13),
вследствие равенства иЫ β ие и вследствие непрерывности функций
^(τ, ^*)» #W и Ф(т) получаем из (34.16)—(34.18) следующую
оценку:
йт ^
< 2 [<(* [τ*] - ν [τ*]) · (β (τ*) ». - Β (τ*) и* [т])> +
+ (Ifn+i Ь*\ — Ζη+ι [τ*]) [<и*-Ф (τ*) we> —
- (щ [τ] ·Φ (τ,) и* [τ])]} exp (- 2λ(83·7) (t - *0)) + φ (δ), (34.19)
где функция φ(δ) удовлетворяет условию (25.15). По выбору
вектора ие из условия (25.4) первое слагаемое в правой части
(34.19) неположительно. Таким образом, неравенство (34.19)
означает оценку
»<^М''М)<ф(Ди (34.20)
Эта оценка (34.20) равномерна для всех возможных позиций
{*#? l/fr*]} и {τ#, ζ [τ*]}, x%^[t0, Щ. Интегрируя неравенство
(34.20) при τ*^ τ<! ί, получим неравенство (25.18). При выборе
δ из условия (25.19) убеждаемся из (25.18) в справедливости
леммы 34.1.
Обратимся к вопросу о свойстве w-стабильности функции
ρ(ί, ζ), определенной равенством (29.1) на базе подходящих Q-
процедур.
271
Реализации ν [£# I · ] θ*) работают в парах с определяющими их ч
реализациями и [t% [·] ft). Те и другие реализации являются
кусочно-постоянными и стеснены ограничением (34.15) при
условии (33.38). Тогда функция pit, ζ) (29.1), (29.2) обладает
свойством ^-стабильности 4 * относительно воздействий ν [τ* [ · ] τ*)
и и [τ* [·]τ*), которые стеснены теми же ограничениями (34.15),
(33.38). Однако нам потребуется ниже ^-стабильность этой
функции pit, ζ) при условии, что реализация ν[τ*[-]τ*) является
произвольной измеримой ограниченной функцией. При этом
ограничивающее число N из условия
\ν\<Ν (34.21)
может быть сколь угодно большим. Но справедливо следующее
утверждение.
Лемма 34.2. Пусть дана функция pit, z) (29.1), (29.2), по-
строенная на базе Q-процедур, работающих при условиях (34.15),
(33.38). Эта функция обладает свойством и-стабилъности 4*
(§ 27) относительно реализаций, стесненных ограничением (34.15),
(33.38). Тогда, каковы бы ни были позиция {τ*, ζ*}, число ε>0,
значение τ* е (τ#,0] и ограниченная измеримая реализация
ν [τ* [·] τ*), найдется кусочно-постоянная реализация и [τ* [·] τ*),
такая, что для движения ζ [τ* [·] τ*] = ζ [τ* [·] τ*; ζ#, ν [τ* [·] τ*),
и [τ# ί · ] τ*)] будет выполнено неравенство
ρ (τ*, ζ [τ*]) + J σ (τ, w [τ]) μ (dr) < ρ (τ*, ζ [τ*]) + ε (τ* - τ*).
[τ*,τ*)
(34.22)
Справедливость этой леммы вытекает прямо из результатов
предыдущего § 33. В самом деле, согласно теореме 33.2 для
заданной реализации ν[τ#[·]τ*), а, стало быть,, при известном
значении N из (34.21) при любом выборе ζ найдется закон
управления #/(зз.48), который гарантирует неравенство
Ρ (τ*, ζ [τ*]) + J σ (τ, w [τ]) μ (άτ) < ρ (τ*, ζ [τ*]) + ζ, (34.23)
[τ*,τ*)
какова бы ни была помеха ν[τ% [·] τ*). Выберем ζ = ε(τ* — τ*).
Тогда соответствующий закон управления %1(μΛ8) выработает в
ответ на заданную в лемме 34.2 помеху υΐτ*!·] τ*) такую
реализацию управления и [τ* [·] τ*), которая даст в паре с ν [τ% [·] τ*)
неравенство (34.22). Это доказывает лемму 34.2.
Опираясь на леммы 34.1 и 34.2, можно повторить
рассуждения, которые привели к лемме 33.1. При этом только в
рассуждениях из доказательства леммы 26.1, использованных в § 33,
следует на каждом шаге U<:t< ti+l строить сопутствующее и
вспомогательное движения z[ti[-]ti+i), zI<][i*[-]ff+i] для з-модели
на основе реализации ν*Ц\{*] *i+i), совпадающей с реализацией
помехи v[ti[-]ti+i), действующей на я-объект. И сопутствующее
движение z[ti[']ti+l) будет порождаться такой помехой
272
v*lt* H*i+i) из сопутствующей позиции {и, ziu, уШ, ε)} в паре
с управлением u[ti[-]ti+i), которое согласно лемме 34.2 дает не-
равенство (34.22). В то же время для пары движений y[til-]ti+l]
и zwlt{l']ti+i] согласно лемме 34.1 будет выполнено и
неравенство (25.9). Важно, что согласно этой лемме 34.1 шаг б>0 не
зависит от N и от значения у[х*\- Таким образом, благодаря
леммам 34.1 и 34.2, изменяя немного построение движений
zm[£iMi<+i], можно повторить оценки из доказательства леммы
26.1 так, что они не будут зависеть от числа N в ограничении
(34.21) и от исходной позиции {£*, у*}. При этом подходящий
шаг б>0 выбирается также независимым от N и {£#, у*}· А это
означает, что справедливо следующее утверждение.
Лемма 34.3. В рассматриваемом квазиканоническом случае
(34.1), (34.2) существует стратегия и*(·), для которой
гарантированный результат ρ [и* (·); £#, х*\ (7.13) удовлетворяет
неравенству
р[и*(·); **,**]< Ρ (**>#*) = р(^, {х^ 0}), (34.24)
какова бы ни была исходная позиция {ί*, ##}, t% е [£0, ϋ]. Этот
результат ρ [гг* (·); £#, х*\является равномерным по всем
исходным позициям {t%, х%}.
Здесь ρ(ί, ζ) —- функция (29.1), (29.2), построенная на базе
^-процедур, определенных при ограничениях (34.15), где число
Μ удовлетворяет условию (33.38).
Стратегия и*(·) определяется по функции ρ(ί, ζ) из условий
(26.20)—(26.22), причем в условии (26.22) ограничения и&Р
и v&Q отсутствуют, но решение и*(£, х, ε) автоматически
удовлетворяет ограничению
\u4t, я, e)l«Jlf. (34.25)
При определении гарантированного результата ρ [и* (·); £#, х*\
верхняя грань в (7.10) вычисляется по всем возможным
измеримым ограниченным реализациям у [**[·] ft)· (Каждая реализация
ограничена по модулю \v\ своей постоянной N.)
Меняя в выкладках ролями переменные и и ι;, придем
подобно предыдущему к следующему утверждению.
Лемма 34.4. В рассматриваемом квазиканоническом случае
(34.1), (34.2) существует стратегия ι>*(·), для которой
гарантированный результат ρ [ν* (-); £#, х*\ (8.7) удовлетворяет
неравенству
Ρ !*>*(·); ^.. *·!> Ρ (^«·*Λβ Ρ (*♦.{*·» 0}), (34.26)
какова бы ни была исходная позиция {£#, ##}, t* e [£0, О]. Этот
результат ρ [ν* (·)» **» #*]является равномерным по всем
исходным позициям {ί*, χ%}. Здесь pit, z) — та же функция, что и в
лемме 34.3.
Стратегия у*(·) определяется по функции p(f, z) из условий
(27.7), (26.8), (27.26), причем в условии (27.26) ограничения
и^Р и v^Q отсутствуют, но решение ι;*(ί, ж, ε) автоматически
18 н. Н. Красовский 273
удовлетворяет ограничению
\v*(t, я, β)Ι <ЛГ. (34.27)
При определении гарантированного результата ρ [у* (·); £#, х*\
нижняя грань в (8.5) вычисляется по всем возможным
измеримым ограниченным реализациям и [£*[·]$). (Каждая
реализация ограничена по модулю \и\ своей постоянной Ν.)
Из лемм 343 и 34.4 вытекает справедливость следующего
утверждения.
Теорема 34.1. В рассматриваемом квазиканоническом
случае (34.1), (34.2) существуют оптимальные чистые стратегии
и°(-)=и*(·) и ι;°(·) = ι>*(·), которые строятся в соответствии с
леммами 34.3 и 34.4. Для этих стратегий справедливо равенство
Ρ [и* (·); h, χ*] = ρ [ν* (·); **, **] = Ρ (**, х*)> (34.28)
какова бы ни была исходная позиция {£#, х*}. Гарантированные
результаты р() для оптимальных стратегий
и«(.) = и*(·), ^(.)-»*(·) (34.29)
равномерны по всем возможным позициям {£#, ζ*}.
Функцию р(£, ж) = ρ°(ί, ж) из (34.28) назовем ценощ а пару
стратегий и°(·), ι;°(·) — седловой точкой дифференциальной игры
{8.1; 8.2} в рассматриваемом квазиканоническом случае.
Доказанный факт означает следующее.
Для любого числа ξ>0 найдутся число ε(ζ)>0 и функция
δ(ξ, ε) >0 такие, что закон управления
2/(34.зо> = {и°(·), «, Δβ} (34.30)
гарантирует неравенство
о
j «и [τ] ·Φ (τ) и [τ]> - <у [τ].Ψ (τ) ν [τ]» ώτ +
+ J ο(τ,χ[τ])μ(άτ)^ρ<>(^χ*) + ζ, (34.31)
[ί*,θ]
какова бы ни была позиция {£#, χ*} и измеримая ограниченная
помеха ν [t% [·]0), если только
β<β(ζ), δ<δ(ξ, ε), (34.32)
а закон формирования помехи
* (84.33) = {у°(·), ε, Δ*} (34.33)
гарантирует неравенство
о
J «и [τ]·Φ;(τ) и [τ]> - <у [τ] · Ψ (τ) ν [τ]» dr +
и
+ f а(т,*Гт]^(<*т)>р°(**,**)-С, (34.34)
[<*,0]
274
какова бы ни была позиция {**, хщ) и измеримая ограниченная
реализация управления u[f*[-]u), если только будут
выполнены неравенства (34.32).
§ 35. Модернизированная стратегия
При доказательстве существования цены и седловой точки
дифференциальной игры {7.1; 8.1} в §§ 24—29 построены
стратегии и*(·) и v«(-)t для которых выполняются неравенства
(26.7) и (27.2). Эти стратегии определяются по функции ρ(ί, χ)
из условий экстремального сдвига (26.22) и (27.6). В этих
условиях фигурирует вектор s(£, #, ε), который связывает
пополненную позицию. {£, у) объекта с сопутствующей ей позицией
it, z(t, у, ε)} модели. Точка ζ(ί, у, ε) лежит в окрестности
Ι^-2|2<[ε + ε(ί-ίο)3βχρ{2λ(24·22)(ί-ί0)} (35.1)
точки у. Эта окрестность интенсивно расширяется при
увеличении £, если постоянная λ(2422) не мала. Величина окрестности
(35.1) влияет на оценку ξ той точности, которая согласно (26.45)
и (27.9) гарантируется законом управления °U = {u*(-), ε, Δβ) и
законом формирования помехи Τ = {ι>«(·)> ε» Δδ}· Если отрезок
времени [t%, О] велик, то экспоненциальный множитель в (35.1)
вынуждает выбор очень малого значения ε для получения
желаемой оценки ξ. В теоретических рассуждениях это безвредно.
Но при практическом использовании законов °U и Ψ выбор очень
малого значения ε, а вместе с этим и очень малого шага б, может
доставлять серьезное неудобство. Поэтому в текущем параграфе
стратегии и*(·) и vu{·) модернизируются так, что исключается
экспоненциальное расширение окрестности (35.1). Правда, при
этом могут появиться другие неудобства. Но это лишь
подтверждает известный факт, что приложение теории в каждом случае
заставляет искать наиболее подходящий путь от абстракции
к реальности.
Ограничимся случаем линейного уравнения движения
x = Ax + Bu + Cv, (35.2)
где А, В, С суть постоянные матрицы. Компакт Ρ в условии (4.1)
полагаем выпуклым. Показатель γ (7.4) выберем таким:
ϋ
Τ-J Χ (τ, и [τ], ν[τ))άτ+ f σ(τ, χ[τ]) μ{άτ). (35.3)
Примем, что выполнено условие (8.14). Функции χ(·) и σ(·)
полагаем непрерывными по всем аргументам, функция σ(·)
удовлетворяет условию Липшица по х.
Пусть для всякого достаточно малого числа |^0 определено
замкнутое множество Р[г] <=■ Р, Оно выбрано так, что Ρ содержит
его замкнутую ξ — окрестность в том минимальном линейном
IS* 275
подпространстве {и}*> в котором лежит Р. Таким образом, мйо*
жество Ρ[ξ] связано с множеством Ρ условием
Ρ id [и: |и — w|<£, ие={и}#,
Пусть справедливы равенства
{и}*, и<=Рт]. (35.4)
-Р[0] — ^\
НтР,
[*]
(35.5)
Разумеется, предположение о существовании Ρ[δ] является
дополнительным предположением о компакте Р. Множества Р^
нельзя построить, например, если Ρ состоит из одного вектора и.
Но подобные случаи оставим здесь в стороне.
Рассмотрим пример.
Пример 35.1. Пусть Ρ есть круг в трехмерном
пространстве векторов и = {щ, и2, ю3}, лежащий в плоскости
и1 + и2 + щ = 4, (35.6)
имеющий центр в точке 0(1, 1, 2} и радиус R = 1. В данном
случае подпространство {и}* — плоскость (35.6) — будет двумерным.
Множеством Рц} будет круг,
лежащий в той же плоскости (35.6),
имеющий центр в той же точке 0 и
радиус Л[|] = 1 — ξ (см. рис. 35.1).
При условии (8.14) функцию
р(£, ζ), которая определяет цену
р°(£, х) игры {7.1; 8.1}, можно строить
на базе ^-процедур (см. §§ 28, 29).
При этом дифференциальная игра
{7.1; 8.1} сводится к игре {7.1; 8.2}
и контрстратегия vu(·) заменяется
чистой стратегией у*(·), которая
определяется условием (27.24). ч
При построении
модернизированной стратегии и*(·) рассмотрим некоторую [ξ, ζ\-модель. Ее
движения z[U [ttl-] ί*] - {w[U [** [·] **], 4ξ+ι [**[ ·]**]} будут
определяться дифференциальным уравнением
z = fe*(i, и?, ит, i^u, g[S]). (35.7)
Здесь <7[i] =* {яЬ[ц, т^ц} — (п+ 1)-мерный вектор, m[S] — тг-мер-
ный вектор, η[ξ1 —скаляр, h*{·) — (л+ 1)-мерная вектор-функция
Рис. 35.1.
/г* (*, и?, Η[ξ], V[ib дц]) =
*Ρ'Μ[δ]' "[ξ])+ ^[61
(35.8)
где D — постоянная (η X га)-матрица, d —скаляр; переменные w,
Щи и *>rt] имеют такой же смысл, как и переменные и>, и*, р*
в § 24. Таким образом, функция &*(·) (35.8) содержит в качестве
аргументов, наряду с введенными раньше переменными £, м;, ицЛ
и v{ih еще вспомогательные воздействия m[Sl и ццъ которые со-
276
ставляют вектор gftj. Управляющие воздействия в (35.7) стесним
условиями
Um^Piu, (35.9)
vm^Q, 1и»ш1<6, hiiiKS- (35.10)
Введем матрицы
4*
-(ί ?)-
..α1Λ 0
"nl
0 ...0
«я» °
β*
-(? 2)=
*Ц-»1Г °
"П1
О ...О
Кг О
(35.11)
"ш
1С 0\
С* = (о о)
jo ...о
и (п+ 1)-мерный вектор
11
is
6. д*=(? 2)-ι
0J _-.
*т
Ληΐ
,=[■:·].
(35.12)
Тогда уравнение (35.7) примет вид
z-A*z + B*um+C*vm + g*x(t, щг1, Om)+D*qm. (35.13)
В соответствии с (35.7)—(35.12) введем для рассматриваемой
[|, zl-модели следующие ^[^-процедуры Q[i*, ζ*, ξ]. Они
определяются так, как это описано в § 28 с тем видоизменением, что
функции ι;* [τ* [ · ] θ) заменяются функциями {ν^ι [τ* [· ] θ),
Qffl fT* [·]*)}· При этом реализации управлений И[у [τ.,, [·]θ) и
{y[utT*I·]^)» ^[|]ίτ* ['] ^)} стеснены ограничениями (35.9),
(35.10). Имеем, в частности, Q[i*, ζ*, 0}=(?[τ*, ζ*], где
С [τ*, ζ*] есть ^-процедура, определенная согласно § 28 для
обычной копирующей z-модели, описываемой условиями (35.7)—
(35.13) при | = 0.
Определение β — Cm-процедуры получается понятной
модернизацией определения β — ^-процедуры, данного в § 28. Исходя
из такого определения β — #т-процедуры, построим функцию
Ρ (τ*> ζ*, ξ) как верхнюю грань тех значений β, для которых
существует β — С[5гпроцедура С [τ*, ζ*, ξ]. Иначе говоря, в
согласии с (29.1), (29.2) принимаем
Ρ (τ*, ζ*, ξ) =. sup β, β
где числовое множество В [τ*, ζ*,
^[τ*> ζ«, ξ],
(35.14)
*? **> ζ] определено равенством
5 [τ*, ζ*, ξ] = [β: 3β - С[|гпроцедура]. (35.15)
Справедливо следующее утверждение.
Лемма 35.1. Для любого числа ξ>0 можно указать число
ξ(ξ)>0 такое, что справедливо неравенство
Ιρ(τ, ζ, ξ) - ρ(τ, ζ, 0)1 < ξ, (35.16)
277
какова бы ни была позиция {τ, ζ) ^ С?*, если только выполнено
неравенство
ξ<ξ(ε>. (35.17)
Доказательство леммы опустим.
Обратимся теперь к некоторым фактам из теории
стабилизации движений (см., например, [16*], с. 475—514). Рассмотрим
движение si ] = {II ·], sn+ll J}, описываемое дифференциальным
уравнением
s = A*s + В*и + D*q, (35.18)
где s— (п+ 1)-мерный вектор, матрицы А*, В* и D* —те же,
что и в (35.13). Значения вектора и могут выбираться здесь в
пределах того линейного подпространства {и}*, которое участвует
в определении множества Р[г] (см. (35.4)); д = {/гг, η} есть
Ы+ 1)-мерный вектор, m есть га-мерный вектор, η —скаляр.
Скажем, что система (35.18) стабилизируема (при наших условиях),
если найдутся матрицы К ж Μ такие, что справедливо включение
u = Ksz={u}* (35.19)
и невозмущенное движение sit] = 0 асимптотически устойчиво по
Ляпунову ([16*], с. 17) в силу уравнения возмущенного движения
s = A*s + B*Ks + D*Ms. (35.20)
Достаточные и необходимые условия стабилизируемости
известны. Они даны, например, в работе [16*]. Обсуждать их здесь
не будем.
Если система, описываемая уравнением (35.20), является
асимптотически устойчивой, то согласно ([16*], с. 67) существует
определенно-положительная квадратичная форма
ν(·) = \v (s) s= (s-Ns} = 2 Vitsish vij = const }, (35.21)
производная которой (dx/dt)i35.20) в силу уравнения (35.20)
удовлетворяет неравенству
if) <-M2· (35.22)
V dt /(35.20)
Под производной (dv/di)(S5.20) понимается производная
сложной функдии
v[*]=vu?[d), (35.23)
где sit] есть решение уравнения (35.20). Согласно (35.20), (35.21)
имеем
(^] = <grad v (s)· [Л** + B*Ks + D*Ms] >, (35.24)
с
dt /(35.20)
где символ gradv(s) обозначает градиент функции ν(·), т. е.
gredv(*)-{gj, i = l, ...,/ι + l}. (35.25)
278
Пусть система (35.18) стабилизируема, найдены матрицы К и
Μ и определена функция ν(·) (35.21), которая удовлетворяет
условию (35.22). Зададимся числом ε>0. Определим значение
ξ(ε)>0, ξ(ε) -> О при ε -* 0, так, чтобы при условии
ν W < г (35.26)
были справедливы неравенства
иЫ<|(в), 1ЛГ*|<6(в). (35.27)
Такой выбор ξ(ε)>0 возможен, так как функция ν(·)
является определенно-положительной квадратичной формой. Также
вследствие свойств функции ν(·) по выбранному значению ε>0
можно указать число α(ε) >0 так, что будет выполнено
неравенство
\s\2>aie) (35.28)
при условии
vis) > ε/2. (35.29)
Приведем лемму, которая заменит здесь лемму 25.1. В
соответствии с (35.21) введем функцию
v*(yf ζ) = ν (у-ζ) = <iy-z)-N(y-z)> =
π+ι
= Σ vii<Ili-zi)to-*i). (35.30)
Рассмотрим пополненное движение #[τ*Ητ*] для ж-объек-
та и движение ζ№ [τ* [·]τ*] для [ξ, zl-модели, причем ξ = ξ(ε).
Предположим, что исходные позиции {τ*, у[т*]} и {τ*, ^[τ*]}
удовлетворяют условию
ν*(?[*·!, *и[τ*])<е. (35.31)
Пополненное движение у [тЛ ·]τ*]={#[τ*[·]τ*], Уп+ι [τ# И τ*]}
сконструируем здесь с некоторой особенностью. Пусть это
движение #[τ#[·]τ*1 определяется уравнением
у - А*у + Я* iue + Kiy [τ*] - ζ [τ*])) +
+C*v [t] + g*% (i, ив, ν Μ), (35.32)
где управление
ие [τ* [ · ] τ*) - {и, [t] = u9t τ* < t < τ*} (35.33)
найдено из условия экстремального сдвига по градиенту
функции vis):
max <[grad v (s)]KXml. [B*ue + C*v + g*% (τ*, иш% ν)]} - .
β Λ5ι™Q <igrad V {S)h[x*] *{B*U + °*V + g4 (**' U' V)]>- (35'34)
Здесь
* [τ*] - {I [^], sn+1 [TJ} - у [rj - ζ [tJ. (35.35)
279
В уравнении (35.32) значения vlt] определены какой-либо
допустимой измеримой реализацией помехи
ν [τ* [ ·] τ*) = {ν [τ] <= <?, τ* < τ < τ*}. (35.36)
Движение zt^ [τ* [ · ] τ*] определяется уравнением (35.13) и
порождается управлениями
V[tie [τ* [ · ] τ*) = {υπ* [τ] = να^ ^ < τ < τ*}, (35.37)
ЯЦ] [τ* [·] τ*) = {ад [τ] = gU] _ — Μ (у [τ*] — ζ [τ*])}, (35.38)
где вектор ν{ιΊβ найден из условия экстремального сдвига по
градиенту функции ν(·):
min <[grad v(s)b[T#].[#*w + С*ицъ + £*χ(τ*, и, να]€)]> —
= max min <[grad ν (s)]S[x*y[B*u + C*v + g*%(T#, u, y)]>.
(35.39)
Наряду с управлением {v^ [τ* [·] τ*), q^ [τ* [·] τ*)} (35.37),
(35.38), движение zU] [τ* [·]| τ*] порождается какой-либо
кусочно-постоянной реализацией управления
ЩИ [τ* [ · ] τ*) = {И[Н [τ] ε Р[И, τ* < τ < τ*}. (35.40)
Справедливо следующее утверждение.
Лемма 35.2. Для любого ε > 0 найдется б > 0 так, что для
описанных выше движений у [г% [ · ] τ*] и ζ№ [τ* [ · ] τ*] будет
справедливо неравенство
vHyit], ЛАКе (35.41)
при всех значениях t <= [τ*, τ*], каковы бы ни были исходные
позиции {τ*, у[г%]}^ 6?*, {τ^., я^[т*]}е 6?*, ес/ш только будут
выполнены условия (35.31) и
τ* — τ* < δ. (35.42)
Докажем лемму. Рассмотрим два случая. Пусть сначала
выполнено неравенство
v*(»[Tj1rfa[T*])<e/2. (35.43)
Тогда вследствие равномерной ограниченности правых частей
обоих уравнений (35.13) и (35.32) в области G* и вследствие
непрерывности функции ν*(·) можно указать такое число 6(1) >0,
что при условиях (35.43) и
τ* — τ*<δ(1) (35.44)
для любой пары движений у [τ* [·] τ*] и ζ№ [τ* [·] τ*] будет
выполнено неравенство (35.41) при всех ί£[τ*, τ*].
Пусть теперь справедливо неравенство
ν*(Ητ*],^][τ*])>ε/2. (35.45)
280
Вычислим производную dvlxl/dx для функции ν[τ] = ν*(ι/[τ],
ζΙ$1[τ]). Эта производная существует при почти всех те (τ*, τ*).
В соответствии с правилом дифференцирования сложной функции
и учитывая (35.13), (35.32), получим
££L = <[grad ν 001ί=ν[τ]_2[ξ][τ] · [А* (у [τ] - ζ [τ]) +
+ Β* (η, - uR] [τ]) + C* (ν [τ] - v[l]e) + g*x (τ, и,, ν [τ]) -
- g*% (τ, и [τ], va]e) + Β*Κ (у [τ*] - *Β1 [χ,]) +
+ fl*M(y[T,]-#[tt])l)<
< <[grad ν Wl^^j^tap·] · И* (у Ы - ata [τ,]) +
+ В* (в, - ида [τ]) + С* (ν [τ] - v[lh) + g*x (τ*, «., ι; [τ]) -
- g*l (τ*, м [τ], v[Ue) + Β*Κ (у [τ J - «СИ [т„]) +
+ D*M (у [τ*] - *βΐ [τ*])]) + ψ (τ - τ*), (35.46)
где монотонная ψ(δ) удовлетворяет условию
limt|)(6) = 0. (35.47)
δ-»0
При условии
ε
4- < ν* (у [τ*], *И [τ*]) < ε (35.48)
для производной dvlr\/dx вследствие (35.46), (35.34), (35.35),
(35.37)—(35.39), (35.22), (35.28) и (35.29) справедлива оценка
^£1<-α(ε) + ψ(τ-τ*). (35.49)
В соответствии с (35.47) выберем число 6(2>>0 из условия
#<ο(ε) при 6<б<2). (35.50)
Тогда из (35.49) следует, что при условии (35.48) при τ—τ* ^
^δ(2' справедливо неравенство
^<0, (35.51)
а это означает, что при условии (35.45) при
τ*-τ*<δ(2)
опять будет выполнено неравенство (35.41) при всех ie [τ*, τ*],
ибо при условии (35.51) функция ν[τ] возрастать с увеличением
времени τ не может.
Итак, если выбрать 6 = min(6(1), δ(2)), то для
рассматриваемых движений ?[τ*[·]τ*] и rf*1 [τ* [·!**! будет выполнено
утверждение леммы. Это и доказывает лемму.
Отметим следующее обстоятельство. Для движений у [τ* [ · ] τ*]
и ζ№[χ% [·]τ*], которые удовлетворяют условиям леммы 35.2,
281
выполнено неравенство (35.31). Стало быть, согласно (35.27) и
(35.38) для порождающих их управлений выполнены условия
| ?в11 < Ι (в), IК (у [τ*] - № [τ*]) | < Ι (ε). (35.52)
Но вследствие мвеР[П это означает, что выполнено вложение
[ие + К(у [τ*] - ζ [τ*])] е P. (35.53)
Итак, реализации управления и[·] и помехи »[·!, которые
порождают движение */[·], удовлетворяют вложениям
и[т]€=Р, ι;[τ]€=<?, τ*<τ<τ*, (35.54)
а реализации управлений в^М и ^цМ, которые порождают
движение ζ[|3[·], удовлетворяют вложениям
щи [τ] е= Ρ[ξ], »[Н [τ] € <?, τ* < τ < τ*. (35.55)
Определим стратегию и*(·) = {и*(т, ж, ε)} равенством
и*(т, #, ε) = Μβ(τ, ж, ε) + ί?(τ, я, ε), (35.56)
где функции ιιβ(-) и й() находятся из условий
max<[gradv(5)]i=i(T|Xfe).[iB*Me(T, а:, ε) + 67*ι;+£*χ(τ, иДт, χ, ε),υ)]) =
= min max <[grad ν (s)]s=s(xtx,tylB*u + C*v + g*x(r, u, v)]\
(35.57)
и(т, ж, ε)=1&(τ, χ, ε), (35.58)
причем вектор $(τ, #, ε) = {Ζ(τ, χ, ε), 5η+ι(τ, ж, ε)} определен из
условия
ρ(τ, χ — Ζ(τ, а:, ε), ξ(ε)) — 5Λ+ι(τ, ж, ε) =
= πηη[ρ(τ, χ — Ζ, |(ε)) —sn+J. (35.59)
Здесь ρ(τ, д:, |(ε)) — функция, найденная в согласии с (35.14).
Минимум в (35.59) вычисляется при ограничении
vis) ^ ε. (35.60)
Справедливо следующее утверждение.
Лемма 35.3. Гарантированный результат ρ [и* (·); £#, х%]
для стратегии и*(·), определенной условиями (35.56)—(35.60),
удовлетворяет равенству
Ρ["*(·); **, *·1 = Р°(**, **), (35.61)
где р°(^» х*) есть Цена исходной дифференциальной игры {7.1;
8.1} для рассматриваемых уравнения движения (35.2) и
показателя качества γ (35.3).
Иначе говоря, стратегия и*(·) (35.56)—(35.60) является для
этой игры оптимальной минимаксной стратегией.
Доказательство леммы 35.3 в основных чертах повторяет
доказательство леммы 26.1. Поэтому отметим здесь лишь некоторые
282
отличия в рассуждениях, связанные с заменой в них леммы 25.1
на лемму 35.2, а также изменения, связанные с появлением
в конструкции стратегии и*(·) (35.56) дополнительного
слагаемого й(т, #, г) (35.58), и изменения^ связанные с особенностью
рассматриваемого теперь пополненного движения #[£#[·] θ] объекта
(см. выше замечание об особенности пополненного движения
УМ-]**})-
Итак, пусть движение #[£#[·]θ] данного я-объекта
порождается из данной исходной позиции {£#, х*} е G законом
управления
^(З5.в2) -{и*(0, ε, Δδ}, (35.62)
отвечающим стратегии ц*(·) (35.56). Полагаем, что при
выбранном значении параметра ε число δ<δ(ε) в (35.62) выбрано так,
что для него справедливо утверждение леммы 35.2. Рассмотрим
пополненное движение у [** [·] Щ = {х [** [·]*], Уп+ι tt* Η
Щ}объекта, которое в согласии с (35.56)—(35.58) и (35.32) определяется
пошаговым дифференциальным уравнением
у = А*у + ВЧие(и, хШ, ε)+ #*(**, хЩ, e)) +
+ C*vit] +§*χ(ί, UeiU, хШ, ε), vlt\),
h<t< ti+u i = 1, ..., k. (35.63)
Отрезки этого движения y[til-]ti+i] сравним с кусками
zll][ti[-]ti+i) сопутствующего движения ζ[*3 [*♦ [·!*]· Эти куски
ζί^1[ί|[.] fi+1) сопутствующего движения порождаются из
сопутствующих позиций {tu z161[fj), гшШ =уЩ —s(ti, хШ, ε)
управлениями ι>[ξ]β, q^] и итЫ. При этом управлении v{i]e и q^
выбраны по условиям (35.37)—(35.39) (при τ* = ίί? τ* == ti+1),
а управление w[S][t] (35.40) выбрано из условия ^-стабильности
функции р(£, 2, |(ε)) так, чтобы обеспечить неравенство
ρ (t1+lf z№ [fi+1], l (ε)) + J* χ (τ, иш [τ], να] [τ]) μ (άτ) <
(см. аналогичную ситуацию в § 26).
Теперь, повторяя рассуждения из доказательства леммы 26.1,
где лишь лемма 25.1 заменится леммой 35.2, получим по
аналогии с (26.43) для рассматриваемого пополненного движения
У 1*# [ · ] Щ следующее неравенство:
Уп+i [»]+ [ σ (τ, χ [τ]) μ (dx) < ρ (**, ζ*, ξ (ε)) + ψ (ε), (35.64)
причем
Ηπιψ(ε)=0. (35.65)
е-*о
Помимо того отличия от (26.43), что в правой части (35.64)
вместо ρ (*#,#*) фигурирует ρ (ί#, χ#, ξ (ε)), здесь есть еще то
283
отличие, что теперь
Уп+i Щ = \ χ (τ, ие [τ], ν [τ]) dr,
(35.66)
ue [τ] = ue (tu χ [ti], ε), ti < τ < ii+b
в то время как на самом деле работает управление
uix] = юДт] + й(£», #[£j, ε), £»· ^ τ < ti+i. (35.67)
Поэтому из (35.64), (35.27) следует неравенство
Τ- f %(τ,ν[τ],ν{τ])άτ+ j σ(τ,χ[τ]) μ(<ίτ)<
< ρ (**, я*, ξ(ε)) + ψ (ε) + j | χ (τ, we [τ], ν [τ]) —
— χ (τ, ue [τ] + и [τ], ι; [τ]) | dx < ρ (**, ж*, Ι (ε)) + Ψ И + Φ («)>
(35.68)
где
Ηπιφ(ε) = 0. (35.69)
ε-*ο
Так как
Ηπιξ(ε) = 0, (35.70)
ε-»ο
то из (35.65), (35.68)—(35.70) согласно лемме 35.1 заключаем, что
для любого ξ>0 можно указать ε(ξ) >0 так, что закон
управления °и{ъьт) при ε<ε(ξ) и при δ<δ(ε) гарантирует неравенство
γ <р° (**,**)+ζ. (35.71)
Это доказывает лемму 35.3.
При выполнении условия (8.14) рассматриваемая игра {7.1;
8.2} оказывается симметричной относительно стратегий и°(-) и
ν°(·). (Лишь условие минимизации показателя γ стратегией м°(·)
заменяется условием максимизации показателя γ стратегией
ν°(·). Но после замены γ на —γ и это различие исчезает.)
Поэтому аналогичную модернизацию стратегии ι>°(·) рассматривать
здесь не будем. Она получается понятной трансформацией
описанного построения стратегии и°(·) при перемене ролями
букв и и v.
Подведем итог. В этом параграфе описано построение
оптимальной стратегии и°(·) на основе сопутствующих позиций
{£, z(t, г/, ε)}, лежащих в окрестностях
vly-zXz, (35.72)
которые в отличие от окрестностей (35.1) не расширяются со
временем t. Это улучшает некоторые оценки и, что особенно
284
важно,— стабилизирует процесс управления. В то же время
замена функции pit, ζ) на функцию р(£, ζ, ξ (ε)) при
построении ю°(·), может быть, и ухудшает какие-то оценки. Вопрос
о том, какой из этих факторов окажется превалирующим,
решается так или иначе в зависимости от конкретных особенностей
задачи и в связи с тем или иным конкретным выбором матрицы
D*, функции ν(·) и стабилизирующих добавок и и q к
управлениям. Кроме того, и вся схема модернизации стратегий и°(-) и
у°(·) (и, ι£(·))> описанная в этом параграфе, может
претерпевать большие видоизменения в зависимости от конкретных
особенностей задачи. Существенным будет оставаться лишь
включение в управляющие воздействия тех или иных добавочных
членов, конструируемых на основе теории стабилизации движений.
Некоторые примеры такой модернизации даны в гл. V в §§ 58, 61.
Г л а в а IV <
ПРОГРАММНЫЙ СИНТЕЗ, ЧАСТНЫЙ СЛУЧАЙ
§ 36. Частный случай дифференциальной игры
В этой и следующей главах дается способ вычисления цены
игры, основанный на вспомогательных программных конструкциях.
Эти конструкции содержат случайный элемент. Поэтому метод
назовем стохастическим программным синтезом. В ряде случаев
он позволяет вычислять цену игры и строить оптимальные
стратегии достаточно эффективно. Ограничимся в этой книге методом
стохастического программного синтеза лишь в приложении к
таким играм, где движение описывается дифференциальным
уравнением, линейным по х. В текущей главе рассмотрим подробно
частный случай игры с показателем γ=|#[θ]|. В следующей
главе рассматривается более общий случай. Там основное
внимание уделено описанию конструкций и формулировке
результатов, а доказательства даны менее подробно, так как схемы этих
доказательств подобны рассмотренным в текущей главе.
Прежде чем перейти к самому методу, обсудим некоторые
обстоятельства, связанные с той позиционной дифференциальной
игрой {7.1; 8.2), которая в этой главе явится моделью для
построения метода. Эта игра подчинена теории, изложенной
в гл. II, III для игры с показателем γ общего вида (7.4). В
рассматриваемом теперь частном случае γ = I лгС^Л I отсутствует
второй интеграл из (7.4). Это позволяет упростить конструкции из
§§ 24—29, в том числе — упростить оптимальные стратегии.
Беглый обзор этих упрощений и составит текущий параграф.
Приведем лишь измененные конструкции и утверждения. Проводить
снова доказательства нет нужды, так как они повторили бы
доказательства из §§ 24—29, только в более простой ситуации.
Итак, пусть объект описывается линейным дифференциальным
уравнением
χ = A (t)x + ВШ + C(t)v, (36.1)
где, как обычно, χ — w-мерный, и — г*-мерный, ν — 5-мерный
векторы. Воздействия и и ν стеснены ограничениями
ие=Р, v^Q, (36.2)
причем Ρ и Q суть выпуклые компакты. Матрицы-функции Ait),
Bit) и C(t) непрерывны при t0 < t < 0. Показатель качества
имеет вид
γ —1ж[*]|, (36.3)
где символ \х\ обозначает, как обычно, евклидову норму вектора х.
Для этих данных рассмотрим дифференциальную игру {7.1;
286
8.2) в классах чистых позиционных стратегий u(t, χ, ε) и v(t, χ, ε).
Согласно общей теории эта игра имеет цену p°U, x) и седловую
точку {h0U, χ, ε), v°(t, χ, ε)}. Цена ρ°(ί, χ) строится (в теории)
на основе вспомогательных конструкций, которые используют
z-модель, введенную в § 24. В рассматриваемом частном случае
упростим эти конструкции следующим образом.
Текущее состояние рассматриваемой теперь w-модели будем
описывать га-мерным вектором w = {wu ..., wn}. Вследствие
отсутствия второго интеграла в (7.4) здесь нет потребности
в (гс+1)-мерном векторе z = {h>, zn+ih Изменение вектора wltl
определено уравнением
w = A (t) w + В (t) и* + С (t) ι;*, (36.4)
которое повторяет уравнение (36.1) я-объекта. В согласии с
материалом из § 24, полагаем допустимыми для м;-модели любые
кусочно постоянные реализации и% [t% [ · ] ϋ) и v% [t% [ · ] θ)
управлений. Они должны удовлетворять условиям, которые повторяют
ограничения (36.2). Леммы о близости движений #[τ#[·]τ*1 и
и? [τ* [ · ] τ*] (см. § 25) теперь формулируются так. Обозначим
s = x-w. (36.5)
В отличие от гл. Ill s здесь га-мерный вектор. Пусть
определились позиции {τ*, #[τ#]} и {τ*, ^[τ^.]}. Для полуинтервала
** ^ t < τ* выберем реализации
ив1тт[-]х*) = {иЦ] = ив<= Р9 т*<*<т*}, (36.6)
»*Лт* [ ■ ] τ*) = {ν* [t] - v*e e <?, τ* < t < τ*}, (36.7)
исходя из условий
<фг*] .В (τ*) ие} = min <s [τ*]-Β (τ*) w>, (36.8)
<s[t*] -C (τ*) v*e} = max <s [τ*] -С (τ*) !?„,>. (36.9)
Введем функцию
vtt, я, w) = \x-w\2exp(-2X{3*i04t-t0)), (36.10)
где
λ(ββ.ιο)β max |μ(ί)| (3611)
Здесь 11.4(f)II есть норма матрицы A(t), т. е.
\A(t)l=*max\A(t)x\. (36.12)
Верна следующая лемма, которая здесь заменяет лемму 25.1.
Лемма 36.1. Для любого ε >0 найдется б>0 тк, что
справедливо следующее утверждение. Пусть число τ*^^, Щ
удовлетворяет неравенству
τ* — τ*<δ. (36.13)
Пусть движения χ [τ* [ · ] τ*] и w [τ* [ · ] τ*] порождены
реализациями (36.8), (36.9) при каких угодно допустимых реализа-
287
циях ν It* 1·] τ*) и щ [τ* [·] τ*). Тогда выполняется неравенство
v(f, χ [t], w [t]) < ν (τ*, χ [τ*], w [τ*]) Ц- ε (ί — τ*) (36.14)
для все# значений £^[τ*, τ*].
Выберем теперь реализации
*. [τ* [ · ] τ*) = {ν [t] = ve e= <?, τ* < t < τ*}, (36.15)
и*ЛтИ']т*)-К[Ч-и««еР, τ*<ί<τ*}, (36.16)
исходя из условий
<5 [τ*] · С (τ*) ve} = min <s [τ*] . С (τ*) у>, (36.17)
<8[г*].В(т*)и*е) = max (s[t*]-B(t*) w*>. (36.18)
Верна следующая лемма, которая заменяет лемму 25.2.
Лемма 3&2. Для любого ε > О найдется δ > 0 так, что
справедливо следующее утверждение. Пусть число τ* е (τ*, θ]
удовлетворяет неравенству (36.13). Пусть движения #[τ#[·]τ*] и
ΜΊτ*[·]τ*] порождены реализациями (36.17), (36.18) при каких
угодно допустимых реализациях и [τ#[·]τ*) и у* [τ#[·] τ*). Тог-
да выполняется неравенство (36.14) при всех t е [τ*, τ*].
Материал § 26 упрощается здесь следующим образом. Пусть
удалось построить функцию pit, w), которая удовлетворяет
следующим условиям.
1. Справедливо равенство
р(«, w) = \w\. (36.19)
2. Выполнено условие Липшица
1р(«, и;(1))-р(*, w<2))\<tt**20)\w<l)-w™\. (36.20)
3й. Функция pit, м;) обладает свойством и-стабилъности. Это
означает следующее. Какова бы ни была позиция {τ*, м>Гт*Г}>
каковы бы ни были значение τ* е (τ*, О], число ε >0 и
реализация у* ft* [·] τ*), найдется реализация и* [τ* [·] τ*) такая, что
для движения w[r% [·] τ*], порожденного из данной позиции
{τ*, ">|τ*]} управлениями и* [τ* [·]τ*), у* [т*[·] τ*), будет
выполнено неравенство
ρ (τ*, w [τ*]) < ρ (τ*, w [τ*]) + ε (τ* - τ*). (36.21)
Справедливо следующее утверждение.
Лемма 36.3. Пусть выполнены условия 1, 2, 3й. Тогда
существует стратегия и* it, χ, ε), для которой гарантированный
результат р(и*(·); £#, х*) (7.13) удовлетворяет неравенству
ρ(и*(·); **, **)<ρ(**,**). (36.22)
Искомая стратегия и*(·) строится так. Возьмем позицию {t, χ).
Найдем вектор sit, χ, ε), который решает задачу
pit, χ —sit, χ, ε))=ππηρ(£, x — s) (36.23)
288
при ограничении
Ы2 ^ [ε + β(* - to)} exp {2λ(3β10)(* -10)>. (36.24)
Значение w*(f, #, ε) определяется из условия
<s(t, χ, ε) -B(t)u*(t, χ, ε)>=ιηίη<5(ί, χ, ε) -B(t)u>. (36.25)
we ρ
Доказательство леммы 36.3 повторяет в упрощенном варианте
доказательство леммы 26.1.
Материал § 27 упрощается следующим образом. Пусдъ
удалось построить функцию pU, м;), которая удовлетворяет
условиям 1, 2 и условию
3υ. Функция р(£, ы;) обладает свойством v-стабилъности. Это
означает следующее. Какова бы ни была позиция {τ*, ^[τ^.]},
каковы бы ни были значение τ* <= (τ*, θ], число ε > 0 и
реализация и* [τ* [ ·] τ*), найдется реализация ν* [τ* [ ·] τ*) такая,
что для движения w [τ* [·]τ*], порожденного из данной позиции
{τ*, Ит*]} управлениями Μ*[τ* [·]τ*), vm [τ* Η τ*), будет
выполнено неравенство
ρ (τ*, ι? [τ*]) > ρ (τ*, α> [τ*]) — ε (τ* — τ*). (36.26)
Справедливо следующее утверждение.
Лемма 36.4. Пусть выполнены условия 1, 2, 3°. Тогда
существует стратегия ν*(ί, χ, ε), для которой гарантированный
результат р(у*(·)'» **ι #*) (8-7) удовлетворяет неравенству
ρ (ι;* (·);«·.*·)> Ρ (*·.«·)· (36.27)
Стратегия ι>*(·) строится так. Возьмем позицию {£, ж}. Найдем
вектор s(£, #, ε), который решает задачу
p(i, χ —sit, χ, г))=тахр(£, ж —s). (36.28)
θ
при ограничении (36.24). Значение ν*(;ϋ, χ, ε) определяется из
условия
<s(t, х, г) -C(t)v*{t, χ, e)>-min<*(f, χ, ε) -C(t)v>. (36.29)
Доказательство леммы 36.4 повторяет в упрощенном варианте
доказательство леммы 27.1.
Материал § 28 упрощается следующим образом. Рассмотрим
совокупность всех возможных кусочно-постоянных функций
и[т*[.]0)=={и[т]<=Р, τ*<τ<θ}. (36.30)
Назовем Q-процедурой правило Q[r*, w+], которое всякой
функции Μ[τ#[·1θ) (36.30) ставит в соответствие кусочно-постоянную
функцию
ι>[τ*[·]*) = {*>[τ]<=<?, τ*<τ<θ}, (36.31)
причем выполнено условие неупреждаемости ν[·] по и[]. Это
означает следующее. Если для двух функций и(1)[·] и ю(2)М
справедливо равенство
и<1> [τ] = м(«) [τ], τ* < τ < τ, (36.32)
*9 Η, Η. Красовский 289
то для отвечающих им функций р(1)М и ρ(Ι)[·] справедливо
равенство
νω [χ] = у(2) [Т]? τ* < τ < τ. (36.33)
Для данной исходной позиции {τ*, w*} процедура Q [τ*, ιν*\
порождает пучок движений м> [τ* [·]θ), которые отвечают всем
возможным кусочно-постоянным реализациям и[Л (36.30).
Каждая такая реализация и[] в паре с той реализацией ι;[·],
которую ставит ей в соответствие ^-процедура СЦ[ъ*, з#],
порождает движение w [τ* [·] θ].
Назовем процедуру β — Q-процедурощ если для всякого
порожденного ею движения w [τ* [ · ] θ] выполнено неравенство
|ιι>[φ]|>β. (36.34)
Подобно тому, как это сделано в § 29, доказывается, что
функция р(£, м;), определенная равенством
p(i, ip) = supp, ре[β: Э β — (^-процедура Qlt, id], (36.35)
удовлетворяет условиям 1, 2, 3U и 3°. Отсюда, согласно леммам
36.3 и 36.4, вытекает, что функция p(i, w) доставляет цену
рассматриваемой дифференциальной игры
p°(f, х) = ρ(ί, χ) (36.36)
и экстремальные стратегии и*(·) и ι;*(·), определенные из
условий экстремального сдвига (36.25) и (36.29), где функция р(£, х)
определена равенством (36.35), являются оптимальными
стратегиями и°(·) и ν°(·).
В заключение отметим одно обстоятельство, которое сыграет
важную роль в этой главе. Именно, в дополнение к леммам 36.3
и 36.4 справедливо следующее утверждение.
Лемма 36.5. Пусть функция р(£, w) удовлетворяет
условиям 1, 2, 3W и 3°. Тогда функции и*(£, #, ε) из (36.25) и ν*(£, #, ε")
из (36.29), которые определяют оптимальные стратегии и°(-) =
= и*(·) и ν°{-) = ι>*(·), можно выбрать измеримыми по χ при
каждых фиксированных значениях t и ε.
Справедливость леммы 36.5 вытекает в согласии с материалом
из §§ 2, 3 из следующих фактов. Множества Ue в. Ve тех
значений ие^Р и ve^Q, которые удовлетворяют условиям
<5- В (t) ue> = min <s-B (t) u>, (36.37)
<s-C (t) ve> = min <s-С (t) y>, (36.38)
ограничены, замкнуты и изменяются полунепрерывно сверху по
включению по изменению s. Отсюда по теореме об измеримом
выборе вытекает, что можно выбрать функции ие(£, s) и ve(t9 s),
удовлетворяющие условиям (36.37) и (36.38) и измеримые по s
при каждом фиксированном значении L В свою очередь,
множества S{^ и S^} тех векторов 4U) и s(ev\ которые удовлетво-
290
ряют условиям
ρ (ί, χ — 4U)) = min ρ (t, χ - s), (36.39)
β
p(t, x — 4"}) — max ρ (t, ж — s) (36.40)
β
при ограничении (36.24), также ограничены, замкнуты и
изменяются полунепрерывно сверху по включению по изменению х.
Отсюда опять по теореме об измеримом выборе следует, что
можно выбрать измеримые по χ функции 4" (£, #> ε) и s* (t, x, ε),
удовлетворяющие условиям (36.39) и (39.40) при ограничении
(36.24). Но тогда функции
и* (ί, χ, ε) = ие (*, 4U) (ί, ж, ε)), (36.41)
и* (f, *, ε) = ve (f, s™ (*, *, ε)) (36.42)
будут удовлетворять условиям (36.25) и (36.29), и по теореме 2.1
о суперпозиции измеримых функций они будут измеримыми по х.
Это доказывает лемму 36.5.
§ 37. Стохастическая модель. Частный случай
Обратимся к дифференциальной игре из § 36. Данному
^-объекту, который описывается уравнением (36.1) при ограничениях
(36.2), поставим в соответствие стохастическую м;-модель. Ее
текущее состояние будем описывать и-мерным фазовым вектором
w = {wu ..., wj. Изменение вектора w во времени τ будет
определено дифференциальным уравнением
w = Α (τ) ιν + Β (τ) щ + С (τ) ν*. (37.1)
Это уравнение по виду повторяет уравнение (36.1). Однако
его смысл будет отличаться от смысла уравнения (36.1), которое
определяет движения ^-объекта как детерминированные решения
xit]. Движения де-модели будут случайными решениями ινίτ, ω]
стохастического дифференциального уравнения. Оно получится
из (37.1) при подстановке вместо м$ и ^ случайных функций
м(т, ω) и ι;(τ, ω). Уточним эту вероятностную конструкцию.
Управляющие воздействия м„. и ^ стесним ограничениями
«*еР, у*е=<?, (37.2)
где Ρ и Q суть множества из условий (36.2). Введем источник Ξ
случайных событий. Пусть речь идет о движении в течение
отрезка времени [τ*, О] с= [£0,0]. Зададимся каким-либо
натуральным числом к. Назначим разбиение Ак{х}) (/ = 1, ..., к + 1, τχ = τ*,
*j+i>Tj, τΑ+1=θ). С этим разбиением свяжем независимые в со-
еопупности случайные величины ξ, (у = 1, ..., к), каждая из
которых распределена равномерно на полуинтервале 0 < ξ, < 1
(129*], с. 46). Содержательно это означает, что в момент τ,-
источник Ξ выдает случайным образом число |,е=[0, 1). При этом
заранее (при t < τ^) все значения ξ,- считаются равновероятными.
Будем трактовать каждый набор {|4, ..., |А> чисел &е [0, 1) как
элементарное событие ω = ίξι,..., |J из вероятностного
пространства Ш, Jf, Ρ}, где, стало быть, Ω — единичный куб в /с-мерном
пространстве {^, ..., |ft>; & = iSQ — борелевская σ-алгебра для
этого куба; Ρ (В) — Ar-мерная лебегова мера на этом кубе ([29*],
с. 176). Таким образом, в частности, для множества Β^3ί,
которое является параллелепипедом
α,<ξ,<β,,0<θζ,<β,<1 (;-1,...
..., ft) имеем Р(В) = JJ (β, — α,·)
(см. рис. 37.1, где к = 3).
Обозначим символом ξΐτ*, τ*]
событие ie^i, которое
определяется некоторым конкретным
набором {£*,..., ξ?} чисел
ξ* е [0,1)(/ = 1, ..., 0. Это
событие складывается из всех тех
ω = {|i, ..., Ъь ..., Ы> у которых
первые i компонент |^ суть ука-
занные числа *j (см. рис. 37.2, а,
где fe = 3, ΐ = 2, и 37.2, б, где
й = 3, 1-1).
(стохастическими) неупреждающие
Рис. 37.1.
(37.3)
(37.4)
Назовем программами
функции
и(') = {^(τ,ω)^Ρ, τΗί<τ<0,ω^Ω},
ι; (·) = Цт,й)б9,т,|!<т<*,(оей},
([14*], с. 100.)
Свойство неупреждаемости (относительно ξ,·) будем понимать
в следующем смысле. Функции и(-) и ν(·) должны быть
измеримыми по паре аргументов {τ, ω) на (ft+Д)-мерном множестве
[τ^.,^)χΩ относительно σ-алгебры, которая является прямым
произведением «$[τ#,ο)®^Ω ([29*], с. 158). Здесь ^[Т»,о)
—борелевская σ-алгебра для полуинтервала [τ*, О) и З&а —
борелевская σ-алгебра для куба Ω. При этом должны выполняться
равенства
и(т, <о) = и[т, |j, ..., У,
ι;(τ, ω) = ι;[τ, glf ..., gj,
ΐ=1, ..., k,
где функции ulx, ξι, ..., |J и ν[τ, |f, ..., gj должны быть
измеримыми по совокупности аргументов {τ, |1? ..., ξ*} на (i+D-мер-
ном множестве [т$, xi+1) χΩ^...,^] относительно σ-алгебры,
которая является прямым произведением Лр41т1+1)®Л[$1...,ад·
Здесь символ Ω^,..·,^] обозначает ι-мерный куб 0^|,<1
(/ = 1, ..., i)\ символ ^ilv-.Лг)—борелевскую σ-алгебру для
этого куба; символ #pifTi+1) — борелевскую σ-алгебру для полу-
292
τ<^τ<τί+1,
%ι ^ τ < Ti+i,
(37.5)
(37.6)
интервала [τ<, τ<+1). Строго говоря, равенства (37.5) и (37.6)
должны выполняться лишь при почти всех значениях ω ^ Ω.
Аналогичным образом и другие подобные им равенства также должны
выполняться лишь при почти всех ω ^ Ω. Позволим себе не
оговаривать это всякий раз. Но такое обстоятельство следует все
время иметь в виду.
Итак, выбирая пару программ и(-) (37.3), (37.5) и ν(-) (37.4),
(37.6) и полагая в (37.1) и* = и (τ, ω), ν* = ν (τ, ω), назначим тем
самым случайные воздействия и(т, ω) и ι;(τ, ω) на м;-модель.
а б
Рис. 37.2.
В каждый текущий момент времени те[т<, τί+1) воздействия
и(т, ω) и ν(τ, ω) будут определяться реализовавшимися к этому
моменту τ значениями |1? ..., ξ*. Величины воздействий и(т, ω)
и ρ (τ, ω) при те [τ{, τί+ί) не зависят, таким образом, от будущих
значений |i+1, ..., ξΛ. В соответствии с этой картиной определим
для данной начальной позиции {τ^, ιν%} и выбранной пары
программ и(-) и ν(·) движение
«;Ιτ*[·]θ,.] = Μ;[.;τΗί,α?Ηί,^(.),ι;(·)] =
— {ιν (τ, ω)= w [τ, ω; τ*, и?*, и (·), ν (·)], w (τ*, ω) = w*,
τ*<τ<θ,ω€=Ω} '(37.7)
как случайное решение и?(τ, ω) стохастического
дифференциального уравнения
ιν = Α(τ)ιυ + Β{τΜτ, ω) + 0(τΜτ, ω) (37.8)
при начальном условии и? (τ*, ω) = w*. Это определение движения
wVt* [·]ϋ? ·] надо понимать в том строгом смысле, что функция
и>(т, ω) из (37.7) есть вероятностный процесс ([14*], с. 29),
который удовлетворяет интегральному равенству
τ
ю (τ, ©)-», +J {A{4)w(T\,<i>) + B(r\)u{4,<i>) + C(x\)v(i\,«>))dr\
** (37.9)
293
при почти всех ©ей при всех те [τ*,О]. Как принято,к
функцию времени ы;(т, ω) (τ* <]Т2^0) при каком-либо фиксированном
значении ω е Ω будем называть реализацией процесса
и> [τ# [ · ] θ, · ] или реализацией движения w [τ* [ · ] О, · ]. Будем
обозначать ее так:
^Ιτ*[·]θ;ω] = α;ΐ·,ω;τ*,Μ;*,Μ(.), ν(·)] =
— {ιν (τ, ω) = ιν[τ, ω; τ*, w+,u(.),o(-)],w (τ*, ω) = и?*, τ* < τ <θ},
ω<=Ω. (37.10)
Таким образом, почти все реализации м> [τ* [ · ] θ; ω] (37.10)
движения w [τ* [·]θ,·] (37.7) должны удовлетворять равенству
(37.9) при всех те [τ*,θ]. Согласно известным результатам
([14*], с. 158) такой вероятностный процессе w[x*l·]®,·] (37.7),
являющийся решением уравнения (37.9), существует при всяком
выборе пары программ и(-) и v(-). При этом согласно известной
теореме ([15*], с. 145) почти все реализации программ
Μ(.,ω) = {м(т,со), τ*<τ<ϋ}, ω<=Ω, (37.11)
ν (., ω) = {ν (τ, ω), τ* < τ < θ}, ω <= Ω (37.12)
оказываются измеримыми функциями времени те [τ*, θ). Но
это означает, что почти все реализации w [τ* [ · ] О; ω] движения
w It* [*]^ί·] являются абсолютно непрерывными функциями
времени на отрезке τ* <! т ^ О. Стало быть, для почти каждого
значения ω<Ξ=Ω реализация w[x% [·]Φ;ω] (37.10) удовлетворяет
дифференциальному равенству
ώ(τ, ω)=*Α(τ)ιν(τ, <о) + ЖтМт, ω)+ С(т)у(т, ω) (37.13)
при почти всех τ е [τ^., θ).
Таким образом, можно трактовать случайное движение
и^лЛ·]1*,·] (37.7) как пучок реализаций {и? [τ* [·]θ;ω], ω^Ω).
Каждая реализация ιν [τ* [·] θ; ω] отвечает некоторому значению
(ο^Ω. Почти все реализации являются решениями уравнения
(37.8), каждая при своем фиксированном значении ω. Важно
заметите, что при всяком выборе пары программ u(0, ν(·)
случайное движение м> [τ* [ · ] θ, ·] оказывается неупреждающей
функцией опять в том смысле, что справедливы равенства
м?(т, ω) = м;[т, |i,..., |{], т»<т^тг+1; ί = 1,..., А, (37.14)
где функция м;[т, |t, ..., ξ J измерима по совокупности
аргументов {τ, |t, ..., ξ,} на множестве (ть τ^χΩ^ ад
относительно σ-алгебры ^fa.Ti+d®^^...,^].
Известно также, что рассматриваемые решения ιν[τ% [·] θ,·]
уравнения (37.8) представляются формулой Коши ([14*], с. 169,
[18*], с. 173):
ιν (τ, ω) == Χ [τ, τ*] w* + wu (τ, ω) + wv (τ, ω), (37.15)
294
где Χ [τ, τ*] есть фундаментальная матрица решеций
обыкновенного однородного уравнения
w-A(x)w, (37.16)
τ
wu (τ, ω) = f Χ [τ, η] Β (η) и (η, ω) Λ|, (37.17)
τ*
τ
Wv (τ, ω) = J Χ [τ, η] С (η) ρ (η, ω) ώη. (37.18)
τ*
Равенство (37.15) справедливо при почти всех ω при всех
τ<= [τ*,ft].
Итак, исходная позиция {τ*, ιν#), разбиение А*{тД отрезка
[τ*, θ] и пара программ и(·) и ν(·) определяют случайное
движение w [τ* [ · ] ft, ·] = {ιυ (τ, ω), τ* ^ τ <1 ft, ω е= Ω}. Это движение,
в свою очередь, определяет случайную величину
у (.) = γ (.; т*, И7*, Afe, U (·), У (·)) =
= {γ (ω) = γ (ω; τ*, и?*, Afe, и (·), ν (·)) = I и> (ft, ω) | =
= |w[ft,ω; τ*,Η;*,Η(0,ι>(0]|,ω€=Ω}. (37.19)
Качество процесса κ^τ* [-]ft;·], порожденного той или иной
парой программ {и(0, ν(·)>, будем характеризовать величиной
У «.).+) - (м(V2 И})1/2 - (Μ{γ2 (ω; τ», и>», Δ„ u (.), ι; (·))»1/2·
(37.20)
Символ М{...} здесь и ниже обозначает математическое
ожидание ([29*], с. 198). Стало быть, по определению вероятностного
пространства Ш, Jf, P} имеем
Μ{γ2(ω)} = f γ2 (ω) Ρ (dco) =
Ω
J...J γ2[ξχ, ...,bd«ι...«*. (37.21)
0<ξ1<1,...,0<ξ^<1
Вследствие ограниченности и(т, ω) и ι;(τ, ω) случайная
величина γ(ω) = lw;(ft, ω)Ι ограничена. Поэтому для данной исходной
позиции {τ*, и?*} математическое ожидание, которое фигурирует
в (37.20), ограничено равномерно при всяком выборе программ
и(-) и у(·). Таким образом, величина γι»(·),«<·) (37.20) имеет смысл
и ее значения ограничены равномерно для всякой пары программ
и(·) и ν(·).
§ 38. Программный максимин
Основную роль в этой главе будет играть задача на максимин
величины γ«(),«(·) (37.20) по программам и() и ν(·). Эта задача
формулируется следующим образом. Пусть дана исходная
позиция τ*, м;*}, выбрано разбиение ΔΗ{χ}) для отрезка [τ^,ύΐοζ
295
d[f0, θ]. Согласно § 37 эти данные и пара программ и(·) и ι>(·)
определяют случайное движение м[т;* [·]#,·] = {и>(т, ω)}. А это
движение определяет случайную величину (37.19), т. е.
случайную величину
ϊ«(.>..(.)(ω) = Μθ, ω)!, (38.1)
которая оценивается числом γ«(.),ι><·) (37.20). Фиксируя
программу у() и перебирая все возможные программы и(·), можно
определить величину
Y*(.) = inf Yu<.),»(.)· (38·2)
w(.)
Перебирая затем все возможные программы ι;(·), определим
величину
р = supv*(.) = supinf Yu(.),tK.)7 (38·3)
которую и будем называть программным максимином.
Основной результат этой и следующей глав состоит в том,
что решение подобных вспомогательных задач о программном
максимине позволяет вычислять цену исходной позиционной
дифференциальной игры, а вместе с тем — строить оптимальные
стратегии u°(t, χ, ε) и v°(t, я, ε) для этой игры.
Рассматриваемую задачу на программный максимин (38.3)
удобно интерпретировать следующим образом.
Рассмотрим гильбертово пространство 2?{гК&) (см. [29*],
с. 279) w-мерных случайных величин
и>(-) = {и;Ы, ω€=Ω} (38.4)
со скалярным произведением
(и><1> (.) ·ιν&\-)) = M{<a;(i>(co).u><2) (ω)>) = §(wW((u)-wW (ω)>Ρ(όω),
(38.5)
где символ <и>(1) · м;(2)>, как и выше, обозначает скалярное
произведение w-мерных векторов w{i) и wi2). Скалярное произведение
(38.5) индуцирует норму
\\υ>(.)\\ = (>Λ{\ιν(ω)\*})ν* =
= ($\ν{ω)\*Ρ(άω)Υ*- (J <ι»(ω).υ;(ω)}Ρ(άω)Υ2 (38.6)
в пространстве 9?{г)(0).
Для данной исходной позиции {τ*, ιν*}, τ* < Φ, при
фиксированном разбиении ΔΛ{τΛ τ,·+1 — τ,·< 6Ш, / = 1, ..., &,
определена величина (38.3), которой придадим теперь такое
обозначение:
ρ(τ*, ы;*, ΔΛ{τ,·}) = supinf\w(b,-)\. (38.7)
*·) u(.)
296
Здесь векторная случайная величина
и,(.) - ш(#, ·) = Mfl, ω), ©effl (38.8)
определяется движением w[t#[-]$, ·] (37.7). Стало быть, она
определяется равенствами (37.15), (37.17), (37.18) (где ί = 0)
при почти всех значениях ©eQ, Назовем величину ρ (38.7)
стохастическим программным максимином для данной исходной
позиции {τ*, w%} и для выбранного разбиения ΔΛ{τ,}.
Стохастическим программным максимином ρ (τ*, w%) для исходной
позиции {τ*, w%) назовем величину
Ρ (τ*, Щ) = Hm ρ (τ*, u?*, Ak {tjW}), τ* < #, (38.9)
fe-»oo
Здесь символ limp(···) обозначает предел при к-*<» и
fe-»oo
бШ -*- 0 для какой-либо последовательности разбиений Ak [tj )
(к = 1, 2, ...). Оказывается (см. § 45), такой предел существует
для всякой подобной последовательности ΙΔΛ {τ/Μ], и он не
зависит от выбора последовательности. Таким образом, величина
ρ (τ*, w%) определяется равенством (38.9), какова бы ни была
последовательность {ΔΛ{τ/')}, для которой
τ^ι-τ^βί*), / = 1, ...,А, т[к) = τ*, τ$ι = θ, (38.10)
lim6(/c) = 0. (38.11)
fe-»oo
Равенство (38.7) определяет величину ρ (τ*, w%, ΔΛ{ι^}) при
τΗί<ΰ>. При τ* = θ определим величину ρ (θ, ιν*, ΔΛίτ^})
формально равенством
ρ (θ,*·, Δ* {τ,})-К I. (38·12)
имея в виду, что i; = l и множество значений τ, сводится к
одному значению гг = τ^ == Φ. Отрезок [τ*, θ] в таком случае
стягивается в точку [θ, θ] и содержательный смысл разбиения А*{тД
исчезает. Однако данное формальное пополнение значений
ρ (τ*, и?*, Aft {τ,}) (38.7) для τ* <ft значением (38.12) для τ* = ft
оказывается удобным. В согласии с (38.12) полагаем опять
формально
р(§,^) = 1^|. (38.13)
Основной результат следующих параграфов этой главы
состоит в доказательстве утверждения, что величина ρ (τ*, w%)
(38.9) при τ* = £* и w* = χ* совпадает с ценой р°(£#, х*)
исходной дифференциальной игры для всякой возможной
начальной позиции {ί*, я*}.
Программые максимины, подобные величине ρ (τ*, w%, Ak{Xj})
(38.7), могут выбираться различными способами в соответствии
с условиями исходной дифференциальной игры и в связи с
предпочтением тех или иных выкладок для решения получающейся
297
вспомогательной задачи. В рассматриваемом здесь случае
дифференциальной игры {7Д; 8.2} из § 36 отдано предпочтение
величине ρ (38.7), которая индуцирована нормой Ндо(-)Н (38.6). Это
объясняется выбором за основу построений пространства 9?{г){£к)
случайных величин до(·), которое описано выше. Можно было
бы выбрать за основу пространство 2?(Ω) случайных величин
и>(·), где норма Идо(-)Н определена равенством
1»(-)| —М{|ш(«)|> —]Ί«^(ω)|Ρ(ιΙω). (38.14)
Ω
Тогда вместо величины ρ (38.7) можно использовать величину
ρ (τ*, и>*,Аь{т,» =
= sup inf Μ {| до (θ, ω) |} = sup inf Μ {γ (ω)}. (38.15)
*·) w(.) *.) u(.)
Завершая предварительное обсуждение программного макси-
мина, подчеркнем разницу между характером управления в
исходной позиционной дифференциальной игре и во
вспомогательной программной задаче. В позиционной дифференциальной
игре {7.1; 8.21, которая отвечает уравнению (36.1), ограничениям
(36.2) и показателю (36.3) и протекает в реальном времени ί,
управление u[tl в задаче 7.1 и помеха v[t] в задаче 8.2
формируются по принципу обратной связи на основе информации о
текущих состояниях ^-объекта х[и] и #[*п в виде и[й = uiu,
хШ, ε), ti<:t<ti+i и v[t\ = v{t*i, x[t*\i ε*), ij*<i<i*+i
(см. рис. 38.1).
Для успешного воздействия на объект сведения о его
состояниях хШ и x[t*\ должны поступать в органы формирования
управления и и помехи ι;, вообще говоря, достаточно часто. Во
вспомогательной программной задаче о величине (38.3), которая
конструируется для
воображаемого отрезка времени τ* ^τ^
<д, воздействия и(т, ω) и ρ(τ,
ω) при Xi < τ < τ,·+1 на
^-модель, заменяющую я-объект,
формируются на основе
информации об истории состояний |j
(/' = 1, ..., ί) некоторого
независимого источника Ξ
случайных событий. Эти воздействия
определены программами и( ·)
и ι?(·). Они формируются в
виде и(т, ω) = Μ[τ, ξι, ...
..., ξ<], ιΚτ, ω) = ι>[τ, ξι, ...,. ξ*] (см. рис. 38.2).
Состояния {ξι, ..., ξ{} в источнике Ξ осуществляются сами
по себе. Никакого физического сигнала обратной связи от
до-модели к источнику Ξ нет. Таким образом, при выбранной паре
программ и(-) и ν(·) весь процесс в до-модели определяется слу-
Сг
К.
/С\ "(*№*)
i
ι
x[tj\
Γν
Объект
хЮ
w[t]
Рис. 38.1.
298
Рис. 38.2.
чайными событиями в Ξ. Кроме того, в дифференциальной игре,
если воздействия иШ и vit] будут формироваться одновременно
на основе стратегий и(£, х, г) и v(t, χ, ε), эти стратегии и(£, х, е)
и v(t, χ, ε) могут выбираться независимо первым и вторым
игроками без сообщения каждому из них о том, какую стратегию
выбрал другой игрок. При
этих условиях каждый из
игроков, используя с
должной частотой информацию о
состояниях хШ и x[t*\
соответственно, может
гарантировать себе результат
(γ < Pu (**, **) + ζ или γ >
>pS(**, **) — ζ), который
не хуже для него, чем
величина, сколь угодно близкая
к цене игры р°(**ж ##)= Ри(*#* я*) = р°(**> #*)· Во
вспомогательной задаче о величине ρ{τ%, ιν%) по самому смыслу операции
максимина sup inf сначала назначается программа ι>(τ, ω). За-
*·) «(·)
тем можно выбирать программу и(т, ω) уже при известном
выборе ρ (τ, ω). И при этих условиях при достаточно обильном
источнике Ξ случайных событий, т. е. при достаточно большой
частоте моментов τ*, выбором программы и (τ, ω) можно
обеспечить результат || w [θ, ·] | ]> ρ (τ*, w%) — ζ, который не меньше,
чем величина, сколь угодно близкая к ρ (τ*, ιν%). Этот результат
будет обеспечен, какой бы ни оказалась программа и (τ, ω). В то
же время подбором программы и(т, ω) (к программе ι;(τ, ω))
можно обеспечить результат ||Μ>[θ, -lH^pOt*, w%) + ζ, не
больший, чем величина, сколь угодно близкая к рСс*, w%).
Подчеркнем еще, что во вспомогательной задаче речь идет об оценке
процесса управления по математическому ожиданию случайных
величин, связанных со случайными фазовыми состояниями
модели. Основная теорема состоит в том, что для широкого класса
уравнений движения, ограничений на и и ν и показателей γ,
несмотря на большую разницу в постановке задач 7.1 и 8.2,
с одной стороны, и задачи о величине ρ (τ*, w*) вида (38.9),
с другой стороны, соответствующие оптимальные результаты
совпадают, так что при
(38.16)
έ# — £#*
IV* — Хл
имеем
Ρ (τ*, и>*) = р0(**, χ*).
(38.17)
§ 39. Стохастическая программная конструкция
Рассмотрим векторную случайную величину
Ζ(·) = ίΖ(ω)=={Ζ,·(ω)}, /— 1, ..., η\ ω eQ},
(39.1)
299
определенную на вероятностном пространстве Ш, 9ί, Ρ}, которое
введено в § 37, и отвечает некоторому разбиению ΔΛ{τ,·}
заданного отрезка τ^^τ^ О. Пусть для этой случайной величины
существует математическое ожидание от квадрата ее модуля
|Ζ(ω)Ι2, т. е. существует интеграл
Μ {| Ι (ω) ]2} = f 1Ζ (со) |2 Ρ (άω). (39.2)
Ω
Такую случайную величину Ζ(·) можно рассматривать как
элемент Ζ(·) функционального пространства ί?(2)(Ω), введенного
в § 38, где норма Н7(-)И определена согласно равенству (38.6).
Известно ([21*], с. 89), что рассматриваемая случайная величина
К·) задает линейный функционал ζ(ιυ(·)) на 3?{2)(Ω), значение
которого определено равенством
Е(*(·))-(*(·)·"(·))- ί<ϊ(ω)·ι*(ω)>Ρ(Λο) (39.3)
Ω
для каждого элемента w(-) из 3?{2)(Ω). Обратно, всякий
линейный функционал ζ(ιν(·)) на i?(2)(Q) определяется в виде (39.3)
при помощи некоторой случайной величины Ζ(·), для которой
существует интеграл (39.2) (см. [21*], с. 89). Норма ΙΙξΙΙ
линейного функционала ζ(ιν(·)) по определению есть число
U|- max ζ(ιν(.)). (39.4)
l|u>(OII<i
Из (39.3) выводится, что
|ζ|- max Γ<ί(ω)·Β>(ω)>Ρ(<ϊω)-
MOIKia
= (]|/(ω)|!!Ρ(ίί«>))1/2=1/(·)||. (39.5)
Для рассматриваемой случайной величины К) при каждом
значении *е{1, ..., к} можно построить ее условное
математическое ожидание M{Z(o))l|i, ..., Ы (см. [14*], с. 21). Пусть ЛК°
(ί < к) — σ-алгебра для Ω, порожденная ί-мерной векторной
случайной величиной {|4(ω), ..., ξ<(ω)}, где ξ,(ω) — /-я компонента
элементарного события ω = {|4, ..., |ь>. Иначе говоря, Л(<) —
минимальная σ-алгебра, которая содержит все множества
д[в1--с0 _ [ω: ξ,(ω)«-,, / —1 ί], (39.6)
каковы бы ни были числа с,·. В § 37 была введена σ-алгебра
&[1 ,...,Ы Для ^-мерного куба Ω^,.,.,ξ^. Между этой σ-алгеб-
рой 3&π ,...,ξ|ΐ и введенной сейчас σ-алгеброй 3&{i) для /с-мерного
куба Ω имеет место следующая связь. Совокупность &[ΐν...&ϊ[
состоит из подмножеств #[|г,...,£л cz Ωγ| ,...^л. Совокупность
1 [I t···»!·]
3l{i) состоит из цилиндрических подмножеств В1 v"" cz Ω с ос-
300
№ν-Λι]
— множество таких ω,
|л, а все остальные |,(ω)
i?.
Л71
^
Vj
нованиями fiji 6lj, т. е. В
у которых {ξχ (ω), ..., Si (ω)} e %г-,^
при />* суть любые числа из полуинтервала [0, 1) (см. рис. 39.1,
где А = 3, i = 2).
Договоримся термин измеримость функции по какой-либо
совокупности аргументов понимать в дальнейшем как измеримость
относительно борелевской σ-алгебры
<% для области изменения этих
аргументов. Например, функция ι;(τ,
ω), измеримая по {τ, щ) при те
е [τ*, θ), ω^Ω, полагается
измеримой относительно σ-алгебры
^,^ΧΩ}. Если не будет
специальной оговорки, интегрируемость
будет пониматься как
интегрируемость по мере, которая порождается
для соответствующей σ-алгебры J?
мерой на параллелепипедах, равной
объему этих параллелепипедов.
Например, для σ-алгебры ^{[т*, *)Х
ΧΩ} будем иметь в виду меру,
которая для параллелепипеда D =
= [α0<*<βο, α,<ξ,«βι, / = 1> ··■
Условное математическое ожидание Μ {/(ω)!^, ..., Ы есть
случайная величина, измеримая относительно σ-алгебры 3S и
удовлетворяющая условию ([14], с. 21)
J Ζ (ω) Ρ (άω) = J Μ {Ι (ω) \ glf ..., Ы Ρ (<Μ> (39.7)
Рис. 39.1.
к] равна произведению
каково бы ни было событие Де#<*>. Известно, что условное
математическое ожидание можно представить в виде
Μ«(ω)Ιξ., ..., W = mllu ..., 6J, (39.8)
где ξ,-ξι(ω) (/ = 1, ·.·, «). Равенство (39.8) верно для почти
всех ω ей. Функция ι»[ξι, ..., Ы измерима по совокупности
переменных ξι, ..., ξι относительно σ-алгебры Щъг ад- В
соответствии с (39.7) справедливо равенство
J Ζ (ω) Ρ (Ad) - J m [glf ..., 6d Λι · · · Ль (39·9>
где
β = Β^1 *'' =
- [ω - {llt ..,WsQ: {Slf ..,Ь}6 % ii]]· (39-Ю)
301
В частности,
Μ{1(ω)} - J Z(co)P(dco) = J | m[lu ..., Ы dlx ... <fo
Ω o^l1<i,..,oW|i<i
(39.11)
при всяком значении i e {1, ..., ft}. Кроме того,
mlh, ..., 6J = Z[|i, ..., Ы - Κω), (39.12)
ибо ω есть по определению набор {|1? ..., ξλ), Ь^[0, 1), ;=»
= 1, ..., к.
В соответствии с общепринятым не будем различать
элементы ιν(·) пространства i?(2)(f2), совпадающие при почти всех
значениях их аргументов.
Обратимся к стохастическому программному максимину ρ (τ*»
н;*, Ah{Xj}) (38.7). Вычисление этой величины ρ (38.7)
складывается из двух операций. Сначала фиксируется программа ν(-)
и вычисляется нижняя грань значений Ии>[0, ·]ΙΙ по всем
программам и(·). Затем ищется верхняя грань по всем программам ι>(·)
для совокупности соответствующих нижних граней. Обсудим
подробнее первую операцию.
Пусть дана позиция {τ*, и?*}, τ* < θ, назначено разбиение
Aft{xj} для отрезка [τ*, О] и зафиксирована стохастическая
программа
ι;*(·) = {ι>*ίτ, |1? ..., ξ,], ъ<т<га+и /«1, ..., /ί:, ο)εΩ). (39.13)
В паре с ней какая-либо стохастическая программа и{-)
породит стохастическое движение
и>К S *>*(·)> ν(-)] = {ιν[τ,ω; ν* (·), и (·)], τ$<τ<β,ωεΩ}.
(39.14)
Перебирая все возможные программы м(·), получим
множество
W(v*('))-[w(·): wi-) = w[f>, ·; у*(·), и(01-
-ЫФ, ω; у*(0, м(-)1, ω^Ω, и(-)>] (39.15)
случайных величин н;(·), которые являются элементами и?() =
= wtO·, ·; ν*(·), и(·)] пространства jy(2)(Q). Множество W(i>*(·))
(39.15) составит область достижимости, отвечающую программе
у*(). В § 50 будет доказано, что эта область достижимости
W(v*(·)) слабо компактна в пространстве 2?{2)(Ω). Это означает
([2*1, с. 35), что из всякой последовательности w(i)(·) ^ W(v*(·))
(г = 1, 2, ...) можно выбрать подпоследовательность w
(s = 1, 2, ...), имеющую слабый предел:
lim (ел.) w{U) (·) = w* (-)eW(u* (·))· (39.16)
S-»00
302
Соотношение (39.16) имеет тот смысл, что для всякого
элемента Ζ(·) <ξ jZ^HQ) выполняется условие
lim(z(.)^(is)(.)) = (U-)^*(·)). (39.17)
S->00
По определению области достижимости W(v*(·)) (39.15)
сказанное означает, что из всякой последовательности программ
и(<)() (г = 1, 2, ...), можно выделить подпоследовательность
и (') (5 = 1» 2, ...), для которой
Нт(сл.)и;[^ ", ν* (-),и{1л) (.)]*-w[i>, ·;»·(·).«·(·)]. (39.18)
где, стало быть, предельное движение w[ ·, ·; ι>*(·)> и* (·)]
порождено некоторой программой и#(·). Из слабой компактности
области достижимости TF(i>*(·)) следует ее замкнутость. Из
этого же свойства компактности W(v*(')) следует существование
минимизирующей (относительно нормы Wwlb, -JII) программы
и%(-), для которой справедливо равенство
min|i*[0, ·;»*(·), »(·)1-Ι1^ϊθ, ·;»*(·). Μ·)]|· (39.19)
«(О
В самом деле, пусть и(,)() (г = 1, ...) — минимизирующая
последовательность, для которой
lim|ip[d, .;**(·), «*(,)(-)]|-iirf|B>№f .; „*(.), М(.)Ц. (39.20)
г-»оо w(.)
Выделим подпоследовательность и^ (·), для которой
справедливо равенство (39.18). Из (39.18) следует известное соотношение
(см. [7*], с. 21)
Π5Γ|ι*[<Κ ·;»·(·), ι*(Ιι)(·)]Ι>ΙΙ^ ίο, ·;»·(·), Μ·)1Ι· (39.21)
S-»oo
Из (39.20) и (39.21) вытекает неравенство
inf |ι*[θ, .;»*(·), »(·)]|>|»[». ·;»*(·), »·(·)1Ι. (39.22)
«(·)
которое и означает, что программа гг^. (·) удовлетворяет условию
(39.19).
Итак, при всяком выборе программы ν*(·) существует
минимизирующая программа и#(·)* на которой достигается минимум
(39.19). Поэтому программный максимин ρ (38.7) можно
определить равенством
ρ(τ*, и?*, ΔΛ{τ,}) = supmin|o?rO, ·]|. (39.23)
Пусть ί(·) = {ί(ω), ω = {ξι, ..., |fe} e Q} — некоторый элемент
из i?(2)(Q). Примем следующие обозначения
m*-M{Z(<o)}, (39.24)
т(т, ш) = т[|1? ..., ξ,] = Μ {/(ξ,, ..., IJH,, ..., |J, (39.25)
τ< < τ < τ<+1, i = l, ..., к.
303
Введем величину
κ (τ*, w*, Afe{τ,}, Ζ(·)) = <ra*-X[0, т*]и;*> +
+ Μ f min max <ra (τ, ω) Χ [θ, τ] (В (т)и + С (τ) »)> dr . (39.26)
При ^ = 0 заменяем случайную величину Ζ(·) вектором I
и полагаем
w4 = Ζ, (39.27)
κ (τ*, и?*, Аь{т^}, Ζ) = <га*.и?*>. (39.28)
Величина κ (39.26) определена корректно, потому что при
всяком выборе Ζ(·) ^ S?(2)(Q) подынтегральное выражение в
правой части (39.26) есть функция, измеримая по паре переменных
{τ, ω} относительно σ-алгебры & {[τ*, О) Χ Ω}. И эта функция
интегрируема. В самом деле, согласно материалу из § 3 величина
min max <га · Χ [θ, τ] (Β (τ) и + С (τ) ν)} есть непрерывная и,
wep t>eQ
стало быть, измеримая относительно σ-алгебры 3$ {[τ*, Ο) X Rn}
функция от {τ, га}. (Символ Rn обозначает w-мерное пространство
векторов.) В свою очередь га (τ, ω) (39.25) есть измеримая
функция от {τ, ω) относительно σ-алгебры ^{[τ*, θ) Χ Ω}. Поэтому
величина
г (τ, ω) = min max <ra (τ, ω) · Χ [θ, τ] (В (τ) и + С (τ) ν)} (39.29)
u^P v~Q
оказывается измеримой по теореме 2.1 о суперпозиции
измеримых (по Борелю) функций (см. § 2). Далее из известных
неравенств
f|l(<D)|P(*D)<|i(.)|, (39.30)
Ω
flMOHU,, ...,ξί}|Ρ(Λ»)<|ί(.)Ι (39-31)
Ω
вытекает, что функция г(т, ω) (39.29) интегрируема в области
[τ*, ft) χ Ω.
Для выяснения смысла величины κ (39.26) вычислим
скалярное произведение (1(·)·ιν[ίϊ, ·; ν(·), и(·)]). В соответствии с
определением (38.5) этого произведения, в согласии с формулой
Коши (37.15) и с учетом (37.5), (37.6), (39.24), (39.25) имеем
(Ι (·)·ιν[ϋ, ·; ν (·), и (·)]) = Μ«Ζ (ω).Χ[0, τ*] w*} }+
+ Μ j <Z (ω) · Χ [θ, τ] (Β (τ) и (τ, ω) + С (τ) ν (τ, ω))> άτ\ =
= <Μ{Ζ(ω)}·Χ{θ,τ*]Κ;!ΐ!> +
h %+»
+ 2 J Μ «Ζ (ω)· Χ [θ, τ] (Ζ? (τ)«[τ, ξχ, ...,ξ,] +
ί-ι τ,·
304
+ С (τ) ν [τ, glt ..., Ij})}} dx = <лц · Χ [ft, τ*] и?*> +
ft Ti+i
+ 2 J Μ{<Μ{Ζ(ω)|ξ1? ...Λί}·Χ№,τ)(Β(τ)ηΙτ,ξι, ...,Ы +
+ С (τ) ι? [τ, glt ..., &])>} άτ = <тга* · X [ft, τ*] м;*> +
+ 2 J М^Й!, ...,y.X[ft, τ] (Д (τ) и [τ, ξι, ...,!;] +
+ С (τ) ι; [τ, ξ1? ..., ^])>} dt = <т* ·Χ [ft, τ*] и?*> +
+ J Μ {/τι (τ, ω) · Χ [ft, τ] (Β (τ) и (τ, ω) + С (τ) ν (τ, ω))>} άτ. (39.32)
τ*
Здесь при переходе от Κω) к M{Z(<o)l|i, ..., |3} мы
воспользовались формулой повторных математических ожиданий ([14*],
с. 21). Построим программы ι>°(·) и и°(·), исходя из условий
<т (τ, ω). Χ [ft, τ] С (τ) ν° (τ, ω)> =
= max (m (τ, ω). Χ [ft, τ] С (τ) ι;>, (39.33)
<πι (τ, ω) · Χ [ft, τ] Β (τ) w° (τ, ω)> =
- min <m (τ, ω) ·Χ [ft, τ] Β (τ) и}. (39.34)
Такие программы существуют. В самом деле, опираясь на
теорему об измеримом выборе (см. § 3), можно выбрать измеримые
по {τ, т} функции г?(т, т) и й(т, яг), которые удовлетворяют
условиям
<m-X [ft, τ] С (τ) ν (τ, m)> = max <m-X [ft, τ] С (τ) ι;>, (39.35)
tt=Q
</7i.X[ft, τ]#(τ)ίϊ(τ, w)> = min<wX[ft, τ]Β(τ)ιι). (39.36)
«sp
После подстановки 77i = m[|1, ..., ξ,·] получим по теореме 2.1
о суперпозиции измеримых функций измеримые по {τ, |1? ..., |3>
функции
ν°[τ, glf ..., Ы = г;(τ, тЦи ..., &Ι), Ъ < τ < fj+1, (39.37)
и°[т, ξι, ..., У = и (τ, m[|1? ..., У), τ^ < τ < rj+1, (39.38)
которые и определят искомые программы ι>°(·) и и°(-).
Подставляя у°(0 и м°(·) в (39.32) и учитывая (39.26), (39.33), (39.34),
получим равенство
κ^,ι^,Δ^τ;}, /(·))= (Ζ(-)·»[θ, ·;*>0(·)> "° (·)])· (39.39)
20 η. Η. Красовский 305
Всякая программа u(·) удовлетворяет неравенству
</» (τ, ω) ·Χ [ϋ, τ] Β (τ) и (τ, ω)> ^
> min <тге (τ, ω) Χ [θ, τ] Β (τ) «>, (39.40)
а всякая программа ν(·) — неравенству
(т (τ, ω) · Ζ [θ, τ] С (τ) ι; (τ, ω)>< max (τη (τ, ω) · Χ [θ, т] С (τ) ν>.
(39.41)
Поэтому из (39.32) с учетом (39.26), (39.33), (39.34), (39.40)
и (39.41) получаем следующие неравенства:
(ί(·)·«>[θ, ·;»·(·), »(·)1)>(*(·)·Η<>, ·;ν(·), и(■)]), (39.42)
(i(·)·»[*, ·; *(·),«·(.)])<(*(·)·«>[<>, ·; »(·), »(·)]). (39.43)
(l(-)-w№, .;»»(·).»(■)])>*(**. «>*.M*iM(·)), (39.44)
(1 (·)·»№, ·; ν(·), «°(-)D <*(**, ">*, Δ*{τ,}, ί(·))· (39.45)
Если в (39.40) или в (39.41) выполняется строгое неравенство
на множестве значений {τ, ω} ненулевой меры, то в (39.42) и
(39.43) или соответственно в (39.44) и (39.45) также выполняется
строгое неравенство.
Введем величину, которую назовем программным экстрему-
мом:
е(х*, w+, &k{tj}) = SUP κ(τ*> w*i Aft{τ;}, *(·))> (39.46)
ltf(-)\Ui
если τ* <Ф, и
β (θ, и;*, Ak{y}) = sup (hw+y = \w* |. (39.47)
Ul<i
Величина е (39.46) имеет смысл, так как вследствие (39.30)
и (39.31) величина κ (39.26) ограничена равномерно по Ζ(·) при
ΙΙΖ(·)ΙΙ < 1. Верно следующее утверждение.
Лемма 39.1. Для всякой исходной позиции {τ*, ιν%} при
всяком разбиении ΔΛ{τ,} справедливо равенство
ρ (τ*, и?*, Aft {τ]}) = е(т*, и?*, Аь{^·}). (39.48)
Докажем лемму. При τ* = θ ее утверждение верно по
определению величины ρ (38.12) и величины е (39.47). Рассмотрим
случай τ* < θ. Воспользуемся равенством
|»1<>, ·; »(-). «** (-)ll — minl«;[*t .;*>(·), и(-)]| =
— sup min(Z(-)-Hft, -;v{-),u (·)]), (39.49)
lUCOIKi «(·)
которое будет доказано в § 50 (см. (50.9), (50.10)). Это равенство
верно, какова бы ни была программа v(-). По определению ве-
306
личины р (39.23) получаем из (39.49)
ρ (τ, w„ Δη{ϊ$) - sup тт\\т[Ъ, ·; υ (·), и(-)1| -
τ(·) w(.)
= sup sup min(Z(-)-^[§, ·; y(·), ц(·)]) =
= sup supmin(Z(.)-w[*, ·;»(·). "(')!)· (39.50)
Ιϋ(·)Κΐ *(·) "(·)
На последнем шаге в правой части (39.50) мы воспользова-·
лись известной возможностью переставить местами две операции
взятия верхней грани. Но теперь согласно (39.39), (39.44) и
(39.45) можно воспользоваться следующим равенством:
supmin(Z(-)-a>№, ·; ι>(·), w(·)]) =
= max min (l(-)-w[ft, ·; ν(·), w(·)]) =
-(*(·)·"!<>, .;*(·), и*(.)])-х(%т9и>*,Ан{т,), !(·))· (39.51)
Из (39.50) и (39.51) по определению величины е (39.46)
получаем равенство (39.48). Это доказывает лемму.
§ 40. Свойства программной конструкции
Программный максимин ρ (τ*, w*, ΔΛ{τ;·}) является
функцией, непрерывной по м>#. Более того, функция ρ (τ*, w#, Aft{T,·})
удовлетворяет условию Липшица по w* для всех позиций из
G*, так что справедливо неравенство
|ρ(τ*, w(1), Ак{х)))-р(т„ и>(2), Аь{т,})|<Х(4вл)|1а(1)-1|К1)| (40.1)
при любых {τ*, и/^еб*, {τ*, ^}s6*.
Доказательство этого утверждения подобно доказательству из
§§ 28, 29 свойства липшицевости функции р(£, ζ) (29.1).
Приведем это доказательство для полноты изложения. Рассмотрим две
исходные позиции {τ*, w^} и {τ*, тЩ. По определению ρ (τ*,
Щ, А^{т;})для любого ε>0 найдется программа ν\1)(·), которая
при всяком выборе программы и(-) для движения
ι*ω [τ, ω] - иК« [τ, ω; τ*, μ*ι>, и (.), ν\$ (·)] (40.2)
обеспечит неравенство
|ι*ω[θ, ·]|>ρ(τ*, ι*ω, ΔΛ{τ,})-ε. (40.3)
Сравнивая движения «>(ι)[τ, ω] и
юС« [τ, ω] - ш [τ, ω; τ*, ц><*>, и (.), ν\$ (.)], (40.4)
порожденные одной и той же парой программ {«(·)> ι>(ί)(·)Κ
получим из (37.15), (37.17), (37.18) следующие соотношения:
| и>й) [θ,ω]— u><2> [θ, ω] ΚΙΧ [θ, τ*] (и*« — u><«) | <
< ξΧ [θ, τ*] 11 η*« - ю(») | < λ | u><« - ιρ<«) |. (40.5)
20* 307
Здесь символ 11X11 обозначает нораду матрицы X для
евклидова пространства {м;}, т. е.
\X\ = m*x\Xw\, (40.6)
l«?Hi
λ= max || Χ [θ, τ]||. (40.7)
Неравенство (40.5) справедливо при почти всех ω ^ Ω.
Поэтому из (40.5) следует неравенство
11н;<2>[#, .]11-Ии>(1)[0, .]\\>-ШЧЪ, -]-о;(1)[0, 011 =
= -М{|и>(2)[#, ω]-κ;(1)[#, ω]\2)ί/2>-λ\ιν^-w^\. (40.8)
Согласно (40.3) неравенство (40.8) означает, что нашлась
программа ν[ι)ί(·)> которая для всякого отвечающего ей движения
wiZ)[x, ω] (40.4) обеспечивает неравенство
И2)[0, ·][|>ρ(τ*, υ&\ ΔΛ{τΛ)-β-λΗ»-ιιΚ«|. (40.9)
Но по определению величины ρ (τ*, ιν^\ Δ^{τ,·}) неравенство
(40.9), верное при всяком выборе программы и(0 в паре с
*>!i) (·)» означает справедливость неравенства
ρ (τ*, w^\ Ak {τ,·}) > ρ (τ*, в*«, Δ, {τ,}) _ β - λ | и*« - и^> |. (40.10)
Вследствие произвольности выбора ε>0 из (40.10) вытекает
неравенство
ρ (τ*, ю»>, Δ^ {τ,·}) > ρ (τ*, ι*ω, Δ, {τ,}) - λ | ι*»> - ι*ω |. (40.11)
Если в предыдущих рассуждениях поменять ролями точки
w{i) и w{2\ то получим неравенство
ρ (τ*, и*1\ Δ* {τ,}) > ρ (τ*, и*», Δ, {τ,·}) - λ 11*»> - ι^« |. (40.Щ
Из (40.11) и (40.12) вытекает доказываемое неравенство
(40.1), где, стало быть, число λ(401)=λ определено равенством
(40.7). Заметим, что выбранное так значение λ(401) не зависит
от выбора области G* (при фиксированном отрезке [t0, ϋ1]) и
от разбиения ΔΑ{τ,}.
Вследствие равенства (39.48) величина е (τ*, w%, Ak{xj})
(39.46) удовлетворяет условиям Липшица
Их*, и*«, Δ^ {τ,}) - е(τ*, w^\ Ak {τ,}) | <
<Х(40Л)|и;(1)-и>(2)1· (40.13)
Отметим свойства максимизирующих последовательностей
ί/(β)(·), 5 = 1, 2, ...} случайных величин Ζ(β)(·), которые отвечают
верхней грани в (39.46), т. е. удовлетворяют условию
е(х*, ы>*, Δ^{τ,·}) = Нтх(^, и;*, Δ^{^}, Ζ(8)(·))· (40.14)
β->00
<
Рассмотрим какую-нибудь такую последовательность ίΖ(θ)(·)>.
Пусть в согласии с (39.17)
т? = Μ {Ζ(δ)(·)Κ * = 1, 2, ... " (40.15)
Из последовательности w-мерных векторов тщ, » которые, как
мы знаем, удовлетворяют условиям
Ι'»?)|-|ί<;)(ω)Ρ(Λ))|<ί|ϊ(,)(ω)|Ρ(Λ»)<
ΙΩ Ι Ω
(ί|ί(8)(ω)|2Ρ(^)ν/2 = |ί(ί)(·)Ι<1, (40.16)
можно выбрать сходящуюся подпоследовательность [mSBi\ i ==
= 1,2,...}. Перенумеруем эту подпоследовательность заново,
обозначив т(*д = m%] (i = 1, 2, ...). Пусть
тп* = Нтт71[;3. (40.17)
г-»оо
Каждый вектор тгс*, который можно получить таким образом,
будем обозначать символом я*0 (τ*, w*, ΔΛ{τ^}). Подчеркнем, что
какой-либо сходимости самих случайных величин Zm(·) при этом
мы не требуем. Совокупность всех векторов т°(тн., м;*, Δ&{τ^}),
отвечающих данной исходной позиции {τ*, w%} и данному
разбиению Aftixj), обозначим символом Jt*{%*, w*, Δ^{τ,·}).
Множество Μ* (τ*, w^ Aft {τ^}) обладает следующими
свойствами. Оно ограничено. В самом деле, согласно (40.16) и (40.17)
справедливо неравенство
||»°(^,^АЛ{тЛ)|<1 (40.18)
для всякого вектора ητ°(τ%, ιν*, Δ^{τ,·}) = m*.
МножествоЖ°(т%, ц?*, Ль{т,})есть множество замкнутое, так
как оно строится как совокупность предельных элементов яг*.
А всякое подобное множество является замкнутым (см. [28*],
с. 95).
Множество Μ*{τ*, м;*, kk{Xj}) изменяется полунепрерывно
сверху по включению по изменению w#. (См. определение этого
свойства в § 3.) В самом деле, рассмотрим некоторую
сходящуюся последовательность позиций {τ*, м^г>} (г=1, 2, ...). Пусть
limutr> = w+ (40.19)
Г-»оо
и при этом для некоторой соответствующей последовательности
т (τ*, w{T\ Δ^{τ,}) = гп{г) справедливо предельное соотношение
lim m° (τ*, w<r>, Δ^{τ,» = lim m{T) = m*. (40.20)
r-*oo r-»oo
Надлежит доказать, что
m* - m* (τ*, и;*, Δ* {τ,·}), (40.21)
309
т. е. по определению вектора т* (40.17) надлежит построить
последовательность случайных величин Zirl(·) (r=l, 2, ...),
удовлетворяющих условию
е (τ*, u?*, Aft{τ}}) — lim κ (τ*, w*, Afe{^}, ίΜ (·)) (40.22)
Г-»00
и таких, что
lim mM = ИшМ (Z[r] (.)} = m*, (40.23)
r-»oo r-»oo
где яг* — тот же самый вектор, что и в (40.20). Построим
нужную последовательность Zir3(·) (r = l, 2, ...) так. Выберем
сходящуюся к нулю последовательность чисел εΓ > 0 (г=1, 2, ...):
lim εΓ = 0. (40.24)
Г-*оо
Для каждой позиции {τ*, w^} можно по определению
вектора ^(τ*, и№\ АЛтД) = т{п выбрать случайную векторную
величину /(8г) (·), которая удовлетворяет условиям
κ (τ*, η*·>, ΔΛ {τ,·}, l(°r) (·)) > e (τ*, и*'>, Δ* {τ,}) - er, (40.25)
I m(r) - Μ {l('r\(·)} | < ε,. (40.26)
Но из (39.26) имеем
κ (τ*, w„ Ah{xj}, Z(M (·)) - κ(τ„ и*'>, Δ*{τ;}, Z(8r) (·)) +
+ <M {i(Er) (·)) Χ [θ, τ*] Κ - ipfr))>. (40.27)
Из (40.25), (40.27), (40.13), где λ = λ<401\ (40.7) следуют
неравенства
κ (τ*, в>#, Aft{Tj}, Z(8r) (·))>« (τ*, н*г), Ак{х}}) —
- гТ + <M {Z(8r) (·)) ·Χ [θ, τ,] К - !*'>)> >
> е (τ*, ю#, Δ*{τ}}) - ε, - 2λ(401) | wm - вК') |. (40.28)
Отсюда вследствие (40.19) и (40.24) получаем предельное
соотношение
lim κ (τ*, w*, ΔΗ{τ,}, l(tr) (·))>« (τ*, »*, Aft{Tj}), (40.29)
Г-»Ов
которое вследствие неравенства
κ (τ*, и;*, Δ^}, Z(M(.)) <*(τ*, и;*, Ай{т;}) (40.30)
означает равенство
lim κ(τ*, ы;*, Δ^}, Iвг) (·)) = <?(τ*, ы;*, Ак{у})9 (40.31>
г->оо
т. е. последовательность I (·) = I (*) (г= 1, 2, ...) удовлет-
310
воряет условию (40.22) и является максимизирующей для
позиции {т#, и>*} Для вычисления величины е (39.46). При этом
вследствие (40.24) и (40.26) последовательность векторов ти[г] —
= Μ {г*' (·)} сходится и
lim тИ = ™*, (40.32)
где т.* — вектор из (40.20). Таким образом, полагая Iм (·) =
= Ζ (·)» получаем, что вектор т* (40.20), (40.32) оказывается
порожденным некоторой максимизирующей последовательностью
Z[r](0 для величины е (39.46) для исходной позиции {τ*, w%).
Но это означает, что построенный вектор т* есть вектор /га0(т#,
ιν*, Дь{тЛ)· А это и доказывает полунепрерывность множеств
Μ°(τ%, м>#, Aft{Tj}) по изменению w*.
Множества Jt°(x*, м;*, АЛ{т;}) выпуклы. Проверим это. Пусть
го^е «^°(τ*ι ы;*, ΔΛ{τ;}), то(»)е^°(т#) ы;*, Δ^{τ,·}) и выбрано
какое-нибудь число !1е(0, 1). Надлежит доказать, что т,М =
=[λ/Λ(1) + (1 — λ) /7i(2)] е ^° (τ*, w*, Aft {τ,·}). По определению
векторов иг0 (τ*, ιν%, Aft{Tj}), составляющих множество «^°(т*^*>
Aft{tj}), существуют две максимизирующие для величины е
(39.15) последовательности случайных величин 4*1 (') и '[8(0
(i = 1, 2, ...), которые удовлетворяют предельным соотношениям
rod* - lim Μ {Zg] (ω)}, m& = lim Μ {Ζ$ (ω)). (40.33)
{-* σο ί-> οο
Построим последовательность 4π (0 (& = 1, 2, ...), элементы
которой определим следующим образом:
Φϊ(ω)~$ίβι,...,ε*ι-
ί«4 (40.34)
.^[Κι-λ]/[1-λ],ξί,...,ξ»1, λ<|1<1.
Имеем согласно (40.34)
Μ{$ί(ω))= fl$(<o)P(<fo>)-
= I ... f ЙЙ!,...,50 «!·.·<«*-
ο^<ι o^Eft<i
= ί ί ··· ί *ίϊ!ΐδι/λ, ξ.,.·., ξ*1 «&...<& +
«χξ^λ ο«ξ2<ι o«|ft<i
λ<|χ<1 0<ξ4<1,...,0<|Λ<1
= λ ί ί ··· ί Шй.ь,.·..&]<&.·.<& +
0<|χ<1 0<1а<1 0<|ft<l
311
+ (1-λ) J... J ίβ][&ξ„...,&]«£...
... dgk = λΜ {l{)\ (ω)} + (1 - λ) Μ {$ (ω)}. (40.35)
Аналогичным образом получаем равенство
Μ 11Щ (ω) |2} = λΜ {I #j (ω) I2} + (1 - λ) Μ {I #J (ω) |»}. (40.36)
Отсюда вследствие
Μ{|Ζ$(ω)|2}<1, Μ{|4?]((ο)|2}<1 (40.37)
получаем неравенство
Μ{|ί$(ω)|2)<1, (40.38)
т. е. неравенство
ИЯИЫМЦЙИЧГО· (40.39)
Возьмем некоторое событие В^ щ e &^ ,...,эд, которое
является подмножеством из /-мерного куба Ωιξ ,...,|jj =
= {{lu · · · 7 ii}» 0 < Is < 1, 5 = 1, ..., j]. Этому множеству
-Β[ξι ξ^ отвечает построенное на нем цилиндрическое
множество В1*1 *jl = 5(j)e=$ из Ar-мерного куба Q = {{glt ..., Ы,
0 < ξβ < 1, 5 = 1, ..., к} (см. § 37). Обозначим символами Ζ?(ί)
и В β ,...,|j](D пересечения J5(j) и В^ ,.,.,ξ^ с множеством
|ι<λ, символами В$Р и Βι* ,...,эд(2)— пересечения Z?(i) и
jB[glt...t6j] с множеством ξ4^λ. Через 2?$ и #1^,...,^] обоз-^
начим множества, которые получаются из 2?Щ и #[ξ1#..., еда>
преобразованием ξί = ξχ/λ, через tiffi и ^[^„...^j — множества,
которые получаются из В$) и Ββ ,...,эд(2) преобразованием ξ" =
— E|i —λ]/[1 —λ].
По определению и свойствам условных математических
ожиданий (39.25), введенных для полуинтервалов τ^ τ < τ,·+1,
тЩ (τ, ω) - Μ {/$ (ω) 1 Бх Ы = ™$ Ει, · · ·, Ы (^Л0}
т[}\ (τ, ω) - Μ (Ζ$ (ω) 16ι 6il — ml& [ξι, . · ·, Ы, (40.41>
m$ (τ, ω) = Μ {Ζ$ (ω) | glf ..., ξ,} = mft Blf ..., &] (40.42>
имеем согласно (40.34) для всякого множества ^[£χ»···♦!>]е
е ΰΒβ ,...,|j] и отвечающего ему цилиндрического множества
312
BtS) e <$ιη следующую цепочку равенств:
ί ί[ϊ1βι/λ,ξ„ ...,bj«i ■··<«* +
+ J ζ[!Ηβι-λ]/[ΐ-λ],12, ..., &#!...«&-
= f iia[6b6i,...,bd(i-x)<c...«ik-
+ f т(Ж,...,Ы(1-Х)с*Гх...<& =
if
Br * τ
[*1 Ы
J" miiltlA «i ···<£,·+
+ J mffl[^f,5.,....b]«i...«|. (40-43)
B[lx WH^}
Вследствие произвольности множества #[|х S,·] e^[^«--.lj]
равенство (40.43) означает равенство (при почти всех {ξι, ..., &})
m[i] III» · · · Л}] —
= ΜΗ ίδι/λ, δ·, ■ · ч ы, о < ι < λ,
W*i tlii - λ]/[ΐ - λ], I, ЕЛ. λ < ξ < 1,
/ = 1, ..., к.
Исходя из равенства (40.44), получим аналогично (40.35)
следующее соотношение:
Μ f [minmax<m[$(τ, ω)·X[ft, τ] (В(х)и + С(τ) ν)}] dx\ =
(xm [usP vSQ J J
= λΜ 11 f min max <m$ (τ, ω) · Χ [θ, τ](# (τ) и + С (τ) у)>1 dt 1 +
313
+ (1 — λ) Μ If [min max <m$ (τ, ω) · Χ [θ, τ] (Β (τ) и +
Ιΐ„ [иep vsQ
+ C(j)v)y\dx\. (40.45)
Теперь из равенств (40.35) и (40.45) получаем согласно·
(39.26) следующее равенство:
= λκ(τ„ в>„ Δ* fa}, $}(·))+ (1 -λ)κ(τ„ и;*, Δ»{τ,}, *$(■))-
(40.46>
Так как {/{}](·), <-1,2,...} и |Ζ[8(·), ί-1,2,...} суть
максимизирующие последовательности для «-(τ*, u?*, Ahfa})
(39.46), то, переходя в (40.46) к пределу при »-*■«>, получим
lim κ (τ*, и;*, Aftfa}, 1$(·)) =Яв(т#,ы7#,АЛ{^}) +
i-»oo
+ (1 — λ) е (τ*, и?*, Afe{Tj» = β (τ*, и;*, ΔΛ{τ,}). (40.47)
Но равенство (40.47) означает, что случайные величины
ηϋ (·) (i = l, 2, ...) также образуют максимизирующую
последовательность для величины β(τ%, и;*, ΔΛ{τ,·}). При этом
согласно (40.33) и (40.35) справедливо следующее предельное
соотношение:
limM [l#] (ω)} = λ lim M [l[\] (ω)} +
i-»oo i-»oo
+ (1 — λ) lim Μ {igj (ω)) - λι»ω + (1 - λ) тге(2). (40.48> *
г-» οο
Однако это означает, что вектор
тш β λΐΛ(ΐ) + d _ λ)^(2) (40.49>
порождается как вектор т° (τ*, м;*, Δ^{τ^}) на основе
максимизирующей последовательности случайных величин %](·)» т·е·
*ι[λ] е ЛГ° (τ*, Шф, ΔΛ {τ,·}). (40.50)
Это и доказывает выпуклость множества «^°(τ*ι м;*, Aft{Tj}).
§ 41. Эволюция программного максимина
Установим важную оценку изменения величины ρ (τ*, w#r
Ak{rj}) = е (r%,w*, Ak{Tj}) с изменением позиции {τ*, и?*},
когда эта позиция перемещается в пространстве {τ, w), следуя
траектории {τ, ινίτ]}, которая отвечает некоторому движению u;[tL
314
Итак, пусть дана какая-либо исходная позиция {x*,w[x%]}.
Выберем некоторое разбиение Δ&{τ>, [τ*, Щ} = ΔΛ{τ,·, / = 1, ...
..., k+ί; τ^τ*, xh+1 = Щ для отрезка [τ*, θ]. Для этой исходной
позиции {τ*, ιν [τ*]} и для этого разбиения Δ& {τ,·, [τ*, Щ}
вычислим величину е (τ*, w[r#], Aft {τ,·}). Имеем согласно (39.46)
e(x*,w[x*],Ak{Xj}) = sup n(x*,w[x*], Ак{х& Z(·)), (41.1)
ΙΙί(·)Β<ι
где
κ (τ*, w [τ*], Afe {τ,·}, Ζ (·)) = <Μ {Ζ (ω)}·Ζ [θ, τ*] w [т*]> +
ί ο
+ Μ
J fmin max </?г (τ, ω) . Ζ [θ, τ](# (τ) и + С (χ) ν)}] dx\. (41.2)
X4t[ui=PO~=Q J J
При этом ω — {ξι, ..., |ft} — элементарное событие из
вероятностного пространства {Ω, ^?, Р}, где Ω — /с-мерный куб
Q-Lo-igi, ..., Ы, 0^|i<l, ; = 1, ..., Μ, (41.3)
$ — борелевская σ-алгебра на Ω. Случайные величины ξ, (/ =
— 1, ..., к) распределены равномерно на полуинтервалах [0, 1)
и независимы в совокупности. Это определяет меру Ρ на
событиях i?ej, Норма ΙΙΖ(·)ΙΙ векторной случайной величины
Ζ(.)=ί/(ω), ω^Ω} (41.4)
определена равенством
|Ι(·)Ι-(]ΐ«(ω)|·Ρ(Αο))1/". (41.5)
Символ т(т, ω) обозначает условное математическое
ожидание (39.25). Смысл упомянутых величин мы напомнили здесь
для отрезка [τ*, θ] по той причине, что ниже аналогичные
величины появятся для другого отрезка [τ*, θ].
Пусть А>1. Обозначим τ* = τ2. Выберем пока произвольно
вектор w*. Для отрезка х*<х^$ назначим разбиение Afe* [χι,
{τ*, О]} = Afe* К*, i = 1, ..., Α*; χ\ = τ*, τ**+1 = θ} так, что
τ? = τ,·, ί=»/ —1; ί = 1, .. .,**; **-fc—1. (41.6)
Вычислим величину е (τ*, и?*, Afe* {т$}). По определению этой
величины е (39.46) имеем
*(τ·,ι**,Δ*·{τΓ})- sup κ(Λΐρ·,ΔΛ·[τ?Κί·(.)). (4*·7)
ΙΙΖ*(·)ΙΙ*^1
где
κ(τ·,ιι;*,ΔΛ·{τΠ,Ζ*(.))-<Μ{Ζ*(ω)>.Χ[θιτ*ΐΜ;*> +
+ М {ттт*х(т* (χ,ω*)·Χ[$,χ](Β (х)и+ С {χ) v))]dx . (41.8)
315
При этом ω* = {ξ*, ..., ξ**] —элементарное событие из
вероятностного пространства Ш*, .35*, Р*}, где Ω* — Аг*-мерный куб
Ω* = [ω* = {ξΓ,...,ξ^},0<ξ*<1, i —1 **; **-k-l],
(41.9)
ЗВ* — борелевская σ-алгебра на Ω*. Случайные величины .ξ*
(ι=1, ..., &*) распределены равномерно на полуинтервалах
[О, 1) и независимы в совокупности. Это определяет меру Р*
на событиях J5*ejf*. Символ Ζ*(·) обозначает случайную
величину
/·(.) = (Ζ*(ω*), ω* е Ω*> (41.10)
с нормой
|Z*(.)I* = I f |Ζ*(ω*)|2Ρ*(<Ζω*)Υ/2. (41.11)
Символ т*(т, ω*) обозначает условное математическое
ожидание
т* (τ, ω*) = Μ [Ι* (ω) | Ц ..., ξ?} - m* [£, ..., ξ?], (41.12)
Оценим разность
Де = ^(τ*, м;*, Aft* {τ?)) — е(т*, ы;[т*], ΔΛ{τ;}). (41.13)
Для этого удобно ввести следующее соответствие между
вероятностными пространствами Ш, 3$, Р} и Ш*, ^*, Р*} и
между случайными величинами Ζ(·) и Ζ*(·). Будем трактовать
случайные величины ξι, .. .,£&* как компоненты
It - ξ,+1, * —ι *·; *· — *—!, (41.14)
из набора {ξι, ..., ξΛ). При этом каждой случайной величине Ζ*(·)
(41.10) можно поставить в соответствие случайную величину Ζ(·)
(41.4), полагая
Ζ(ω) - Ζ*(ω*), ω е Ω, ω* е Ω*, (41.15)
где элементарное событие ω = {ξι, ..., ξΛ} связано с
элементарным событием ω* = {ξ1? ..., ξ&*) условиями (41.14). Тогда
|ϊ(-)Ι —Ql«(«>)l*P(A»)
\ο<&1<ι,...,ο«<ξ&<ι
\o<|1<i,...,o^ife<i
316
\l/2
\ο<|?<ι,...,ο<&£·<ι /
= (,f Ι /*(ω·) |2 Ρ* (d<o*) V/2 = Ι Ζ* (.) I*. (41.16)
Также можно проверить, что при условии (41.15)
справедливы следующие соотношения:
Μ{Ζ(ω»=Μ{Ζ*(ω*)>, (41.17)
Μ{Ζ(ω)|^ = Μ{Ζ*(ω*)},
τχ = τ* <; τ < τ* = τ^ =τ2, (41.18)
Μ{Ζ(ω)|ξ1,...,ξί} = Μ{Ζ*(ω*)|ξ1*,...,ξ*-ιΚ 1-2,...,Λ, (41.19)
т. е. согласно (39.25), (41.6), (41.12), (41.14) и (41.15) имеем
т(т, ω) = т*(т, ω*),
Τ{ = Τ|-|-ΐ ^ f ^^i+2 ==s ^i+1? ϊ = 1, Ζ, . . . , /С J /С = /С 1.
(41.20)
По определению величины е (39.46) найдется
максимизирующая последовательность случайных величин Ζ*[β1(·), ΙΙΖ*[β1(·)ΙΙ* < 1
(s = 1, 2, ...), удовлетворяющая условию
κ(τ·, ш*, Δ,* {τ*}, Z*[s](.))>*(t*, и,·, Afe* {τ,·))-β„ (41.21)
где es>0 (s = 1, 2, ...) и
Ню8,=0. (41.22)
S-»oo
При этом можно предполагать, что соответствующая
последовательность чисел
т*м =м {Ζ*[8ΐ(ω*)>, * = 1, 2, ..., (41.23)
сходится и, стало быть, по определению вектора И1°(т*, м;*,
Afe* Nf}) имеем
limm*[sl = /»°(τ*, и?·, Aft* К*}). (41.24)
S-»oo
С другой стороны, для случайных величин Ζ[θ1(·), связанных
со случайными величинами Ζ*Ιθ1(·) условиями (41.14) и (41.15)f
верна оценка ΙΐΖΙβ1(·)ΙΙ <1и справедливы неравенства
κ (^*, w [τ*], Aft {tj}, Ζ[β1 (·)) < e (τ*, ы; [τ*], Aft{tj}), 5 = 1,2,...,
(41.25)
которые вытекают прямо из определения величины е (39.46).
317
Учитывая выражения (41.2), (41.8) для κ и соотношения
(41.17)—(41.20), (41.23), получим из (41.21), (41.25) следующие
неравенства:
е (τ*, и;*, Aft* (τΠ) — е (τ*, w [τ*], Afe {^}) <
< <m*[s] · Χ [θ, τ*] и>*> - <m*[sl· Χ[θ, τ»] w [τ*]> -
τ*
— f f min max < w*[s]. Χ [θ, τ] (Β (τ) u + С (τ) ι;» 1 йт + г$,
* = 1,2, ... (41.26)
Скалярное произведение <ι»·Χ[φ, τΚΖ?(τ)Μ + ί7(τ)ι;)>
является непрерывной функцией от {/η, τ, и, ι;}. Поэтому согласно
материалу из § 3 максимин по щ ν от этого скалярного
произведения является непрерывной функцией от Ьщ χ]. Отсюда по
известной теореме из математического анализа ([28*], с. 379)
следует, что интеграл в правой части (41.26) является непрерывной
функцией от вектора т = т*[8]. Стало быть, и вся правая часть
в (41.26) есть непрерывная функция от величины т = m*[el.
Поэтому, переходя в неравенстве (41.26) к пределу при ^» и
учитывая (41.22) и (41.24), получим следующую оценку:
€ (τ*, и?*, Aft* [%*г\) — е (τ*, w [τ*], Afe {τ,·}) <
< <т°(т*, w\ Aft* {τ*)).Χ [θ, τ*] w*> —
- <m° (τ*, w*, Aft* {τ?}) Χ [θ, τ*] ιν [τ J> -
τ*
— f .[min max <m° (τ*, w*, Aft* {τ?})·Χ [θ, τ] (β (τ) u+C (τ) ι;)>] dx.
ΐ uePveQ
(41.27)
И эта оценка верна, каким бы ни был вектор т°(т*, н;*,
Δ&* (Ό) ^ J(°(x*, α;*, Aft* {τι I), ибо по определению такого
вектора для него найдется максимизирующая последовательность
{Ζ*[θ1(·), 5 = 1, 2, ...}, удовлетворяющая условиям ΙΐΖ*[θ1(·)ΙΙ* < 1
и (41.21)—(41.24).
Пусть теперь м;* — точка м>[т*], которая получается в
момент τ = τ* на некотором (детерминированном) движении ινίχ]
{τ* ^ τ <1 τ*) рассматриваемой м;-модели, порожденном из
позиции {τ*, w [τ*]} парой управлений и Ιτ* I·J τ*) = {и [τ] еР, τ* <!
<τ<τ*} и oIx+[-]x*) = {v[t]*=Q, τ*<τ<τ*}. Здесь uix] и
ν[χ] суть какие-то измеримые функции, удовлетворяющие
ограничениям (36.2), а движение w[x] есть решение уравнения
ιν = Α(τ)ιν + Β(χΜχ1 +С(тЫт1. (41.28)
Согласно формуле Коши имеем
τ*
^* = ы; [τ*] = Χ [τ*, τ*] w [τ#] + J Χ [τ*, τ] (5 (τ) и [χ] +
+ C(x)v[x])dx. (41.29)
318
Вследствие равенства
jflO, τ] = χ[#, т*Шт*, τ] (41.30)
получаем из (41.27) и (41.29) следующую оценку:
*(τ*, w[x*h Δ**Κ*}) — е(т*,и>[х*], АкЫХ
τ*
< j [<m°.X [θ, τ] (Β (τ) и [τ] + С (τ) ν [τ])> -
τ*
— minmax <m°-X[θ,τ] (В(τ) и + С(τ) ν)>]dt, (41.31)
каков бы ни был вектор
то = т*(%*, w[τ*],Δ** {τ*}) €= ΛΡ(τ*, α; [τ*], Aft* (тг*}). (41·32>
Вследствие неравенства
</τι°.Χ [θ, τ] С (τ) ρ[τ]>< m*x <™°·* №£τ] С (τ) ι;>^ (41.33)
оценка (41.31) приводится к такой оценке:
е(т*, ιν[τ*], Ак*{х*})^е(т*, и? [τ*], Δ^{^}) +
+ f [<w°.X [θ, τ] β (τ) и [τ]> — min <m°.X [θ, τ] β (τ) и>] dx.
(41.34)
Мы рассмотрели случай /ί: > 1. Пусть теперь к = 1, т. е.
разбиение Δ*{τ^} отрезка [τ*, θ] сводится к одной точке хг = τ*.
В этом случае положим τ* = θ и оценим разность
Др = | w* | — е (τ*, w [τ*], Δ^τ,·}). (41.35)
Имеем равенство
\w* \ = тах<я1-н;*>, (41.36)
|m|<l
которое заменяет здесь равенство (41.7) из предыдущих
рассуждений.
Если м;* не является нулевым вектором, то для (41.36)
единственным максимизирующим вектором является т° = м;*/|ш*к
Если же w* = {0, ..., 0>, то максимизирующим для (41.36) будет
всякий вектор т°, у которого |го°|<1. Отсюда следует, что в
данном случае множество *#°(τ*, w*, Δ** {τ*}) = *ΛΓ°(θ, и?*)
максимизирующих векторов т° для (41.36) снова выпукло, замкнуто
и такие множества изменяются полунепрерывно сверху по
включению при изменении w*. Далее, повторяя предыдущие
выкладки лишь с незначительными изменениями, вызванными разницей
319
в обозначениях, получим подобно (41.34) следующую оценку:
|И^]|<*(т*,Ит*], Afe{Ti})+ j [<т°.Х[Ъ, τ]Β(τ)Η[τ]>-
— min <m°.X [θ, τ] β (τ) и}] dt, (41.37)
каков бы ни был максимизирующий вектор т° = τηϋ(ϋ, ιν[ϋ],
Afe*{T*}) = m°(d, и? [θ]) для (41.36), где и>* = и>Ш.
§ 42. Стабильность стохастического программного максимина
Докажем w-стабильность функции е(т*, и>*, ΔΛ{τ;·}) =
= Ρ(τ*? ^*» Aft(Tj})· При этом в соответствии с материалом из
§ 41 будем полагать при τ* = О по определению
*(*, wm, &кЫ) = р(д> ">*> ΜτΛ) = |^* |, (42.1)
хотя нет никакого разбиения А/ДтД отрезка [τ*, θ], который
сводится к точке О. Однако это определение (42.1) удобно, так как
согласно (41.37) оценка (41.34) остается верной и для величины
е(т\ w [τ*], Afe* {τ?}) = *(θ, w [ft], Afe* {τ*}) = | w [Щ .
Справедливо следующее утверждение.
Лемма 42.1. Пусть дана произвольная исходная позиция
{τ*, ^[τ^.]} и выбрано разбиение Ak{xj} для отрезка τ^^τ^θ.
Пусть τ* = τ2, если к > 1, или τ* = θ, ео/ш к = 1. Для всякого
измеримого воздействия ν* [τ* [ · ] τ*) = {у* [τ] е (>, τ* <1 τ < τ* }
найдется измеримое воздействие u* [τ* [·] τ*) = {u* [τ] e P,
τ# ^ τ < τ*} такое, что для движения w-модели w [τ* [ · ] τ*] ==
= {w frb τ* ^Ξ τ^Ξ τ*}> порожденного из данной позиции {τ*,
*#[τ*]} этими управлениями, будет выполнено неравенство
Ае -в(т»,Ит*], Afe* {τ?})-β(τ„ и>», Δ^})<0. (42.2)
Здесь обозначение Aft* {т^} имеет тот же смысл, что и в § 41.
Докажем лемму. Рассмотрим в га-мерном векторном
пространстве {т} множество
S = [m: \т\<1] (42.3)
и рассмотрим в га-мерном векторном пространстве {w} множество
И^ = ТУ(т*, τ*, Μ>[τ#], у* [τ* [·] τ*)), которое является областью
достижимости к моменту τ* для движений и? [τ*; τ*, и? [τ*],
ν* [х* [·] τ*), и [τ* [·] τ*)]. Иначе говоря, W есть множество всех
точек w, в каждую из которых можно привести в момент τ*
движение м;[т*; τ*, и? [τ*], ι>*[τ#[·] τ*), и [τ* [.] τ*)], выбирая
должным образом измеримое управление и [τ* [·] τ*), т. е.
W = [w: w = w[r*;%*, w[xm], у* [τ* [.] τ*), и [х* [·] τ*)];
κ [τ* [ ·] τ*) = {и [τ] gP,t,<t< τ*}]. (42.4)
320
Множество W, как и множество £, является ограниченным,
выпуклым и замкнутым. Рассмотрим множество D = [W X S]
всевозможных пар {и?*, яг*}, где м;* е= W и т* <ξ £, т. е.
/) = [{«;*, тгс*}: м;*е.РГ, щ*е5]. (42.5)
Поставим каждой паре {и?*, m*}^D в соответствие некоторое
множество i?[i^*, m*] пар {г£, Ш^А следующим образом.
Позиции {τ*, w*} соответствует множество ^°(τ*, м>*, АЛ*{Т|})
векторов /7&°(τ*, и;*, Aft* {rf}) == т. Вектору т* соответствует
множество Wlm*] точек w^W, которые удовлетворяют условию
<щ* · и?> = min <w*. м;>. (42.6)
В каждую из таких точек w (42.6) приходит движение
wlx^nx^^wl^x^wlx^O^lx^blx^Zlx^lx·)},
порожденное управлением у* [τ* [·] τ*) и управлением и [τ* [·] τ*),
которое удовлетворяет условию
<яг*-м;[т*]> = niin<77i*-M;> =
= min <т*.и;[т*; τ*, α; [τ*], ι>* [т* [·]τ*), ahr* [·] τ*)]>, (42.7)
«[τ*[.]τ*)
т. е. (согласно формуле Коши) условию
τ*
</гс*.Χ [τ*, τ*] и? [т*]> + j <тгс*· Χ [τ*, τ] С (τ) у* [τ]> ώτ +
τ*
+ |<™*.Χ[τ*, τ]β(τ)ϊϊ[τ1>ώτ = <^*.Λ:[τ*, т*]Ит*]> +
τ*
τ* τ*
+ j<m*.X[T*, x]C(x)v*[x]}dx+ [ min(m*.X[x*,x]B(x)uydx,
τ* τ* «*e*
и, стало быть, условию
<т*.Х [τ*, τ] β (τ) и [τ]> = min <w* ·Χ [τ*, τ] Β (τ) u> (42.8)
иеР
при почти всех те [τ*, τ*).
Множество W[m*] при всяком т* есть множество
ограниченное, выпуклое и замкнутое. Кроме того, можно проверить, что
при изменении т* множества W[m*] изменяются
полунепрерывно сверху по включению.
Конструируемое отображение
{и?*, т*} -» Rlw*, m*] (42.9)
таково. Каждой паре {м;*, m*} e D поставим в соответствие
множество R[w*, m*] всех возможных пар {й% т), где w^Wlm*]
21 Ы. Н. Красовский 321
и /гае*#°(т*, и?*, Afe* {tf}), т. е. в (42.9) имеем
R [и?*, /тг*] = [{w, m}: 5ef [m*], w е= *#°(τ*> и?*, Afe* {τ4*})].
(42.10)
Из свойств множеств W и J?0 вытекает, что множества
Жи?*, /τι*] (42.10) ограничены, выпуклы и замкнуты в
пространстве пар {м;, т). Они изменяются полунепрерывно сверху по
включению при изменении аргумента {м>*, т*}. Но в таком
случае согласно известной теореме ([5*], с. 495) отображение (42.9)
имеет неподвижную точку {и?0, тп0}. Это означает, что найдется
пара векторов {и>0, я*<Л м>о <ξ W, m0 <ξ S, для которой справедливо
включение
{и?о, m0}^R[w0, m0]. (42.11)
По построению отображения (42.9), (42.10) включение (42.11)
означает, что
т0 = i»e(T»f Щщ Δ/ι# {τ*}), Wq = w [τ*], (42.12)
где движение w[x; τ*, и>[т*]] (τ* <; τ <; τ*) порождается
управлением и [τ* [·] τ*), которое удовлетворяет условию (42.8) при
том самом векторе m* = /7i0, который входит в найденную пару
из (42.11). Это управление
^[τ*[·]τ*) = ^*[τ^[·]τ*) (42.13)
и удовлетворяет утверждению леммы. В самом деле, для
движения w[%% [·]τ*; ι? [τ*], υ*[τ*[·]τ*), u* [τ* [·]τ*)], порожденного
данным управлением ν* [τ+[·]%*) и управлением и* [%+[·] ι*)
(42.13), имеем согласно неравенству (41.34) при /с>1 или
неравенству (41.27) при А = 1 с учетом (42.8), (42.12), (42.13) еле-,
дующую оценку:
е(т*, ιν[τ% &к*Ш)<е(х*, ιν[χ*], ΔΛ{^}) +
г*
+ |[<™°(**,и>[т*], Δ^{τ?}).Χ[θ,τ]β(τ)α*[τ]>-
τ*
-ππη<77ΐ0(τ*, м;[т*1, Δ^{τΠ)·^[^τ]β(τ)^>]ίϊτ = 0. (42.14)
Лемма доказана.
Из леммы 42.1 путем переименования переменных получается
следующее утверждение.
Лемма 42.2. Пусть назначен некоторый отрезок ί^^ί^θ
и для него выбрано некоторое разбиение ΔΑ{ί»}. Пусть для
некоторого значения ie=[l, k] указана позиция {*<, шШ). Тогда для
всякого измеримого воздействия 1>*[£<Ы^+1) = {ν*[ή е Q1 £<<£<
< ti+i} найдется измеримое воздействие u*[ti[-]ti+i) = {u*[t] eP,
t{^t<ti+i} такое, что для соответствующего движения
322
Рис. 42.1.
wltil-iti+i] = {wit], U<t<ti+l} будет справедливо неравенство
Ae = e (f4+lf и; [f1+1], Δ^ {τ*α)}) - е(*ь w [*«], Aft(i) NH) < Ρ,
(42.15)
где разбиения Δ^,^»} и Δ „ {τ·(«>} 0ТрезК0в ti<x = t<ϋ и
ti+i < τ = £ < О удовлетворяют условиям у
τχ -ί„ τ, -τ,+ь τ, -*,+,_!, (42л6)
/ = 1,..., *(1)f τ^}1)+ι = θ, &(i) = % — 1.
(См. рис. 42.1.)
§ 43. Программный максимин как мажоранта для цены игры
Рассмотрим исходную позиционную дифференциальную игру
из § 36 для ^-объекта, описываемого дифференциальным
уравнением (36.1) при ограничениях (36.2) и с показателем качества
γ (36.3). Согласно §§ 29, 36 эта игра имеет цену р°(£, х) и седло-
вую точку {ю°(£, #, ε), v°(t, #, ε)}. Назначим какую-либо исходную
позицию {i*, x%}. Выберем некоторую последовательность
разбиений ΔΛ {t^k)} (k — 1,2, ,..) отрезка t* ^ t <!0,
удовлетворяющую условиям
*&-#°<6(ft), 7 = 1,...,*;, (43.1)
lim δω = 0. (43.2)
ft-* oo
При этом полагаем
*Й1-*. (43.3)
Зададимся числом ξ > 0. Согласно материалу из § 29 можно
указать число ε(ξ) > 0 и число δ(ζ) > 0 так, что для всякого
движениях[-; ί*, χ*,Τ{ν°{-), ε(ξ), Δβ(ζ)}, иМ], порожденного
законом формирования помехи У°(в.щ, который отвечает
оптимальной стратегии ι;°(·), будет справедливо неравенство
1*1<>]|>р° («·■*·)-С, (43.4)
как бы ни формировалась реализация управления u[t%[-]$).
Выберем число Μζ) так, чтобы согласно (43.2) выполнялось
неравенство
6(*><δ(ξ), к>Щ). (43.5)
21* 323
Возьмем любое натуральное число k>k(t>). Будем
формировать реализацию управления и [£# [ · ] θ) на основе разбиения
A*Uik)) следующим образом. Закон Τ{ν°(-), ε(ζ), АЙ(С)}, где
Авю-АИЛ (43.6)
назначает помеху
νω [*?>[·] ί«) = [υω It] = v(1) <= <?, 4W <* < 4ft)b (43.7)
В соответствии с леммой 42.2 выберем для управления
ι;* [*(ιΛ)Η *£°)=*>(1) [4fe)l·] 4Л)) подходящее управление w*[*i°l·] *iW)
так, чтобы выполнялось неравенство
<(#\4Л А^Н^^'^.^Ч,^}) (43.8)
для движения χ[t™ [·] *ί*}] = H>[iift)l·] 4ft)], порожденного из
позиции!^, tf*}eUifc\ #[iife)]} указанными управлениями. Далее
идем по индукции. Пусть к моменту f jft) реализовалось движение
з[*#Ын 5 ##],которое удовлетворяет условию
t(t?\ х[гП A4i) {rf«»}) < е (ι» *., Aft(1) (tJ*^)). (43.9)
Выбранный закон 3^{ι;°(·), ε(ζ), Δβ(ζ)} назначает помеху
ν™ [φ Η tUi) = {*(i) [·] - »(i) s ρ, 4ft)< ί < ^1.(43.10)
В соответствии с леммой 42.2 выберем для управления
ι* [t\k) [·] 4+0 - *>Ш [#° I·] 4+i) подходящее управление
и* [4fe)l#l 4+i) так, чтобы выполнялось неравенство
•(l&. *[*&]. Δ^{τί^}) <е(4">, «[#»], Δ,ω {#«»}) (43.11) ,
для движения χ [4ft)l·] *i+i] = w[f|fc)[·] 4+il» порожденного из
позиции {ί**\ ^[4fe)]l указанными управлениями.
Из (43.8), (43.9), (43.11) заключаем по индукции, что для
движения χ №*[·}θ], порожденного из позиции {£#, ж*}
выбранным законом формирования помехи Τ{ν°(-), ε(ξ), Аб(С)} и
описанной сейчас реализацией управления и [t% [ · ] ϋ) =
= {м* [4fe) [·] 4+i)? г == 1, ...,&}, будет справедливо неравенство
\х [Щ | - е (θ, χ [θ], Δ · {4k^fj < г (#°, хт% Ah (rf >}) =
= ρ(ί*,^,Δ,{τ^}). (43.12)
Таким образом, из (43.4) и (43.12) получаем неравенство
р(*„ zm, Ah Ы»})>рР(*„ *,)-£, (43.13)
справедливое при всяком значении к > &(ξ) из (43.5).
324
Это неравенство дает оценку цены игры р° (£*, х%) через
стохастический программный максимин Р(*#, х*, Aft [χψΛ) сверху*
Из (43.13) вытекает следующее предельное неравенство:
lim ρ(ί*, **, AklxJfc)})>P°(**. **)> (43.14)
fe-»oo
какова бы ни была последовательность разбиений Aft {rjk)} (к =
= 1, 2, ...), удовлетворяющая условиям (43.1), (43.2) (при tf *=*
= τ? >).
§ 44. Программный максимин как миноранта для цены игры
Продолжим обсуждение связи между стохастическим
программным максимином p(t%, x*, Afe{Tj}) и ценой р0(£#, х%) для
дифференциальной игры при условиях (36.1)—(36.3). Зададимся
снова каким-либо числом ξ >0. Согласно материалу из §§ 29, 3&
выберем числа ε(ξ) >0 и δ(ξ) >0 так, что для всякого движения
z[-] = {z[t]-*x[t\ f*, хтч ^{μ°(0ι ε(£), Δό(ζ){ίί}}, vl·}], **<*<
^ Щ будет гарантировано неравенство
И#] I <P° (**,**) +ζ, (44.1)
как бы ни формировалась измеримая помеха vl']. Здесь закон
управления °U отвечает оптимальной стратегии и°(·), которая
согласно лемме 36.5 представляется функцией u°(t, χ, ε),
измеримой по <с. Выберем разбиение Aft{£j} так, чтобы выполнялось
неравенство
iJ+1-fi<6(C), 7 = 1,..., к. (44.2)
Полагаем τ = £, t* ^ τ ^ 0. Тогда для выбранного числа ξ > О
по определению величины ρ (£*, χ*, Aft {tj}), где Tj = ij, найдется
стохастическая программа
ι*0(.)=-{ι;ΐ"(*.ω). **<*<<&, сое Ω}, (44.3)
которая гарантирует неравенство
I * [О, ·] I > Ρ («·, *·, ΔΛ {τ,·}) - ζ (44.4)
для случайного движения м;-модели
w [·] = {wit, ω] = wtf, ω; **, я*, z;^ (·), и (·)],
**<*<#, ojgQ}, ( ' '
какой бы ни была стохастическая программа
u(.) = {w(i, ω), ί*<ί<ϋ, ωεΩ}. (44.6)
Построим программу (44.6) по шагам ъ < t < Tj+i (/ = 1, ..., к)
следующим образом. Пусть к моменту τ» программа u(t, ω) уже
построена. Рассмотрим набор чисел {ξι, ..., |J. Опираясь на
известную уже реализацию Mi, <o) = w[i, |t, ..., |J, τ, ^£<τ,+1,
s = 1, ..., i— 1} и на известную из (44.3) реализацию {vm(£, ω) =
325
= i>mti, ξι, ..., ξ J, τβ^ί<τ8+1, *-1, ..., * —1>, построим
реализацию движения {w [£, ω] = ιν% [£, Slf ..., ξ«], is ^ £ < ί«+ι,
s=l, . ..,ί—1}.Это можно сделать для почти всех ©eQ (см.
§ 37). Построенное движение wit, ω] придет в некоторую позицию
Ы, ι* [τ,, ω]} = {xlf и;* [τ4, glf ..., У}· (44.7)
Закон 4Ли°(-), ε(ζ), Ав(С){**}}, где Ь = Ъ, * = 1, ..., к,
определит для этой позиции {tu w[ti], ω) (44.7) управление
{и [ί, |lt ..., li] = w° (ί4, w* [tu |1? ..., gj, ε (ζ)),
*i = τ4 < ί < τί+ι = ii+i}· (44.8)
Перебирая все возможные наборы {|i, ..., |г·} (0 ^ ξβ < 1, s =
= 1, ..., i), определим описанным образом всевозможные
функции ult, |1? ..., |<] (44.8). Этот набор функций (44.8) определит
программу u(t, ω) при τ{<ί<τί+1, так как функция ult, |1? ...
..., |J (44.8) оказывается измеримой по совокупности аргументов
{£, |1? ..., ξ»}. В самом деле, заметим прежде всего, что эта
функция от t не зависит. Стало быть, достаточно проверить ее
измеримость лишь по {|4, ..., |<}. Но вектор-функция u°(t, w, ε)
по ее выбору согласно лемме 36.5 измерима по w (см. § 36).
Вектор-функция w* [ти |1? ..., |4] измерима по {|t, ..., ξ*} (см.
§ 37). Поэтому по теореме 2.1 о суперпозиции измеримых
функций (см. § 2) функция ult, |1? ..., |J (44.8) измерима по
{|i, ..., |{}. Стало быть, эта функция измерима по совокупности
аргументов {£, |1? ..., |J (τ£<ί<τί+1, 0<|β<1, 5 = 1, ..., г).
Таким образом, она действительно продолжает программу u(t, ω)
на полуинтервал τι < t < τί+1 как неупреждающую функцию.
Итак, описанным способом строится программа u(t, ω) по
индукции для всего полуинтервала t* <11 < θ.
Для почти всех ωεβ реализации движения wit, ω] (44.5)
будут порождаться реализациями {гД^] (£, ω), £# <11 < ft, ω e Ω}
в паре с такими реализациями {u(t, ω), t% ^ t < О, ω е Ω}, которые
формируются законом ^Ши°(·), ε(ξ), Δβ(ζ){τβ}}. Но тогда каждая
такая реализация wit, ω] будет имитировать некоторое движение
^-объекта xlt] (t%^t^.$), для которого выполнено условие
(44.1). Однако это означает, что для рассматриваемого
случайного движения м;-модели wit, ω] с вероятностью единица
выполнено неравенство
|»[θ,<ο]|<ρ°(ί»,«*) + ζ. (44.9)
Из этого неравенства вытекает неравенство
МО, -]КР°(*·. *·) + £· (44.10)
Теперь из (44.4) и (44.10) следует минорантная оценка
ρ (f*, χ» Ak {τ,·}) < p° (**, xm) + 2ζ (44.11)
для цены игры р°(£#> ##) через программный максимин p(t%, х#,
Afe{Tj}) при условии (44.2),
326
Из (44.11) вытекает предельное неравенство
Ш p(i„ *„ Ah Ы»})<р»(«„ **), (44.12)
ft-»oo
каковы бы ни были исходная позиция {t%, х%} и
последовательность разбиений Afe [т$к)] (к = 1, 2, ...), удовлетворяющая
условиям (43.1), (43.2) (при tf = τΗ·
§ 45. Стохастический программный максимин — цена игры
Из неравенств (43.14), (44.12) вытекает, что справедливо
утверждение, высказанное в § 38. Именно, теперь прямо из этих
неравенств вытекает справедливость следующего утверждения.
Теорема 45.1. Рассмотрим позиционную дифференциальную
игру {7.1; 8.2} при условиях (36.1)—(36.3). Какова бы ни была
исходная позиция {τ*, w%} = {t%, x*} и последовательность
разбиений Aft {т$к)} (к = 1, 2, ...) отрезка t* <! τ<! ft,
удовлетворяющая условиям
τ#ι - τ?° < 6(fe), lim б(Ю = 0, (45.1)
fe-*©0
существует предел
lim ρ (**, я*, ΔΛ {τ5Λ)})—Ρ(**· **) (45.2)
и справедливо равенство
Ρ (**, ^*) = Ρ° (h, #*), (45.3)
где ρ°(ί*, χ*)— цена рассматриваемой дифференциальной игры.
Цена дифференциальной игры р°(£, х) обладает свойствами
и-стабильности и ^-стабильности (см. § 36). Стало быть, равная
ей функция — программный максимин р(£, х) (45.2) обладает
этими свойствами. Поэтому на основе функции р(£, х) можно
строить оптимальные стратегии u°(t, χ, ε) и ι>°(£, #, ε) в форме
экстремальных стратегий" (36.25), (36.29), описанных в § 36. При
этом для формирования управления u[t]—ue (£,·<£< £ί+1) или
помехи v[t] = ve (ti^t<.ti+i) в соответствии с этими
стратегиями ю°(·) или ν°(·) в дискретных пошаговых схемах нет
необходимости вычислять функции u°(t, χ, ε) или v°(t, χ, ε) загодя для
всех возможных позиций {£, a;}eG. Нет необходимости загодя
вычислять и функцию pit, x) дйя всех позиций {£, rfeG*. Эту
функцию р(£, х) и функции ю°(£, χ, ε), ι>°(£, ж, ε) можно
вычислять по ходу дела только для тех позиций {£, #}, которые будут
нужны для вычисления векторов s(U, хЩ, г) из (36.23) или
(36.28) для позиций Uu x[tt]}, получающихся для
реализующегося движения x[t* 1-]Щ. Описываемое формирование воздействий
иШ=*и°(и, хШ, ε) или v[t]=v°(ti, хШ, г) (*<<*< W
возможно, если возможно для каждой реализовавшейся позиции
и», xltil] очень быстро (теоретически мгновенно) оценивать
функцию p(fi, χ) в окрестности точки x[tt]9 находить сопутствующую
327
точку u?°[iiJ(u) или сопутствующую точку w°[tiVv) и на основе
вектора *{и)Щ =яВД - ш°Ш{и) или *™Ш = хЩ - w°[tiVv)
вычислять экстремальное управление υ,°ίί{] или ν°1ϋ{] из условий
<*{и)Ш . В(и)иЧф =min <s(tt)UJ ·£(*,)»> (45.4)
или
<*Ce)[fJ •C(il)»°[iJ>-min<*(e)[ti] -C(t*)i;> (45.5)
соответственно. При этом для оценки функции р(£*, я)
можно использовать ее приближенное представление функцией
Ρ (*i, х* \{) {ν α))}) = ^ (it» x, \i} {τ}*ω)}), отвечающей при
фиксированном if достаточно мелким разбиениям Afe. {т|к<°^1
(τχ (г)' = tu ..., *κ$+ι = Φ ) отрезка U < τ < θ. Это возможно,
потому что в области G предельное соотношение (45.2)
выполняется равномерно по {£#, ^}еб относительно сходимости шага
б<*> к нулю, т. е. для любого ξ>0 найдется δ(ξ) >0 так, что
будет справедливо неравенство
| р» (ί„ χ) - ρ (tu x, A4i) {τ<*ι))}) I < ζ, (45.6)
если только
τίϊ?))-τί*(»)<δ(ε), (45.7)
какова бы ни была позиция {£», χ) е G. Это утверждение, которое
вытекает из оценок для оптимальных стратегий ю°(·) и ν°(·)
из §§ 43, 44, здесь подробно проверять не будем.
Таким образом, пошаговое формирование позиционного
управления u°[ti[-]ti+i) = {ц°[Я = tt°(ii? хШ, ε), ti^t<ti+l}
сводится к решению последовательности вспомогательных программных
задач о величинах eytu х, ΔΛφ{τ/ })· Эти вспомогательные
задачи будут возникать по ходу дела одна за другой для
реализующихся последовательно на деле исходных (для
вспомогательных задач) позиций {tif хШ) (ί = 1, ..., к). Каждая
вспомогательная задача ставится в момент U на базе воображаемого
отрезка времени t{ < τ < ϋ. Такое формирование воздействий
u°iti[-]ti+i) будет проиллюстрировано ниже на примерах в
предположении, что вспомогательные задачи решаются по ходу дела
на быстродействующей ЭВМ в течение малых интервалов
времени ti < t < ti, намного меньших, чем основные интервалы
U < t < ti+i. Это вызовет лишь сравнительно малое запаздывание
At = ti —ti воздействий w°[il, которое согласно материалу из
§ 31* не слишком испортит гарантированный результат по
сравнению с оптимальным.
Подчеркнем еще раз различие в схемах управления в
исходной позиционной дифференциальной игре {7.1; 8.2} и во
вспомогательной программной задаче на максимин р(т#, ι^,Δ^τ/1'])
(38.7). Пусть одинаковы исходные позиции {£#, х*}^ {τ*, w*)
328
и одинаковы разбиения Afe U/0} и Afe {τ^ } (t]k = τ/ , jf = 1, ...
..., к). В исходной дифференциальной игре детерминированные
управление и и помеха ν, действующие на я-объект,
формируются по принципу обратной связи на основе информации о
реализующихся состояниях xlti] объекта, поступающей весьма
часто. Во вспомогательной задаче воздействие ν на w-модель в
текущий момент те[т,·, τ<+1) определяется программой ι;(τ, ω)
по известной к этому моменту τ истории {|4, ..., |J поведения
источника случайных событий ω = {|1? ..., £*}, который
определен вероятностным пространством Ш, ^, Р). При этом значения
|^ в моменты Tj случаются сами по себе. Физической обратной
связи от н;-модели к случайному источнику нет. Воздействие »
на модель в момент τ е [τ*, τ*+ι) определяется той же историей
{ξι? · · ·» Ιίϊ этого же случайного источника. Суть теоремы 45.1
состоит в том, что несмотря на указанное различие в характере
управления в позиционной игре и во вспомогательной
программной задаче величины р° (£#,#*) и р(^^*)' отвечающие
позиционной игре и программным задачам πρΗί*=τΗί, w% =
^совпадают. Это позволяет заменять поиск одной нужной нам
величины р° (£*,£*) поиском другой, равной ей величины ρ (£#,#*)»
которая в свою очередь оценивается приближающей ее
величиной ρ(ί#, ##, Aft [xjh'}). Вычисление этой величины р(£, χ, Δ)
на основе соотношений (39.46), (39.48) может оказаться
осуществимым удобнее, чем прямое вычисление цены р°(£, х) в
соответствии с ее смыслом.
В связи со сказанным обсудим еще одно обстоятельство,
которое связывает позиционное управление я-объектом с
программным стохастическим управлением н;-моделью. Как отмечено
выше, м;-модель и стохастические программы ιι(τ, ω) и ι>(τ, ω)
управления ею являются вспомогательными абстрактными
конструкциями. Роль их сводится лишь к следующему. Из решения
базирующихся на них вспомогательных задач (для U ^ τ ^ θ)
о значениях р(£г, х, А) в окрестностях реализующихся позиций
iU, x[t{]} извлекаются данные для формирования позиционного
управления u[t]=u0(tu #[£<], ε) или vitl — v°(t{, s[fjf ε) при
ti<t<ti+l. Однако полезно обсудить и такой вопрос. Что
получится, если на самом деле формировать воздействия и или ν на
я-объект на базе стохастических программ и(т, ω) или ι;(τ, ω),
полагая x — t при t^t% и и = и*(£, ω) или ν = ζ;*(£, ω), где
a*U, ω), ν*(£, ω) суть соответственно минимизирующая и
максимизирующая программы для задачи (38.7) (или при условии, что
и*{£, ω) суть программы, аппроксимирующие решение задача
(38.7)). При этом предположим, что имеется источник случайных
событий, который генерирует на деле случайные величины
lj = |[ij]. Рассмотрим этот вопрос для определенности для
формирования помехи v.
Итак, будем формировать помеху ν, отправляясь от позиции
{**? #*}» задавшись разбиением ΔΛ{£,} отрезка £#^*^Ф и
используя источник случайных событий, который в моменты ty = tj
329
будет выдавать числа |/=|[^]. Пусть мы ^ашли программу
р*(£, ω), которая для абстрактной стохастической ы;-модели для
исходной позиции {г*, w*} (w% = χ*) гарантирует неравенство
II w [θ, ·] J > ρ (ί*, **, ΔΑ ft» - ζ, (45.8)
где ξ > 0 — выбранное нами заранее малое число. Формируем
воздействие ν на я-объект рекуррентно по шагам U <, t < ti+l
следующим образом. Пусть к моменту U (включая и этот
момент U) реализовался набор значений (ξ[ίί, ω],..., ξ[ί„ ω]}.
Тогда назначаем
v[t] = O*{t, ω) = !;*(ί, {|[ilf ω], ..., Ъ[и, ω]}), U<t<ti+l. (45.9)
Пусть при этом реализация управления и [£*[·№)
формируется на основании какого-либо закона °U, который при U < t < ti+i
не использует информации о будущей реализации {ξ[£»+4, ω], ...
···> |lA» ω]}. При должной формализации класса таких
законов °U в строгих рамках теории вероятностей получим, что для
совокупности всех реализаций движения {х [£, ω] = χ [£, ξ [tu ω], ...
• ·., I lh, ω]; **> #*Ь ** ^ * ^ *» ω eQ}, каждая из которых
уожет случиться, справедливо неравенство
(Μ {| χ [Ο, ω] |2})ΐ/2 > ρ (^ *„, Δ, {ί,}) - ζ, (45.10)
которое отвечает неравенству (45.8).
Неравенство (45.10) есть неравенство (45.8), если
предположить, что управляющее воздействие и = ю(£, ω) формируется на
основе какой-либо стохастической программы так, что
и [** [·] ft) = {и (*, ω) = и (i, I ft, ω], ... , I ft, ω]),
*i<*<*i+b * = 1,... ,Α, ωεΩ}, (45.11)
построенной на базе данного вероятностного пространства
{Ω, i#, P}. Но неравенство (45.10) может быть обосновано при
условии (45.8) и для других, несколько более общих законов
управления °U^ когда воздействие и формируется в виде ю(£, ω*),
причем ω* — элементарное событие из несколько более общего
вероятностного пространства Ш*, ^*, Р*}. Тогда в записи
движения #[£, ω] (в том числе в (45.10)) символ ω заменится на ω*.
Но при этом должно сохраняться условие независимости и[(\ от
будущих значений ξ[τ] (τ>£). Важно иметь возможность
опираться на то, что функция u[t, ω*], конструируемая, может быть,
на базе более широкого вероятностного пространства (Ω*, Jf*, P*},
согласованного с {Ω, 3$, Р), обладает свойством
МЫ*, ω*]|ξ1? ..., |J =
= МЫ*, ω!lit, ..., 1г> = ю(г, ξι, ..., It), tt<t<ti¥i. (45.12)
Не будем обсуждать такую формализацию во всей широте
класса допустимых законов управления °U. Ограничимся лишь
сделанным замечанием, что, по крайней мере, в случае (45.11)
неравенство (45.10) просто совпадает с (45.8).
330
Итак, при сделанных предположениях описанный способ
формирования воздействия ν (45.9) гарантирует лишь неравенство
(45.10). Если при этом разбиение Ak{t5} выбрано достаточно
частым, то будет гарантировано и неравенство
(М {| χ [О, ω*] I2})1/2 > ρ (**, **) — 2ζ = р° (**, χ J - 2ζ. (45.13)
Стало быть, результат р°(£*, х*) гарантируется воздействия·*
ми y = v*(£, ω) (45.9), если пытаться употребить их на деле,
лишь в среднем квадратичном. Если повторять весь процесс
управления многократно, «стартуя» каждый раз из одной и той же
позиции {£#, х*}, то оценка (45.13) примет реальный смысл по
закону больших чисел ([29*], с. 347). Если, однако, речь идет
об однократном осуществлении процесса из данной позиции, то
реального смысла оценка (45.13) иметь не будет. Но, как мы
видели выше, если формировать воздействия vit] должным
образом по принципу обратной связи на основании информации о
реализациях #[£»], вычисляя управление vltH через цену pU<, х),
получаемую из решения вспомогательных задач (36.9), то при
том же классе допустимых законов °U гарантируется неравенство
I*№, ω·1 !>?·(*,,*,,)-ζ (45.14)
уже для каждой возможной реализации z[t+ [·]θ, ω*; х%]
движения.
Однако предположим, что при программных воздействиях
ι; = ι;*(ί, ω) (45.9) при весьма мелком разбиении Δλίί,}
управление ult, ω] формируется на основе закона <2/ = {ю°(·), ε(ξ),
Δβ<«<:),ε)}? который отвечает оптимальной стратегии и°(·) и
достаточно малым значениям ε(ξ)>0 и δ(ε(ξ), ξ) >0. Тогда наряду
с (45.13), где ω = ω*, будет выполнено неравенство
ИО,со]|<р<>(г*,**) + £ (45.15)
для каждой реализации движения x[t% [·]0, ω; χ%]. Но из
(45.13) и (45.15) выводится справедливость следующего
утверждения.
Какие бы числа а>0 и β<1 ни выбрать, можно указать
столь частое разбиение Aft{ij}, что, формируя воздействия ν =
= ν*(£, ω) (45.9) на основе подходящей программы ι>*(·),
которая гарантирует неравенство (45.8) с достаточно малым ξ > 0
и при условии, что управление и формируется законом °U =
= {u°(), ε, Δβ}, который гарантирует (45.15), получим
случайное движение x[t* [·]#, ω; χ%], удовлетворяющее условию
Ρ(|*[θ, ω] |>р°(**,**)-«)>β. (45.16)
(Здесь символ РОВ) обозначает вероятность события В.)
Итак, пусть в дифференциальной игре первый игрок желает
гарантировать себе результат, не худший, чем величина,
близкая к цене игры р°(£#» я*). Пусть поэтому он наверняка будет
формировать управление и по принципу обратной связи по
закону Ф/ = {ю°(), ε, АвШ), опирающемуся на оптимальную
стратегию ю°(·) и использующему информацию о реализациях xltth
331
Тогда второй игрок, зная это, может не прибегать к работе по
принципу обратной связи по закону Τ = {ν°(·), ε*, Δ6# {if)h
который использует информацию о реализациях #[**]. Второй
игрок может тогда формировать воздействие ν по правилу (45.9)
на основе подходящей программы у*(£, ω), базируясь, таким
образом, лишь на информации о поведении |[Й некоторого
независимого от управляемого объекта источника случайных событий.
И при этих условиях второй игрок может с вероятностью, сколь
угодно близкой к единице, гарантировать себе результат, не худ-
ршй, чем величина, близкая к цене игры. Если же у второго
игрока такой уверенности в оптимальном поведении первого
дгрока нет, то способ управления ν (45.9) гарантирует второму
игроку лишь статистический результат (45.13).
Резюмируем результаты, данные в этом параграфе.
Вычисление цены р°(£, х) позиционной дифференциальной игры
можно свести к вычислению равного ей стохастического
программного максимина pit, #), который согласно (39.48), (45.2)
можно оценить через величину e(t, #, ДЛ{тД), являющуюся
решением максимизационной задачи (39.46). Это позволяет
формировать оптимальные воздействия u°[tl — u0(t{, xlfj, ε) или v°[t\ =
f=i>°(£i, #[£f], ε) (U<:t<ti+l) по принципу обратной связи на
основе оценки величины eiU, а:, Δ) в окрестностях
реализующихся состояний х — хШ. Нужные значения e{tu χ, Δ) получаются
на основе очень быстрого решения по ходу дела в моменты U
вспомогательных максимизационных задач (39.46), где τ* = t„
w* — #. Таким образом, получаются алгоритмы формирования
воздействий и или у, которые дают гарантированные
результаты, близкие к оптимальному их значению р° (£*,#*)· Такова
роль введенного понятия программного максимина р(£, х). В
реальном процессе во времени t роль стохастических программ
α(τ, ω) и ι;(τ, ω) (£<τ<θ) сводится лишь к определению
р(£, х). Однако если известно, что первый игрок наверняка
будет использовать позиционный закон управления °U =
«{ю°(·), ε, ΔΛ), основанный на оптимальной стратегии при
достаточно малых значениях ε > 0 и б > 0, второй игрок может
расширить роль вспомогательной программной конструкции и в
том числе роль программы v(t9 ω). Он может тогда формировать
воздействие ν (45.9) на основе подходящей программы ι>*(£, ω)
при достаточно мелком разбиении ΔΛ{£,}. И таким путем, не
используя информацию о текущих состояниях xit] объекта, второй
игрок, тем не менее, может с вероятностью, сколь угодно
близкой к единице, обеспечить себе результат, не худший, чем
величина, сколь угодно близкая к цене игры р0(£#, х#).
§ 46. Пример
Обратимся для примера к управляемой системе, которая
складывается из двух материальных точек m{i) и т{2\ движущихся
в параллельных плоскостях П(1) и П(2). Положение m{i) будем
*332
характеризовать вектором V — ш\ щ }t положение т{г)
«(2)
век-
(О
тором дх" — l?i , ?2 }· Эти векторы g(i) проведены в точки W
из начала координат в П(1) и П(2). Точка m{i) управляется
силой и, точка т{2) — силой ν (см. рис. 46.1). Двумерные векторы
и и ν стеснены условиями
|а|<1, Ы<1.
(46.1)
Массу точки т(1) положим равной единице. Массу точки т{2)
будем предполагать весьма малой. Обозначим ее через v.
Примем, что точка т(1) движется в плоскости П(1) без
сопротивления, а на точку т(2) помимо ν действует сила трения,
противоположная
скорости <7(2,) и равная ей по
модулю. Таким образом,
движение точек
определяется следующими
уравнениями Ньютона:
qw = u, (46.2)
vgw—$(1) + i;. (46.3)
Показатель γ выберем
в виде
<Нд(2)[0]-д(1)Ш|. (46.4)
Рис. 46.1.
Для данной системы (46.1)—(46.3) можно сформулировать
дифференциальную игру {7.1; 8.2} с показателем γ (46.4). Однако
эту игру удобно сформулировать после подходящего
преобразования. Оно введет переменные и обозначения, согласованные с
изложением в § 36. Именно, введем двумерный вектор я,
связанный с qil) и qiZ) следующей зависимостью:
х = qw _ g(t) + V£<2)(1 _ ехр {{t _ θ)/ν}) _ ^(i)(0 _ f)# (46 5)
Преобразование (46.5) подобно тому преобразованию, которое
в § 6 привело к переменной г (6.20). Вычисляя производную χ
из (46.5) с учетом (46.2) и (46.3), получим для переменной χ
дифференциальное уравнение
x = <f[t]v — ψΜα,
где скалярные функции φ[ί] и if [£] таковы:
φ[*] = 1-βχρ{(ί-θ)/ν},
if It] = О -1.
Показатель γ (46.4) принимает вид
(46.6)
(46.7)
(46.8)
(46.9)
333
Для получившихся данных (46.6) —(46.9) рассмотрим
дифференциальную игру {7.1; 8.2} из § 36. Для вычисления ее цены
р°(£, х) и оптимальных стратегий u°(t, χ, ε), ι>°(£, χ, ε) обратимся
к программному максимину ρ(ί, w) (38.9). Начнем с вычисления
величины ρ (τ*, и;*, Afe{tj}) (38.7), опираясь на программную
конструкцию из § 39.
Вычислим для рассматриваемого случая величину κ (39.26).
Получим
κ (τ*, u?*, Aft{τ,·}, Ζ(·)) =
= <tfVH>*> + S M J [max<w[|1, ..., &]·φ[*]ι;> +
+ min[ — <ттг[11, ... , У·ψ[ί]гг>]1 dr) =
ft 4+1
= <"**·">*>+ 2 J (9W-*W)M{lmBlf ..., Ы|}Л. (46.10)
rt4
Таким образом, программный экстремум е (39.46)
определяется в данном случае равенством
*(τ*, w#, &к{ч)) = sup Um*-w*y +
ιι/(-)ikiL
k τ>+* "I
+ 2 J (Φ И - * Μ) Μ {| m Rlf..., Si]|} Λ . (46.11)
i-1 χ} J
В согласии с обозначениями из § 39 полагаем
m»-M{iBlf ...,Ы>, (46.12)
Mdmfli, ..., У |} - ma)t /-!,..., Л. (46.13)
Исходя из смысла величин те* (46.12) и m[|t, ..., |j] (39.25)
можно проверить, что числа | те* |, те(,·) не убывают с ростом /,
т. е.
| те* |< jfi(1)f mci) < m(i+1), J - 1, ... f ft — 1, (46.14)
mih) < 1. (46.15)
Учитывая это, перейдем от задачи (46.11) к следующей
задаче. Найти максимум
IX <™*·">*> + Σ m{iM L (46.16)
max
m*,W(l),...»™(fc)
где
Ti+i
Pi = ί (Φ [τ] - ψ Μ) Λ, 7 = 1,..., Κ (46.17)
334
причем неотрицательные числа 1 иг* |, τη^ (/ = 1, ..., к) стеснены
условиями (46.14), (46.15). Величина е*, очевидно, не меньше
искомой величины е (46.11). Поэтому если, решив задачу (46.16)
и найдя максимизирующие значения /га*, Шф (J = 1, ..., ft), мы
сумеем подобрать к ним случайную величину Ζ°(ω) = ϊ°[ξι,..., |J
так, чтобы выполнялись равенства
Μ{Ζ0(ω)} = /7ΐϊ, (46.18)
M{\m°[lv ..., Щ - m°Uh j = 1, ..., Л, (46.19)
причем
m%u ..., ξ;] =M{Z°(0)l|i, ..., W, (46.20)
то решится и задача (46.11) о величине е. При этом будет
справедливо равенство
е (τ*, w*, Aft {τ,·}) = е*. (46.21)
Итак, обратимся к задаче (46.16) при условиях (46.14),
(46.15). При наших условиях уравнение
φ[τ]-ψ[τ]=-0 (46.22)
имеет два корня: τ = θ и τ = τ<Φ. Пусть, стало быть, τ
—корень уравнения (46.22), отличный от 6.
Рассмотрим сначала случай τ* < τ. Примем, что τ входит в
число точек деления τ,·. Пусть τ— τ*. Тогда согласно (46.7),
(46.8) при τ<Τ{ имеем φίτΐ — ψ[τΙ < 0, а при те(т<, ϋ)
справедливо неравенство φ[τ! — ψίτΐ >0. Поэтому при j <i имеем
Pj<0, при j>i имеем рз>0. Но в таком случае решение задачи
(46.14)—(46.16) получается из элементарных соображений. Это
решение имеет следующий вид. *
Если
k*l + UPi = KI+ J (φ[τ]-ψ[τ])ώτ<0, (46.23)
то
ml= {0, 0}, info = .. . = in&_i> « 0, info =...-^fe) = 1, (46.24)
б* = J (φ [т] — ψ [τ]) dT. (46.25)
χ
Если
i-i ϊ
|»·Ι + Σλ-|«>*Ι+ (φ[τ]-ψ[τ])ίϊτ>0, (46.26)
335
то
„о
КI + Σ ft -I** I + j (φ Μ - *M) άτ = Ο, (46.29)
m* = wj\ w* I; m(0,) = ... = mfh) = 1, (46.27)
β
«* - I »* 1 + J (Φ Μ - Ч> Μ) Л. (46.28)
τ*
Если
i-l
Σ,
то
ml = ζί^*/| ы>* I, τη°ω = ... = η$_υ = ζ; mfj) = ... = m°(h) = 1,
(46.30)
e* = J (φ Ιτ] - ψ [τ]) dr, (46.31)
τ"
где ξ — какое угодно неотрицательное число, не большее
единицы.
В случае τ ^τ* при условии ιν%Φ{0, 0} решение задачи
о величине е* снова определяется равенствами (46.27), (46.28)»
В случае w% — {0, 0} решение определяется равенствами
ml = т, т°{1) = ... = m\h) = 1, (46.32)
е* = J (φ [τ] - ψ [τ]) dx% (46.33)
τ»
где Яг — какой угодно вектор с нормой \т\ = ζ < 1.
§ В соответствии со сказанным выше, найдем случайные
векторы Ζ°(ω), которые отвечают указанным величинам (46.24),
(46.27), (46.30), (46.32), так, что выполнены условия (46.18)—
(46.20).
В случае (46.24) годится любая случайная двухмерная
векторная величина 2°[|4, ..., |J, которая удовлетворяет условиям
1° Bi, ..., Ы - !· Κι]. Μ {Ζ* Rd) - 0, 6 з
Ι Ζ* [ξ;] J = 1 при почти всех ξ* е [0,1). ν · /
В самом деле, тогда
Μ{ζ·Βι,...,ω>-ο, Μ{ζ°[ξ1,...,ξίι]|ξ1, ...,у = о,
У —ι * — 1; Μ{ζ·Βι, · · ..Sri I Si,... · ω = z*Bi], / - *,... .*„
(46.35)
что и обеспечивает выполнение условий (46.24).
336
В частности, условиям (46.34) удовлетворяет случайная ве^
личина
1-[Ь.....Ы-{ в.приЕ|е ц/2,1), (46·36>
где а* — какой угодно вектор с нормой |а*| = 1.
В случае (46.27) соответствующая случайная величина
Ζ°[|ι, ..., Ы такова:
i°[6i,...,Skl = »»/|»*l (46·37>
при почти всех ω = {|4, ..., ξΛ}.
В случае (46.30) годится случайная величина l°l%lt ..., W*
которая удовлетворяет условиям
ί°Κ, Ы = ** [ξ,], Μ {Ζ* &]} - ζι»*/\ w* I,
I Ζ* [li] 1 = 1 при почти всех ξ, е= [0,1). (46.38>
В частности, условиям (46.38) удовлетворяет случайная ве~
личина
ι. № * ι Ι- ^ "* I ПрИ |{ е t0'1/2 - ζ/2)' „а эд*
г Ъ,..., Ы - ( м ю#, при ^ е 11/2 _ £,2)1)> (4б.зэ>
В случае τ ^τ* при условии м;^^={0, 0} для выполнения
(46.27) надлежит выбрать случайную величину Ζ°[ξι, ..., |J
(46.37).
Наконец, в случае τ <! τ* при условии w# — {0, 0} для
выполнения (46.32) годится какая угодно случайная величина
Z°[|i, ..., |J, которая удовлетворяет условиям
Z0^, ..., Ы=МЫ, IM6JI-1
при почти всех |i <ξ [0, 1). (46.40)
Таким образом, во всех случаях можно указать случайную
векторную величину Z°[|i, ..., ξλ], которая дает
максимизирующие значения т^т^у Стало быть, справедливо равенство
(46.21), какова бы ни была исходная позиция {т#, w%}. При
этом оказывается, что величина е(т%, w%, Aft{Tj}) при τ 2^ τ*
не зависит от разбиения Δλ{τ,}. При τ^^τ величина е (τ*, w*r
Afc{Tj}) тоже не зависит от разбиения Δλ{τ,}, если значение τ
является одной из точек τ, разбиения ΔΛ{τ,}. Поэтому согласна
теореме 45.1 приходим к следующему выводу.
Цена р°(£, х) рассматриваемой дифференциальной игры
{7.1; 8.2} для данных (46.6)—(46.9) определяется согласно
(46.21), (46.25), (46.28) и (46.31) равенством
θ
р° (ί, χ) = f (φ [τ] - <ψ [τ]) dx (46.41)
τ
22 η. Η. Красовский 337
в области
τ*
*<*ι \х\ + JfoM —ψ[τ1)£ΐτ<0 (46-42)
t
и равенством
ρ» («, ж) = | χ | + J (φ [τ] - ψ [τ]) dx (46.43)
ί
в области
τ*
t < τ, | я Ι + J (φ [τ] — ψ [τ]) άτ > 0 (46.44)
и в области
ί>τ, -οο<^<°ο, / = 1,2. (46.45)
«** ««4»
Здесь τ —корень уравнения (46.22), τ<θ.
Итак, для рассматриваемого примера цена игры р°(£, х)
выражается явными формулами (46.41) и (46.43). Поэтому для
всякой позиции it, χ) сопутствующие точки wit, χ, ε) и
соответствующие векторы sit, χ, г) = χ— wit, χ, ε) (см. § 36), которые
согласно (36.25) и (36.29) при pit, х) =* р°(£, ж) определяют
оптимальные стратегии u°it, ж, ε) = u*it, ж, ε) и ι;°(£, ж, ε) = ι>*(£, χ, ε),
могут быть найдены прямым решением соответствующих задач
(36.23), (36.24), (36.28) на экстремум. При известных значениях
векторов sit, χ, ε) сами оптимальные стратегии и0 it, χ, ε)
ц v°it, ж, ε) в свою очередь можно определять из явных
решений соответствующих задач (36.25), (36.29) на экстремум. Этот
ясный путь построения стратегий и0 it, х, е) и v°(t, χ, ε) на
основе готовых формул (46.41) и (46.43) для цены игры р°(£, х)
здесь дальше обсуждать не будем.
Обсудим другой путь построения управляющих воздействий
u°[t] и v°[t], отвечающих оптимальным стратегиям в°(·) и ν°(·).
Этот путь не предполагает знания явных выражений для цены
игры р°(£, х). На этом пути воздействия u°[t] и v°[t]
формируются по ходу дела на основе решения вспомогательных
программных задач, отвечающих реализующимся позициям {£«,#[£*]}.
Таким образом, здесь на конкретной задаче будет
проиллюстрирован способ вычисления управляющих воздействий, описанный
в общих чертах в § 45.
Рассмотрим для определенности формирование воздействия
u°[t]. Формирование воздействия v°[t] осуществляется по такой
же схеме с понятными изменениями, которые вызваны тем, что
в случае v°[t] сопутствующая точка wit, х, в)=*х — sit, χ, ε)
ищется уже из условия максимума цены игры р°(£, w) в
подходящей окрестности точки х.
Итак, зададимся некоторым числом ε > 0. Пусть в момент U
реализовалась позиция iU, #[£<]}. Рассмотрим окрестность
\ы>-хШ \2<г + e(U - h) = Ц2Ш (46.46)
338
точки хШ. Для исходной позиции {£<, и?}, где точка
w=*x[ti\-s (46.47>
лежит в окрестности (46.46), вычислим величину стохастического
программного максимина р, равного согласно (39.48)
программному экстремуму е. Получим
ρ (tu ™,Ah {у}) = е (*ь w, Afe {τ,}) = e* (tu w) =
|<w*'H?>+ J ™(J)P;L
= max
™*,m(1),...,m(fc)
| m* К m(1) < ... < mih) < 1. (46.48)
Нам надо найти такую (сопутствующую) точку w==w[tiir
в которой величина e*{ti, w) (46.48) достигает минимума.
Согласно (46.47) эта задача эквивалентна задаче: найти вектор sV
который удовлетворяет условию
е* (th χ [ti] — 5°)= min e* (tu x fa] —s) =
s
= min max (m* - (x [Ц] — s)} + 2 rn0)Pj ,
U|<η[*4], | m* | <m(1)< ... <m(fe)< 1. (46.49>
В данном случае выполнены условия известной теоремы
([11*], с. 42), согласно которой операции минимума по s и
максимума по /гг*, Шф в (46.49) можно переставить. Поэтому
min e* (ti, χ [ti] — s) =
= max mm
™*»"!<l)M-..in<ft)l«i<T|[*il
lin <77i*-0rtfi] — s)> +
ЩЧ] L
+ Σ ™<j)Pj = max <m^x[ti\y +
+ 21 ^о)Л — I ™* Ι η IU] L I ™* I <^(d< ... <я*оо< i. (46.50>
j=l J
Вектор s°, решающий в правой части (46.50) задачу на
минимум при данных иг0), т%Ф{0, 0}, есть однозначно
определенный вектор
^ = η[*ί]"**/|™*|. (46.51)
В случае т+ = {0, 0} эта же задача на минимум при
данных т%, m(j) допускает неединственное решение — любой
вектор s£, для которого | si | ^ η [fj.
Но задача на максимум по яц, /7i(i) в правой части (46.50)
имеет такой же характер, как и задача на максимум (46.16)»
22* 33&
рассмотренная' выше. Ее решение опять получается из
элементарных соображений. Например, если U < χ и
τ
I * Щ | - η [ti] + J (φ [τ] - ψ [τ]) dx > 0, (46.52)
4
ΊΟ
i»:^*[fd/|*fo]|, (^6.53)
*°-л[*а*[*«]/|*М1. (46-54)
Отсюда следует, что оптимальное управляющее воздействие
u°lt] (ti<t<£<+1) будет таким: ч
u°iil - и°Ш = хШ/\хШ I, (46.55)
как это вытекает в данном случае из условия (27.25), т. е.
здесь — из условия
— <*°·ψ Hi] u° [ti]} = min [- <5°.ψ [ti] и}] (46.56)
с учетом неравенства ф[£Л >0.
Пусть теперь U < χ и
τ*
I х Ы | + J (Ф [т] — ψ [τ]) dx < 0. (46.57)
U
Тогда вектор ml из максимизирующего набора ml, тц), ...
·.,, т(к) для правой части (46.50) будет нулевым. Прежде чем
указать вектор 5° в этом случае, обратим внимание на одно
обстоятельство, связанное с перестановкой операций минимума и
максимума, которой мы воспользовались выше при переходе от
(46.49) к (46.50). При наших условиях согласно теореме ([11*1,
с. 42), на которую была сделана ссылка, величина минимакса
интересующего нас выражения равна величине максимина того
же выражения на тех же множествах значений аргументов s и
w*> imU)}· Но множество тех значений аргументов U0*; ml ,
WS)))» на которых достигается минимакс, может не совпадать
с множеством тех значений аргументов UI; т^, \тф+}}, на
котором достигается максимин. Эти множества имеют лишь
непустое пересечение [s°; ml, {тф}}. Оптимальная стратегия
ю°(·) определяется по вектору s°, входящему в число тех
значений аргументов U0*; ml*, \m**)}), которые определяют
рассматриваемый нами минимакс. Поэтому при построении оптимальной
стратегии и°(·), заменяя задачу на минимакс (46.49) задачей на
максимин (46.50), следует проявлять осторожность. Если
решение U*; иг°„, {tfi(j)J} задачи на максимин в (46.50) является
единственным и дает, стало быть, единственное значение slt как
340
в случае (46.52), то такой вектор s* и будет тем вектором s°,
который решает задачу на минимум в левой части (46.50) и
который определяет оптимальное воздействие u°lt{l из условия
экстремального сдвига (46.56). Если же задача на максимин
(46.50) среди решений дает не единственное значение sj, как в
случае (46.57), то для построения оптимального воздействия
и°Ш из условия (46.56) надлежит еще дополнительно выбрать
тот из векторов s£, который одновременно дает минимакс. Таким
в случае (46.57) будет вектор 5° = s* = 0. Значит, в этом случае
оптимальным воздействием и°Ш может быть любой вектор с
нормой, не большей единицы. В частности, можно взять u0[t{\ =
~x[ti]/\x[ti]\ при \хШ\ Φ0, а при 1#[*<1|=0 можно, например»,
положить и°Ш — {1, 0).
При U < χ осталось рассмотреть случай
0< | χ [к] | + J (φ [τ] - ψ [τ]) dx < η [**]. (46.58)
4
В этом случае вектор ml из максимизирующего набора
mli mu)> · · ·» m{k) для правой части (46.50), как и в случае
(46.57), будет нулевым, а вектор 5° « s£ будет здесь таким:
η Ш х Щ1\ χ Ml при I χ Щ J > η [fd,
г] ПРН|*М|<Т|М. (4Ь^
/η It
\x[ti
При этом для \хШ\ >г\Ш могут годиться и некоторые
другие векторы s° = s£. Но для определенности выберем s°
согласно (46.59). Оптимальное управляющее воздействие и°[£»] снова
определится по формуле (46.55).
Аналогичными рассуждениями строится воздействие ю°[£»]
и в случае U > τ.
Описанным путем с понятными изменениями формируются
оптимальные воздействия i;e[fj. Однако в ходе рассуждений
переставляются теперь две операции максимума, поэтому отмег
ченных выше осложнений, вызванных перестановкой, здесь не
возникает.
В итоге приходим к следующим выводам. Оптимальные
стратегии ю°(·) и ι;°(·) определяются в данном примере
неединственным образом. Среди них можно выбрать такие оптимальные
стратегии ю°(·) и у°(·), которые не содержат параметра ε, т. е. чистые
позиционные стратегии (см. § 9). В частности, оптимальными
будут такие стратегии:
ю°(*, х) = v°{t, χ) = х/\х\ при \х\ Φ 0,
(46.60)
»°(ί, х) - v°{t, χ) - {1,0} при |*| = 0.
341
На рис. 46.2—46.6 ддя примера приведены смоделированные
на ЭВМ траектории движения точек m{i) и miz\ изображенные
в плоскости <Ζ = {?ι, ?*},/а также отображение этих движений
по формуле (46.5) в движения точки х=*{хи х2). Были взяты
следующие значения параметров: ν —0,5; 0-5. Им отвечает
корень уравнения (46.22) τ = 4,2. Все движения начинаются иа
одного и того же исходного состояния точек m(i) и m{Z):
** = 0, ^(О)- —1,5, 9?}(0) = 1,5, д(11)(0) = д(21)(0) = -0Л
q[» (0) = q™ (0) - 0, q <2) (0) = g<2) (0) = 1,0. (46.61)
Для этого исходного состояния выполняется условие (46.42).
Поэтому цена игры р° определяется равенством (46.41) и она
составляет р° = 0,08.
Движения, изображенные на рис. 46.2, а, б, порождены
оптимальными законами управления <2/° = U°(·), Δ [t\x)}} иР =
= {*<>(.),Δ (42))), когда 4Vi-41) = S(1) = 0,005, *$x-42) =
= δ(2) = 0,005. Такими же законами управления, но при
δ(1) — δ(2) = 0,01, порождены движения, изображенные на
рис. 46.3, а, б. В обоих случаях получается γ= lg(2)[5] <-g(1)[5JI »
«р° = 0,08.
Движения на рис. 46.4, а, б и 46.5, а, б отвечают случаю»
когда только первый игрок, распоряжающийся управлением щ
действовал оптимально. Второй же игрок в случае 46.4, а, бг
применял стратегию v(t, #) = 0, а в случае 46.5, а,
б—-руководствовался детерминированной программой vlt] ={{l/V2, —1/У2),
0<£<1;_{1/V2, 1/У2), 1 < *<2;_ {-1/У2, 1/У2}, 2<ί<3·
{1/У2, 1/У2), 3<ί<4; {1/У2, -1/У2}, 4<ί<5>. В обоих
случаях в согласии с теорией получилось γ < ρβ = 0,08.
Движения на рис. 46.6, а, б отвечают ситуации, когда только
второй игрок действовал оптимально, а первый игрок на участке,
отмеченном звездочками, при 2<£<3 отклонился от
оптимальной стратегии и°(·), применив стратегию, направляющую
вектор и на точку т{2). Как видно, здесь получилось γ>ρ° = 0,08.
Для построения воздействий и°Ш и v°[t) в исходной
позиционной игре (7.1; 8.2} на основе решения вспомогательных задач
на программный максимин вычисления всех элементов
программной конструкции не требуется. Как мы видели выше, достаточна
было, например, находить лишь максимизирующие параметры
ml> w(i)? •••i/ft(fc) Для вспомогательной задачи (46.50). В
частности, не требуется находить оптимальные стохастические
программы ν°[τ, |i, ..., |fe] и ю°[т, |1? ..., gj. Однако для полноты
картины обсудим для рассматриваемого примера и построение
этих программ ν°(·) и и°(·). Для определенности рассмотрим
случай, когда исходная позиция {т#,и?#} лежит в области
(46.23). Пусть Ζ°[|11 ..., ξ*] — соответствующая максимизирующая
342
о
в
$
<м ^ Jo со
ζ5 ^ ^ (^
<^ «5Г ^Г <^Г
I I I
«a
*3V
to
"f
CvJ
1
>>ч
ca
4 '
ic>
ό
isl-
случайная величина (46.34). Она определяет векторы ' .
mi-M{i»Blt...,6j}=.0, (46.62)
Mft°[|„ ..., Ы Hi, · ·., ti> -1»*!*., · · ·, У, (46.63)
«•[ξ,, ..., У = 0, / - 1, ..., i - 1, ι»·[ξ„ .. ·, V - Ϊ*Γ δ J,
ll*[6*]l-l, /-«,..·,*, (46.64).
и числа
которые удовлетворяют условиям (46.24).
(46.65)
Рис. 46.6.
Построим программу ν°(·) исходя из условия максимума
<mUli, · · ·, Ы -Ф Μ у0 [т. δη · · ·. Ы> -
= max</M°[£i, ...,Sil*T W»> —ф1т11те°Вп •••.fjlli
tj < τ < τ,·+1> / - 1, ..., Α. (46.66)
345
ι»ι·α
Это условие является достаточным для того, чтобы программа
ι>°(·) была оптимальной. В самом деле, рассмотрим случайное
движение w [·,·] = w [., ·;τ*, ы;*, ι;0 (·), и (·)!» порожденное
программой ι>°(·), удовлетворяющей условию (46.66), и какой-либо
программой »(·). Имеем для этого движения н>[·, ]=={и?[т, ω]>
следующие соотношения:
Ι»[θ,·]|-|ϊβ(·)Ν^№.·]|>(ί·(·)·^[*.·])-
ь Ti+i
-<^.^> + 2] J (φ[τ]ιιι&)-
.=ι tJ
- Μ {<m° [ξ1? ..., У · Ψ>] и [τ, ξχ ΙΑ») dx >
ft τ'+*
- Μ (max <m° [glf ..., gj] · ψ [τ] и>)) йт =
= <^ϋ · ы>*> + 2 (φ [τ] — Ψ [τ]) m(Vft =
Ъ
θ
= Л<Р Μ — Ψ Μ) dx = e (τ*, и?*, Afe {τ,·}) = ρ (τ*, и?*). (46.67)
•Γ
Неравенство (46.67) означает, что программа ι>°(·) при всяком
выборе программы »(·) обеспечивает уклонение |w[u,*]||^
^р(х%, м;*), т. е. всякая программа ι>°(·), удовлетворяющая
условию (46.66), является оптимальной.
Условие (46.66) при выбранной максимизирующей случайной
величине Ζ°[ξι, ..., ξΛ] (46.34) определяет программу ι;°(τ, ω)
однозначно при τ > τ. В самом деле, из условия (46.66) с учетом
(46.64) вытекают равенства
!>α[τ, ξι, ..., Ы=М1<], gis[0, 1),
xj < τ < τί+1, / = г, ..., ft, (46.68)
которые должны выполняться при почти всех &. Наоборот, при
Ί?^[τ#, τ] условие (46.66) вследствие 77ΐ°[ξι, ..., 1j]==0
никаких ограничений на выбор ι;°[τ, |i, ..., ξ,] не налагает (кроме
условия измеримости по {τ, |1? ..., &}). Положим для
определенности, например,
ν° [τ, glf ..., Ы - ν° [τ], τ* < τ < χ, (46 69)
где ν°[χ] — какая-либо измеримая функция, |ρ°[τ1Ι^1.
В ответ на выбранную программу ν° (·) (46.68), (46.69)
оптимальной будет программа и°(·), которая необходимо удовлетво-
346
ряет условию минимума
- <ΐΛ°βι, ..., 6ί1·ψ[τ]Μ°[τ, ξ,, ..., £,·]> -
= min [— <m° [glf ..., lj] · ψ [τ] w>] =
= -ψ[τ]|™°[Ιι, ...,6j]|, ч<т<тж (46.70)
(при почти всех значениях {τ, |4, ..., %})). В самом деле, если
условие (46.70) нарушается на каком-либо множестве значений
{τ, ξι, ..., W не нулевой меры, то в (46.67) получится на
четвертом шаге строгое неравенство, т. е. тогда будет выполнено
строгое неравенство
М*. ·ΐΙ>Ρ(τ*. *>*)· (46.71)
Это и доказывает необходимость (46.70). Данное условие
определяет программу иЧт, ω) однозначно опять при τ > τ. Получаем
»·[τ, Ь, ..., 6J-M6,If 6,«з[0, 1),
τ, < τ < τί+1, / ~ ί, ..., к. (46.72)
При τ,υ^τ^τ программу и0(τ, ω) надлежит подбирать по
программе ι;°(τ, ω) = ν°ίτ] (46.69) из дополнительных условий.
Таким дополнительным достаточным условием является
выполнение для программы
и0 (τ, ω) = и0 [τ], τ* < т < τ (46.73)
равенства
τ*
w* + J (Ψ Μ ι>° [τ] — ψ [τ] w° [τ]) dx - 0. (46.74)
τ*
При условии (46.23) равенству (46.74) действительно можно
удовлетворить выбором измеримой функции ζι°[τ], Ια°[τ1Ι<1,
*#^τ<τ, как бы ни была выбрана функция ν°[χ] в (46.69).
Рассмотрим движение ы>[-, ·] == ιι?[·, ·; τ*, и;*, ι;0(·), и°(·)!· При
выполнении условий (46.72), (46.74) при выборе любой
случайной величины Ζ(·) с нормой HZ(-)H = 1 для этого движения
и?[·, ·] ={ц?[т, ω!) имеем следующие соотношения:
(ί(·)^[»,·]) = (Μ{ί(ο))}.^> +
+ Μ Κ <Ζ(ω)·(φ [τ] ι;0 [τ] - ψ [τ] ц° [τ])> <Ζτ +
+ Σ J Μ{<ι»[ξ1ϊ...ϊ|,1.(φ[τ]-ψ[τ])ΐΛβ[ξ1ϊ...ι|,]»£ίτ-
= 2 j (φ[τ]-ψ[τ])Μ{<^[ξ1,...,ξ;.]·^°[ξι,...,^]»^τ<
ο
< J (Φ Μ — Ψ [τ]) <Ζτ = ρ (τ*, w*), (46.75)
'-« τ,-
347
какой бы ни была векторная случайная величина Ζ(·). Но нера*
венство (46.75) означает, что
max (Ι(.)·*[θ. ·1)>|"1*. ·]|<ρ(τ·, wm), (46.76)
а это и доказывает оптимальность программы ю°(т, ω) (46.72),
(46.74).
-U5
-1
hh
1,5\
-0,5
ύ /τ
0,5
кт1
М^Г(рй-ДО#-*
δ
Рис. 46.7.
Для примера на рис. 46.7, а, б приведены движения точек
то(1) и /7i(2), a также движение ινΐτ, ωΐ, которые получаются при
и = ю°(т, ω), ν = ν°(χ, ω), причем за основу была выбрана
максимизирующая случайная величина Ζ0[ξ1? ..., |Л] (46.36), где а* =*
348
■« {1, 0). В качестве исходного состояния точек m(i) и т{2) было
по-прежнему выбрано исходное состояние (46.61). Кроме того,
было положено ι>°(τ, ω)^0 при 0<τ<τ = 4,2, а
соответствующие значения и0(τ, ω), удовлетворяющие условию (46.74),
получились такими: α°(τ, ω) = {1/4,06; 0>, 0 < τ < τ = 4,2.
А?2
/+
'ί*
-/
«*■
—.#
0,5
1 4t
На рис. 46.8, α, б изображены аналогичные движения, когда
ν = ν°(τ, ω), а программа и(т, ω) при 0<τ<τ имела вид
α(τ, ω) — {0,2; 0).
34&
§ 47*. Стохастический программный максимин
и попятная конструкция
Установим связь между стохастическим программным макси-
мином ρ (τ*, и?*, ΔΛ{τ,·}) и величиной η (τ*, ιυ%, Afe{tj}),
которая используется для вычисления ценыр°(£#, х*)
дифференциальной игры, когда применяется попятная конструкция (см.
[4, 33, 37]). Величина η (τ*, w#, Afe{tj}) определяется так. Пусть
выбрана исходная позиция {τ*, w%} и назначено разбиение
Ak{xj} отрезка [τ*, θ], где, как и выше, τχ = τ*, Τη-ι—Φ.
Возьмем произвольно позицию {τλ, ww}. Вычислим для нее
детерминированный программный максимин
цМ (Tfe, иА>, Aft {tj}) = max min | w [ЩI, (47.1)
где движение iwix] — w[%\ τΛ, wih\ ц[тЛЫО), ρ[τλ[Ίΰ)], τΑ<τ<
<φ} порождено какой-либо парой детерминированных программ
ulxJL'W и ν[χκ[·]ϋ). ^Такими программами для полуинтервала
^* ^ t < τ* будем называть измеримые функции
и[т*1-1?*) = 1и[т]е=Р, ^<т<т*}, (47.2)
»[τ*[.]τ*)-{ι;[τ1^ρ, ΐ*<τ<ΐ*}. (47.3)
Очевидно, детерминированная программа есть частный случай
стохастической программы, когда определяющая ее функция не
зависит от ω. Можно проверить, что максимум и минимум в
(47.1) действительно достигаются.
Перебирая все возможные состояния ww = w, получим
функцию
f|W(i0)-Ti№1(Ti, wf ΔΛτ,». (47.4)
Функция v)w(w) выпукла по w. В самом деле, пусть
V*V(1))=H#; Ъ, w*\ и(1>[.], !7(l)[-]]l, (47.5)
η[Μ(α?(2))==|Μ?[θ. Tft? ^ w(2)[.]? „w[.]]ι (47.6)
и пусть число λ ^(0,1), причем для точки ινΜ = λιυ{1) + (1 — λ)κ?(2)
имеем
η™(ΐ0[λ,)-|ιι>[Ο; τΛ, и;и\ и[МЫ, ι>Ιλ4·Π|, (47.7)
где {y(i)[·], ц(0[·]}, {ι;[λ1[·], и[мМ) суть пары, составленные из
максимизирующей и минимизирующей программ соответственно
для позиций (τ*, w{i)}, {tft, ιν[λ]) U=l, 2).
Обозначим символами »(1)[·]λ и »(2)[·1λ минимизирующие
программы для исходных позиций (τ*, w{i)} и {τΛ, и>(2)) при
фиксированной программе у1МЫ, которая, вообще говоря, уже не
является максимизирующей для этих позиций. Имеем в
согласии с формулой Коши
w [Щ = X [О, τ J w [τ*] + J Χ [θ, τ] (β (τ) и [τ] + С (τ) у [τ]) ώτ (47.8)
550
следующие неравенства:
4W(ww)e |Ш[0; τ*, λκ;(1) + (1-λ)Μ>(2), а™М, ΐ7Ιλ1Ι·]]| <
^Μθ; τ», λι»ω + (1-λ)κ>(2), λ»(14Λ+(1-λ)»(2>Νλ, i>lwNJ|-
-Ιλϋ>[θ; τ*, и;(1), β(1>Μμ ι;[λ]1·]] + (1 -λΜΦ; τΛ, u?(2), uwl·]*
ι;Ελ1[·]]| «ЯЫО; τΛ, u?(1), »(1)Νλ, i>IWUJ| +
+ (1-λ)Μθ; τ», и>(2\ »(2)[·]λ, ι;[λ1Μ]|. (47.9)
По смыслу программ ю(<)М, y(i)M и ι;ίλ31·1, αω[\Ιλ
справедливы также следующие неравенства:
ЫО;^ и>(1), »(1)Νλ, »ΙΜ[-]]|<
< Μθ; τ*, и>(1), ю(1)[·], i>(1>MJ| -ч1«(и>(1)), (47.10)
|и>[0;т», и>(2), »(1)М*, ι;Ιλ1Μ]|<
< ЫЪ; τΛ, и>(2), a(I)[·], 1>(1>ЫЛ =ηι*4»(Ι)). (47.11)
Из (47.9)—(47.11) получаем неравенство
η[*3(λΗ;(1) + (1 - λ)ιυ{2)) < λη[λ1(α?(1)) + (1 - λ)ηΙΛ3(^(2)), (47.12)
которое доказывает выпуклость функции v\w(w).
Рекуррентно при s = k — 1, ..., 1 можно подобно (47.1)
определить величины
ηΜ (Tif wm9 Aft {τ;}) = max min η[*+ι] (w [τι+1]), (47.13)
•[4M*«+i) "Ιτ«[]^+ι)
где {w[t] = w[t, τβ, и;*, и [τ8[·]τθ+1), рГт.Мт.ы)!, τβ^τ^τθ+1>
есть движение, порожденное из позиции {ts, w^} какой-либо
парой детерминированных программ αίτβ[·.Ιτβ+1), ν[τ8Ι-·]τ8+1). При
этом, перебирая на каждом шаге s все возможные значения
и? = w%, строим до перехода к следующему шагу функции
т^ЧиО-т^Чт., ш, Δ*{τ,}). (47.14)
Для согласования (47.1) и (47.13) полагаем
ч№+«(ю)-М. (47.15)
Можно проверить, что на каждом шаге максимин (47.13)
действительно достигается, все функции χ\[Βλ{ιν) (5 = 1, ..., к)
удовлетворяют условиям Липшица и являются выпуклыми. Полагаем
в согласии с равенством τχ = %%
η[1] (τι, υ>, Δη{τ,}) = η (τ*, w9 ΔΛ{^}). (47.16)
Известно (см., например, ([41, с. 291—294), что при условиях
t&-T5w<6(» (47.17,
lim6(ft) = 0 (47.18>
351
•справедливо равенство
lim η (τ*, w0, Aft {<cf >}) = p° (τ*, wj, (47.19)
ft-» oo
какова бы ни была исходная позиция {τ*, w*}.
С другой стороны, согласно теореме 45.1 при условиях
{47.17), (47.18) справедливо равенство
Итр(х*, wm% Aft [xjw}) = ρ°(τ*, wm). (47.20)
ft-»oo
Из (47.19), (47.20) вытекает предельное равенство
lim η(τ„ w^ Ah (xj«)) - limp(x„ wm, ΔΛ {x$*}) (47.21)
ft-»oo &-*oo
для всякой исходной позиции {τ*, ιν*}. Однако на самом деле
справедливо не только предельное равенство (47.21), но для
всякой исходной позиции {т-и, w%} и для каждого разбиения Δλ{χ,·}
отрезка [τ*, θ] справедливо равенство
η (τ*, w„ Afe{τ,·}) = ρ (χ*, wm Aft {χ,·}). (47.22)
Докажем это равенство. Проверим сначала, что справедливо
леравенство
η (τ*, wmt Aft {χ,·}) < ρ (χ*, w*t ΔΑ{τ}}). (47.23)
Пусть зафиксированы позиция {τ*, w%} и разбиение Δλ{χ;}.
Будем обозначать символом Δ(ι> {χ у) разбиение отрезка Xi< τ <
«^Ф, связанное с разбиением ΔΛ(τ,} условием х$г) == Xj+i-i· По
определению величин r\lk+i4w) (47.15) и ρ (θ, w, A(k)Mw}) (42.1)
имеем
т^ЧиО-М, (47.24)
р(0,ш,А(Ь+1)Мк+1)})-|ш|, (47.25)
т. е. выполняется равенство
η[*+ι] (и;) = ρ (ft, м;, Δ(*+1){τ<*+1)}). (47.26)
Будем рассуждать по индукции. Пусть при некотором
значении s +1 > 1 для любой позиции (τβ+1, ινί справедливо
неравенство
η[*+ι](τβ+1, w, Afc{xi})<p(Ti+lf и>, A(f+1>(xJi+1)}). (47.27)
Покажем, что тогда для всякой позиции {xs, w%} справедливо
неравенство
ЧИ(х„ Wm, Ak{xi})<p(Tif ι**, A(s){xf}). (47.28)
Согласно лемме 42.1 для всякой исходной позиции {х*, и>#}
и всякой реализации ι;*[χβΜχθ+1) найдется реализация
■в*[хД\1х.+|) такая, что для соответствующего движения
{wlx\ = w[x\ χβ, н?*, tt*[x.Mx.+t), ι>*[χ,Μχ,+1)], x.^x^Xs+J
-352
будет выполнено неравенство
ρ(τβ+1, w[xs+1], Δ(β+1){τΓ1}})<ρ(^ w~ A(s) [xf}). (47.29)
Из определения величины ηί·3 (ts, м;*, Δ^{τ,·}) следует, что
существует такая реализация v*lx8l-]xa+i), для которой при
любой реализации ιι[τ8[·]τ8+1) для соответствующего движения
{w[τ] = ιυ[τ; τ5, w*, u[xs[-] τβ+1), ν* [τ*[ · ] τβ+1)], τ8<τ<τβ+1}
будет выполнено условие
η*θ+1] (τβ+1, w [τβ+1], Afe{τ·}) > ηΜ (Tf, ιρ,, Afe {τ,·}). (47.30)
Из (47.27)—(47.29) следует неравенство
ηΜ (τ5, wm, Δ* {τ,})< ρ(τθ, ι*„ A(s) {rjs)}). (47.31)
Так как это рассуждение справедливо при всяком выборе
w = w%, то из (47.31) получаем нужное неравенство (47.28).
Отсюда по индукции получаем неравенство
ηΐι](rlf w, Ak{x}})<ρ(τ1? w, Δ(1) {т^}), (47.32)
которое и означает (47.23).
Докажем теперь неравенство
η (τ*, м;*, Ak {χ,}) > ρ (τ*, u?*, Ak {τ;}), (47.33)
направленное в сторону, противоположную направлению
неравенства (47.23). Предположим от противного к (47.33), что для
некоторой исходной позиции {τ*, w%}j и для некоторого
разбиения Ah{xj) справедливо неравенство
ρ (τ*, w*, Ak {Xj}) > η (τ*, w*, Ak {хф + ζ, (47.34)
где ξ — положительное число. По смыслу величины ρ (τ*, и>*>.
&k{tj}) (38.7) неравенство (47.34) означает, что существует
стохастическая программа
у* (.) = {у* (τ, ω), τ* <τ<ft, ωε Ω}, (47.35)
которая при всяком выборе стохастической программы
ц(.)={ц(т, ω), τ*<τ<0, ω€=Ω> (47.36)
для соответствующего случайного движения {ιν[χ, ω] = ιν[χ, ω;
τ*, w*, и(·), ρ* (·)], τ*<;τ^Ο, ωεΩ}гарантирует неравенство
II w [О, ·] I > ρ (τ*, ш„ ΔΛ {^}) - ζ/2, (47.37)
т. е. согласно (47.34) неравенство
Ι и; [θ, -]Ε>η(τ*. ">*, Δ^{τ,}) + ζ/2. (47.38)
Пусть функции от времени
ι;*[τ.Μτ.+ι, ω) = {ι;*[τ, ξ„ ..., |J, τβ<τ<τβ+1), (47.39)
где значение ω = {|1? ..., |J <ξ Q для каждой функции
фиксировано, суть реализации программы ι;*(·) (47.35) для полуинтер-
23 н. Н. Красовский 353
валов τ8 < τ < τβ+ι (5 »1, ..., к). Построим для каждого ω s Q
рекуррентно по шагам τβ < τ < τβ+1 (5 = 1, ..., Λ) подходящие
функции
u*[x8l-]xt+u ω) = {»*[τ, |4, ..., |βΙ, τ, <τ<τ,+1}. (47.40)
Пусть при выбранном значении ω^Ω при τ#<!τ < τ8, 5<ft
функция »*(τ, ω) = {»*Ιτ, |4, ..., &J, Tj < τ < Tj+1, 7 — 1,..., s - 1)
уже построена. Тем самым исходная позиция {τ#, ιν%) и пара
детерминированных программ ν* [τ# [·] τβ; ω) = {ν* [τ,· [·] Tj+1;
ξι» · ·., Ь), 7 = 1, ..., s — 1} и и* [τ* [·] τθ; ω) = {и* [τ,· [·] xi+1;
δι» · · ·» Si)» 7 = 1» ..., 5 — 1} определят детерминированное
движение {w[τ, ω] = μ;[τ, ω; τ*, u;*, ι**|τ*[·]τβ» ω), ι;* [τ* [·]τ«,
ω)]> ^^т^тв}. Это движение определит позицию ίτβ, M>[S]}e
= {τβ, ιν[χ8, ω]}. По смыслу величины ηΙβ1(·) (47.13) для этой
позиции {τβ, ιυ[χ„ ω]} и для реализации ν*ΙχΛ[-]τΛ+ι\ ξι, ..., 1«)
(47.39) можно указать такое управление ιι*[τθ[·]τ8+1; |t, ..., ξβ)
(47.40), что для соответствующего детерминированного движения
{ινίχ, ω]—ιν[χ, ω; τβ, wlx9, ω], и*[х*[-1х*+и |1? ..., |β),
ι>*[τβ[·]τβ+1, |i, ..., ξβ)1, Te<T<Te4.i> будет выполнено
неравенство
η[δ+13(τθ+1, wlxa+i, ω], АЛ{^>) <η[β3(τβ, wlx„ ω], Δλ{τ;·». (47.41)
Таким образом, по шагам, полагая 5 = 1, 2, ..., А:, мы
сконструируем для каждого ©ей для всего полуинтервала τ*^ t < ϋ
некоторые реализации Μ*[τ#[·]0, ω). Эти реализации определят
функцию
и* (.) = {ц* (τ, ω), τ* < τ < Ο, со €= Ω}. (47.42)
Построенная функция »*(·) дает стохастическую программу.
В самом деле, по построению функции (47.42) она удовлетворяет
условию
»*(τ, ω) — иЧх, |t, ..., |β], τβ<τ<τ8+1, s = l, ..., ft. (47.43) *
Поэтому достаточно лишь проверить, что функцию и* [τ, |4,..., ξ8]
можно выбрать измеримой по совокупности переменных
{*» lii · · ·» Ы на каждом полуинтервале τ8 ^ τ < τβ+4. Проверять
здесь эту измеримость, однако, не будем. Она доказывается
рекуррентно по шагам ха ^ τ < τθ+ί (5 = 1, ..., ft) на основании
подходящей теоремы об измеримом выборе ([7*], с. 173).
Выполнение условий этой теоремы в свою очередь обусловлено теми
условиями, которые получаются для реализаций »*[τ, ξ1? ..., |J
(τθ<τ<τβ+ι) как для решений соответствующих минимизацион-
ных задач вида
η[*+υ (τβ+1, w* [τί+ιΓ glf ..., ξβ], Afe {τ,}) =
= « min ψ+rt (τ8+1, и; [ts+1, ξ1? ..., ξ.], Δ* № (47.44)
Получающаяся здесь ситуация, определяющая возможность
измеримого выбора и*[т, |4, ..., |J, подобна ситуации, подробно
рассмотренной в § 39.
354
Итак, можно построить такую стохастическую программу
»*(·), что для реализаций случайного движения w[x* [·]θ;·],
порожденного из позиции {τ*, w%) парой программ (47.35) и
(47.43), будут выполнены неравенства (47.41). Из этих
неравенств по индукции получаем следующие соотношения:
W [О, ω] | = rj[ft+U (rfe+1, w [τΛ+1, ω], Ak {τ,·}) <
< η[1] (т1э и>*, Δκ{χ}}) - η (τ*, wm, Δλ{τ;}), ω e= Ω, (47.45)
из которых вытекает оценка
1"[»,·]|<η(τ·, ">*,ΔΛ{τ,·}). (47.46)
Неравенства (47.38) и (47.46) противоречивы. Полученное
противоречие доказывает (47.33). Таким образом, оба
установленные неравенства (47.23) и (47.33) доказывают (47.22).
Итак, в рассматриваемом случае цена игры р° (£#, ##) может
быть вычислена или путем попятной конструкции, или на основе
стохастического программного максимина. Приведенные в этом
параграфе рассуждения показывают, что между обоими
построениями есть тесная связь. Но благодаря разнице в форме
конкретные вычисления могут разниться. И тот и другой путь, вообще
говоря, связаны с трудностями. Может быть, метод программного
максимина имеет то преимущество, что величина ρ (τ*, м;*, Δ^{τ,·})
по ее определению вычисляется для интересующей нас исходной
позиции {τ*, ιν*} лишь на основе пучка реализаций случайного
движения, которое выходит из этой позиции. А по определению
величины л(т^., м;*, ΔΛ{τ,·}) для ее вычисления требуется
предварительно вычислить функции η[β3(τβ, и>, Δ*{τ;}) (5 = 2, ..., &),
каждую в достаточно большой области пространства {и?}. В связи
с этим при практических вычислениях, возможно, придется
находить значения промежуточных функций η[θ3(τ8, и>, Л*{тД)
в большом количестве лишних точек w.
§ 48. Детерминированный программный максимин
Рассмотрим частный случай программ и(-) и у(·), когда они
являются детерминированными измеримыми функциями
времени, т. е.
»(')-pW']*) = {p[t]s^ τ*<τ<ϋ}, (48.1)
и(-) = и[х*[.]Ъ) = {и[х]е=Р, τ*<τ<θ}. (48.2)
Тогда для данной исходной позиции программный
детерминированный максимин р*{х*, w%) в согласии с (38.7) определяется
как величина
Ρ* (τ*, ы>*) = max min | w [θ] |, (48.3)
i>[t*[.]&)u[t*[.]G)
где {w[x]=w[x; χ*, w„ и [х* [.]*), ν[τ*[·]ϋ)], τ*<τ<θ}.
Можно проверить, что максимин в (48.3) действительно достигается.
23* 355
Справедливо неравенство
Ρ* (τ*, и>*) < Ρ (τ*, w*> δλΜ), (48·4)
какова бы ни была исходная позиция {τ*, w%} и разбиение
Ah{Xj) отрезка [τ*, Щ. В самом деле, предположим от
противного, что для некоторой позиции {τ*, ιν%} и некоторого разбиения
Ak{i;}} справедливо неравенство
Ρ* (τ*, w*) > ρ (τ*, к?*, Ak{tj}) + ζ, (48.5)
где ξ>0. Стало быть, согласно (48.3) найдется
детерминированная программа ι>* [τ* [·]0) такая, что для всякого отвечающего
ей движения {w [τ] = w[x; τ*, w*y и [τ* [.]*), у* [τ[·]«)], τ*<
^ τ ^ θ} будет выполнено неравенство
Ι И*] | > Ρ (τ*, *·, Aft {τ,·}) + ζ. (48.6)
Но всякая детерминированная программа (48.1) является и
стохастической программой (37.7), которая определена равенством
!7*(.)«{ι>*(τ,ω)-ι;*[τ], τ*<τ<#, ω€=Ω}. (48.7)
Однако из (48.6) следует, что при всяком выборе
стохастической программы и(·) (37.5) для каждой реализации {^[т, ω],
τ# ^Ξ τ ^ *} (ω е Ω) случайного движения {н> [τ, ω] = и? [τ, ω; τ*,
Η?*, μ(·), ι;*(·)], τ^^τ^'θ, ωεΩ} будет выполнено
неравенство
I w [θ, ω] J > ρ (τ*, ю», Aft {τ,·}) + ζ, ω e= Ω. (48.8)
Отсюда вытекает, что нашлась программа (48.7), которая
обеспечивает неравенство
I»I», · ] I > Ρ (*·, ">*, Aft {τ,·}) + ζ, (48.9)
какова бы ни была стохастическая программа »(·), участвующая ^
в формировании движения и?[·, ·]. Но (48.9) противоречит опре- *
делению величины ρ (τ*, w%, Aft{Tj}) (38.7). Противоречие
доказывает (48.4).
Далее, подобно (39.48)—(39.51) устанавливается равенство
Р* (τ*, »·) = Ч (τ*> ">*), (48.10)
где
** (τ*, »») = max κ (τ*, и?*, m), (48.11)
\т\<1
причем символ т обозначает га-мерный вектор. Здесь
κ (τ*, и>*1 лг) = <ι»·Χ [*, **] w*> +
о
+ f min max [<го. Χ [θ, τ] (β (τ) u + С (τ) »)> ]ώτ. (48.12)
τ* u<=P veQ
Из (45.1)—(45.3) и (48.4) вытекает неравенство
Ρ* (τ*, и>*) < ρ0 (τ*, w#). (48.13)
356
Из материала §§ 6, 23 известно, что в (48.13) возможно
строгое неравенство
ρ* (τ*, w*) < р° (τ*, w*). (48.14)
Поэтому возникает вопрос о дополнительных условиях, при
которых справедливо равенство
Ρ* (τ*, Щ) = р° (τ*, w*). (48.15)
Эти условия и составляют содержание данного параграфа.
Возьмем некоторую позицию {τ*, мЯт*]}. Обозначим
символом яг°(т*, м;[т*]) максимизирующий вектор из (48.11), где τ*
заменено на τ* и w% заменено на и?[т*]. Множество всех
максимизирующих векторов яг°(т*, м>[т*]), которые отвечают взятой
позиции {τ*, и?[т*]}, обозначим символом ΛΓ(τ*, m;Lt*J). Можно
проверить, что множество *#°(τ*, ιυ[χ*]) является замкнутым.
Такие множества *#°(τ*, w) изменяются полунепрерывно сверху
по включению при изменении вектора w (при неизменном τ*).
Однако в отличие от множеств *#,°(τ*, м;[т*], ΔΛ{τ,·}),
отвечающих стохастическому программному экстремуму е(т*, м;[т*],
Ah{Xj)) из § 40, множества ЛГ.°(т*, и>[т*]), рассматриваемые
здесь, могут оказаться невыпуклыми (для той или иной
управляемой системы для какой-либо позиции {τ*, ινίτ*])). Хотя эта
невыпуклость может случаться лишь для отдельных позиций
(τ*, м;[т*]}, она препятствует доказательству равенства (48.15)
по плану из §§ 43—45. Поэтому здесь приходится оговаривать
дополнительное условие, которое позволяет провести
рассуждения, аналогичные приведенным в § 43. Тем самым при этих
дополнительных условиях можно доказать равенство (48.15).
Для взятой позиции {τ*, ιν[χ*]} выберем какие-либо η+ί
векторов m0(i)(x*, ιν[τ*]) (ι=1, ..., η+ί). Среди этих векторов
могут быть совпадающие.
Условие регулярности. Скажем, что в области G*
выполнено условие регулярности, если при всяком выборе позиции
{τ*, и?[т*]}е(?*, для которой выполнено неравенство
е(т*, и;[<с*])>0, (48.16)
при всяком выборе векторов {/τιο(<)(τ*, м;[т*]), ί=1, ..., η+ί)
и чисел
п+1
а{ > 0, i = 1, ..., η + 1, 2 <*i = 1, (48.17)
справедливо неравенство
minmax< ( 2 сс^0(°(т*, κ;[τ*]) Μ [θ, τ*] (Я(т*)и + C(t*)v) ><
< 2 <*i niin max <™°(*> (τ*, w [τ*])-Χ [θ, τ*] (β (τ*) u+ С (τ*) ν)>.
(48.18)
357
Очевидно, условие (48.18) выполняется для некоторой
позиции {τ*, м;[т*1}, если множество *#°(τ*, Μ?[τ*1) состоит из
единственного вектора τ»·(τ*, и?[т*]). Поэтому для регулярности
достаточно, чтобы для всякой позиции (τ*, шИ/еб*, для
которой справедливо неравенство (48.16), множество JC (%*, ινίτ*1)
состояло из единственного вектора τ»°(τ*, ινίτ*]).
Справедливо утверждение.
Лемма 48.1. Если выполнено условие регулярности, то
функция ρ* (τ, w) (48.3) обладает свойством и-стабилъности. Это
означает следующее. Для всякого ε > 0 найдется δ > 0 так, что для
всякой позиции {τ*, ιν[τ#]}^ 6?*, для всякого т*е((т.|., θ] Π
Л (τ*? τ* + δ]) и всякой функции
ι;* [τ* [·] τ*) = {у* [τ] е= <>, τ* < τ <τ*} (48.19)
найдется управление
и* [τ* [·] τ*) - {и* [τ] gP, τ* < τ < τ*} (48.20)
такое, что для движения {ιν[τ] = ιυ[τ; τ*, w[x%], w* [τ*'[·] τ*),
*>* τ*Ητ*)» τ^^τ<τ*} будег выполнено неравенство
Ρ* (τ*, и> [τ*]) < ρ,, (τ*, w [τ*]) + ε (τ* - τ*). (48.21)
Докажем лемму. Пусть дана позиция {τ*, м; [τ*]} е 6?*.
Выберем некоторое значение τ* е (τ*, ft]. Назначим функцию
Ρ*[τ*Ητ*) (48.19). Возьмем какое-нибудь управление
и [τ* Η τ*) = {и [τ] еР, τ* < τ < τ*}. (48.22)
Пусть для соответствующего движения w [ · ] = w [τ* [ · ] τ*;
«>fr*L· и[·], ι;* [·]] имеем м;[т*] = и;*. Позиция {τ*, м;*}
определяет множество ΛΓ(τ*, и;*) максимизирующих векторов
т°(т*, ы;*). Пусть
jT*(t*, и;*) = со JT (τ*, и;*), (48.23)'
где, как и выше, символ со обозначает выпуклую оболочку
соответствующего множества. Перебирая все возможные управления
^[τ#[·]τ*) (48.22), получим область достижимости W,
состоящую из всех возможных точек w* (см. (42.4)). При этом
соотношение (48.23) определяет отображение точек w* на множества
JT*(<r*, и?*).
Выберем теперь какой-нибудь вектор m с нормой
Ы<1. (48.24)
Вектору m поставим в соответствие управление и[т# [·] τ*)>
которое удовлетворяет условию
<ш. Χ [θ, τ] β (τ) и (τ)> = min <m. Χ [θ, τ] β (τ) и>,
us Ρ
т*<т<т*. (48.25)
Из материала предыдущих параграфов (см. § 39) известно,
что такое измеримое управление и [τ* [·] τ*) (48.22), (48.25) су-
358
ществует. В паре с данной реализацией υ*[τ*Ητ*) (48.19) это
управление и [τ* [ · ] τ*) породит движение w [ ·; τ*, w#, и [ ·],
у* ML которое в момент τ* приходит в некоторую точку м;*е
е W. Эту точку w* отметим для вектора яг. Множество Wim]
всех точек м;*, отмеченных для яг, является ограниченным,
выпуклым и замкнутым. Множества Wt/гг] изменяются
полунепрерывно сверху по включению при изменении вектора яг (см. § 42).
Поставим вектору яг в соответствие множество ШягК Пусть S —
множество векторов
Ы<1. (48.26)
Теперь можно, подобно тому, как это сделано в § 42,
рассмотреть отображение пар {яг, w} e [S X W] на множества пар
{яг*, w*) €= [*#*(τ*, w) X Mm]] <=z[SXW]. Аналогично
предыдущему (§ 42) оказывается, что это отображение имеет
неподвижную точку {яг*, и?*}, для которой выполнено условие
{яг*, и;*} е [JPU*, ΛΧΜι»*]]. (48.27)
Но вложение (48.27) означает, что существует управление
и* Ιτ* [ ·] τ*)> которое удовлетворяет условиям
τ* τ*
f <яг*-Х[0, τ] β (τ) и* [τ]> dr = f Гппп<яг*.Х10, τ] Β (τ) и}] dx,
(48.28)
m*e=jr*(T*, w*U*]), (48.29)
где
И;*[Т*] = W[X*; τ^ W[X^ u* [.I „·[.]]. (48.30)
Для изменения Ае величины е(т, деМ) вдоль движения w[x\
здесь аналогично предыдущему (только теперь в более простой
ситуации) получим оценку (см. §§ 41, 42)
е (τ*, м; [τ*]) — е (τ*, м; [τ*]) <
τ*
< J [<яг° (τ*, w [τ*]) -Χ [θ, τ] (Β (τ) и[т] + С (τ) ν* [τ])> -
τ*
— тттах<яг°(т*, ш[т*]).Х[0, τ] (Β (τ) и + С (τ) ν)}] άτ. (48.31)
Однако воспользоваться здесь прямо этой оценкой подобно
тому, как это сделано в § 42 для движения м;*[·], которое
порождено управлением и* [τ* [·] τ*), нельзя. В самом деле, в отличие
от § 42 вектор яг* (48.29) может не быть вектором яг°(т*, и?*[т*])€=
е ЛГЧт*, Μ>*ίτ*]). Этот вектор яг* лишь содержится в замкнутой
выпуклой оболочке Ж* множества J(°. И в случае, если
множество Ж не выпукло, может быть яг*^*#°(т*, и;* [τ*]). Поэтому
теперь воспользуемся дополнительным условием регулярности.
Предположим сначала, что существует управление и [τ* [·] τ*)
такое, что для соответствующего движения w[-] = w[-; τ*, ιν[τ%],
359
и [·], v*[-]] имеем
β(τ*, #[τ*])=0. (48.32)
Тогда утверждение леммы верно, так как всегда е(т, w) > 0.
Поэтому примем, что е(т*, м>[т*])>0 для всех возможных
движений w [·] = ιρ[·; τ*, ζ&[τ*], u[·], у* [·]], т. е. примем, что
справедливо неравенство
е(т*, и0>0, «;elf, (48.33)
Обратимся к движению (48.30). Согласно известной теореме
([11*], с. 783) вектор яг* (48.29), содержащийся в замкнутой
выпуклой оболочке Л* множества *#°, можно представить как
линейную комбинацию, составленную из η +1 векторов из JP, т. е.
п+1 п+1
яг* = 2 «ι»»*0 (τ*, и>* [τ*1), cq > 0, 2 «ι = 1· (48.34)
i=l i=l
Для каждого из векторов moii) из (48.34) справедливо
неравенство (48.31). Поэтому, умножая каждое из таких неравенств
на α* (ι — 1, ..., п+ 1) и суммируя по i, получим согласно (48.34)
следующее неравенство:
е (τ*, и>* [τ*]) — е(τ*, ιν [τ*]) <
< J \( Σ αί/η°(0(τ*) ^*[τ*]) J .χ [^ τ] (β (τ) ц* [τ] +
>η+ι
— 2 aiminmax<m°(i>(T*, и;*[т*])·
i=l ueP vSQ
• Χ [θ, τ] (β (τ) и + С (τ) ν)>] dr. (48.35)
Вследствие непрерывности функций Х[0, τ], Жт), С(т) по τ
для данного ε > 0 найдется δ > 0 такое, что справедливо
неравенство
I minmax <™·Χ [θ, τ] (В(τ) и + С(τ) ν)} —
— min max </τι · Χ [θ, τ*] (β (τ*) и + С (τ*) ν)) Ι < ε/2, (48.36)
каков бы ни был вектор т с нормой \т\ < 1, если выполнено
неравенство
Ι τ* — τ* Ι < δ. (48.37)
Вследствие условия (48.33) из (48.28), (48.35), (48.36) и (48.18)
получаем оценку
е (τ*, и;* [τ*]) - е (τ*, ιν [τ*]) < ε (τ* - τ*), (48.38)
если выполнено неравенство (48.37). Полученная оценка и
доказывает, что управление и* [τ#[·] τ*) (48.28) обеспечивает
неравенство (48.21). Это доказывает лемму.
360
Из свойства ц-стабильности функции ρ# (τ, w) при условии
регулярности вытекает, что при этом условии эта функция
является мажорантой для цены игры ρ°(τ, w) (см. выше §§ 36, 42),
т б
ρ*(τ, w)^ff>(x,w). (48.39)
С другой стороны, вследствие неравенств (44.12) и (48.4)
функция ρ* (τ, w) является также минорантой для цены игры ρ°(τ, и?),
ρ*(τ, и;)<р°(т, и;). (48-40)
Таким образом, справедливо следующее утверждение.
Лемма 48.2. Условие регулярности, т. е. неравенство (48.18)
при условии (48.16), является достаточным для того, чтобы
детерминированный программный максимин ρ* (τ, w) совпадал
с ценой игры р°(£, х) при % = t, w = x, а стало быть, и со
стохастическим программным максимином ρ(τ, w).
Таким образом, при выполнении неравенства (48.18) при
условии (48.16) справедливы равенства
р° (*,*) = Р* (*,*) = Ρ (*,*), (48.41)
какова бы ни была позиция {£, х) е G.
Покажем, что неравенство (48.18) является также и
необходимым условием для выполнения равенства (48.41).
В самом деле, пусть от противного при выполнении условия
(48.41) для всех позиций {£, rfeG окажется, что для некоторой
исходной позиции {τ*, ^}gG неравенство (48.18) (где τ*
заменено на τ* и вектор и? [τ*] заменен на w%) не выполняется. Это
означает, что для некоторого набора максимизирующих векторов
mod) = mod) (Т|И wj (48.42)
и чисел ос<, удовлетворяющих условию (48.17), справедливо
неравенство
mm max
n+l
ζ^Σ «ι»*0) X [θ, τ*%(Β (τ*) и + С (τ*) v)J;
> 2 αι [min max (m°M.X [flf τ*] (Β (τ*) и + С (τ*) ι;))] + ζ,
i—i LweP t>eQ J
ζ>0. (48.43)
Вследствие непрерывности Χϋθ, τ], #(τ) и С(т) найдется
отрезок τ* ^т^т°(т°>тНг),*на котором будет справедливо
неравенство
min max <^ ( 2 o^m*»). Χ [ft, τ] (β (τ) и + С (τ) ν)\ >
«ер ©eQ \\i=i / /
n+i
> Σ αϊ [min max <ro««>. X [0, τ](5 (т)и+ С (τ) ν)>] + f,
i=i Uep reQ J ^
τ*<τ<τ°. (48.44)
36:1
Согласно (48.10)—(48.12) справедливы равенства
Ρ* (τ*, и>«) = <τ»°ω.Χ[θ, τ*] Wmy +
»
+ \ min max </»»(« · Χ [θ, τ] (5 (τ) и + С (τ) ν)} άτ,
i=l, ...,η + 1. (48.45)
С другой стороны, возьмем для той же исходной позиции
{**> ">„.} стохастическую программу »*(·), которая удовлетворяет
условиям
ζΓΣ «i/»0")] ·Χ [θ, τ] С (τ) у* (τ, ω)\ =
= max <^ ( Σ щт°(Ъ ) · Χ [θ, τ] С (τ) ν\
»=Q \\i=i / / (484б)
ι;*(τ, ω) = ν*[τ], т,„<т<т0, τ» = τχ, τ° = τ2,
ωε=Ω, ш = {|и|2}, 0<ξ1<1; 0<|2<1;
<m°«)· Χ [θ, τ] С (τ) ν* (τ, ω)> = max <m°«>· Χ [θ, τ] С (τ) ν>,
у* (τ, ω) - ν* [τ, ξ,], τ°<τ<θ, ω - {|ь |2}, (48.47)
0<ΕΧ<1, 2α.<δ.<Σ«..
ι = 1, ..., η + 1, α0 = 0.
Таким образом, для взятой программы ρ*(·) вероятность
реализации ι;*(τ, ω) = ι;*[τ, |4, |2]=^*[τ, ξ21 при τ°<τ<0, для
которой |а удовлетворяет условию (48.47) для некоторого
значения i, будет равна а<. Тогда при всяком выборе стохастической
программы и(-) ={и[тг, ξχ], τΗί<τ<τ0; w[t, |lt ξ2], τ°<τ<θ},
полагая
Ζ(ω) - 1[ξ1§ 1J - Ζ[ξJ - /τι0(<>, (48 48)
t—1 i
0<i!<l, 2а,<12<2«., ί-l, ...,л+1,
получим согласно (48.44)—(48.48) следующие неравенства:
Μ{<Ζ(ω).«;[θ, ω]» = <Μ{Ζ(ω)}·Χ[θ, τ*] и;*> +
ο
+ Jm«/(t, ω)·Χ [θ, т](Я(т)и(т, ω) + С (τ) у* (τ, ω))»ίτ=
τ*
η+1
= 2 α4 <ιλ«*>.Χ [θ, т*]и>*> +
+
τ»
362
ί [^0|1αί^ο(Ο)·Χ[θ»τ] (fiwMWT> £ιΐ>
+ С (τ) ν* [τ])>] dr+\tA{<l [l2] Χ [θ, τ] (Β (τ) и [τ, ξ1? ξ2] +
η+1
+ С (τ) у* [τ, |2] > } dx > Σ Щ <»»«».Х [θ, τ*] »*> +
+ f min max ζ ( 2 щт°«> J · Χ [θ, τ](β (τ) и+С (τ) у) \ΐτ +
* Γ»+ι 1
+ Jamia max <те°»)-Х [θ, τ] (Β (τ) и + С (τ) ν)) dx >
^ο U=i «eP psQ J
n+i
> 2 «i <m0(i)X [», T#] ">*> +
+ f 2 «i min max <т°«>-Х [θ, τ] (В (х)и + С (τ) ι>)> dx +
£ Lt=i «ер vsQ J
+ | (τ° - τ*) > ρ* (τ*, ι*,) + 4 (τ° - τ#). (48.49)
Однако согласно материалу из §§ 39, 47, справедливо
неравенство
Ρ (τ*, и>*) > inf Μ «Ζ (ω) · м; [θ, ω]>}, (48.50)
u(0
каковы бы ни были Ζ(·) и у*(·). Из (48.49) и (48.50) получаем
Ρ (τ*, и?*) > Ρ*(τ*, w>*), (48.51)
что противоречит (48.41). Таким образом, справедливо следующее
утверждение.
Лемма 48.3. Пусть выполнено равенство (48.41), какова бы
ни была позиция {£, х} е G. Тогда для всякой позиции {τ*, w%} e
е G необходимо выполнено неравенство (48.18).
Объединяя леммы 48.2 и 48.3, получаем утверждение:
Теорема 48.1. Условие регулярности, выраясаемое
неравенством (48.18), является достаточным и необходимым условием
для того, чтобы цена р°(£#» х*) позиционной дифференциальной
игры {7.1; 8.2} для системы (36.1), (36.2) при показателе
качества γ (36.3) совпадала с детерминированным программным мак-
симином ρ* (t%, х%) для всякой исходной позиции {i#, x#}^G.
§ 49. Пример
Обратимся для примера снова к дифференциальной игре
{7.1; 8.2}, которая была рассмотрена в § 46. Предположим теперь,
что область G, в которой могут случаться исходные позиции
{**> #*}, лежит в пределах отрезка и^£<^§, ограниченного
снизу значением U > τ. Здесь, как и выше, τ — корень уравнения
363
(46.22), τ<θ. Β таком случае согласно материалу из § 46
максимизирующая случайная величина Ζ°[ξ±, ..., ξή] определяется
равенствами (см. (46.27), (46.37) и (46.32), (46.40))
ί°Κι, ..., lh] =w*/|">*li если |и>*|¥=0;
(49.1)
i°Ki lk\ = I* [6J, I Ζ* [ξι] Ι = 1, δι s [0,1), если | ^ | - 0.
Таким образом, в позициях {τ*, w%}, где | м?* | =7^ 0,
максимизирующая случайная величина Ζ°(·) единственна и постоянна на
Ω (как всегда с точностью до значений на множестве 5eQ
нулевой вероятности).
В полном соответствии с равенствами (46.28), (46.33) и (49.1)
решение задачи о величине е* (48.11) дает здесь такие
результаты. Для значения е# получаем равенство
θ
е* (τ*, и>*)=| и>* | + j (φ [τ] — ψ [τ]) άτ. (49.2)
τ*
Максимизирующий вектор тп° = τη0(τ^, w^.) для позиции {τ*,
w±}, τ* ^ τ, где | ы;^ | =^= 0, является единственным и определяется
равенством
™° (τ*, и?*) = wj | ы;* |. (49.3)
Для позиции {τ*, м;*}, τ^τ*, где 1^1 = 0,
максимизирующим будет всякий вектор
™° (τ*, ">*)==">*, | те* |-1. (49.4)
В рассматриваемой области G справедливо неравенство τ > τ.
Поэтому при всех возможных теперь значениях τ согласно (46.7)
и (46.8) справедливо неравенство
φ[τ1-ψ[τ]^0; (49.5)
при этом
<рЫ>0, ψ[τ]^0. (49.6)
Фазовый вектор χ двумерный. Стало быть, в данном случае
η + 1 = 3. При всяком выборе чисел <Xi > 0, α2 ^ 0, α8 ^ 0, αΑ +
+ α2 + α3 = 1, имеем
з
2 α{ min max <jn°W · (φ [τ] ν — ψ [τ] w)> = (αχ | τλ°<ι> | +
{=1 |u|^l|i?|<l
+ α21 т°Ы | + α31 m**) |) (φ [τ] _ ψ [τ]). (49.7)
С другой стороны, имеем
min max <(a1m0<1) + a2w°^)+ a377i°(3)). (φ [τ] ν — ψ [τ] u)> =
|ύ|<1 \v\<l
= Ι α^ω + α2™0(2) + α3™0(8) Ι (<Ρ [τ] — ψ Ы)· (49.8)
364
Справедливо неравецство
|аЖ(1) + а2т0(2) + а3/гг0(3)| <aft|m°CftM +a2\mo{i)\ +cc3Ue(3)l (49.9)
Из (49.5), (49.7)—(49.9) вытекает нужное неравенство:
min max <(a1m°(i) + а2т°Ы + а3т°<з>).((р [τ] у — ψ [τ] и)><
|u|<l M<1
3
< 2 ai miQ max </?10<*> · (φ [τ] ν — ψ [τ] w)>, (49.10)
которое и доказывает, что в рассматриваемом случае выполняется
условие регулярности из § 48.
Таким образом, как и должно быть при выполнении этого
условия, справедливо равенство
е* (τ*, wm) = е (τ*, wj = р° (τ*, wm). (49.11)
Для позиций {τ*, w%}, где | w% \ Φ 0, оптимальная
детерминированная программа ν°[·] ={ι>°[τ], τίΗ^τ<'&} определяется
в соответствии с достаточным условием максимума (см.
ниже § 50)
<77ΐ°(τ*, w%)·<ρ [τ] ν° [τ]> = max <w° (τ*, w%)·φ [τ] ρ>. (49.12)
Стало быть, согласно (49.3) и (49.12) оптимальная
максимизирующая программа ι>°[·] при | ιν* \ Φ 0 определена однозначно
равенством
ν° [τ] = wj I wm |, τ* < τ < θ. (49.13)
В ответ на эту программу v°[-] оптимальная
детерминированная минимизирующая программа и0 [ ·] = {и0 [τ], τ* 4Ξ τ < 0·}
определяется согласно необходимому условию минимума (см.
ниже § 50)
- <1»о (τ,, ι*,) · ψ [τ] и* [τ]) = min [- <m° (τ*, и?*).ψ [τ] u>]. (49.14)
Таким образом, при | м;* | =^ 0 в ответ на программу ν°[·] (49.13)
оптимальная программа и°[·] также определяется однозначно
равенством
и°М = и>*/К*|, т*<т<А. (49.15)
Для позиций {τ*, и?*}, где | и^ | = 0, существует бесконечное
множество оптимальных максимизирующих программ ι;°[·]=*
= ι>*[·]. Каждая из них определяется достаточным условием
(49.12), где согласно (49.4) имеем т° (τ*, w%) = m*. Отсюда
следует, что при | и?* | = 0 оптимальной будет всякая программа
ν°[·] вида
ι;0[τ] = ™*, τ*<τ<θ, |w*| = l. (49.16)
Ответом на программу ι;°[·] будет оптимальная
минимизирующая программа и°М, определенная равенством
ц°[т] = т*, т*<т<0, (49.17)
365
в соответствии с необходимым условием (49.14), где
/га0 (τ*, и>*) = тга*.
Это, как мы видим, согласуется с тем, что для позиций {τ*,
Щ} (τ* ^ τλ гДе IЩ ΙΦ О, стохастические оптимальные
программы р°(·) и и°(·) сводятся к детерминированным программам
(49.13) и (49.15), а для позиций {τ*, w%} (τ* > τ), где | w* | = О,
оптимальной будет всякая программа ΐ7°(·) вида
Л*, |ι, ..., У - ИУ, tf*[|J 1 = 1, 6ie Ю, 1)· (49.18)
В ответ на программу ι;°(·) (49.18) оптимальная
стохастическая программа и°(·) будет определяться равенствами
»·[τ, It, ..., bJ-MgJ. (49.19)
Таким образом, оптимальные стохастические программы у°(·)
(49.18) и и°(·) (49.19) составляются из
детерминированных'программ v°[-] (49.13) и и°[·] (49.15), которые осуществляются с
вероятностями, отвечающими какому угодно распределению
случайной векторной величины Z*[|J (|4е [0, 1)).
Для примера на рис. 49.1, а, б приведены движения точек т{1>
и т{2\ изображенные в плоскости {qu g2}, а также
соответствующее движение wit] = {м^Ы, w2It]} (τ* <1 τг^ ft), отвечающие
а ^тг δ
Рис. 49.1.
оптимальным программам ν°[τ] (49.13) и и°[т] (49.15). При этом
было выбрано следующее исходное состояние точек то(1) и т{%):
Ч = τ = 4,2, <#> (τ*) = <#> (τ*) - 0, &> <*·) = 5^ (τ*) = 1,0,
9(ι2)(τ*) = 0, <?(22)(τ*) = 0,8, ?ίβ(τ,)-2,1, '^2)(τ*) = 0,
а параметры ν и ϋ были взяты такими же, как и в § 46, т. е.
ν = 0,5, 0 = 5. Для этих данных по формуле (46.5) имеем w# =
= {0,04; 0}, т. е. | w* | = 0,04=^= 0, и цена игры, вычисленная по
формулам (49.11), (49.2), составляет р° = 0,04+ 0,08 = 0,12. С
другой стороны, в качестве контроля получаем, что p°=lg(2)[uJ —
-qwm\ = \w№ 1=0,12.
На рис. 49.2, я, б изображены подобные движения,
порожденные оптимальными программами ι;°[τ] (49.16) и и°[т] (49.17) из
366
состояния -
*#-4,5>τ, <#> (τ*) - ga(1) (τ*) - 0, £?>(τ#) = д(21'(%) - 1,0,
?(ι2)(τ*) = 0, ί?» (т.)-1,0, ϊ^^-Ι,δ?, i?>--l,57.
Этому состоянию соответствует исходный вектор ιν* = {0; 0}^
т. е. | ц?# | = 0, и цена игры, вычисленная снова по формулам
(49.11), (49.2), составляет р° = 0,06. Сплошные линии на
Рис. 49.2.
рис. 49.2, а, б отвечают вектору яг* = {1, 0), а штриховые —
вектору иг* = {—1,0). Снова убеждаемся, что р° =* lg(2)[0] — g(1)[fl] I »
-|и>[ф] 1-0,06.
Итак, мы проверили, что в области G, где U > т, условие
регулярности из § 48 выполнено. В области G, для которой t0 < τ,
это условие не выполняется. Именно, можно указать позицию
{τ*, w%}, где не выполняется неравенство (48.18). В самом деле,
пусть τ* < τ, w% = 0. Пусть при этом справедливо неравенство
J (Ψ Μ — Ψ [τΐ) ώτ > 0. (49.20)
τ*
Задача о вычислении величины е+ (τ*, и?*) (48.11) дает
максимизирующие значения
го°(т*, и;*) = 771*, (49.21)
где т* — любой вектор с нормой | то* 1 — 1. Зададимся
каким-либо таким вектором т?г* и положим m0(i) = иг*, И10(2) = —т*.
Выбирая «i = 1/2 и α2 = 1/2, получим следующие соотношения:
аг min max < m°W · (φ [тф] ν — ψ [τ*] w)> +
+ α2 min max (jn0(® · (φ [τ*] ν — ψ [τ*] w)> =
\и\<1 \ν\<1
= φ[τ*]-ψ[τ#]<0. (49.22)
367
С другой стороны,
min max <(a1/7i°(D + а2т°Ы). (φ [τ*] ν — ψ [τ*] и)} = 0. (49.23)
Таким образом, из (49.22) и (49.23) следует неравенство
аг min max (т°Ы · (φ [τ#] ι; — ψ [τ#] w)> +
+ а2тштах(т°(2)'(ф[т#] ι; — ψ [τ*] и) Χ
|uUl \v\<l
<min max <(α1ΐΛ°(ι> + a2m«V). (φ [τ*] ι; — if [τ*] w)>f (49.24)
Μ<ι |d|<i
которое противоречит неравенству (48.18). Стало быть, условие
регулярности из § ^8 здесь не выполняется. Это согласуется
с тем, что при τ* < τ равенство
Р° (τ*, и>*) = ** (т*, и?*), (49.25)
вообще говоря, не выполняется. В самом деле, например для
рассматриваемой позиции {τ*, и?*}, согласно (46.28) имеем
р° (τ*, ы>#) = ρ (τ*, w*) = J (φ [τ] — ψ [τ]) drf (49.26)
"τ
а для величины ρ* (τ*, ιν%) = е^ (τ*, ιν*) получается
Ρ* (τ*, и>*) = j (Φ Μ — ψ [τ]) ώτ. (49.27)
τ*
Так как <рЫ - ψΜ < 0 при τ* < т < τ, то из (49.26) и (49.27)
следует неравенство
Ρ* (τ*, щ) < ρ (τ*, и;*). (49.28)
§ 50. Правило максимина
Докажем сначала слабую компактность области
достижимости W(v*(·)) (см. § 39). Пусть для данной позиции {τ*, w*} и
назначенного разбиения Δ*{τ,·} отрезка [τ*, О] зафиксирована
стохастическая программа р*(·). Обозначим символом w[-, ·;
ι;*(·), w(-)]={m?[t, ω;»*(·),κ(·)], τ#^τ^0, ωsΩ) движение,
порожденное из данной позиции {τ*, и?*} парой программ ν*(·),
и(·). Множество случайных величин ιν(-) = {α?(ω), ©ей) тех
элементов ιν(·)=*ιν[$, ·; ι>*(·), и(-)1 из пространства 3?{24Ω),
которые отвечают всем возможным программам и(·), составляет
область достижимости W(v*(·)). Пусть выбрана произвольно
последовательность программ и(1)(·) U = l, 2, ...). Надлежит
доказать, что из нее можно выделить подпоследовательность и^(·)
(s = 1, 2, ...), для которой для соответствующих элементов
и;(.) = и;[0, ·; ι;*(·), ι*Μ (·)] существует в jy(2)(Q) слабый
368
' предел
Ит(сл.)ю[*, ·;»*(·),«(,,)(·)]-»№. ·; ν*(■), u*(·)], (50.1)
где и*(·) — некоторая подходящая программа. Рассмотрим и{)
в свою очередь как элементы гильбертова пространства ,ί?(2){Ιτ*>
θ)χΩ}, составленного из r-мерных вектор-функций и(·) —
«я {и (τ, ω), τ* <1τ <0,(ое Ω}. Предполагаем при этом, что на
множестве [τ*, θ) χ Ω введена σ-алгебра i% {[τ*, θ) χ Ω} и
лебегова мера на ней. Элементы и(·) из 3? {[τ*, Ο) χ Ω} суть
функции, измеримые относительно ^{[т#, #)χΩ} и
интегрируемые с квадратом их модуля по указанной мере. Скалярное
произведение в SB {[τ*, ϋ) χ Ω} определено равенством
(ц[И (·)·^[2](·)){τχω> - J J <w[l3 (τ, ω).ι*Μ (τ, ω)> Ρ (dco)ώτ (50.2)
τ* Ω
и, стало быть, норма определена равенством
(О \1/2
ПИт,ш)|»Р(Л»)*г . (50.3)
τ* Ω /
Все возможные стохастические программы и{·) составляют
в пространстве & {[τ*, #)χΩ} множество U элементов и(·),
которые удовлетворяют условиям
и (·) — {и (τ, ω) = и [τ, glf ..., ξ,·] e= Ρ; τ, < т < ti+1,
/ = 1, ...,fc; ω€=Ω}. (50.4)
Это множество U является в ^^{[τ*, θ) Χ Ω}
ограниченным, замкнутым и выпуклым. Из известных результатов ([12*],
с. 202) вытекает, что множество U является слабо компактным,
в 3?^{[τ#ι θ) χ Ω}. Это означает, что из всякой
последовательности и(<)(0 ei7 U=l, 2, ...) можно выбрать слабо сходящуюся
к некоторому элементу и*(·) подпоследовательность и(г*)(·)
(5 = 1, 2, ...), т. е. такую подпоследовательность, что при всяком
выборе элемента I* (·) = {Ζ# (τ, ω), τ* <[ τ < О, (яей}е
ей^^Цт*, ϋ) Χ Ω} справедливо предельное соотношение
ϋιη(Ζ*(.)·Μ(ι·>(·))σχα>-('♦(·)·«· (·)){γχ«. (50.5)
S-»oo
При этом u*(-)^U. Опираясь на это свойство, выберем из
последовательности программ u{i){·) подпоследовательность u^%s\
слабо сходящуюся к некоторой программе и*(0. Имеем согласно
формуле Коши
ИО, ω; »*(.), и
(Οίο
= Χ [θ, τ*] wm + J Χ [θ, τ] (Β (τ) и (τ, ω) + С (τ) у* (τ, ω)) άτ. (50.6)
τ*
24 η. Η. Красовский 369
Пусть Ζ(0={Ζ(ω), ω <ξ Ω} — произвольный элемент из 9?{г)(0).
Этому элементу Ζ(·) поставим в соответствие элемент /*(*)=*
= {Ι* (τ, ω) = Β' (τ) Χ' (θ, τ] Ζ (ω), τ* < τ < θ, ω s Ω} из 2>(2){[τ*>
0) χ Ω}. Здесь, как и выше, верхний индекс ' означает
транспонирование. Из (38.5), (50.2) и (50.6) имеем
(Ζ(.)·Ηθ, ·;^(·)^(·)]) = <^Γ{ϊ(ω)}·Χ[θ,τ^]Μ;ί|ί> +
о
+ J |<Ζ(ω).Χ[θ, τ](β(τ)ι*(τ, ω) + С (τ) ν* (τ, ω))> Ρ (dco) ώτ =
τ* Q
θ
— <Μ{Ζ (ω)}·Ζ[ϋ, τ#] ы?#> + j j* <Ζ* (τ, ω) ·φ,ω)>Ρ (άω) dx +
τ* Q
+ j J <Ζ (ω) · Χ [ϋ, τ] С (τ) ι;* (τ, ω)> Ρ (άω) dx =
τ* Ο
= <Μ{Ζ(ω)}.Χ[θ,τ^]^> +
+ J |<ί(ω).Χ[0,τ1ί7(τ)ι^(τ,ω)>Ρ(Λο)£Ϊτ + (Ζ«(.)·Μ(·))σχί»·
τ* Ω
(50.7)
Полагая в (50.7) и(·) = и^»)(.)(в = 1, 2, ...) и и(-) = и*(·),
получим согласно (50.5) следующее равенство:
1ίιιι(ί(.)·ιφ, ·;**(·), и^(·)]) =
4-*оо
-(Ζ(.)-ΐΡΐθ, .;»*(·).»* (01), (50.8)
которое вследствие произвольного выбора Z(-)s^<2>(Q) означает
равенство (50.1). Тем самым доказывается слабая компактность
множества РР(у*(·)). Отсюда, как уже сказано в § 39, вытекает
непосредственно и замкнутость W(v*(-)) в 2?{2)(Ω), и
существование минимизирующей программы и*(·)» для которой
справедливо равенство
|и>[0. ·; ν* 1-). ^ (-)]| — min|w[*t ·;**(·). и(-)Й- (50.9)
«со
Величина |м>[0, ·; у*(·), w*(*)ll из (50.9) удовлетворяет
равенству
|и>[0, S *>*(·),"*(')] II т= max min (Z (.)·*[*, ·;»*(·).*(·)]).
||*(·)8<ΐ «(0
(50.10)
Докажем это. Сначала проверим, что величина, стоящая в
правой части (50.10), имеет смысл. При фиксированной случайной
величине Ζ(·) минимум по и(-) достигается на минимизирующей
относительно Ζ(·) программе Щ1{.п(-) (рм. § 39). Покажем, что
370
существует случайная величина Ζ*(·), для которой
(Ζ· (·)·"[*, ·;»·(·). «[«.я(·)]) =
- max (Ζ(·)·κ>[<>, ·; »*(·). "wo](·)])· (50.11)
OK-XKi
Рассмотрим какую-нибудь максимизирующую
последовательность Ζ(β)(·) (5 = 1, 2, ...), для которой выполняется условие
lim(/(i)(.)-u>[<>, .;**(·), и[г(*)(.)](-)]) =
= sup (/(·)·»[*, ·; »* (·),"[«·)! (·)])· (50.12)
Сфера Ιί(·)ΙΚ1 слабо компактна в &m(Q) ([12*], с. 202).
Поэтому без ограничения общности можно предполагать, что
последовательность 1{,)(·) имеет слабый предел:
lim(ел.) 1(,) (·) = Z* (·), 1 ί* (·)К1. (50.13>
θ-»οο
По определению программы u[i(s\.)], минимизирующей
относительно Ζ(θ)(·), справедливы неравенства
(ζ(β)(·)·Ηθ, ·;^*(·)^[ζ*(.)](·)])>
>(Ζ(β\(.)^[0,.;^(·)>^)(.)] (·)]> «-l,2f... (50.14)
Из (50.12), (50.13) и (50.14) следует неравенство
(Ζ*(·)·Ηθ, ·;»·(·). «*ιι·(-)](·)])>
> sup (I (.)·*[*, ·;»·(·)■ 4«·>](·)1)· (50.15)
ΙΙΚΟΙΚί
Так как в (50.15) строгое неравенство невозможно, то из
равенства (50.15) заключаем, что элемент Ζ*(·) является искомой
максимизирующей случайной величиной из (50.11).
Докажем теперь равенство (50.10). Это доказательство
базируется на следующих двух утверждениях.
Лемма 50.1. Какова бы ни была случайная величина Ζ(·)
с нормой IIZ(-)H < 1, справедливо неравенство
min|и;[θ, ·;!>*(■)■ и(-)]||>
и(.)
>min(Z(-)-a>[fl, ·; ν* {-),и (·)]). (50.16)
«(·)
В самом деле, согласно известному неравенству ([23*], с. 69)
для всякой программы и(·) имеем
Μ(·)ΙΜΙιι;[<>, ·; v*(-\ и(-)Н > (Ζ(·) · w[&, ·; **(·), и(·)]). (50.17)
Вследствие ΙΙΖ(·)ΙΙ<1 из (50.17) следует неравенство
ΙΜθ, .; ι>*(·), и(-)]11>«(-)-и>[0, ·; ι>*(·), и(01), (50.18)
которое и доказывает (50.16).
24* 371
Л е м м.а 50.2. Каково бы ни было число ε > 0, найдется
случайная величина ΖΙβ3(·) с нормой ΙΙΖίβ3(·)4 < 1, для которой
справедливо неравенство
min(ZC8](.)-a>[ft, ·;»·(■).»(·)])>
«(.)
>min[w[», ·;»*(·).*(·)] I-*· (50.19)
u(.)
Достаточно рассмотреть случай, когда величина в правой
части (50.19) положительна. Иначе утверждение леммы верно при
||/[е1(.)Н = 0. Рассмотрим в пространстве 9?{2)(Q) сферу
Se = lw(.): |i*(.)|<min|u>[09 ·; »·(.), и(·)1|-β\. (50.20)
I u(·) J
Очевидно, множества WivH-)) и S* не имеют общих
элементов и?(·). Согласно известной теореме о разделении выпуклых
множеств ([2*], с. 69), непересекающиеся замкнутые выпуклые
множества WivH')) и 5е можно разделить элементом Ζ[β1(·) с
нормой HZCel(-)H = 1, который удовлетворяет условию
min (Ζ[ε](·)·^(·))> max (Ζ[ε1 (.)·">(·))· (50.21)
w(.)<=W(v*(·)) w(.)<=Se
Левая часть этого неравенства совпадает с левой частью
(50.19) по определению области достижимости W(i>*(·)).
Вычисляя правую часть (50.21), в соответствии с (50.20) получим
правую часть (50.19). Таким образом, для случайной величины Ζ[β4·)
справедливо неравенство (50.19). Это доказывает лемму.
Из (50.16) следует неравенство
min|i*[*f ·;*·(·). «*(·)Π>
w(.)
>max min(Z(.)-H>[fr, ·; ν* (·).»(·)!). (50.22)
IWOIKi u(.)
а из (50.19) неравенство
min|и;[θ, ·; ν* (·)·«*(·)] |<
u(·)
< max min(Z(.)-^[»f ·;»*(·).«*(·)]). (50.23)
ll/(-)lki «(.)
Неравенства (50.22) и (50.23) доказывают (50.10).
Обратимся теперь к задаче о вычислении максимина р(£#, и?*,
&k{tj}) на основании равенства (39.48). Величины т[|1? ..., |j]
(39.25) по свойствам определяющих их условных математических
ожиданий Μ{Ζ(|ι, ..., |ft)l|i, ..., ξ,} удовлетворяют равенствам
М{т[|1? ..., ξ,, gi+Jll!, ..., &} = m[Si, ..., |J, ι = 1, ..., ft-lf
Μ {m [ξJ} = wa|e = AA{Z I6lf ..., bJ}. (50.24)
Поэтому случайная функция
τη(τ, 0) = {w[|i, ..., У, Tj<t<tj+1) 7 = 1, ..., к) (50.25)
372
оказывается мартингалом ([29*1, с. 467). Рассмотрим вектор*
функцию
*(τ, ω)=Χ'[0, тЫ(т, ω). (50.26)
По свойствам фундаментальной матрицы Χ[θ, τ] и по
определению функции т(т, ω) (50.25) случайная функция $(τ, ω)
удовлетворяет равенствам
= — Α! (τ) s (τ, ω), х5< τ < Ti+1, / = 1, ..., kf (50.27)
при почти каждом ω ^ Ω. При этом согласно (50.24), (50.25)
справедливы равенства
Μ {s (Ti+b ω) I lu ..., li} « Una s (τ, ω), i = 1, .. м Λ—1, (50.28)
τ->τ{+1-ο
при почти всех ω ^ Ω. Кроме того, имеем
*(θ, ω) = *'[<►, θ]^[|4, ..., U = Ζ(ω), (50.29)
Μ {5 (τ*, ω)} - Μ {Χ' [θ, τ*] m Rj> = Χ' [θ, τ#] Μ {Ζ (ω)}. (50.30)
Для согласования (50.28) и (50.30) положим
Μ{s(τ*, ω)} = s(t*- 0, ω) = s*. (50.31)
Величина κ (39.26) выражается через функцию s(t, ω)
равенством
κ (τ*, м;*, Aft{£,·}, Ζ(·)) = <**·^) +
о
+ f M imin max <s (τ, ω) . (5 (τ) и + С (τ) ν)}\ dx, (50.32)
а программный экстремум е (39.46) равенством
e (τ#, м;*, Aft {τ,}) = sup <^ * w*} +
11*0», ·)Νΐ L
θ -ι
+ f Μ imin max <s (τ, ω). (Β (τ) и + С (х) v)}\ dx . (50.33)
τ* l«eP *eQ J J
Введем случайные величины
olh, ..., I<fJ — 5[τί+1, |i, ..., ξί+1] — 5[τ<+1 — 0, |t, ..., |J,
i-l,...fk-l, (50.34)
ββιΐ-^ΐτχ,ξχ]-*·. (50.35)
Тогда, объединяя (50.27) и (50.28)—(50.31), можно сказать,
что случайная функция $(τ, ω) является решением
следующего стохастического дифференциального уравнения:
h
Д--Л'(т)# + 2вВ1, ....Ыв^-Ti), (50.36)
i=i
373
где символ δ(τ —т^) обозначает импульсную δ-функцию ([7*],
с. 65), причем импульс δ(τ— %}) предполагается приложенным
слева от точки х}. И это решение $(τ, ω) удовлетворяет (левому)
начальному условию (50.31). Величина κ (50.32) оказывается,
таким образом, некоторым функционалом
«(τ*, w0, ΔΛΜ, i(·)) -Я(*(·, ·)) (50.37)
на случайных движениях s (·,·) = {s (τ, ω), τ* ^τ^θ, ωεΩ}
системы, описываемой уравнением (50.36). Случайные величины
α[ξι, ..., У (50.34), (50.35) можно истолковать как
управляющие воздействия на эту систему. Они согласно (50.24) стеснены
условиями
Μ {α[ξι, ..., У> - 0, /-!,..., к. (50.38)
Обратимся к равенству (50.10). Пусть Ζ°(·)— соответствующая
максимизирующая случайная величина. Тогда
min|u>[*t ·; ι;* (.), и (Oil- Ik [*, ·ί **(·). MOJl-
-min(Z°(-)'»I*t ·;»*(·).»(·)])· (50.39)
u(.)
При этом согласно (50.18) справедливо неравенство
|ю[0, ·;»*(·), »*(·)]|>(ϊ·(·)·«Ίθ, ·; у* (·).»·(·)])· (50.40)
Кроме того, по смыслу операции минимума справедливо
неравенство
>min(Z°(.)-a>[0, ·;**(·)ι и (·)])· (50.41)
u(.)
Из (50.39)—(50.41) получаем равенство
= ππη(Ζ°(·)·">[θ, ·;»*(·).»(·)])· (50.42)
u(.)
Но согласно материалу из § 39 равенству (50.42) удовлетворяет
только программа и%(·), которая необходимо удовлетворяет
условию
< т (τ, ω) · X [ft, τ] Β (τ) и* (τ, ω)> —
= min <77i (τ, ω) · Χ [ft, τ] Β (τ) w> (50.43)
при почти всех {τ, ω).
В терминах движения s(·, ·) это утверждение принимает
следующую форму.
Лемма 50.3. Пусть дана позиция {τ*, w#}, назначено
разбиение Ал{тД и зафиксирована программа ι>*(·).
Минимизирующая программа г/*(·) которая обеспечивает равенство (50.39),
374
необходимо удовлетворяет условию минимума (при почти всех
{τ$ ω»
<5° (τ, ω) -Β (τ) и* (τ, ω)> = min <s° (τ, ω) Β (τ) и}Л (50.44)
где $°(τ, ω) — решение задачи на максимум
<4 · и>#> + f M /min <s° (τ, ω) ·Β (τ) w>\ dx +
о
+ J Μ {<s° (τ, ω) · С (τ) ν* (τ, ω)» ώτ =
τ*
= max \ (s% ·μ;*> + Ι Μ/тт<$(т, ω)·Ζ?(τ) и>Ыт+
ΙΙ*0»,·)ΙΚΐ[ τ. l"eJP /
+ J Μ «5 (τ, ω) · С (τ) ν* (τ, ω)>} ώτ (50.45)
τ*
для решений $(τ, ω) уравнения (50.36) при условиях (50.31),
(50.38).
Обратимся снова к неравенству (50.18). Пусть для
фиксированной случайной величины Ζ(·) программа ι;°(·) удовлетворяет
условию
<jn (τ, ω)·Χ [θ, τ] С (τ) ν° (τ, ω)> —
= max (jn (τ, ω). £ [θ, τ] С (τ) ν} (50.46)
при почти всех {τ, ω>. Тогда эта программа ι;·(·) удовлетворяет
условию (см. § 39)
(Ц-)-и>[Ъ, .;»(·). ι>°(τ, <»)])= max(Z(.)-w[θ, ·; и(·). *(·)])·
(50.47)
Согласно (50.18) и (50.47) справедливо неравенство
|и>[*. ·!"(·). ν·(*.ω)]|>
>maxmin(Z(.)-H>№t ·; и(·), v(.)]) = κ(τ#, ы;*, Afe{tj}, Z(·))·
,(50.48)
Стало быть, равенство (50.46) является достаточным условием
для того, чтобы программа ι;°(·) обеспечила неравенство (50.48)
при всякой программе α(·).
В терминах движения s(·, ·) все предыдущие результаты
можно объединить в следующем утверждении.
Теорема 50.1. Пусть дана позиция {τ*, w*} и назначено
разбиение ДДтД. Пусть $β(τ, ω) —решение уравнения (50.36) при
условиях (50.31), (50.38) и это решение $°(τ, ω) удовлетворяет
375
условию максимума
#(«»(·, .))=maxtf (s(-, .)) (50.49)
для функционала #(s(·, ·)) (50.37), (50.32) при ограничении
1Ш, 01 <1. (50.50)
Тогда
е(х„ ω» Ль{тЛ) =Я(5°(., ·))· (50.51)
Условие максимума
<5° (τ, ω).С (τ) ν° (τ, ω)> = max <s° (τ, ω)·С (τ) ν} (50.52)
есть достаточное условие для того, чтобы программа ι;0(τ, ω)
была максимизирующей для величины ρ (38.7), т. е. для
выполнения условия
min| и; [θ, .;vP(-),u(-)]\*-maxmia\w№9 ·; ν (·), и (Oil· (50.53)
u(.) r(.) w(.)
Цри этом минимизирующая программа и°(т, ω), для которой
|*[θ, -^(Ο,^ίΟΐΙ-πιΙηΙίρΙθ, ·;*>0(0,"(0Π, (50.54)
w(.)
необходимо удовлетворяет условию минимума (50.43).
Итак, рассматриваемая задача о вычислении величины е
(39.46) сводится к своеобразной задаче об оптимальном
управлении системой (50.36), где надо найти исходное состояние s* и
управляющие воздействия а[|1э ..., |,], которые максимизируют
функционал #($(·, ·)) при условии ШФ, ·]ΙΙ< 1.
Дальнейший анализ показывает, что оптимальные
управляющие воздействия α[ξ1? ..., ξ,·] в уравнении (50.36),
максимизирующие функционал #(s(·, ·)), достаточно выбирать среди
функций
αίξι, ..., |i+J = a(m[glf ..., ξ,], |i+1), (50.55)
или, что то же самое, среди функций
β[ξι, ..., ξί+il = α(«(τ<+1 — 0, ω), ξ<+ι), ί = 0, .,., k — 1. (50.56)
Снабдим функционал Η (50.37) и движение s(·, 0 индексом
ΔΛ, который подчеркивает, что речь идет о некотором
назначенном разбиении Δ*. Тогда основной результат этой главы в
терминах движений s(·, ·) формулируется следующим образом.
Теорема 50.2. Пусть дана позиция {τ*, ιν#}. Какова бы ни
была последовательность разбиений Ah {τ^} (k = 1, 2, ...), для
которой
lim 6fe =0, 6h = max (τ$χ - rf), (50.57)
fe->oo j
цена ρ°(τ*> w*) исходной дифференциальной игры {7.1; 8.2} для
системы (36.1), (36.2) при показателе γ (36.3) удовлетворяет
376
равенству
p4x*,w*) = \imHlh, (50.58)
где
Hi = sup Яд (5Δ ( )) (50.59)
причем верхняя грань вычисляется по решениям s&k (τ, ω)
уравнения (50.36).
§ 51. Пример
Рассмотрим для примера дифференциальную игру из § 46.
Здесь дифференциальное уравнение (50.36) сводится к уравнению
ί-2β(« [τ; - 0, ω], ξ;)δ(τ - τ;). (51.1)
В соответствии с материалом из §§ 46, 50 заключаем, что для
исходных позиций .{τ*, ιν%) из областей
τ<τΗί<0, |ы>*|<оо, и>*=^0, (51.2)
τ
τ*<ΐ, \w*\+ |(φ[τ]~ψ[τ])ίτ>0, (51.3)
τ*
вспомогательная задача об оптимальном управлении a°(s, ξΡ
имеет решение
a°(s, ξ,) - {0, 0>, / - 1, ..., к. (51.4)
Соответствующий оптимальный процесс s°(τ, ω) оказывается
детерминированной функцией
5° (τ, ω) = 5° [τΐ - ml, τ* < τ < ft, (51.5)
где
m%-w*/\wm\. (51.6)
Для исходных позиций {τ#, w%} из области
τ*<ΐ, |и>*| + |(φ[τ]-ψ[τ])ώτ<0 (51.7)
τ*
вспомогательная задача об оптимальном управлении а0 (s, &)
имеет, например, решение
а0 (s, ξ,) = {0, 0} при х} φ τ;
α·(*,ξ,)-α· при gie [0,1/2);
a° (s, h) = - a* при ξ, e [1/2, 1); (51#b)
Ti = τ, | a* | = 1.
377
Соответствующий оптимальный процесс $°(τ, ω) оказывается
случайной функцией:
s (τ* —■ 0, ω) = s* = {0, 0}, s° (τ, ω) = {0, 0} при τ* < τ < τ* = τ;
s° (τ, ω) - α* при ξ, €= [0, 1/2), τ < τ < Ο; (51.9)
$ο (τ, ω) = — α* при ξ, <= [1/2, 1), τ < τ < θ.
Для исходных позиций {τ*, w*} из области
τ<τ*<#, и;* = 0, (51.10)
вспомогательная задача об оптимальном управлении a°(s, |j)
имеет, например, решение
а0 (5, £х) = а* при ξχ е= [0, λ);
«•(*.δι)·
а* при ξχ е [λ, 1).
(51.11)
Здесь λ —любое число из интервала (0, 1). Соответствующий
к.
т9
*-*+f-*
Рис. 51.1.
W
/г
1т, «0 *>
*>«
\г #4
г
7к+1
(51.12)
Рис. 51.2.
оптимальный процесс $°(τ, ω) оказывается случайной функцией
so (Tt ω) .. α* ЛрИ ιχ s [0, λ), τ* < τ < О;
5°(τ, ω) = — α* при ^6 [λ, 1), τ*<τ<θ.
Для иллюстрации сказанного на рис. 51.1 приведена
реализация оптимального процесса $°(τ, ω) в случае (51.5), (51.6),
который, в частности, имеет место при τ# = τ = 4,2, w* ={0,04; 0}
378
и соответствует данным, определяющим движения на
рис. 49.1, а, б.
Процесс s°(τ, ω), представленный на рис. 51.2, отвечает
данным, которые определяют движения, изображенные в § 46 на
А°/
ki
r,-V r2
?*
Рис. 51.3.
I**-*
рис. 46.7, а, б. Здесь τ* = 0, w% — {3; 0} и выполняется условие
(51.7), т. е. имеет место случай (51.9).
Наконец, в случае (51.10)—(51.12), который имеет место для
данных, определяющих движения на рис. 49.2, а, б, получается
процесс $°(τ, ω), изображенный на рис. 51.3. Здесь τ* =4,5^
и>* - {0; 0}.
Глава V
ПРОГРАММНЫЙ СИНТЕЗ
§ 52. Стохастическая модель
В этой главе изложен метод стохастического синтеза для
позиционной дифференциальной игры {7.1; 8.1} с показателем γ
достаточно общего вида. Как предуведомлено в § 36, в
настоящей главе результаты даются без доскональных доказательств,
так как эти доказательства в основном повторяют выкладки и
рассуждения, изложенные в гл. IV. Отличия состоят лишь в
технических деталях. Разбор этих деталей, требуя много текста,
мало что добавил бы к прояснению сути.
Итак, рассмотрим дифференциальную игру {7.1; 8.1} для
управляемого ^-объекта, описываемого дифференциальным
уравнением
x = A(t)x + f{t, и, ν) (52.1)
при ограничениях
мер, ρερ, (52.2)
причем показатель γ имеет вид
7= Jx(*. u\t\, v[t])dt+ J σ («,*[*]) μ (Λ). (52.3)
t* [**,&]
Здесь χ — га-мерный, и — r-мерный ж ν — s-мерный векторы;
Ρ ж () —компакты; функции A(t), /(£, ц, у), χ(ί, щ ι;), σ(ί, χ)
непрерывны по всем их аргументам; функция σ(ί, χ)
удовлетворяет условию Липшица по а; и выпукла по этой переменной.
Ограничимся случаем, когда мера μ(Γ) в (52.3) имеет следующее
строение. Даны точки tU) е [£0, ф], числа μ(ί — tU)) = μα) > О
(у' = 1, ..., ςτ), и кусочно-постоянная функция μ*(ί) >0 (t9<:t^
<#). Для каждого отрезка [τ*, τ*] с [£0, О] полагаем
τ*
μ (Ι*·, τ·])- J μ* (t) dt+ Σ μ«>. (52.4)
τ* <ϋ)ε[τ·,τ·]
Примем, что постоянная Липшица λ для функции σ(ί, χ) по χ
и мера μ(Γ) удовлетворяют неравенствам
λ=Βλ(52.5) ^ ^ μ([ί^ 0]) < 1β (52.5)
Этого можно добиться, выбирая единицу измерения для
показателя γ, т. е. умножая, если надо, σ, μ и χ на подходящие
коэффициенты. Изменение масштаба для γ не влияет на игру,
380
а только изменяет цену р° (t#, χ*) во всех позициях {£#, х*}
в одинаковой пропорции.
Исходные позиции {£#, х#} могут случаться в области G из
пространства {£, я). Эта область лежит в пределах отрезка U0, <М
и удовлетворяет условиям, оговоренным в § 4.
Данному я-объекту поставим в соответствие стохастическую
z-моделъ. Построим ее так. Для отрезка [τ*, Щ с [£0, О]
назначим разбиение ΔΑ{τ^> и возьмем вероятностное пространство
{Ω, &, Ρ}, описанное в § 37. Назовем стохастическими
программами ν{·) и и(-) неупреждающие функции
v(-)-={v(xtut<u)eQ, τ#<τ<0, ие=Р, ωεΩ}, (52.6)
ι;(τ, и, ω) — ν[τ, и, |1?..., ξ,], τ,-< τ< ri+1, / = 1,..., k; (52.7)
и(.) = {и(т,0)еР, τ* < τ < 0, ωε Ω}, (52.8)
и(т, ω) = ζΛτ, |4, ..., У, т^<т<т5+1, /==1, .., fc, (52.9)
где функции νίτ, и, |1? ..., |J и и[т, |ь ..., 1,1 измеримы по
совокупности переменных τ, и, \и ..., |,·. Пусть Л—(л+1)-мер-
ный вектор
*-{*.,..., Ьи **м>-</, χ}. (52.10)
Текущее состояние модели определим ее (п+ 1)-мерным
фазовым вектором ζ = {ζι, ..., zn, Zn+ii = {w, zn+1}, который
подчиним дифференциальному уравнению (см. § 24)
г = ЖтЬ + Мт, и, ν), (52.11)
где (га+ 1) X (п+ 1)-матрица Жх) имеет вид
2(τ) = Ιο ог φ П^«:^,° (52Л2Г
\{ϋ,...,υ} υ / \ о ... о о/
Μ τ, и, ι;) — {/(τ, и, ι;), χ(τ, и, ν)}, (52.13)
так что
Α<(τ, и, ν) — /<(τ, и, ρ), i — 1, ..., и, (52.14)
Α«+1(τ, w, ΐ'^χίτ, и, ι;). (52.15)
Данная позиция {τ*, ζ%} = {χ^ w^ з*п+1}, разбиение Δίτ,·} и
пара программ ι;(·) и и(-) определяют случайное движение
модели, которое является решением
= {ζ(τ, ω)=ζ[τ, ω; τ*, ζ*, ι;(·), и(.)], τ*<τ<θ, ωεΩ}
(52.16)
стохастического дифференциального уравнения
ζ = 1(τ)ζ + Μτ, и(т, ω), ι;(τ, и(т, ω), ω)) (52.17)
при начальном условии
ζ (τ#, ω) = ζ#, ωεΩ. (52.18)
381
Как и в случае из § 37, такой вероятностный процесс ζ(·) =
= ζ[χ# [·]θ,·] существует. В самом деле, по теореме 2.1 о
суперпозиции измеримых функций (§ 2) вектор-функция
Μτ, и(т, ω), ι>(τ, ι*(τ, ω), а>)>-*(·"··'-»^ ω) (52.19)
оказывается измеримой, неупреждающей и она удовлетворяет
равенствам
*<"<·>··<·»(τ, ω) = /*(«<·>·"(»[τ, ξ,, ..., У,
τ,- < τ < τί+1, 7 = 1,..., ft, (52.20)
где функции
*<«·>.·(·» [τ> gif β β β § у β fc (τ? и [Tf ξι? _ β § yf (52 21)
ι;[τ, и [τ, glt ..., ξ,], ξχ, ..., ξ;]), τ,·<τ < τ,·+1, / = 1, ..., Α,
измеримы ύο совокупности переменных τ, |4, ..., |j. В таком
случае существование решения ζ[τ#[·]θ,·] (52.16) уравнения
(52.17) следует из известных теорем ([14*], с. 158). Это решение
является неупреждающей функцией
ζ(τ, ω) = ζ[χ, |t, ..., У, xs<x<Ti+1, / = 1, ..., Л, (52.22)
где функции ζ[τ, |1? ..., |J измеримы по совокупности
переменных τ, |t, ..., |j. Более того, при почти каждом ω <ξ Ω реализация
*[τ#[·]0, ω] —«(·, ω) = {ζ(τ, ω), τ#<τ<#}, ωεΩ, (52.23)
является абсолютно непрерывной функцией, которая при почти
всех значениях Te(i#, Ь) удовлетворяет дифференциальному
равенству
£ί£®> = Л (τ) ζ (τ, ω) + h (τ, и (τ», ν (τ, и (τ, ω), ω)). (52.24)
Для почти каждого ω^Ω реализация (52.23) ζ(·, ω)
представляется формулой Коши
т
ζ (т, ω) =Ζ [τ, τ*1 ζ* + J Ζ[τ, η] й (η, α (η, ω), ν (η, и (η,ω), ω)) dr\
Χ* (52.25)
при всех те[тф, О]. Здесь Ζ[τ, η]—фундаментальная матрица
решений однородного уравнения
dz/dx = A{x)z. (52.26)
Эта матрица имеет вид
Ζίτ,-,Ι-^Γ1 :), (52.27)
где Χ[τ, η] — фундаментальная матрица решений однородного
уравнения
dw/dx = Aix)w. (52.28)
382
Процесс ζ(·) (52.16) определит случайную величину
V(<o) = zw+i(0, ω)+ f σ(τ, и? (τ, ω)) μ(ώτ), (52.29)
[ι*,0]
где, как и выше (см. § 24), символ м; обозначает тг-мерный вектор
w = {ы^, ..., wj — {^, ..., zn}, (52.30)
который складывается из первых η координат Ζι вектора ζ. Для
случайной величины γ(ω) (52.29) существует ее математическое
ожидание
Μ{γ(ω)} = |γ(ω)Ρ(Λο) =
Ω
J-..J TBi,...ibJi|i...d&k. (52.31)
{ο<Ε;<ι· i=i,...,ft)
Основную роль будут играть задачи на максимин по паре
программ {у(·), и(·)} для величины Μ{γ(ω)} или для величин
ей подобных. В частности, такой задачей является задача о мак-
симине
ρ (τ#, z„ Aft {τ,}) - sup inf Μ {γ (ω)} (52.32)
*(·) «(о
с последующим предельным переходом-
ρ (τ*, ζ*) = lim ρ (τ*, *», Afe (τ$Λ))) (52.33)
ft-* оо
при условии
lim δΛ _ О, (52.34)
fe-»oo
где
6ft = max (-$?! - TJk))· (52·35>
i
Как и в частном случае из гл. IV, оказывается, что цена
Р° (**ι#*) исходной дифференциальной игры {7.1; 8.1} для
данных (52.1)—(52.3) связана с величиной ρ(τ#, ζ#) (52.33)
равенством
Р° (*** **) = Ρ (τ*, 4), Ч = {**> 0}> ** — τ*. (52.36)
Однако вычисление величины (52.32) оказывается не всегда
удобным. Поэтому в зависимости от конкретного характера
данных (52.1)—(52.3) вместо (52.29)—(52.33) будем рассматривать
также другие случайные величины и максимины, для которых
программные конструкции оказываются более удобными. Этот
прием был уже применен в гл. IV, где вместо максимина (38.15)
использован максимин ρ (τ#, м>#, Δ* {τ,·}) (38.7) для величины
(Μ{γ2(ω)})1/2= (М{|и>[Ф, ω]Ι2})1/2, (52.37)
которая имеет смысл нормы 1!и;[ф, ·]ΙΙ в удобном гильбертовом
383
пространстве i?(1)(Q). Аналогичным образом и здесь будем рабо*
тать с такими характеристиками процесса ζ(·), которые удобно
трактовать как норму в подходящем функциональном
пространстве.
§ 53. Программный максимин
Пусть дана исходная позиция {τ*, ζ#} модели и назначено
разбиение Ак{т}) для отрезка [τ*, Щ. Этому разбиению Δλ{τ,}
отвечает вероятностное пространство Ш, 9$Q, P}t которое
определяет базу для стохастических программ ι;(·) (52.6) и и(·) (52.8).
Наряду с Ш, 9§а, Ρ} возьмем пространство {[τ*, Щ, ^[τ*,&], μ}>
элементы которого суть числа τ е [τ^., θ]; ^?[τ*,ο] — борелевская
<у-алгебра для отрезка [τ*, Ο]; μ — мера, которая фигурирует в
показателе γ (52.3). Составим прямое произведение ([7*], с. 123)
рассматриваемых пространств [{Ω, &q, Ρ} Χ {[τ*, Ο], ^?[τ#,ο]» μ}]
На его базе определим линейное пространство д£, элементами
которого будут
Г (·) = {7*1 (·). · · · > Гп (')■ Гп+1 (')} = № (·), Γη+χ (·)} =
= {г (τ, ω) = {ιυ (τ, ω), rn+1 (ω)}, ω = Ω, τ* <; τ ^ 0}. (53.1)
Здесь компонента w(·) = (u?i(·), ..., u?n(·)} = {^(0, ..., r„(·)}
случайная га-мерная вектор-функция, определенная в области
{τ*, θ] χ Ω, измеримая по совокупности аргументов {τ, ω)
относительно σ-алгебры ^[т#,&] ® $а и интегрируемая с квадратом
ее модуля по произведению мер μΧΡ. Компонента Γη+4(ω) —
скалярная случайная величина. Введем в пространстве 91 норму
ilr()ll. В зависимости от характера задачи, который определяется
тем или иным частным видом показателя γ (52.3), эту норму
Иг(-)Н целесообразно вводить по-разному. Для определенности
проведем выкладки для такой нормы:
г (·)!! = f ί \\ν(τ,ω)\*Ρ(άω)μ(άτ)Υί* +1Л{\гп+1(<»)\}, (53.2)
\[τ*,0]Ω J
где символ I...I обозначает, как обычно, евклидову норму
вектора.
Пусть ζ(·) —некоторое движение (52.16) модели. Этому
движению ζ(·) поставим в соответствие его образ r(-)[z(,)3 =
= {и>(')[2( )]> rwZ+i)3(·)] в пространстве 91. Этот образ
определяется так. Пусть
2(·)={*ΐ(·)> ...»«η(·). «n+i (·)> — {»(·)» *η+ΐ(·»β
=*{w(τ, ω), ζη+ι(τ, ο)),ωεΩ,τ#<τ<ft} (53.3)
тогда
ц,(.)[г(),=и;(.), да(.)-*»+1 (*.·)· (53.4)
384
Верхний индекс [z(0] в обозначении образа r(-)ti()1 будем
опускать, где это не будет грозить недоразумением. Отображение
г(.)^ г (.)«·>] (5з.5)
является однозначным в сторону от ζ(·) к г(·). Оно является
линейным.
Зададимся каким-либо числом β. Рассмотрим в пространстве
01 некоторое множество Др2). В зависимости от частного вида
показателя γ (52.3) множество Щ2) целесообразно определять
так или иначе. Для определенности ниже полагаем
42>=Гг(.): f σ(τ, w (τ, ω)) μ (eft) + rn+1 (ω) < β 1. (53.6)
[ [t*>] J
При всяком выборе β множество R$ (53.6) не пусто.
Вследствие выпуклости функции σ(τ, w) множество i?p2) (53.6)
выпукло. Функция σ(τ, w) удовлетворяет условию Липшица по w.
Поэтому множество Λβ2) (53.6) оказывается замкнутым в
пространстве i%, где метрика определена нормой ΙΙΚ·)ΙΙ (53.2).
Рассмотрим некоторое движение z(-) (52.16). Обозначим
символом α(τ^ ζ*, ν(-), и(-)у Aft, β) расстояние в пространстве 9t
от образа Κ·)[ζ()1 этого движения ζ(·) до множества Щ , т. е.
полагаем
а(т*,**, ι;(·),"(·), Δή,β)= min \r (·) _ г (.)«"»|· (53·7)
Γθ)<=Β(β2)
Такой минимум действительно достигается на некотором
элементе ra(.)Gflf· При данных {τ*, ζ*} и д*{т,} зафиксируем
программу ν (·) и переберем все возможные программы и (·).
Получим пучок движений ζ(·; ν(·)). Образы всех этих движений
r(.)Ls(.n составят в пространстве 91 область достижимости
Д(1)(р(·)). Введем величину
α (τ*, z*, v(-), Aft, β)= ιηία(τ#, ζ*, ι;(-), и(·), Aft, β) =
= · inf min |г*(.) —г(.)|. (53.8)
Перебирая затем все возможные программы #(·), определим
величину
α (τ*, z*, Aft, β) =supa(T*, z*,, y(·), Ak, β) =
к·)
= sup inf α (τ*, ζ*, y(·), w(-)A, β). (53.9)
!>(·) U(-)
Составим числовое множество
В (т., а», Aft) = [β: α (τ*, ζ*, ΔΛ, β) > 0]. (53.10)
25 Η. η. Красввский 385
Назовем программным максимином ρ(τ#, ζ%, Δ^{τ^}) для
дифференциальной игры {7.1; 8.1} при условиях (52.1)—(52.3)
для данной исходной позиции {τ*, ζ%} и назначенного разбиения
Akixj) величину
Ρ (τ*, ζ*, Δ*) = sup β, fe5 (τ*, ζ*, Ak). (53.11)
Основной результат этой главы заключается в следующем.
Теорема 53.1. Пусть дана позиция {τ*, ζ*} и выбрана ка+
пая угодно последовательность разбиений Δ/, {τ/ ) (к = 1, 2, ...),
удовлетворяющая условиям (52.34), (52.35). Тогда существует
предел
Ρ (τ*, ζ*) = lim ρ (τ*, ζ*, Ah). (53.12)
Он не зависит от выбора последовательности {AJ. Величину
Ρ(τ**ζ#) назовем программным максимином. При τ* = θ
принимаем по определению
ρ (θ, **) = σ (θ, и;*) μ (ί = О) + 2*η+1. (53.13)
Пусть
ζ* = {μ;*, 0} = {χ*, 0}, τ* = Ζ*. (53.14)
Детш ρ°(Ζ*, ##) исходной позиционной дифференциальной игры
{7.1; 8.1} совпадает с программным максимином ρ (τ*, ζ%) (53.12)
при τ*, ζ* (53.14), т. е. справедливо равенство
Р° (**, ^*) = Ρ (**> {**> 0», (53.15)
какова бы ни была позиция {£#, ##}е G.
§ 54. Программный экстремум
Наряду с пространством 52, введенным в § 53, рассмотрим
пространство 2% элементы которого Ζ(·) имеют такое же
строение, как и элементы К·) из 5?. Именно,
?(·)-&(·). ···,?.(·)■ Vi(')} = {i(-)Jn+i(-)} =
= {Γ(τ, ω) = {Ζ (τ, ω), 7n+i (ω)}, ωεΩ, τ*<τ<ΰ·}, (54.1)
где компонента Ζ(·) = (Ζι(·), ..., Ζη(·)} — случайная w-мерная
вектор-функция, определенная в области [τ*, Щ χ Ω, измеримая
по совокупности аргументов {τ, ω) относительно σ-алгебры
^[τ#,ο] ® $ω и интегрируемая с квадратом ее модуля по про-·
изведению мер μΧΡ; компонента ΓΛ+1(·) — скалярная случайная
величина. Введем норму ИГ(·)!!*, которая сопряжена с нормой
Нг(-)И и имеет вид
\Ч-)\* =
= max ( J J ΙΖ (τ, ω) |2 Ρ (άω) μ (άτ) J , vraimax | Τη+1 (ω) |
(54.2)
386
Элемент Г() определяет линейный функционал [Г(0 -К·)] на
элементах Κ·)είί. Этот линейный функционал вычисляется
согласно равенству
[Γ(.)·γ(·)1- ί \<1(τ,ω).ι»(τ,ω)>Ρ(άω)μ(άτ) +
[τ*,ft] Ω
+ f Γη+1 (ω) rn+1 (ω) Ρ (Λο). (54.3)'
Ω
При этом
|Γ(.)|·- max [Г(.)т(.)]. (И·*)
ΙΗ·)ΙΙ=ι
Пусть τ*<θ и назначено разбиение Д*{тД для отрезка
(τ*, Φ]. Элементу Г(-) = Ш·), Г»+1(·)} отвечают векторные
величины
*»Мв WM» s*n+i}==
= м( f X'h, τ]Ζ(η, ω)μ(ίίη), ίη+1(ω)1, τ*<τ<0,
Ι[τ>] )
$* ιτ*1=ав 5* == l5*> 5*w+il —
= м( J Χ4η,τφ]/(η,ω)μ(*|), £+1(ω)1 (54.5)
1[τ*,θ] ' J
Γ(τ, ω) = {s (τ, ω), 7η+1 (τ, ω)} =
- Μ JJ J Ζ' [η, τ] Ι (η, ω) μ (*|)t Ίη+1 (ω)}Ι glt ..., ξ;} -
= s [τ, ξ1? ..., gj] = {5 [τ, ξχ, ..., gjj, 5n+1 [τ, glf ..., ξ,]},
7(0, ω) — {5 [θ, glf ..., gfe], 5W+1 [θ, ξ1? ..., lk]} =
- Ο l<>, Si SjJ μ (τ - Ο), Гп+1 [θ, glf ..., ξ*]), (54.6)
где, как обычно, символ М{. ..Igi, ..., ξ,} обозначает условное
математическое ожидание; верхний индекс штрих обозначает
транспонирование. Пусть τ* есть некоторый момент τ»·е Ак{тД.
Зафиксируем какую-нибудь кусочно-неизменную по τ и
измеримую по и функцию
*·(·>-{ι>*(τ, ο)-ι;[τΛ »]е ρ,
т,«<т<тж, 7 = 1, ..., ί-1; и^Р}, (54.7)
если ί>1. При ΐ = 1 никакой функции ι?*(·) фиксировать не
надо. Выберем какую-либо измеримую функцию
И']=Мт]еР, τ*<τ<τ*}, (54.8)
25* 387
если ί>1. Пусть дана позиция {τ*, ζ*} = {τ*, {w%, z%n+1}}*
Введем величину
κ (τ*, ζ*, τ*, ι?* (·), и [·], Afe{Tj}, Γ(·), β) = <**·">*> + **η+ιΖ*η+ι +
τ*
+ J [Μ{<5 (τ, ω).£(τ, и [τ], ι;* (τ, и [τ]))) +
τ*
+ Sn+i (τ, ω) χ (τ, и [τ], ι;* (τ, и [τ]))}] dx +
+ ) Μ|minmax[<5(T, ω)·/(τ, и, ν)} +
+ 5η+ι (τ, ω) χ (τ, и, у)]} dr —
— sup J \ <Ζ(τ, ω)-н; (τ, ω)> Ρ (<2ω) μ (dr) +
r(.)£R(p2)L^*^b
+ ( Γη+1 (ω) rn+1 (ω) Ρ (do) I. (54.9)
Q J
В последнем члене в правой части (54.9) и?(т, ω) и Γη+ι(ω)
суть компоненты функции К τ, ω), которая составляет элемент
г() из Л(э2). При τ*-τ* символы ι;*(·) и »[·] в обозначении κ
не играют содержательной роли. Поэтому при τ* = τ* величину
κ будем обозначать так: κ (τ*, ζ%, τ*, Δ^{τ;}, Ζ(·), β).
Величина κ (54.9) определена корректно, если только иметь
в виду одну оговорку. Поясним это. По свойствам случайных
функций Ζ(·), по свойствам условного математического ожидания
и по свойствам интеграла каждая функция six, ξ4, ..., |j] (54.6)
оказывается измеримой по совокупности переменных {τ, |t, ...
..., |Д относительно σ-алгебры ^[tj,tj+1) ® #[ilt...,Sj]·
Подынтегральное выражение во втором интеграле из (54.9) есть
функция, непрерывная по совокупности аргументов {τ, s}. Поэтому
по теореме 2.1 о суперпозиции измеримых функций это
выражение оказывается измеримым по ίτ, ω}. Вследствие свойств
интегрируемости ПО, подынтегральные выражения в первом и во
втором интегралах из (54.9), будучи измеримыми, оказываются
и интегрируемыми. Таким образом, оба интеграла имеют смысл.
Обратимся к последнему члену в правой части (54.9). Можно
подобрать такую функцию σ(τ, w) в показателе γ, а затем
—такой элемент ?(·), что верхняя грань по r(-)s i?p2) в (54.9)
окажется равной бесконечности. Поэтому определение величины κ
(54.9) дополним оговоркой, что для нее допускается значение,
равное — «\
Рассмотрим некоторую стохастическую программу у*(·)
(52.6), которая при τ* <1 τ < τ* задается детерминированной
388
функцией ν*(·) (54.7), так что в (52.6) имеем -"
у[т, и, glf ..., Щ = v*[Tjy и], τ, < τ < Ti+1, /==i, ..., i - 1, (54.10)
а при τ€=[τ*, φ) Β (52.6) функции vlx, ю, %и ..., У остаются
произвольно выбранными измеримыми функциями со
значениями в Q. Возьмем также некоторую стохастическую программу
и(-) (52.8), часть которой при τ*<τ<τ* задается
детерминированной функцией и[·] (54.8), так что в (52.8) имеем
ц[т, ξι, ..., У = иЫ, Ti<T<Ti+i, / = 1, ..., i-1, (54.11)
а при тек*, ΰ») в (52.8) функции ц[т, |4, ..., |j] остаются
произвольно выбранными измеримыми функциями со значениями
в Р. Рассмотрим движение ζ(·), порожденное этой парой программ
у*() и и(·) из позиции {τ#, ζ*}. Зададимся элементом ?(·) =
β(Ζ(·), ίη+ι(·)} и выведем выражение для величины [Γ(·)·γ(·)1,
(54.3), вычисленной на элементе r(-)^5Z, который является
образом r(-)[2()1 рассматриваемого движения ζ(·). Исходя из (54.3),
используя равенство Коши (52.25) и учитывая (52.27), получиц
следующее равенство:
[Г(.).Г(.)]= J ί<ί(η,ω)·Χ[η, τ*] ц;*>Р(Жо) μ (ώη) +
[τ*,θ] Ω
+ ί ί \'(4. ω)· J-Χ^ίη, τ]/(τ, и (τ, ω), ζ; (τ, ^(τ,ω),
Ω£τ*,0] Ν ίτ«
ω)) dr Γ> μ (drj) Ρ (dco) + ^η+ι^η+ι +
+ J J ίί+ι (τ7 ω) Χ (τ> w (τ> ω)> у (τ> Μ (τ> ω)> ω)) ^τ ρ№>). (54.12)
Ω τ*
Меняя порядок интегрирования по η и τ, используя формулу,
повторных математических ожиданий ([14*], с. 21), учитывая
(52.7), (52.9), (54.5), (54.6), (54.10) и (54.11), получим из (54.12)
следующее равенство
[7(.)-r(-)] = <5*-M7*> + Ζχη+ΐΖχη+ι +
τ.*
+ j К** Μ-/(τ, и [τ], ζ;* (τ, u [τ]))> +
τ*
+ **η+ι Χ (τ, и [τ], ι;* (τ, и [τ]))] dr +
+ J Μ «5 (τ, ω)·/(τ, и (τ, ω), ι; (τ, и (τ, ω), ω))> +
τ*
+ ^+1 (τ, ω) χ (τ, и (τ, ω), ν (τ, и (τ, ω), ω))} dr. (54.13)
Остановимся на некотором элементе ?(·) с нормой
11Г(-)11*«1. (54.14)
389
Найдем для этого элемента Г(·) программу
у[Г(0](.)=^Г(-)](т, и, ω); ω<=Ω, ^<T<»,weP)i (54.15)
которая удовлетворяет условиям
ι;1~<·>] (τ, и, ω) = у* (τ, и), τ*< τ < τ*, wsP, (54.16)
<5(τ, ω)./(τ, и, ζ;1~(·>](τ, u, ω))> +
+ 5Λ+ι (τ, ω) χ (τ, и, гДП·)] (τ, w, ω)) =
«=тах[<$(т, ω)·/(τ, и, ι;)> + ?η+ι (τ, ω) χ (τ, и, у)], τ*<τ<θ"
(54.17)
Здес*> ι;*(τ, ю) — функция (54.7). Согласно теореме об
измеримом выборе ([7*], с. 173) неупреждающая функция ι4~<·>1(τ,
и, ω), измеримая по совокупности аргументов {τ, ю, ω) и
удовлетворяющая условию (54.17), существует. Выберем далее какую-
либо стохастическую программу »(·), которая при τ* ίξΐ τ <С τ*
определена как детерминированная функция юМ (54.8). Эти
программы ι;ΐζ(·)1 (·) и ю(·) определят движение zli(,)J(·)»
начинающееся из данной позиции {τ*, ζ*}. Обозначим через г'г <·>!(·)
образ движения ζ^(·>1(·). Найдем элемент г% (·) е i?jj2),
ближайший к г^ (·>!(·) в пространстве 5?, т. е.—такой элемент r% e
ei?p, , для которого справедливо равенство
|γ#(.)-γΙΤ·(.)](.)|- min |γ(.)-γΙ~(·)](.)|. (54.18)
Такой элемент г^(·) существует. Вычислим величину [/(·)·
• (rl'(·)] (·) — г* (·))]. Согласно (54.13) получим
[^(•)-(г[Г(,),(·) —^* (·))] = <**·">*> + β»η+Λη+ι +
+ J Κ** [τ] · / (τ, и [τ], у* (τ, и [τ])) +
τ*
+ 4n+i% (τ, и [τ], у* (τ, u [T]))]dT +
о
+ f Μ (<*(τ, ω)./(*, и (τ, ω), pffiol (τ, и (τ, ω), ω))> +
τ*
+ 7η+ι(τ, ω)χ(τ, и (τ, ω), гД~<-%, и (τ, ω), ώ))]άχ—
~м( f <Ζ(τ, ω)·Μ?#(τ, ω)> μ(ότ) + Γη+1(ω) Γ,η+1(ω)1. (54.19)
По выбору программыyfz(,)l (·), которая удовлетворяет
условиям (54.16), (54.17), по определению элемента г#(»)еДр
(54.18) и по определению величины κ (54.9), получаем из (54.19)
390
следующее неравенство:
[Γ(·)·(γΙ~<·)1(·)-γ,(·))]>
>κ(τ«, ζ„ τ*, »*(·),«[·], Afc fa), Γ(·), β)· (54.20)
Справедливо известное неравенство ([23*], с. 69):
|Γ(·)|*·|ι·ίΤ'(·)1(·)-'··(·)1>[?'(·)·('·ΙΓ(·)1(·)-γ·(·))]. (54.21)
так как нормы ШОП* и ИКОН являются сопряженными. Из
(54.20) и (54.21) с учетом (54.14) следует неравенство
||Γ[Τ(.)](.)_-Γίίί(θΙ|>κ(τ:Ιί,^,τ*,Ζ;*(0,^[·],Δ,{τ;},Τ(0,β).
(54.22)
Таким образом, при выборе стохастической программы у f* <")!(·)
(54.16), (54.17) при всякой стохастической программе и( 0,
удовлетворяющей условию (54.8); получается движение zf/(,)1(0,
образ которого rf'<·)!(0 в пространстве 9i удален от множества
/?β2) на расстояние, не меньшее, чем величина κ (τ*, ζ*, τ*, у*(0>
κ[·],Δ*{τ,>,Γ(.),β)<54.9)._
Рассмотрим множество 2τ*, τ* = τ<, элементов Γ(·),
которые удовлетворяют условию (54.14), у которых Γη+1(ω)ι=1 и
которые зависят только от τ, ξ», ..., ξ*, т. е. полагаем
iySi-lfll·): |Г(.)Г<1, Γη+ι(ω) = 1,Ζ(τ,ω) = Ζ[τ,ξ„ ...,ξ*],;
τ*<τ<ϋ]. (54.23)
По определению нормы ШОП* (54.2) множество 9?% можно
также охарактеризовать условиями Γη+ι(ω) = 1 и IIZ(0U*<1, где
!*(·)!* = ( J \\1(τ,ω)\*Ρ(ά<»)μ(άτ)Υ\ (54.24)
V [τ*,»] а /
Назовем программным экстремумом величину е, которую
определим равенством
е (τ*, ζ*, τ*, ν* (·)>«[·], Aft{τ^}, β) =
= sup κ(τ*,*„τ*,ι;*(.),Β[·],ΔΛ{τΛ,7(·).β) + β. (54.25)
если первое слагаемое в правой части в (54.25) неотрицательно.
Иначе полагаем е(т%, ζ*, τ*, ι;* (0, и[·], Δ^{τ,}, β) = β.
При τ* = τ* символы ι;*(0 и α[·] в обозначении е (54.25),
как и в обозначении κ (54.9), теряют смысл. Поэтому в
соответствии с записью κ (г*, ζ*, τ*, ΔΛ{τ,·}, /(0, β) будем при τ* = τ*
обозначать величину е так: β(τ#ι ζ*, τ*, Aft{Tj}, β).
Из (54.22), (54.25) по определению величины α(τ*, ζ*, Aft, β)
(53.9) следует неравенство
<?(т*, 2*, τ*, Afe{Tj}, β)<α(τ*, ζ*, ΔΛ, β) + β. (54.26)
391
А при τ* = Φ величина е (54.25) связана с величиной α (53.7)
равенством
*(τ*, **, О, ι;* (·), и [-1, ΔΛ{τ,},- β) -
= α(τ*, **, u* (·), "Η, Δ*, β) + β, (54.27)
какова бы ни была исходная позиция {τ*, ζ%} и пара
детерминированных программ ι;*(·) и иМ, для которых
α (τ», *„„ »·(.), и[.], ΔΛ, β)>0. (54.28)
Докажем равенство (54.27). Пусть г"(·) — элемент из
на котором достигается минимум в (53.7), т. е.
«(W·, »·(·),"[·]. Δ„β)=||Γ(.)[2(·)]-Γα(.)||, (54.29)
где движение ζ(·), порожденное парой программ ι?*(·) и »[·],
оказывается уже детерминированным,, так как функция
ζ(·) = {ζ [τ] = {ш[τ], ζη+1 [τ]}, τ* < τ< ϋ} (54.30)
не зависит от ω. Из (54.22), (54.25) и (54.29) следует неравенство
^(τ*, ζ*, ft, tf*(·), м[.], Δ^{τ,·}, β)<
<«(*·, *·,»·(·).»Η. Δ*{τΑβ) + β. (54.31)
подобное неравенству (54.26). Докажем, что в (54.31)
выполняется равенство. Заметим, что образ r(.)tz(,)?= {η>(·)[ζ(01ι г^Мдля
движения ζ(·) (54.30), который фигурирует в (54.28),
определяется также функциями, не зависящими от ω. Именно, в
соответствии с (53.4) и (54.30) имеем
»(0wol-{»Wf τφ<τ<0}, гЙЙ1 -fn+i[*l·· (54.32)
Отсюда вытекает, что элемент ^(0, который удовлетворяет
условию (53.7), или, что то же самое — условию (54.29),
достаточно искать среди элементов г(«)еДр , компоненты которых
не зависят от ω, т. е. согласно (53.6) —среди элементов г(-) =
= {ιν (τ), τ* *ξ τ ^ θ, rw+1}, удовлетворяющих условию
ί σ (т, м; (τ)) μ (dx) + rn+1 < β. (54.33)
[τ*,θ]
По свойству нормы ΙΙί(·)ΙΙ*, сопряженной к норме ИКОН,
расстояние Иг°Ч·) — r(-)[z(03l! в (54.29) удовлетворяет равенству
|Γ(.)Μ·>1_,*(.)!- max [Т(-)-(г(-)[г()1-^(.))]. (54.34)
ΙΙΤ(.)!!*^ι
Стало быть, учитывая детерминированный характер Κ·)[ζ()1 и
r*4·), а поэтому и детерминированный характер максимизирую*
щего элемента ?(·) в (54.34), получим для величины (53.7) из
392
(54.34) следующее равенство:
<* (τ*, ζ*, у* (·), и [·], Aftjtj}, β) = ;
= min max [!(·)· И-)[2()1 -'(.))] =
= min max Γ (s% · w*} + 1η+ιζ*η+ι +
+ J Κ*· [τ]·/ (τ, и [τ], у* (τ, и [τ]))> +
τ*
+ ^η+ι·χ (τ, μ [τ], ν* (τ, α [τ]))] άτ —
- Μ <* (τ) · ι* (τ)> άτ + 7w+1rn+1 , (54.35)
где в соответствии с (54.5) и по выбору
7(·) = {Ζ(τ),7η+1; τ*<τ<θ} (54.36)
имеем
**[τ] = f Χ'[η,τ]Ζ(η)μ((ϊη). (54.37)
^При этом минимум в (54.35) вычисляется по элементам г(-)=^
= {w(t), τ^^τ^θ, rw+1}, которые удовлетворяют условиям
(54.33). В (54.35) минимакс вычисляется от величин, линейных
по ?(·) (при фиксированном К·)) и по К·) (при фиксированном
И·)). Но в таком случае операции максимума и минимума можно
переставить ([11*], с. 42). Таким образом, из (54.35) следует
равенство
α (τ*, ζ*, !;*(·), ы Hi МТЛ> β) = max [<**·">*> +
llHoll^iL
о
+ Tn+12*η+ι + j [<** Ιτ] ·/.(Τι и Μ, *>* (τ, и [τ]))> +
τ*
+ Τη+ι Χ (τ, и [τ], у* (τ, и [τ]))] άτ —
— sup \ (1(τ)·ιν(τ)) άτ+ ln+1rn+1 \. (54.38)
reW^b* J J
Нас интересует лишь случай, когда для величины а (54.38)
справедливо неравенство а>0. Покажем, что в этом случае в
(54.38) достаточно ограничиться элементами Г(·), норма которых
Щ-)П*-1. (54.39)
В самом деле, пусть для некоторого элемента Г(·)
выражение под знаком максцмума в (54.38), которое согласно (54.9) есть
393
не что иное, как величина к{х#, z%, й, v* (·), и [·], Δ^{τ,·},
I (·)> β)» удовлетворяет равенству
κ(τ,,*,, О, !;·(.),*[.], Δ* {τ,}, 7(0. β)-О О, (54.40) ·
причем
ИГ(-)И* = д<1. (54.41)
При условии (54.40) величина g положительна, как это
следует из (54.9). Но тогда согласно (54.9) для элемента
~1(9)(-) = у~Ц·), (54.42
норма которого
НГ«Ч-)11* = 1, (54.43)
будет выполнено равенство
κ(τ„ ζ*, Ο, ι;*(·), »N, ^MJ("(·), β) = £/?>£· (54.44)
Это и показывает, что в (54.38) достаточно ограничиться
элементами Г(·), которые удовлетворяют условию (54.39). Покажем
теперь» что в (54.38) при условии (54.39) достаточно
ограничиться элементами Г(·), которые удовлетворяют условию
Г„+1<=1. (54.45)
В самом деле, выберм какой-либо элемент Г(·) (54.36),
который удовлетворяет условию (54.39), причем
Г„+1 = д<1. (54.46)
Из (54.2), (54.36), (54.46) следует равенство
Μ(0|·-( ί μ(τ)|2μ(ώτ)) =1. (54.47)
Из условия (52.5) вытекают следующие соотношения:
j σ (τ, w (τ))μ (άτ) < J σ (τ, {0, ..., 0» μ (άτ) +
[τ*,03 [τ*,&]
+ J λ(525) | μ; (τ) [ μ (dr) < с + J \ιν(χ)\μ(άτ). (54.48)
[t*,f>] [т*,&] *
Из (54.48) следует, что для выполнения условия (54.33)
достаточно выполнения неравенства
f | и; (т) | μ (dx) < β — с — гп+1. (54.49)
Пусть значение гп+1 выбрано так, что β —с —rn+i>0.
Выберем функцию
Η;(τ) = ηϊ(τ), η>0, (54.50)
394
для которой справедливо равенство
J Μτ)|μ(Λ) = β-*-Γη+1. (54.51)
[τ*, Ο]
Согласно известному неравенству ([23*], с. 69)
[μ([τ*,ϋ])]1/2ί ί |^W|V(dT)V/2> J |ν(τ)|μ(<Ζτ)9 (54.52)
\ЫМ / [τ*,θ]
для выбранной функции ιν(τ) (54.50), (54.51) с учетом величин
μ([*β, #])πλ (52.5) справедливо неравенство
η-Π ^U(T)|V(dT)V/2 = f J |Μτ)|»μ(*)Υ*>
> J |»(τ)|μ(ίϊτ)-ρ —с —г„+1. (54.53)
[τ·,0]
Для элемента К·) из (54.33), компоненты которого w(-) и
гп+1 удовлетворяют условиям (54.49)—(54.53), и для элемента
Г(·) (54.46), (54.47) имеем
[Т(.)т(.)]= J <Ζ(τ)·ΐί;(τ)>μ(ώτ)+7η+ιΓη+1 =
= η + grw+1 > β — с — rn+i (1 — g). (54.54)
Выбирая Гп+t достаточно большим по модулю отрицательным
числом, величину [?(·)· г(·)] можно согласно (54.54) сделать
сколь угодно большой. А это означает, что при выборе Г(·) (54.46),
(54.47) последнее слагаемое под знаком максимума в (54.38) есть
—°°. Данное рассуждение показывает, что в (54.38) достаточно
искать максимум при условии (54.45). Но тогда равенство (54.38)
и является доказываемым равенством (54.27).
§ 55. Эволюция программного экстремума
Установим оценку изменения величины ^(т^, z^, т , ν (·)|
и [·]> Aft {τ;·}, β), полагая, что значение τ* изменяется от τ» до
xi+l. Приэтом функции ι;*(·) = ν[β1(·) и ю[-] = а[в1М (s = i, г+1),
которые фигурируют в выражениях е(х%, ζ*, τ^ ν№(·), и№[·],
дь{т;Ь β) и е(т#, ζ*, τί+1, ^+^(·), и[1+11[-Ь Δ&{τ>}, β) связаны
условием
ι?[*+ι] (τ, и) = ι?№ (τ, и), τ* < τ < ть (55.1)
u[i+i] [т] e W[i] [Т]э τ* < τ < τ*. (55.2)
Для вывода нужных соотношений удобно несколько обобщить
величину е (54.25). Пусть зафиксировано значение i и
зафиксированы функции ι>[ί1(·), ютЫ. Пусть выбрана функция ι>Ιί+11(·),
продолжающая согласно (55.1) функцию ι>[<1(·). Пусть для
полуинтервала %i < τ < τ<+4 это будет функция
ι;[ί+1](τ, α) = ι;[<+11(τ<, и), χ{ < τ < τ<+1, u^P. (55.3)
395
Рассмотрим (п+1)-мерные векторы
Λ(τ, α) = {/(τ, и, Oii+i4xu »)), χ(τ, и, ι;[ί+1](τ<, α))> (55.4)
и построим множества
Жт)=соШт, к), ней, Τ{<τ<τί+1, (55.5)
где символ со, как обычно, обозначает выпуклую замкнутую
оболочку. Множества Η(τ) ограничены, выпуклы, замкнуты и с
изменением τ изменяются непрерывно в хаусдорфовой метрике
(см. [7*], с. 171 и выше § 31*). Пусть fe[i+1] [·] = [h[i+1] [·], ...
..., МЙ1][·]] - {/[i+l3H, Xti+1][·]} - какая-либо зафиксирован^
ная измеримая функция
- {Λιι+1ΙΗ - {/"+1,[τ1, %iiMlxl} e #(τ), τι < τ < τ,+1>. (55.6)
В частности, может быть
АС<+11Ы =
•-{/(τ, aW, ι>ιι+11(τ,, вЫ», χ(τ, иЫ, ι>[ί+13(τ*, βΙτΙ))}, (55.7)
где »Ы, τ<^τ<τ<+1 какая-либо измеримая функция.
Наряду с величиной κ (54.9) для τ*==τ<+1 рассмотрим
величину
**(**, *·, т<+1, ιί«+ιΐ (·), и™ М, *^+l11·]. M*j>, ?(·), β) -
= \S%'W%/ + 5*η+ι2*η+1 +
+ J Κ** [τ]·/ (τ, иЮ [τ], ι**1 (τ, ι*Μ [τ]))> +
τ»
+ *»+ι Μ χ (τ, «Ι«1 [τ], »W (τ, ι*Μ [τ]))] <*τ +
τ
+ J Λΐτ]·Α[<+11[τ]>Λ +
+ f Μ imin max [<s (τ, ω) ·/ (τ, и, ν)} + ^+1 (τ, ω) χ (t, w, v)]\ άχ —
— sup Γ J [ <Z (τ, ω) · и; (τ, ω)> Ρ (ίω) μ (ότ) +
r(.)s42)LtT*^]b
+ f 7η+1 (ω) rn+1 (ω) Ρ (dco) 1 (55.8)
и наряду с величиной е (54.25) — величину
β*(τ„ **, τ1+1, ρΠ+ιϊ(·), «t«[-b λΒ+111·], Δ*{τ,), β) =
= sup κ*(τ„*„τί+1,^+»ΐ(·),«Ι<,[·],Απ+11[·1,
Δ*{τ,}, ϊ(·),Ρ) + β·" (55-9)
Справедливо следующее утверждение.
396
Лемма 55.1. Каковы бы ни были число i)>0 и функция
feu+13l·] (55.6), найдется измеримая функция
иИ+И[.]-{иИ+1][т]еР, τ*<τ<τί+1}, (55.10)
продолжающая согласно (55.2) функцию иш[-] и такая, что будет
справедливо неравенство
|κ*(τ*, *„ τί+1, ι**+ιΐ(.), «Ι*1!·], *[<+1]H, M*ib Γ(·). β)-
-*(τ», **, τ1+1, ι*'+ι](.), и"+И[.], Δ*{τ;}, Γ(·), β)|<η, (55.11)
каков бы ни был элемент ?(·) с нормой Щ-)Л* < 1.
Лемма доказывается следующим путем. Составим разность
рассматриваемых величин κ*(·) и κ(·). Согласно (54.9) и (55.8)
получим
тг+1
χ·(.)_κ(.)- f <?,[т].(ЛС4+11[т]-
Ч
- h (τ, иИ+i] [τ], i;C*+i] (ть иК+« [τ])))> cfr, (55.12)
где
/г(т, », у) =* {/(τ, и, у), χ(τ, и, у)}. (55.13)
Таким образом, для доказательства леммы достаточно
аппроксимировать функцию hu+n[-] функцией
А(-)-Шт, иЫ, ι>ΙΙ+11(τ,, α[τ])>, τ<<τ<τ<+1>, (55.14)
которая обеспечит неравенство
4+1
j <** [τ] · ( Α[1+ι1 [τ] - Λ (τ, и [τ], i*<+H (τ<, и [τ])))> dt
(55.15)
какова бы ни была возможная функция $#[·] (54.5). Выбор
измеримой функции »[·], которая обеспечивает неравенство (55.15),
действитедьно возможен. Проверку этого факта, который
вытекает из известной теории измеримых функций (см. например,
£7*], с. 173), здесь опустим.
Из леммы 55.1 вытекает следующее утверждение.
Следствие 55.1. Каковы бы ни были число τί>0 и
функция А"+11[·] (55.6), найдется измеримая функция ю"+11[·] (46.10)
такая, что будет справедливо неравенство
\е*(т„ «*, Ti+1, *«+«(·), иЫ[·}, hii+1}[·}, Ah{τ;}, β)-
-«(τ„ ζ*, τί+1, ι**+«(.), «I«+4[.]t Δ*{τ,}, β)|<η. (55.16)
Оценим теперь разность между величиной е* для момента
τί+1 и величиной е для момента τ,. Согласно (54.25) и (55.9),
действуя подобно тому, как это сделано в § 41, получим следующее
397
неравенство:
**(τ*, ζ*, τι+1, !**+«(.), "[i]l·], Λ[ι+ι3[·], Δ,{^}, β)-
— «(τ*, ζ», τ4, ι*« (·), irf*3!·], Δ* fa}, β)<
τί + 1 τί+1
< f <*ί[τ].Λ[*+ι1[τ]>£ίτ — f minmax<ii[x].fc(Tf и, i?)>dxr
(55.17)
если e*^e, β>β или e*>e, £«=β. Здесь Μ τ, и, ι;) —(л+D-
мерная вектор-функция (55.13). Вектор-функция
3ί [·] = {*£ [τ], Ti<r<Ti+1} (55.18)
является равномерным по те[т{, τ*+1) пределом для
последовательности функций s*9)[·] (q — U 2, ...), которые согласно
(54.5) отвечают некоторой последовательности элементов Γ(ί)(·)β
={Ζ(9)(·), 1}, максимизирующей для е*(%%, ζ*, Ti+1, yti+i] (,)? «[*][.],
й[г+1][·], Afe{tj}, β) в соответствии с определением этой
величины е* (55.9). Неравенство (55.17) справедливо, какова бы ни
была функция *·[·] (55.18), получающаяся как такой предел.
Множество всех таких функций «·[·], отвечающих
фиксированной функции /г[<+11[], обозначим символом S°(hii+ill-]).
Множество 5°(Λ[ί+1][·]) оказывается ограниченным, выпуклым и
замкнутым относительно метрики, которая определена нормой
||7*[.]|!с= sup ft, Ml· (55.19)
Более того, множество £°(ΛΙί+11Μ) является в данной метрике
(55.19) компактным. Можно проверить, что при изменении
функции &Ιί+11[·], которое оценивается в слабой топологии для /г[<+11[],
множества S°(hli+i}[-]) изменяются полунепрерывно сверху по
включению в метрике (55.19). Сказанное означает следующее.
Пусть последовательность hu+i4-]iq) (g*= l, 2, ...У сходится слаба
к некоторой функции А[<+11[·]*, так что
Λί4+ι1 [·]* = lim (ел) fe[i+1] [.](e) (55.20)
q-*oo
и соответствующая последовательность
lS[-lWe55(*[i+l3I']<fl)). ?=1,2, ... (55.21)
сходится в метрике (55.19) к функции $*[·]*, так что
7j[.]* = lim^[.][gl; (55.22)
g-»oo
тогда справедливо включение
1S[.]*e5°UIi+11[·]*). (55.23)
398
Пусть S некоторый выпуклый компакт в пространстве
функций **[·! = {{** М, 1}» т^< τ < τί+ι} с метрикой (55.19),
включающий все функции ^*[·] (55.18), которые только могут
случиться при всевозможных й[,'+11М, отвечающих выбранной
функции ι;[<+13(·). Такой компакт S существует. Рассмотрим
какой-либо элемент $#[*] ^ ^ и поставим ему в соответствие
множество #° [$#[·]] всех функций uCi+11[·]*, которые
удовлетворяют усцовию
тг+1 тг + 1
f <5*[T]-fe[i+1][T]*>dT= f min <Γ*[τ]·Λ>ίΙτ. (55.24)
Множество #°[5*t#]] оказывается выпуклым слабым^ком-
пактом. Можно проверить, что при изменении функции $*[·]»
которое оценивается в метрике (55.19), множества #° [$#[]]
изменяются полунепрерывно сверху по включению в слабой
топологии для ACi+1][-J.
Обозначим через Η множество всех возможных функций
А[<+11[·] (55.6), отвечающих фиксированной функции ι;[ί+11(·). Это
множество является выпуклым слабым компактом. Построим для
всякой пары {АП+11Н, £*[·]}, где iii+11[.]Gff,stJ.]ei, ее
образ — множество всех возможных пар {/&[·]*, s% [·]*}, где
й[Н13[.]*еЯ°^[']]и5;[.]*е^(^+1,[.]). Как и в § 42,
оказывается, что это отображение имеет неподвижную точку
U[i+13[.](0), £*Η(0)}. Отсюда на основании (55.17), (55.24)'
выводится неравенство
**(**, *·, т,+1| i;l*+H(.), "[ί!Μ, ΛΙΙ+11Η(β\ &k{yh β)<
<е(т*, *„, ть !*«](·), мЮ[.], Aft{Ti}, β)· (55.25)
Теперь из (55.25) и из следствия 55.1 вычгекает справедливость
следующего утверждения о стабильности программного
экстремума е (54.25).
Лемма 55.2. Пусть даны позиция {τ*, ζ*}, разбиение Д*{тД
отрезка [τ#, О], число β, зафиксированы момент τ* и
детерминированные программы ут(·), ютМ. Пусть выбрана какая угодно
детерминированная программа ι;π+13(·), продолжающая
программу *i;m(·), и указано какое-либо число η >0. Тогда найдется
детерминированная программа и[1+11Ы, продолжающая программу
цт[·], такая, что будет справедливо неравенство
«(τ*, **, τι+1, rfi+il (·), иВ+il [·], Afe{Ti}, β)<
<е(х*, ζ*, ть ι**1(0, "Ci3l·], Δ*{τ;}, β) + η. (55.26)
Это свойство стабильности величины е вместе с неравенством
(54.26) и равенством (54.27) позволяет доказать, что
программный максимин ρ (τ*, ζ*) (53.12) определяет цену игры р°(£*, х*)
согласно равенству (53.15). Конспект этого доказательства
составляет следующий параграф.
399
Заключая текущий параграф, сделаем такое замечание.
Стохастические программы определены в § 52 в этой главе также,
как это сделано в гл. IV в § 37 для рассматриваемого там
частного случая дифференциальной игры. Это позволяет в текущей
главе ссылаться прямо на аналогичные конструкции из гл. IV.
Однако, при этом возникают и некоторые неудобства. Они
связаны с тем, что замкнутость и выпуклость области достижимости
Λ(1)(ρ*(·)) (см. § 53), которая является аналогом области
достижимости W(v*(·)) (39.15), не вытекают так прямо из
конструкции этой области, как это было в § 39 в случае области W.
Это затруднение преодолено за счет введения
детерминированного обобщенного управления М·) и его аппроксимации
обыкновенными управлениями »[·] (см. § 55). Но возможен и другой
путь развития метода программного стохастического синтеза в
случаях из текущей главы. Можно с самого начала ввести
стохастическое обобщенное управление М·) и с самого начала
определить подходящее движение з[т# [·]ϋ,·] Для z-модели. Именно,
можно, определив снова стохастические программы ι;(·), как
функции (52.6), (52.7), обратиться затем к следующей
конструкции. Эта конструкция является стохастическим вариантом
построений из начала текущего параграфа. Пусть выбрана
некоторая стохастическая программа ν(·). Назовем программой М·),
согласованной с у(·), всякую (и+1)-мерную вектор-функцию
h (·) = {h (τ, ω), τ* <τ < 0, ω €= Ω}, (55.27)
которая удовлетворяет равенствам
Μ τ, ω) = &[τ, |1? ..., У, т^<т<^+11 у— Ι, ..., &, (55.28)
где hlx, |i, ..., ξ,·] суть функции, измеримые по совокупности
переменных τ, |1э ..., ξ* и удовлетворяющие вложениям
Μτ, |1? ,,., У е со [h: h =» {/(τ, и, ν[τ, и, |t, ..., У),
χ(τ, и, ι>[τ, и, ξι, ...,&])}, we Ρ], τ;<τ<τ,·+1, 7 = 1,..., к (55.29)
(при почти всех τ, |4, ..., |Λ). Β частности, программой Ы),
согласованной с р(·), будет вектор-функция
h(-) ={/г (τ, ω)={/ (τ, и (τ, со), ν (τ, и, ω)), χ (τ, и (τ, ω), ν (τ, и, ω))},
τ* < τ < θ, ω е Ω}, (55.30)
где α(τ, ω) — какая-либо стохастическая программа »(·) (52.8),
(52.9). При данной исходной позиции {τ*, ζ*}, назначенном
разбиении Ahixj} и выбранной программе ι;(·) какая-либо
согласованная с ν(·) программа й(·) определяет движение 2 [τ* [·]θ,·1 как
решение стохастического дифференциального уравнения
£*=Aix)z + h(%, ω) (55.31)
при начальном условии (52.18). Здесь Л(х) снова матрица (52.12).
И т. д. В соответствии с такой модернизацией, связанной с
переходом от программ и(·) (52.8), (52.9) прямо к программам Μ·>
400
(55:27)—(55.29), модернизируются понятным образом и
последующие конструкции. Однако при этом, несмотря на формальное
расширение пучка движений ζ [τ* [·]θ, ·], который отвечает
фиксированной программе р(·), сохраняют силу основные
утверждения о связи программного максимина ρ (t#, ζ%) и программного
экстремума е с ценой игры р° (£#* х*) „При этом, естественно, и
выражение для вычисления величины ^(τ^,ζ^,τ^, Afe{Tj}, β)
остается прежним. В то же время, обоснование утверждения об ю-
стабильности (теперь — й-стабильности) величины е в классе
обобщенных управлений й[тД]т^|) оказывается более компактным,,
чем приведенное выше в этом параграфе, так как не требуется
аппроксимации ЫтД ·]τ,+1) обыкновенными управлениями·
»[тД-1т;+1). Однако некоторые другие этапы рассуждений,
напротив, несколько усложняются. Например, приходится
привлекать то утверждение, что расширение класса допустимых
управлений u[t] в исходной задаче 8.1 от обыкновенных воздействий
до обобщенных воздействий — мер, подобных рассмотренным в;
§ 13*, не изменяет оптимального гарантированного результата
р2(**>я*) (8.10) в классе контрстратегий vu(·). Подчеркнем, чта
описанная сейчас модернизация класса стохастических программ
и движений проявляется только в характере рассуждений, и она
по существу не сказывается на вычислительных алгоритмах.
§ 56. Стохастический программный максимин как цена игры
Покажем сначала, что программный максимин р(т#, {ц?*, 0})>
(53.12) при τ* = t#, w% = х% мажорирует цену р° (t#, х±) исходной
дифференциальной игры {7.1; 8.1} при данных (52.1)—(52.3).
Пусть ιΛί, #, и, ε) — оптимальная контрстратегия. Пусть дана
исходная позиция {£#, х*}. Зададимся числом ξ>0 и выберем
параметр ε и разбиение Δ{£<), tx = t%, ift+i — tr так, что закон
управления
*°ζ=Κ(.),β,Δ{ί{}} (56.1>
гарантирует неравенство
γ = j* σ (τ, χ [τ]) μ (άτ) + \ χ (τ, и [τ], ν [τ]) άτ > ρ° (**, χ*) - ζ,
(56.2>
какой бы ни оказалась измеримая реализация
и[·] ={w[i]GP, ί*<ί<θ}. (56.3>
Зафиксируем начальную позицию {£#, z*}, где ζ% = {χ*, 0}.
Выберем число
β = ρ<>(ί*,χ*)-3ζ. (56.4)
Назначим разбиение Ак{%5] отрезка [τ*, ϋ] (τ* = t%) так,
что T; = £j (/ = 1, ..., k + ί). Вычислим величинуе (£#, ζ^ ί*,
Α*{τ>Κ β)· Построим детерминированную программу
у* (.) = {VW (τ,α)£ρ,ί,<τ<τ{,ϊ = 1,...,Η Ι}, (56.5)
26 н. Н. Красовский 404
которая определит подходящую реализацию ι;*[·] = {ν* [τ] =
= ι**ΐ (τ, uW [τ]), ί^< τ < xi% i=l, ...,ft+l} вместе с
подходящей реализацией
и [ ·] = {uW [τ] е= Ρ, f* < τ < ть i = 1,..., Л + 1}. (56.6)
Программу !;*(·) (56.5) построим, продолжая ее по шагам τ» < τ <
< Т{+1 параллельно с цостроением детерминированной программы
и[-] (56.6), которая определит реализацию управления иЫ.
При этом неизменная по τ при τ»·^ τ < τ»+1 функция ι;[ι+11(τ, и)
назначается в соответствии с законом (56.1) в виде
ι;[ί+13(τ, и) = ν°(τ*, ivlxH, и, ε), τ,^ τ< Ti+j, (56.7)
где ιυΙχ{]—компонента движения £[£* [·]Τ{], реализовавшегося
к моменту τ< под действием управлений vCi3(·) и ис<1Ы. А
измеримая функция к[<+11[·], продолжающая функцию и[<1М,
выбирается по функции vli+n(-) в соответствии с леммой 55.2 так,
чтобы выполнялось неравенство
«(**, **, т1+ь i>[i+1](·), ttcl+11[-]f Δ,{τ,·}, β)<
< е(**, *„, τ„ i;[il (·), ис<] [·], Δ,{τ,·}, β) + η, (56.8)
где
η = ζ/2ί;. (56.9)
Согласно (56.2) выбор программы ι;*(·) обеспечит выполнение
неравенства
J σ(τ, Ητ]|ζ[·1])μ(<Ζτ) +
ο
+ J Χ (τ, и [τ], ι;* (τ, и [τ])) dr > ρ° (**, **) - ζ. (56.10)
По смыслу величины r(-)CzCn (53.4) и по выбору числа β
(56.4) неравенство (56.10) означает, что справедливо неравенство
J σ (т, w [τ]№1]) μ (dr) + r^'i" > р° (f *, хт) - ζ - β + 2ζ.
(56.Н,
По определению множества Лр2) (53.6), которое является
замкнутым, и по определению величины α (έ*, ζ*, ν*(·)ι и[·],
А{ТЛ» β) (53.7) неравенство (56.11) означает, что в
рассматриваемом случае
«(*·.*·,»*(·). "Η, Δ {τ,}, β)>0. (56.12)
А это, согласно материалу из § 54, означает, что справедливо
равенство (54.27).
С другой стороны, согласно (56.8) указанный выбор функции
мМ обеспечит с учетом (54.27) выполнение следующего нера-
402
венства:
α (**, ζ», ν* (·), и [.], ΔΛ{τ,·}, β) =
= e (ί*, zm, θ, у* (·), и [■], Аь{т,·}, β) - β<
< ^ (f φ, ζ*, ί*, Δ^{τ,}, β) + кц - β. (56.13)
Функция σ(£, д:) в (52.3) удовлетворяет условию Липшица по
х с постоянной λ (52.5). Поэтому в соответствии с известным
неравенством ([23*1, с. 69) (см. также (54.52)) и с учетом (52.5)
справедлива следующая оценка:
j σ(χ,ιν[τ^)μ(άχ) + Γ^-
и*м
— j σ (τ, w [τ]) μ (dx) — г„+1
[**,#]
<
<
J I α (τ, w [т][г[") - σ (τ, w [τ]) | μ (dx) + | |ДО - rn+11 <
[<*,»]
< J λ^)\ιν[χ]ι^-ω[χ)\μ(άχ) + \τίηζ1+Ρ-Γη+1\<
[**,·]
<ί f \w[x]lzl-b-w[x}\Wr)f* + \rl£}]-rn+1\<
\lt*fil
< 1 г(.)№"_ г(·) 1, (56.14)
каков бы ни был элемент г (·) = {w(·), rn+1}e4· По смыслу
величины α (53.7) и множества i?p2), из (56.14) получаем
неравенство
J σ(τ,^[τ]ί2ί«)μ(ώτ) + Γ[ι%1]3-β<
[** ,0]
<α(ί*, *„ ι;* (.), и Η, Δ {τ;}, β). (56.15)
А это неравенство по смыслу образа г[*И1(·) и вследствие
оценок (54.26), (56.9) и (56.13) означает, что справедливы
следующие соотношения:
J σ (τ, w [τ][,['13) μ {άτ) + J χ (τ, и [τ], ν* (τ, u [τ])) dt - β <
<*(**, **, **, Δ^{τ^,β) — β + Ατη<α(ίΗί,2Ηί, Afe{x^}, β) + Ατη<
<а(^,^, ΔΛ{τ^,β) + ζ. (56.16)
Из (56.16) по выбору числа β (56.4) следует неравенство
J σ (τ, w [τ][2ΐ]1) μ (Λ) + J χ (τ, ζ* [τ], ι;* (τ, u [τ])) dx <
Κ*,θ] f*
< α (t*, zm, ΔΛ {^}, β) + Ρ° (*», **) - 2ζ· (56.17)
26* 40a
Из (56.10)—(56.17) вытекает неравенство
α (**, *·» ΔΑ{τ,·}, β) > ζ > 0. (56.18)
По определению величины р(£#, ζ*, ΔΛ{τ,·}) (53.11)
неравенство (56.18) означает неравенство
Ρ (**, **, Δ* {τ,·}) > β = р° (f*, **) - 3ζ. (56.19)
Вследствие произвольности выбора ξ > 0 это и дает
мажорантное соотношение для цены игры р°(**» ##) через
программный максимин р(*#, ζ*, Ah{Tj}).
Выведем теперь минорантное соотношение. Выберем число
β = р° (*·■*·) +С- (56.20)
Для отрезка [£*, Щ будем выбирать разбиения Δ*{τ,}, шаг
которых 6fe>0 настолько мал (δΑ^δ), что при подходящем
зафиксированном значении ε > 0 всякий закон управления
<г/; = {и°(·), ε, ΔΛί,», (56.21)
где и°(·) есть оптимальная стратегия и Xj — tjj гарантирует
неравенство
V ~ j а(т,ж[τ]) μ {άτ) + \ χ (τ, и [τ], ι; [τ]) dr <
<ρ° (**,**) +ζ, (56.22)
какой бы ни оказалась измеримая реализация
ν[·]={υΙτ\ ~Q, **<τ<θ}. (56.23)
Пусть ι;*(·) —какая угодно стохастическая программа.
Сформируем стохастическую программу и(-) на основе закона
управления °U\ (56.21) подобно тому, как это описано в частном
случае в § 44. Тогда для всякой реализации z[t* [·] ir; ω]
стохастического движения ζ(·), порожденного из позиции {£#, {х%, 0}}
рассматриваемой парой программ »*(·) и и(·), будет согласно
(56.22) выполнено условие
J σ (τ, w[x, ω]) μ (άτ) + J χ (τ, и (τ, ω), ν (τ, и (τ, ω), ω)) dx <
<ρ°(ί*,**) + ζ. (56.24)
По определению множества Β.ψ til величины α (τ*, z*, Afe{tj}t β)
(53.9) неравенство (56.24) при τ* = t* означает, что
α(*„*„ΔΛ{τ,},β) = 0. (56.25)
А равенство (56.25) в свою очередь означает неравенство
ρ (*„, zm, Аь{т,·}) < р° (**, xj + ζ. (56.26)
Вследствие произвольности выбора ξ > 0 это и дает
минорантное соотношение для цены игры ρυ (£#, х*) через программный
максимин p(f*,, z%, Δ* {τ,·}).
404
Итак, мы установили, что при всяком выборе числа ξ>0
можно указать число δ(ξ) > 0 так, что справедливы неравенства
(56.19) и (56.26), если только разбиение ΔΛ{τ,} отрезка [£#, Щ
удовлетворяет условию
k+i - til < δ(ξ), 7 = 1,..., к. (56.27)
Но отсюда прямо вытекает справедливость теоремы 53.1.
Доказанная теорема 53.1 благодаря оценкам (54.26), (54.27) и
(56.13) означает также, что справедливо следующее утверждение.
Теорема 56.1. Пусть дана позиция {τ*, ζ%} и выбрана
капая угодно последовательность разбиений Δ& {τ,·^} (k = 1, 2, ...),
удовлетворяющая условиям (52.34), ($2.35). Пусть
ψ(τ#, *„ Ah {τ?0}) - sup β, fefi* (τ*, *„ Afe), (56.28)
Β* (τ*, *„ Δ*) = [β: e (τ*, ζ*, τ», Δ^τ,·}, β) > β]. (56.29)
Тогда существует предел
ψ(τ*, ζ*) = Нт^(т*, ζ*, ΔΛ{τ^)). (56.30)
fe->oo
Он не зависит от выбора последовательности {Δ*} и связан
с ценой р°(£*| #*) исходной дифференциальной игры {7.1; 8.1)
Φ (**,{*·, 0})-р°(**, *„), (56.31)
какова бы ни была позиция {£#, ##}е 6.
Величина ψ (56.28) связана с программным максимином
(59.11) равенством
ψ(τ*, ζ*, Δ^ {τ*}) = ρ (τ*, ζ*, Δ^{^}). (56.32)
Данное утверждение вытекает по определению величин ρ
(53.11) и ψ (56.28) из неравенства (54.26) для е и α и из
неравенства для е и α в противоположную сторону, верного при
а>0. Последнее неравенство проверяется рассуждениями,
подобными рассуждениям из §§ 39, 50 (см. леммы 50.1, 50.2) § 54.
При этом возникают лишь небольшие изменения в указанных
рассуждениях. Главное из этих изменений проявляется в том, что
область достижимости Д(1)(у*(·)) заменяется ее выпуклой
замкнутой оболочкой со Д(1)(у*(·)) в пространстве 31 (см. в связи
с этим замечания в § 55).
§ 57. Квазиканонический случай. Цена игры
В качестве примера вычисления цены р°(£, х) позиционной
дифференциальной игры и построения для этой игры
оптимальных стратегий и°(·), ι>°(·) методом стохастического программного
синтеза рассмотрим квазиканонический случай из § 34. В
согласии с (34.1) будем предполагать, что уравнение движения имеет
вид
χ = A(t)x + B(t)u + C(t)v, (57.1)
405
причем векторы управления и = {ии ..., и,} и помехи ι; =
= ivu ..., ι;,} не стеснены заранее никакими ограничениями.
Показатель качества γ (34.2) выберем таким:
V = j [<и [τ] -Φ (τ) и [τ]> - {ν [τ]. Ψ (τ) ν [τ]>] dx + \ χ [θ] |, (57.2>
и
где квадратичные формы <и · ФШи> и <ν·Ψ(ί)ι>>
удовлетворяют условиям (34.3), (34.4). Согласно теореме 34.1
дифференциальная игра {7.1; 8.1} для системы (57.1) при показателе γ
(57.2) имеет цену р°(£, х) и седловую точку {и°(0, ι;°(·)}, которая
складывается из пары чистых стратегий u°(t, #, ε), ν°(£, #, ε).
Более того, согласно материалу из § 34, цена р°(£, х) и
оптимальные стратегии и°() и у°(·) для рассматриваемой
дифференциальной игры совпадают с ценой р°(£, х)м и оптимальными
стратегиями и°(-)м и ι>°(·)μ для дифференциальной игры {7.1; 8.2}
для такой же системы (57.1) при таком же показателе γ (57.2),.
но уже в каноническом случае, когда управление и и помеха ν
стеснены ограничениями
М«ЛТ, \ν\<Μ. (57.3)
Здесь число Μ удовлетворяет условию
М>М0, (57.4>
в котором Μ о — достаточно большое число, определяемое
параметрами уравнения (57.1) и показателя γ (57.2). Для данных
уравнения (57.1) и показателя γ (57.2) выполнено условие (8.14)
седловой точки маленькой игры. Поэтому цена р°(£, х)м
дифференциальной игры {7.1; 8.2}м совпадает с ценой
дифференциальной игры {7.1; 8.1}м для той же системы (57.1) при том же
показателе γ (57.2). Таким образом, вычисление интересующей нао
цены игры р°(£, х) сводится к вычислению цены р°(£, х)м такой
игры {7.1; 8.1}м, для которой выполнены все условия из §§ 52—56.
Поэтому можно было бы Боспользоваться прямо методом
стохастического программного синтеза в форме, обоснованной в
предыдущем параграфе. Однако в рассматриваемом частном случае
системы (57.1) и показателя γ (57.2) построения из §§ 52—56
можно упростить, изменяя множество стохастических программ
ν(-) и и(-) и выбирая подходящие пространства 52 и множество
в нем. Отметим эти изменения без подробного обоснования.
Прежде всего вследствие выполнения условия (8.14) достаточно
ограничиться лишь программами
v( ·) = Ыт, ω) = ι>[τ, ξι, ..., Ы; τό < τ < τ,·+!, / = 1, ..., к). (57.5)
Программы и(), как и в общем случае, будут иметь вид
и(-) = Ыт, ω) = ц[т, gi, ..., &]; τ,^τ<τ,+1, / = 1, ..., к). (57.6)
406
Теперь значения измеримых неупреждающих функций и(т, ω)
и ι? (τ, ω) ограничим лишь неравенствами
f |κ(τ, ω)|2Ρ(άο)<#,
^ (57.7)
f 11; (τ, ω)|2Ρ(Λο)<#,
Ω
где jRT — достаточно большая постоянная, значение которой
уточним ниже (см. условия (57.26), (57.27)). Слагаемое J σ(τ,
ζ[τ])μ{άτ) из показателя γ (52.3) обращается в величину Ы0]|
в показателе (57.2) при условии, что σ(τ, χ) = \х\ и выбрана
мера μ(Γ), которая удовлетворяет равенствам^ μ(ί = θ) = 1,
μ([ί0, ΰ,)) = 0. Если выбрать пространства & и 3? в их общем
виде из предыдущих параграфов, то теперь значения м;Дт, ω) и
7у(т, ω) при τ<0 не будут играть никакой роли. Поэтому здесь
целесообразно сразу упростить 9ί и S7, выбирая в качестве
компонент иК·) и Ζ(·) элементов г(-) и Г() не случайные функции
от времени τ, а случайные величины. В связи с этим
пространство 91 составим теперь из элементов
r(-)«{ri(-)f ..., Гп(·), Гп+1} = {!!?(·), Гп+1} =
= {м;(<о) = {^!(ω), ..., α?η(ω)}, ω^Ω; r^+1} (57.8)
с нормой
|Γ(·)Ι=^|«'(ω)|,Ρ(Λ)Λ1/, + |ΓΒ+1|-|Η;(.)! + |Γη+1|. (57.9)
Множество R& определим условием
| w (ω) |2 Ρ (До) У* + rn+1 < β. (57.10)
Ω
(Ι
Пространство 9? строится теперь из элементов
Γ(·) = «,(·),..., Μ·), Гп+1> = «(·), Γ„+1> =
= {Κω) = {Ζ,(ω), ..., Ζ„(ω)>, ω s Ω; Γη+1> (57.H)
с нормой
|7(·)Γ = maxr/J|Z((o)|2P(dW)y/2, |T«+1|1-
= max[|Z(.)fl*,|T„+i|]. (57.12)
Образом r(-)ti()1 для движения ζ(·) = {w(x, ω), гте+1(т, ω);
τ# ^ τ ^ θ, ω е Ω} будет служить элемент
Γ(.)Ν·>] = {«,(.)«», гй-ίΜ = {»(θ, ω), «eQ; Μ{ζ„+1 (θ, ω)}}.
(57.13)
407
Величина, е(τ*, ζ%, τ*, ι>*(·)> и[·], Δ&{τ>}, β) (54.25) прици-.
мает вид
е(х*, ζ*, τ*, ι;* (·), и [.], ΔΛ{τ,·}, β) - sup <**·ιρ*> + ζ*η+ι +
ικ(οιι*^ι L
τ*,
+ J [<*„ [τ] - (Β (τ) u [τ] + С (τ) ι; [τ])> +
+ <w [τ].Φ (τ) и [τ]> - {ν [τ]. Ψ (τ) ι; [τ]>] dx +
+ J Μ {min max [<s (τ, ω)·(£(τ)Μ + С (χ) ν)} + <μ·Φ(τ)μ> —
— <ν - Ψ (τ) ι;>]} <Ζτ — sup [Μ «Ζ (ω) · μ; (ω))} +
+ rn+i\ \ + β = sup <** - W*} + **η+ι +
τ*
+ j К** [^ · (β (τ) u[x] + C (τ) ρ [τ])> +
τ*
+ <w [τ].Φ (τ) и [r]> - <y [τ].Ψ (τ) ν [τ]>] dt +
+ J Μ imin max [<* (τ, ω) · (Β (τ) и + С (τ) ι;)> +
+ <и-Ф (τ)и} — <ι;·Ψ (τ) ν}}} άτ =
= е*(т*,2*, τ*, !;*(·), и[·], A^tj}). (57.14)
По определению величины е равенство (57.14) справедливо
при условии, что правая часть (57.14) не меньше, чем β (см.
§♦ 54), т. е. при условии
е*(т*, zm, τ*, !;*(.), иί·1, Δ^{τ,})>β. (57.15)
Здесь
s* [τ] - Χ' [θ, τ] Μ {Ζ (ω)}, s* = *„ [τ*] = Χ' [θ, τ*] Μ {Ζ (ω)}, (57.16)
*(τ, ω) - *[τ, ξχ, ... f ξ,·] = Χ' [θ, τ]Μ{Ζ (ω) |ξ1§ ... , &,
Xj < τ < Ti+1, / = 1, ... , к. (57.17)
В качестве ι>*(·) и и[·] в (57.14) допустимы измеримые
функции
^(•)={Ит],|Ит]|<М, τί|ί<τ<τ*}, (57.18)
и(.) = {и[т], |и[т]|<М, τ*<τ<τ*}. (57.19)
Число ilf выбрано так, что для него выполнено условие (57.4)г
которое обеспечивает равенство р° (£#, χ*) = ρ° (£#, х*)м- При этом
408
полагаем также, что число Μ удовлетворяет следующему
условию. При всяком возможном значении s* [τ] (57.16), отвечающем
элементу Ζ(·) с нормой ΙΙΖ(·)ΙΙ* ^ 1, решение и? и ν% задач на
минимум
<*» [τ] ·В (τ) и°ху + <и?.Ф (τ) и?> -
= min [<s* [τ] · В (τ) и} + (и-Ф (τ) и)] (57.20)
U
и максимум
<s# [τ] ·С (τ)ν°τ}-< ν%■ Ψ (τ) ν?> = max f <s# [τ] ·С (τ) ρ> - <у · Ψ (τ) ν}]
(57.21)
удовлетворяет неравенствам
\u°\<M,\v0x\<M. (57.22)
Наряду с величинами и%, υ% из (57.20), (57.21) рассмотрим
также решения и?1<в и ι>?>ω следующих задач на минимум
<?(τ, ω)·5(τ)<ω> + <«?,«,·Φ(τ)<ω> =
= min [<s (τ, ω) Β (τ) w> + <Ц Φ (τ) и>] (57.23)
u
и максимум
<* (τ, ο>) · С (τ) Ρ·,.> - <<ω· Ψ (τ) ι4,·> =
= max[<s(τ, (й)-С{%) ν> — <ι;·Ψ(τ) ν}). (57.24)
Так как функции $(τ, ω) (57.17) по свойствам элементов Ζ(·)
не являются равномерно ограниченными по модулю |$(τ, ω)| при
всех возможных Ζ(·) с нормой ΙΙΖ(·)ΙΙ*<1, то в отличие от и? и
vl все возможные решения w?f(0 и ι;?>ω задач (57.23) и (57.24)
не могут удовлетворять условию, аналогичному (57.22). При
условии ΙΙΖ(·)ΙΙ*<1 функции s(x, ω) оказываются лишь равномерно
ограниченными в среднем квадратичном по ω е Ω, т. е.
существует число Ка такое, что справедливо неравенство
f|*(*. ω)|2Ρ(<*ω)<#3, - (57.25)
Ω
какова бы ни была возможная функция $(τ, ω) (57.17),
отвечающая элементу Ζ(·) с нормой ΙΙΖ(·)ΙΙ*<1, и каково бы ни было
значение τ е [τ*, θ). Вследствие определенной положительности
квадратичных формЧи · ФШиУ и <ι;·Ψ(ί)ι;> из (57.25) вытекает,
что все возможные решения w?f(fl| i;?t(D задач (57.23), (57.24)
удовлетворяют условиям
ίΚω|2Ρ(ώω)<#, (57.26)
Ω
\\ν°Χίϋ>\2Ρ(άω)^Κ, (57.27)
Ω
409
каково бы нд было значение τ ^ [τ*, #). Здесь К — достаточно
большое число. Это число и выберем в условии (57.7).
В согласии с (57.14) введем величину
**(**,**, ^*»дьЫй)})== sup [<s*-m;*> +
IU(-)II*<i L
<>
+ J Μ (min max [<s (τ, ω) · (Β (τ) и + С (τ) у)> +
τ* I u v
+ <и-Ф (τ) и} - <ι;·Ψ (τ) ν}]} dx\ + zmn+u
2* = {ιν*, ζ*η+1}. (57.28)
Повторяя рассуждения из § 56 для упрощенного здесь
варианта пространств 52, i? и для нового множества ϋβ (57.10) и
опираясь теперь на оптимальную стратегию ΐ7°(·) из § 34,
убедимся в справедливости для рассматриваемого варианта игры
следующего неравенства
^* \^#' ζ#> τ*' ^fe l^j 1/^P v^*' *r*) ζ» ^* = **' z* == ι3'*» Чг
(57.29)
Обратимся к вычислению величины е*. Решая стандартным
образом задачи на максимум и минимум для подынтегрального
выражения, т. е. задачи (57.23) и (57.24), получим
max [(s (τ, ω). С (τ) ν} — {ν · Ψ (τ) ι;>] =
^ (s (τ, ω). Νν (τ) s (τ, ω)>, (57.30)
min [<5(τ, ω) · Жт)и> + <u · Ф(т)и>] =
= <*(τ, ω) -^(τ)δ(τ, ω)>, (57.31)
где NUM и Νυ(τ) суть матрицы
^(τ)=χ^(τ)ψ-1(τ)(?'(τ),
, (57.32)
^(τ) = -χ^(τ)Φ_1(τ)5'(τ).
Обозначим
NM=NUM + NVM. (57.33)
Теперь величина е* (57.28) с учетом (57.15), (57.17), (57.30),
(57.31), (57.33) получает следующие выражения:
е* (τ*, ζ», τ*, Аь{т^}) = sup <s*-w*> +
ll«-)ll*«a L
+ fM{<s(T, ca)-N(r)s{T, ω))}άτ \ + z*n+1= sup <Sil!. ^ > +
τ* J ll!(-)l!*«l L
410
+
ft Ti+X "1
2 J М{<*[т,61,...,6].ЛГ(т)«[т,|1,...,у>}Л +
+ z*n+i = sup <™*-р*> +
+ Σ f M{<mB1,...^i].-rtTl|l(T)iii[glf...,gJl>>Λ +«·«+ι.
где (57.34)
7^=Μ{Ζ(ω)}, (57.35)
ρ*==Χ[θ, т*]и;*, (57.36)
^[|ι, ..., y=MWW)l|i, ..., &>, (57.37)
ΛΓ» (τ) = Χ [θ, τ] ΛΓ (τ) Χ' [θ, τ]. (57.38)
Обозначим
<r(gt, ..., Ы = JfitSt, ..., ξ,] - rntgt, ..., ξ,-J, / = 1, ..., fc, (57.39)
причем для 7 = 1 полагаем
e(6i)«ro[6j-i»*. (57.40)
Рассмотрим случайную вектор-функцию /τι(τ, ω),
определенную равенствами
т (τ, ω) = m*, τ < τ*, (57.41)
i
m (τ, ω) = m [ξχ, ... , 1Д = τη* + 2 α (ξ1? ... , ξ{),
τ,- < τ < τ,·+1,; - 1, ... , к. (57.42)
Она удовлетворяет условию
МЫ(т, ω)Ι/τι(η, ω)1 = /η(η, ω), τ>η (57.43)
и является, таким образом, мартингалом ([29*1, с. 467).
Из (57.34)—(57.42) следует равенство
**(τ*, s*, τ*, Δ^ {τ^}) = sup <ιλ*·ρ»> +
l|m«V)ll*<l L
ω) · JV* (τ) m (τ, ω))} ώτ + ζ#η+ι. (57.44)
τ* J
Подставляя в (57.44) выражения из (57.39) для т[%и ..., %Ц
через α(|ι, ..., ξ,·) и учитывая равенства
M(a(|lf ..., |i)l|i, ..., 1,-i) - 0, / —1 *, (57.45)
411
z#w+l^
получим следующие соотношения:
Γ * Υ1
= sup <т*-р*>+1] М{<771*.Л^(т)ти*>}<гт +
lll(-)!!*^iL i=itj
+ Σ ί MJil<a(6lf...f61).^(i)a(6lf...fb)>}* +
5=1 τ/ ·*-ι > J
= sup f<w#-p<i> + <ml|t-F(Tl|t)7iil|t> +
I1K')II*<iL
+ Σ Μ «α fo, ... , ξ,) · F (τ,) a (glf ... , ξ,)»] + *,»+ι, (57.46)
i=l J
где
F(T)-JJV,(4)*1. (57.47)
τ
Ограничение HZ(-)H*<1, или —что то же самое —
ограничение (IU(-)il*)2^ 1 в выражении через тп% и a(|lf ..., |j)
принимает вид
(|ί(·)Ι*)2-Ι"»·Ι,+ ΣΜ{|α(|1,...,|,)|»}<1. (57.48)
г=1
Таким образом, вычисление величины е% (57.28) сводится
к задаче о максимуме линейно-квадратичного функционала (57.46)
от набора переменных
Ж = [τη* α (ξ1? ... , li); lj s [0,1); / = 1, ... , ί, ι = 1, .. . , к]
(57.49)
при квадратичном ограничении (57.48). Решение этой вадачи
существует, т. е. существует набор
j*°-{i»;,a°(·». (57.50)
который дает функционалу (57.46) максимум. Этот набор «s$a
имеет следующий характер. Пусть λ* есть максимальное
собственное число среди всех собственных чисел ([4*], с. 58) всех
матриц Fiti) (ί = 1, ..., k+i). Из вида матрицы Fit) следует,
что всегда λ* > 0. Если
λ* = 0, (57.51)
то максимизирующий набор S& имеет вид
^°-К, a0(6i,.-.,6i)-{0, ...,0}; 6iS[0fl)f
/ = 1, ... , г; i = 1, ... , &}, (57.52)
. 412
причем т\ — решение задачи на максимум
<<-Р*> + <<-Р (**)<> = '
= max 1<и*-Р*> + <jn.F(x*)iny\. (57.53)
ΙτηΚΐ
Пусть
λ*>0 (57.54)
и это число λ* является максимальным собственным числом для
матрицы Р(тд). Тогда максимизирующий набор St>° имеет вид
Ж* = {//го, ао (gif ... f у - ad), ξ, е [0, α), α° (ξΐ9 ... , ξ,) - α»,
ξ, ε [α, 1), α° (ξ1? ... , Ь) = {0, ... , 0}, f # <?}. (57.55)
Здесь α(1), α(2) суть собственные векторы ([4*], с. 58) матрицы
Р(тд), отвечающие собственному числу λ = λ*, α^(0, 1) —
некоторое число. Эти параметры удовлетворяют равенствам
αα(1) + (1-α)α<2) = 0, (57.56)
а | д<1) |« + (1 _ а) | а& |2 - (l — | ml |2). (57.57)
При этом получается
е*(т*> **, τ*, Afe{τ,}) =
= <ι»ί·Ρ*> + <mj -F (τ„) mj) + λ* (α | α<ι> |2+ (1-α) | α<»> |2) + *φΛ+ι -
- <<'Ρ*> + Χ-F (Ч) <> - λ* | ml |2 + λ* + *,»+1. (57.58)
Отсюда вытекает, что вектор ml является решением
следующей задачи на максимум:
<т1.рт> + <т1.Р(хт)т1>-К*\т'\%-
= тах [<т-р*> + (m-F(%*)my — λ* | т\2]. (57.59)
\т\<1
Заметим, что по выбору числа λ* максимизируемая функция
оказывается вогнутой по т.
Согласно (57.55)—(57.59) для случайной функции т°(х, ω)
(57.42), которая отвечает максимизирующей случайной величине
Ζ°(ω) из (57.34), получаем следующие равенства:
/№°(T,ft)) = ^[^...,^] = < τ*<τ<τ,·, /<g, (57.60)
ι»β(τ,ω)-ϊΐι(1)Β1, ...,£;] =m(1) = /< + a(1), lq e= [0, α),
ιιι·(τιω)-ιιι(2)Β11 ..., У = ти(2) = < + α(2), |ge=[a,l),
τ</<τ<τ;+1, />g.
Важно отметить, что векторы m{i) и яг(2) можно выбрать так,
что будут выполнены равенства
lm(1)l = l, |т(2>| = 1, (57.62)
т. е. для максимизирующей случайной векторной величины Ζ°(ω)
получаем условие
vrai sup | Ζ° (ω) | = 1. (57.63)
ω
413
Это условие позволяет, повторяя с небольшими изменениями
рассуждения из § 56, получить и неравенство
«* (τ*, ζ*, τ*, Ah{τ,·}) < p° (**, ж*) + ζ, τ* = ί*, ζ* = {**, 0}.
(57.64)
Но тогда из (57.29) и (57.64) получаем равенство
lim е* (ί*, {χ*, 0}, i*, Ah {τ,·}) = р° (f*, ж*). (57.65)
Итак, вычисление величины е* (57.28) сводится к решению
задачи на максимум (57.58). Отсюда согласно (57.65) без
больших трудностей получается значение цены р°(£#» х*) для
исходной позиционной дифференциальной игры. В самом деле,
обратимся к матрице (57.47). Пусть λϋτΐ есть ее максимальное
собственное число. Обозначим
λ* =λ** = max λ [τ] = λ [τ]. (57.66)
Включим число τ = τ (τ*) в совокупность {τ^} точек τ,·*0
разбиения ΔΛ{τ^} отрезка [τ*, *], если λ*>0. Если λ* = 0, то
при любом разбиении Aft {τ^} согласно (57.52), (57.53) имеем
**(τ*> Ч, τ*> Aft W®]) = max [<jn.p*y + (m-F(x*)m>\ + z+n+i-
(57.67)
Стало быть, и величина программного максимина
Ρ(τ*> **) = Иш **(τ*, 4ι τ*, ΔΛ (т#°}) = е*(т*, ζ*, τ*, Afe {^fe)})
fc-»oo
βΑ-»0
(57.68)
будет решением такой же задачи на максимум
Ρ (τ*, *♦) = max [(иг-р*) + <m-F(x^)m)] + z#w+1. (57.69)
Если λ*>0, то при любом выбираемом разбиении Δ^τ/1}
согласно (57.58), (57.59) имеем
е„:(т#, ζ*, τ*, Afe{T#°}) =
= max [(τη-ρ*) + <m-F(T*) /τι> - λ* \m\2] + λ* + *,η+1. (57.70)
\τη\<1
Стало быть, и величина программного максимина ρ (τ*, ζ%)
будет решением такой же задачи на максимум
ρ(τ*> ζ*) =
- max Кт-рхУ + (m.F(x*) τη} - λ* | m\2] + λ* + ζ*η+1. (57.71)
|m|«l
414
Оба равенства (57.69) и (57.71) для любой позиции {τ#,ζ}=*
= {τ#> iw> zn+i}} можно объединить одним равенством
ρ(τ*,ζ) =
= max [<m· p) + (m-F (τ*) m} — λ* | m |2] + λ* + ζη+1. (57.72)
Здесь ρ = Χ [θ, τ*] w.
Задача (57.72) является задачей из выпуклого
программирования ([22*], с. 133). Ее решение для систем не слишком
высокого порядка возможно с помощью доступных ЭВМ.
Итак, цена р° (**>#*) рассматриваемой игры определяется
равенством
Р° (**,**) = Ρ (**,{**, 0}) =
= тах[(т.Х[Ъ, t*]x*) + (m-F (t*)m} — K*\m\2] + λ*. (57.73)
Этим решается вопрос о вычислении искомой цены игры р°(£, х)
для всякой позиции {£, х), которая может встретиться как
начальная или текущая.
В заключение параграфа отметим следующее. Аналогично
решается задача о вычислении цены игры р°(£, я), когда
показатель γ имеет вид
θ
V = J [<и [τ] ·Φ (τ) и [τ]> - (ν [τ] -Ψ (τ) ν [τ])] άτ + \ Όχ Щ |, (57.74)
t+
несколько более общий, чем (57.2). Здесь D есть какая-либо
матрица, может быть, особая. Разница в ходе решения будет
состоять только в том, что роль элементов г() (57.8) будут играть
элементы
г() = Ши?(·), гя+1}
с нормой
||r(.)||=/d^(W)|2P(da>)y/2 + |rn+1|,
(57.75)
(57.76)
а роль элементов Г() (57.11) — элементы
Г() = {Ш·), Г„+»}
с нормой
||T(0| = maxr/||i)Z(W)|2P(dW)y/2,|7n+1|
(57.77)
(57.78)
Это вносит понятные изменения в выкладки.
В результате оказывается, что цена игры р°(£#, х*)
определяется равенствами
Ρ (£#> ##) =
=* max [(Ότη-ΌΧ[ϋ, t*\x*> + (Dm-F(t*)Dm)\, (57.79)
\Dm\ <1
41S
^если выполнено условие (57.51), и
Р°(** ##) = max [(Dm-DX[$, *#]#*> +
+ (Dm.F(t*)Dmy — λ* | Dm\* + λ*], (57.80)
если выполнено условие (57.54). Здесь λ* есть максимальное
среди чисел λίτΐ, ί* <1τ<;θ, которые являются решением
следующей задачи:
λ [τ] = max {Dm-F(τ) Dm) (57.81)
m
при условии
\Dm\2 = i. (57.82)
При этом матрица Fix) определяется теперь равенством
^(τ) = ]DN*{4)D'dr\, (57.83)
τ
где Ν* (τ) есть матрица (57.38).
§ 58. Квазиканонический случай. Стратегии
Обратимся к построению оптимальных стратегий
ιι0(·) = {ι*°(ί,*,ε)>, (58.1)
ρ·(.)- {ι/4ί,*,β)> (58.2)
методом стохастического синтеза в рассматриваемом
квазиканоническом случае. Пусть
S — {?i, ..., ?п, ?λ+ι} = {^, 0) —ζ = {ζ —ы;, — 2nfi>. (58.3)
Позицию it, #}, для которой вычисляется значение ю°(£, #, ε),
на время зафиксируем. В этом параграфе она будет играть роль
позиции {Tjj., ярт*]}, которая определит ту сопутствующую
позицию {τ*, ζ*} = {τ*, w%,z*n+i}> которая фигурировала в §§ 52—
57 как исходная для вычисления рассматриваемым методом цены
игры p°(f*> w*)· Такую позицию {£, х) здесь удобно обозначить
именно {τ*, ^[τ^.]} и трактовать как текущую позицию {i, xlil),
которая сложилась в момент t = τ* в ходе реальной
позиционной игры. Итак, позиция {τ*, лг[т^]} будет исходной для
назначения начальной позиции {τ*, ζ*} в z-модели для
вспомогательной программной конструкции. Ее не следует путать с исходной
позицией {t%, х%} в χ — объекте для рассматриваемой
позиционной дифференциальной игры. Выбираемая в этом параграфе
исходная позиция {Tju, #[т.|.]} для построения вспомогательной
программной конструкции может совпасть с любой текущей
позицией {&, xlti]}, которая случится в объекте в ходе игры и для
которой потребуется вычислить значение и°(£», хШ, в) или
р°(й, xlt{], ε). В связи с этим время в позиционной игре мы,
как правило, обозначаем через t. Переменная t меняется в пре-
416
делах ίχ^ί^,ϋ. Время во вспомогательных задачах, как
правило, обозначаем через τ. Переменная τ в этом параграфе
меняется в пределах τ* ^τ^θ(τ* — ij), причем может быть i =
= 1, ..., к. Согласно материалу из §§ 33, 34 для вычисления
функций u°(t, χ, ε) и v°(t, χ, ε) в позиции t = τ*, χ = χ[τ#]
надлежит прежде всего найти векторы
Й - К, *S,n+i) - 1{* [τ*], 0} - 4W)), (58.4)
si - К ^ж+1} - l{x[Tjf 0}- ζ(Λ (58.5)
(u) (ν)
где ζ# ηζ;' суть сопутствующие точки, для которых
выполняются условия
Ρ-(τ*> 4U)) = min Ρ(τ*>*)> (58.β)
Ι{*Ετ*],ο}-ζ|<η[τ*]
Ρ (τ*, 4ϋ)) =, шах r Ρ (τ*, ζ), (58.7)
причем
η2[ί] = [ε + ε(ί - ί0)] exp {2λ(ί -10)}, (58.8)
(Обратим внимание, что в этой главе Ы+ 1)-мерный вектор
{я, 0} — ζ мы обозначим не через s = {Ζ, $η+Λ как это было в
гл. III, а через ? = {s, ?п+1}; стало быть, вектор s является
теперь w-мерной составляющей вектора s.)
Величина ρ (τ*, ζ) определяется равенством (57.72).
Обратимся сначала к вычислению оптимальной стратегии
в°(·) (58.1).
Из (57.72), полагая в согласии с (58.3) ζ=[χ[τ^]— s, — sn+il,
получаем
ρ(τ*, ζ) = тах[(т.Х[% <Ζχ](χ[τ*] — s)} +
\т\<1
+ <jn · F (τ*) m} - λ* | m |2] + λ* - 7n+1. (58.9)
Поэтому вектор s£ (58.4) определяется из решения
следующей задачи на минимум:
max[<m.X[ft, τ*] (я[τ*] —s°u)) +
lm|4il
+ <ΐΛ^(τι>)ιιι>-λ*|ϊΛ|ί + λ*-?ί§„+1]«
= min max [(m-X [θ, τ*] {χ [τ*] — s)} + .
+ (m-F^) m> — λ* Ι w|2 + λ* — 7«+ι]. (58.10)
Функция под знаком мипимакса вогнута по
максимизирующей переменной т и выпукла по минимизирующей переменной s.
Поэтому согласно известной теореме ([11*], с. 42) операции ми-
27 н, Н. Красовский 417
нимума и максимума можно переставить. Таким образом, имеем
ρ (τ*, ζ(#Μ)) = max min [(m-X [θ, τ*] (χ [τ*] — s)> +
Ι™^1 Γϊ|<η[τ»]
+ <m.F (τ*) w> — λ* I m |2 + λ* — 5η+1]. (58.11)
Решая задачу из (58.11) на минимум по s при
фиксированном векторе т, получим для минимизирующего вектора sL =
= \su , ^u.n+il следующие соотношения:
- [<m.X[df TJ Awl> + ЭД+ι] =
= min (— <7Λ·Χ[θ, τ*]*) — ίη+1)=
= - [1 + | Χ' [θ, τ J m \ψ* η [τ*], (58.12)
причем
[m] ηΙτ«1*'[*»τ«1™
^ -LI У ГА «r.lm|2W* '
г ι (58.13)
U (14Ч*ЧА,т,]т|2)*/*'
«-»+! (l + |^[AiT,]W|2)l/2·
Таким образом, согласно (58.11) и (58.12) максимизирующий
вектор Ши определяется, как решение следующей задачи:
<m°u.X[ft, <г*]*[т*]> + (т°и.Р(т*)т°и)-
- λ* | ml |2 - [1 + IX' [θ, τ*] ml |2]1/2 η [τ*] -
= max [<m.X[ft, τ*] я [τ*]) + (m-F (x*)my—
\т\<1
_ λ* J m |i _ [1 + IX' [0, τ*] m |2]i/* η [τ J]. (58.14)
Функция под знаком максимума в правой части (58.14)
строго вогнута по т. Поэтому задача на максимум (58.14) имеет
единственное решение тп£. Это решение определяет
единственным образом вектор su. Согласно (58.13) этот вектор su — [su
Su,n+il определяется при известном векторе т£ следующими
равенствами:
0 _ η[τ,]Χ'[θ,τ*]<
«ι/ —
" (ι + |*4·.τ·Κ|·)"·
~о = η[τ*Ι
««.«+! (1 + |x4d,T]mo|2)i/2·
Таким образом, искомый вектор s£ (τ*, χ [τ*], ε)
определяется равенством
$U (^#J «^ l^*Ji ®/ ==
= {Χ'[θ, τ,] mi, Ι}η[τ#]/[1 + |Χ'[θ, т„]т» |2]1/2. (58.16)
418
После вычисления вектора $ϋ(τ*> #[τ*1» ε) для какой-либо
позиции {τ*, ж[т^.]} при каком-либо ε>0 определяющая
оптимальную стратегию функция ю°(£, х, г) в этой позиции {τ*, я [τ*]}
вычисляется как вектор экстремального сдвига ие в соответствии
с (34.5), где следует заменить вектор {Z, sn+l} на вектор sj..
Таким образом, согласно (34.7) получаем равенство
г , ч Φ"1 (τ*) Β' (τ*) si (τ*, χ [τ*], ε)
и0 (τ*, χ[τ*1, ε) = ^- =
* * * ' 2<η+1(τ#,*[τ*],ε)
= - -Ι"0"' (τ,) Β' (τ*) TO, τ*] m°u. (58.17)
Итак, алгоритм управления, который отвечает закону
°U — {u°(-), ε, АШ) и строится описанным сейчас методом
стохастического синтеза, таков. Пусть в момент t{ реализовалось
значение xltj. Для τ* — t^, χ [τ*] —[χ [ti] решается задача на
максимум в правой части (58.11). Здесь число λ* == λτ* = λ [τ]
подсчитывается для %% = ti. Решение я&£(£ь #[£*], ε)'3τοή
задачи определяет вектор s°u(ti, x[t{], ε). Этот вектор Su(U,
x[ti], ε) определяет согласно (58.17) управляющее воздействие
= - 4-ф-1 (**)в' м х' f°' w m° с*»* w·ε) <58·18)
для полуинтервала U^t< ii+1. Предположим, что указанные
вычисления будут выполняться быстро и будут занимать весьма
малое время U < t < U + α. Тогда в течение полуинтервалов
времени и + а< t < ίί+1 + α, запаздывающих относительно
полуинтервалов [if, fi+1) на величину а, будет работать управление
ultl —и°(и, xltil, ε), предназначенное в идеале для ti^t<ti+l.
Согласно материалу из § 29 такое достаточно малое
запаздывание α оптимальных воздействий uit] может лишь немного
ухудшить гарантированный результат по сравнению с оптимальным
гарантированным результатом. Итак, пусть задано число ξ > 0.
Тогда, выбирая достаточно малое число ε > 0, назначая
достаточно мелкое разбиение Aft{£,} и выполняя в течение достаточно
малых интервалов времени U < t < t{ + α вычисления, которые
согласно (58.10)—(58.18) приводят к величине u°(tu #[£j, ε), мы
в соответствии с описанной процедурой управления гарантируем
для показателя γ (57.2) неравенство
γ<ρ°(ί*, **) + £, (58.19)
какова бы ни была исходная позиция {£#, х*} eG и какой бы
ни оказалась реализация помехи ν [£# [·] Φ) = {ν [£], t* ^ t < ft}.
Описанный способ построения управляющего воздействия
является универсальным для рассматриваемого квазикапонического
случая игры при данных (57.1), (57.2). Однако если система,
27*
419
описываемая однородным уравнением x = A(t)x, неустойчива и
норма ПЛ(£)И, ίο<ί<θ матрицы Ait) не мала, значение λ в
(58.8) приходится выбирать не малым. Тогда радиус цШ
окрестности
\{z, 0>-*Ι«η[ί], (58.20)
которая фигурирует в (58.6), будет интенсивно возрастать со
временем t. Чтобы ослабить это возрастание, которое портит
оценки, потребуется выбирать в (58.8) очень малые значения ε. Это
уменьшение ε затрудняет вычисления при значениях t = tu не
близких к θ (см. § 35). Для подобных собственно неустойчивых
я-объектов порой целесообразно отказаться от универсального
построения оптимальной стратегии ю°(·), которая базируется на
сопутствующих точках ζ* (58.6) из стандартных окрестностей
(58.20). Может оказаться более работоспособным
стабилизированное управление, которое строится в соответствии с
материалом из § 35. В данном случае можно формировать это
стабилизированное управление, например так. Предположим, что
система, описываемая уравнением
w = A(t)w + B(t)u (58.21)
стабилизируема (см. [16*1, с. 477). Тогда существуют функция
Ляпунова — определенно-положительная квадратичная форма
η
ν (τ, w) = 2 να (τ) WiWj = (w-P (τ) η?>, (58.22)
и линейное управление
а = Шш (58.23)
такие, что произлодная сМт, wlx\)ld\ вдоль движений w[x]
системы (58.21) при управлении и (58.23), т. е. величина
(dv (τ ,м?)\
\ dX /(58.21),
(68.23)
dv
= 57 + <g*ad ν [Α (τ)ιν + Β (τ) К (т)ю]> =
= ζυ>.£ н>\ + 2 <w-P (τ) [Α (τ) w + Β (τ) Κ (т)ю]>, (58.24)
будет удовлетворять неравенству
<-М2. (58.25)
(dv (τ, w)\
/(58.21),(58.23)
Будем искать сопутствующую точку 2^и) для позиции
{Tjj., я [τ*]} теперь из условия
Ρ (*·, 4°) = min ρ (τ*, ζ). (58.26)
[ν(τ* ,w-x[t*])+4+i ] <e2
420
Это приведет только к тому изменению в выкладках, что
задача на максимин в (58.11) заменяется на следующую задачу:
ρ(τ·.*£°)-
= max min «иг-Χ [θ, τ*] (χ [τ*] — s)> +
Μ<1 [<*·Ρ(τ*)*>+72+ιμ8*
+ (m-F(%*)ττι> — λ*|πι\2 — 5Λ+1) + λ*. (58.27)
Задача (58.12) заменяется такой задачей о минимизирующем
векторе 7™ = МГ1,?^}: '
- [<т.ХЦ>,т*]#?Ъ + 7™+1] =
min (-[<m-X[0, т,:]в>+7п+1]). (58.28)
[<*·Ρ(τ*)ί)+1'|+1]<ε!!
Из (58.28) получаем, что искомый вектор si определяется
равенствами
s{m] = εΡ^^Χ'ί&,τΛτη
(1 + <Х' [θ, τ*] т.*-* (τ*) Χ' [0, τ,] m»1/2' (5g 2g)
5 [«]. я 5
".n+i (1 + <χ, [θ> τ#] m.p-i ы Z/ ,dfT<] w>)i/2·
Таким образом* согласно (58.27)—(58.29) приходим к
следующей задаче:
ρ(τ*> z*w)) = max[<m-X[0, τ#]#[τ#]> + (m-F(χ*)ηΐ) —
- λ* I m |2-ε(ΐ + <X' [θ, τ J m·/»"1 (τ*) Χ' [θ, τ,] m>)1/2] + λ*.
(58.30)
Эта задача снова имеет единственное решение mj, которое
определяет вектор s°. Теперь вектор su определяется при
известном векторе m = ml из решения задачи на минимум (58.28).
Из (58.29) следует, что искомый вектор s° (τ^ х[х^]9 г) для
стабилизированного управления определяется равенством
= {εΡ'1 (τ*) Χ' [θ, τ J mj, e}/(l + <Χ' [θ, τ J m° χ
χΡ-1(τ»)Χ4»,τφ]ιιι·>)1/Ι. (58.31)
Управляющее воздействие строится теперь как сумма
иЩ — и*(*,, icCiJ, ε) + hk[*J, (58.32)
где первое слагаемое и*(£<, #[ί<], ε) определяется в согласии с
материалом из § 35 из условия экстремального сдвига относи-
28 н. н. Красовский 421
тельно градиента функции v(£, s) + s£+i = (s-P (t)s} +s%+1 при
t = t\, s = Su[ti]. В данном случае это условие принимает вид
<[gradv(M)]e0uyB(ti)u*(tu x[tih ε)> +
+ *2,;+i[*i] <"*(*ι. *№], ε)·Φ(*,)«*(*,, *[«,], ε)> =
= mm J<[grad ν(ί)]^ ·£(ί{) «> +>_ η+1 [ί{] <u·Φ (*,) «>], (58.33)
где
«Slid-*£(*«, «[«<], ε). (58.34)
Таким образом, согласно (58.31)—(58.34) имеем
= - -i- φ"1 ('<)β' (**)Ρ_1 (**)Χ'[θ' Μ m° ('*' * Νι ε). (58.35)
Второе слагаемое в (58.32) является стабилизирующим
воздействием. В согласии с материалом из § 35 и (58.23) имеем
ик И = К (ti) s°u (tu χ [id, ε). (58.36)
Повторяя рассуждения из § 35, можно убедиться, что при
этом стабилизированном способе управления для всякого
наперед выбранного ξ > 0 при выборе достаточно малого ε > 0 при
достаточно мелком разбиении A{t{} будет обеспечено неравенство
Υ<Ρ°(*·.*·) + ε, (58.37)
какова бы ни была исходная позиция {ί*, χ*}.
Так как теперь окрестность
[v(tuw-x [ti]) + 4+ι]1/2 < ε, (58.38)
которая фигурирует в (58.26), не возрастает чрезмерно с ростом
U при умеренно малых значениях ε > 0, то даже при длинном
отрезке [£#, О] не потребуется слишком малого ε. Правда, здесь
на выбор ε оказывает влияние то дополнительное обстоятельство,
что величина γ получает дополнительное слагаемое
Δγκ= f [<(ик[т] + и*[т]).Ф(т)(ик1т] + и*[х])>-
t*
— <Μ*[τ]·Φ(τ)Μ*[τ1>]#τ, (58.39)
которое, может быть, ухудшает результат управления. Выбирая
достаточно малое значение ε > 0, величину Δ γ* можно сделать
по модулю меньше любого наперед выбранного числа. Как
показывает решение конкретных задач, часто оказывается
целесообразным, переходя от универсального управления u°(th x[ti\, ε)
к управлению ulu] (58.32), при выборе параметра ε несколько
422
прогадать за счет слагаемого (58.39) в показателе γ, но зато
стабилизировать процесс управления и выгадать за счет более
рациональных окрестностей (58.38). Примеры формирования
стабилизированного управления иШ (58.32) приведены в § 61.
Обратимся теперь к вычислению оптимальной стратегии ν°(·)
(58.2). Вектор si (58.5) определяется из решения следующей
задачи на максимум:
max [</η·Χ[θ, τ*] (я [τ*] — 4)> +
|тпК1
+ <m.F(T*)m)-X*\m\*-7ln+1 + λ*] =
= max max [(m-X[$, τ*] (я [τ*] — s)) +
|Τ|<η[τ*]Ι™Κΐ
+ <m·F (τ*) m> - λ* | m |2 — ~sn+1 + λ*]. (58.40)
Значение этого максимума дает величину ρ (τ*, ζ™) (58.7).
Две операции максимума в (58.40) можно переставить. Таким
образом, получим
Ρ (τ*, z*r)) = max max Km'X[®i τ*1 (#[τ*1 — 5)> +
+ <m.F(TH,)m>-X*|m|2-7n+1] +λ* =
= max [{m. Χ [θ, τ,,] (χ [τ*] - №)) +
|m|<i.
+ <m- F (τ*) m> - λ* Ι m |2 - Γ<™]+1] + λ* =
= тах[<тгс-Х[в·, т*];г[т*]> + <т.^(т*) т>—
|т|<1
- λ* I m |2 + λ* + [1 + | Χ' [θ, τ*] m \ψ* η [τ*]]. (58.41)
Задача на максимум в правой части (58.41) уже не
обязательно имеет единственное решение ml. Но всякое решение за-
дачи^(58.41) определяет вектор si (58.5). Согласно (58.40)
вектор si = [s°v, $2,η+ι} при известном векторе ml определяется из
решения следующей задачи на максимум:
- [<m5.X[0, xJsS> + f?.n+i] =
=jnax ( — [<ι?ι°.Χ[θ, τ*]$> — sn+1]). (58.42)
Γϊ|<η[τ»]
Из (58.42) вытекает, что искомый вектор ^(τ*, #[τ*], ε) '
определяется равенством
[1 + |*Ч0, τ*] m°|2]1/2 V }
После вычисления вектора ^(τ*, ζ[τ#], ε) для какой-либо
позиции {τ^, я [τ*]} и при каком-либо ε>0 представляющая
оптимальную стратегию функция у°(£, χ, ε) в этой позиции
28* 423
{τ#, icjT^.]} в соответствии с (34.8), (34.9) определяется
равенством
ν° (τ*,, χ [τ J, ε) = ^- =
2<Λ+ι(τ*>*[τ*],ε)
= i- Ψ"1 (τ*) С (τ#) Χ' [θ, τ#] mj (τ*, * [τ*], ε). (58.44)
Таким образом, алгоритм формирования помехи vltl, который
отвечает закону Τ=*{ν°(-), е, АШ) и строится на основе метода
стохастического синтеза, таков. Пусть в момент U реализовалось
значение xlt{]. Для т* = ^, х[т*] = х[и\ решается задача на
максимум в правой части (58.41). Любое решение m%(t\, x[ti\, ε)
указанной задачи определяет вектор sj(£b x[ti], ε). Этот
вектор sl(ti, x Hi], ε) определяет согласно (58.44) помеху
= ± *~* ft) С (к) Χ' [θ, ад m° ft, α: [tj, ε) (58.45)
для полуинтервала U < t < ί<+1.
И здесь в случае собственной неустойчивости управляемой
системы может оказаться целесообразным формирование помехи
v[tl на основе стабилизированного закона ее формирования.
Предположим, например, что система, описываемая уравнением
w^AMw + CMv (58.46)
стабилизируема. Пусть
v = Q(x)w (58.47)
есть стабилизирующее воздействие и функция Ляпунова ν (τ, w)
(58.22) удовлетворяет условию
tdv (τ, w)\
\ dX /(58.
<-И2· (58.48)
46),(58.47)
Тогда сопутствующая точка ζζ вычисляется из условия
ρ(τ„4β))- max Ρ (τ*, ζ). (58.49)
[ν(τ*
Далее, задача на максимум в правой части (58.41) заменяется
соответственно на задачу
ρ (τ*, ζ{?) = max [<jn- X [ft, τ*] χ [т*]> + .
|m|^i
+ (m.F{xm)m> — λ*|™|2 + λ* +
+ e(i + <X'[&, τ*] m-P-1 (τ*) Χ' [0, τ*] ™>)1/2]. (58.50)
424
Решение ml такой задачи определяет искомый вектор
- {гР~г (τ#) Χ1 [θ, τ*] < ε}/(ΐ + <Χ' [θ, τ#] m° χ
χ Ρ""1 (τ#) Χ' [θ, τ#] /7iS>)1/a. (58.51)
Помеха vltl =*иШ, ίί<ί<ί<+1, строится теперь как сумма
ν lb] = ν* (tu x[U\, ε) + vQ [ti] —
- Ψ-1 (ft) С (*0 Ρ"1 (tO 4 (*i, * [id, ε)/2*?,η+ι (#if *[id, ε) +
+ <?(ii)*S(ii, * Ud, ε) - Ьр-^г) С (td Р~\и) X' [θ, id m°v (tu χ [id, ε) +
+ Q(ti)sl(tux[ti],E). (58.52)
Итак, мы видим, что формирование методом стохастического
синтеза оптимального управления и или оптимальной помехи υ
для рассматриваемой дифференциальной игры {7.1; 8.2} для
данных (57.1) и (57.2) приводится к последовательному решению в
моменты U вспомогательных задач. Центральное место в каждой
из этих задач занимает нахождение максимумов вида (58.11),
(58.41). Если эти вспомогательные задачи решать по ходу дела
в течение малых интервалов времени U + а < t < it+1 + α, то
метод стохастического программного синтеза дает
удовлетворительный позиционный способ формирования управления ult] или
помехи v[t\.
Аналогичным образом решается задача о вычислении
оптимальных стратегий и для игры с показателем γ (57.74). При этом
в соотношениях, которые определяют векторы su и s?,
получаются понятные изменения, отражающие изменения в выкладках
для вычисления цены игры ρ°(ί, #), указанные в конце § 57.
В этом параграфе при построении оптимального управления
использован следующий прием. При фиксированном векторе т%
\т\ < 1 вычисляется величина
ρ (τ*, ζ, Δ, т) = sup κ (τ*, ζ, Δ, Ζ(·)) (58.53)
при НК-)И<1, Μ«(ω))-»».
Сопутствующая точка zu определяется условием
ρ(τ#» Zu, Δ) = minmax ρ (τ#, ζ, Δ, τη). (58.54)
г т
Из явного выражения (58.9) следовала возможность
перестановки в (58.54) операций максимума и минимума. Важно, что
этот прием, опирающийся на такую перестановку, можно
обосновать и в общем случае из этой главы. Таким образом и в общем
.425
случае управление u°[t^ определяется из условия экстремального
сдвига по вектору s£, который однозначно определяется
вектором т°(и, xlti], ε) — единственным решением задачи на максимин
ρ (th ζ*, Δ) = max min p (th ζ, Δ, τη). (58.55)
m z
§ 59. Двушаговое формирование помехи
Оптимальное формирование помехи ν, которое гарантирует
неравенство
У > Р° (**, **) - ζ = Ρ (**, {**, 0}) - ζ (59.1)
в дифференциальной игре из § 57, получается на базе
позиционного закона 3^ = {ι;0(0, ε, Δ{£»}}, как это описано в § 58.
Указанный закон Ψ использует информацию о реализующихся
состояниях x[ti] в достаточно частые моменты времени £,·.
Фигурирующая в нем оптимальная стратегия ι>°(·) определяет
воздействия vlil, ti<t<ti+l согласно равенствам (58.45) при i =
= 0, 1, ..., к, где векторы $£(*ь x[t\\, ε) вычисляются в
рамках метода стохастического синтеза данным в § 58 способом.
Однако стохастическая программная конструкция, описанная в
§§ 52—58, доставляет и другой способ формирования помехи
p[f], ίχ^ί^ϋ, который гарантирует даже результат
V > р° (**, xj = ρ (ί*, {**, 0}). (59.2)
Этот способ таков. Пусть исходная позиция {τ*, z%) =
= {τ*, {я [τ*], 0}} для стохастической программной
конструкции из §§ 57, 58 совпадает с исходной позицией {ί*, χ*} для
рассматриваемой позиционной дифференциальной игры, т. е.
в конструкциях из §§ 57, 58 полагаем τ* = £*, χ [τ*] = χ%.
Предположим сначала, что для данной исходной позиции {ί*, χ%}
выполнено условие (57.51). Тогда согласно материалу из §§ 53—
58 (см. в частности, (57.14), (57.28), (57.29), (57.61), (57.62))
решение задачи на программный максимин
Ρ (£#» 2#) == е# (£#> з#» £*, AfejTjj) =
= max min [M { I w [Ο, ω] |2}1/2 + Μ {ζη+1 [θ, ω]}] (59.3)
ι>(·) "(·)
определяется стохастической программой
ι,ι'β(·>1(.)-{ι;Ι'β(·),(τ.ω), ί*<τ<{>}, (59.4)
которая удовлетворяет условию
<Ζ°(ω).ί(τ) »ι',(,),(τ, ω)> - <ί;1'°()] (τ, ω)· Ψ (τ) yliV)1 (τ, ω)>
= max [<Ζ°(ω)·ί(τ) y> - <ι>·Ψ(τ) ι>>],
υ
где
426
(59.5)
(59.6)
есть решение задачи на максимум (57.53) при
и>* = **> «„n+i = 0. (59.7)
Отсюда вытекает, что при условии (57.51) оптимальная про-
грамма ν (·) (59.5) оказывается детерминированной
ρί'^Ι^-^Η-^ϊτ], ί,<τ<·}· · (59.8)
Из (59.3) тогда следует, что эта максимизирующая для (59.3)
программа ν1 [·] (59.8) обеспечивает при всякой
детерминированной реализации
и[.] = {и[т], **<τ<0} (59.9)
неравенство
γ = |Ηθ]|+2η+1[ί>] =
= I w [0] I + |1<ц [τ] ·Φ (τ) и [τ]> - ΧιΛ^Μ-Ψ (τ) ^™*4τ]/.|<ίτ>
>Ρ (ί *, {**, 0}) = ρ° (**, xm). (59.10)
Таким образом, если для исходной позиции {£#, я*} в #-объ-
екте выполнено условие (57.51) для данных (59.7), то можно
найти вектор raj из условия (57.53) и в момент t = t* выбрать
Гтп°]
на все будущее время t*^t<b помеху v[t] = у * [t] в
соответствии с детерминированной программой (59.8), которая
определяется из условия (59.5), где Ζ°(ω) ξ= raj. Согласно (59.10) для
любой реализации процесса |ι[·],ΐί[·],ι; * [·]) в я-объекте
будет выполнено неравенство
ΥΗ*[θ]|+ Η<^Μ·Φ(τ)^[τ]>-
-\JW^[T]^(x)Jw^[x]/]ciT>p»(^^)f (59.11)·
т. е. неравенство (59.2).
Предположим теперь, что выполнено условие (57.54). Тогда
из материала §§ 57, 58 следует (см. (57.55)—(57.61)), что
случайная функция га0(τ, ω), которая отвечает решению Ζ°(·)
задачи на максимум (57.34), имеет вид
га°(·) = (га0 (τ, ω) = raj, ί*<τ<τ, сое Ω;
га0 (τ, ω) = ra(1) = raj + α(1), ξ4 €= [0, α);
га°(т, G)) = ra(2)=raJ + αω, ξ, €= [α, 1), τ<τ<0}, (59.12)
где Тг = те ΔΑ{τ^ и τ — тот момент времени τ, для которого
максимальное собственное число λ[τ] матрицы (57.47) равно чис-
427
лу λ*. Отсюда вытекает, что оптимальная максимизирующая
стохастическая программам ( (·)? которая решает задачу (59.3)
и определяется из условия (59.5), имеет следующее строение:
^^(О-У^М, τ#<τ<τ; ι>1"%, ω)-ι^[τ],
Si's [0, α), ι;1ίη(2)Ι(τ,ω)=ι;(2)[τ], 6«e[a,l)f τ<τ«Η, (59.13)
Γτη°1
где функции ir * [τ], ι;(1)[τ] и ν{2)[τ] определяются из условия
(59.5) при т°(·) (59.12). Какова бы ни была стохастическая
программа »(·), максимизирующая для (59.3) программа ι; (
(59.13) при данных (59.7) обеспечивает неравенство
Μ {| w [6, ω] |2}1/2 + Μ {sw+1 [θ, ω]} > pi (f „ zm). (59.14)
Более того, из выполнения условия (57.62) для векторов т{1)
и т{2) в (59.12) следует, что программа ν ι (·) обеспечивает
также неравенство
Μ {| w [О, ω] Ι + zn+1 [0, ω]} > p° (f *, x*). (59.15)
Пусть стохастическая программа и(-) имеет следующее
строение:
и(.) = {и*[%], ί*<τ<?; и(1)[х], |{е [0, a),
u(2)[t], 5,s [a, 1), τ<τ<θ}. (59.16)
Тогда из (59.13)—(59.16) следует неравенство
«(| иА> [θ] | + sSi-i t*l) + (1 - «) (I и^2) [θ] Ι + *&ι Ι*]) =
- a ( |«/«[θ] 1 + Zn+i [τ] + (z^ [θ] - z„+1 [τ])) +
+ (1 - a) (| »»> [0] | + zn+1 lx] + («2ti I*] - *n+i W)) > P° (*·, *·),
(59.17)
где движение ζ(,)[·] порождено согласно (59.13), (59.16)
реализацией {νωί·], в(,)[·]} (s = l, 2). Из (59.17) следует, что при
фиксированной реализации
и* [·] = {и* [τ], ί*<τ<τ} (59.18)
■ли справедливо неравенство
| w(1) [θ] I + («их I*] - «n+i W) > Р° (**, ж*) - zn+i [r], (59.19).
какова бы ни оказалась реализация
в(1)[-]-{иМ, τ<τ<θ>, (59.20)
или, в противном случае, справедливо неравенство
I и>(2) [Щ | + (zi+г [Щ - ζη+1 [τ]) > р° (t#, ж*) - ζ»+1 [ΐ], (59.21)
428
какова бы ни оказалась реализация
tt(2)N -faW, τ<τ<Μ. (59.22)
Важно следующее обстоятельство. Для того чтобы выяснить
вопрос о том, какое из неравенств (59.19) или (59.21) (одно и
то же) обязательно справедливо при всякой реализации ц[-]^п
(59.20), (59.22), достаточно знать только состояние w{i)lxl ■-
=»Μ?(2)[τ! — wix\. В самом деле, выполняющимся обязательно
будет то из неравенств (59.19), (59.21), которому соответствуем
большая из величин
min [ | w[sl [θ] J + (4fti [О] - sn+1 [τ])] -
= min[X[0, x]w[x] + f *[*, ^]{B(x)u[x] +
4-1 i
+ С (τ) i;lm(e)1 [τ]) dt + j* [<и [τ] ·Φ (τ) и [τ]> -
τ*
- <vlm(8)] [χ]. Ψ (τ) vlm{$)] [τ]> ] ώτ], s = 1, 2. (59.23)
Отсюда вытекает следующий способ формирования помехи
v[t] для я-объекта из позиции {£#, x*}, для которой выполнено
условие (57.54) (для данных (59.7)). Для исходной позиции
{**>ζ*) Для данных (59.7) решаем задачу (57.46). Получив
решение ϊ°(·) (59.12), назначаем реализацию помехи ι>[ί*['1τ) —
= t?Lm*J [·] согласно (59.13). Эта реализация v[t#[']x) вместе
с какой-то реализацией и [t% [ · ] τ) порождает движение х U* IЛ **\%
которое в^момент τ определяет позицию {τ, xlxl). Полагая в
(59.23) ινίχ] =χ[χ], находим значение s*, для которого
получается большая из величин (59.23). На этом основании назначаем
реализацию помехи ν[χ[·]ϋ) = ιλ* >[·]· Такой способ
управления согласно (59.19), (59.21) опять гарантирует
неравенство (59.2).
Таким образом, используя свойства оптимальной программной
стохастической конструкции, можно гарантировать результат γ,
не меньший, чем цена игры р°(£*, ##), за счет двухшаговой
процедуры формирования помехи ν, которая опирается лишь на
информацию об исходном состоянии χ [£#] = х* и о состоянии
χ [τ1. Это упрощает формирование помехи ν по сравнению с ее
формированием по закону Τ — {ρ0(·), е, АШ). Однако, если
управление ult] формируется не оптимально, то закон У —
= {ι;0(·), е, Δ{£<}} будет, вообще говоря, давать большее
значение γ, чем р° (£#, х%). В определенном смысле он будет предельно
использовать все время по ходу дела отклонение ult] от
оптимальности. Описанная двухшаговая процедура формирования
подо
мехи ν при неоптимальном управлении uit] тоже, вообще говоря,
увеличивает значение γ по сравнению с ценой р° (ί^., χ*). Но эта
процедура уже не использует в такой же мере отклонения u[t]
от оптимальности предельно возможным образом за счет
отслеживания реализующихся состояний хШ в частые моменты
времени и.
§ 60. Пример
Проиллюстрируем материал из §§ 57—59 на примере задачи
о перевозе груза, которая предложена в § 1. В §§ 4, 7 она
введена в формальные рамки стандартной задачи 7.1, причем было
предположено, что управление и помеха стеснены условиями
(4.29) (см. примеры 4.1 и 7.1). Для уравнения движения (4.24)
и показателя качества γ (7.20), которые определяют задачу,
выполнено условие (8.14). Поэтому получившуюся в примере 7.1
задачу 7.1 можно трактовать, как составляющую задачу из
дифференциальной игры {7.1; 8.2} в каноническом случае. Однако,
более того, для уравнения (3.24) и показателя γ (7.20)
выполнены условия из § 34, которые позволяют утверждать
существование цены игры р° (£#>#*) и седловой точки {u°(t, χ, ε),
ι>°(£, χ, ε)} и в квазиканоническом случае рассматриваемой игры
(7.1; 8.2), когда уже не требуется выполнение ограничений (4.29)
Μ и и v. Этот квазиканонический случай игры {7.1; 8.2} для
системы (4.24) и показателя качества γ (7.20) и рассмотрим
здесь, полагая в (4.24), (4.26) массу груза равной единице, и в
(7.20) £β = 0, βι = 1, 62 = 1. Для этой игры выполнены все
условия из §§ 57—59.
Фазовый вектор χ является двумерным вектором х = {хи х2У,
управление и и помеха ν суть скаляры. Матрицы-функции Ф(£)
и Ψ(ί) из (57.2) в данном случае суть скалярные функции φ(ί)
и if(£). В уравнении (57.1), которое оказывается здесь
уравнением (4.24), Bit) = b, C(t) = с = δ, где согласно (4.26) вектор
Ъ == {0, О. Для рассматриваемого уравнения χ — Ах из (4.24)
фундаментальная матрица Χ[θ, τ] дается равенством (4.33).
Матрицы Νν(χ) и Ν„(τ) из (57.32) принимают здесь вид
*"W—чЫ? ;)· (6°·2>
Стало быть, согласно (4.33), (57.33), (57.38) имеем
..tf.W-L^-^lf V). ,60.4,
£30
а матрица FM (57.47) определяется равенством
,w_jw.w*,_-i.^$i(<:i? °7ηΚ «ад
τ τ
Выберем
<Р(*) = а_'+а, ί<*. «>0, (60.6)
ψ(ί) = β, ί<θ, 0<β<1/α. (60.7)
Тогда матрица Fix) (60.5) примет вид
(60.8)
и при всяком значении τ* < О величина λτ* максимума для
максимального собственного числа λ[τ] (57.66) для матриц F(t),
τ^^τ^θ оказывается положительной. Именно,
λ*#= max λ[τ]= max -i-[—(0 ~ τ)*+
+4-^+(-Ь°)(^УП <«>■<»
и λχ* > 0 при любых τ*<θ, поскольку λ[ΰ·] =0 и при τ = θ
имеем ίΖλ[τ1ΛΖτ = — 2(1/β — α) <0 по условию (60.7).
Согласно (53.15), (56.31), (57.73) цена р \ί^) %%) для
рассматриваемой дифференциальной игры определяется решением
следующей задачи на максимум:
Ρ (*#> ##) =
= max [<щ.X [О, t0] х*} + <m-F (tm) τη} - λ,*» | τη f\ + λ?, =
|m|<l
= max \(xn + (θ — ί*) χ*2) m1 + х*гтпг +
.+ (_(±^Ч(^_а)(±^^ + 2(_(-м!+(1_а)х
x (Ц&11)щщ + (_ (Ц&11 + (_£_ _α) (ο _ ίφ)) „,; _
— *£(#»; +roj)] +λ,*; в^ + т5<1. (60.10)
431
Эта задача была решена на ЭВМ для параметров α = 0,001,
β = 0,5, ϋ — 3 и для следующих исходных позиций: {t* — 0,
**!=*-3,0, я*2 = 0}, {ί* = 0, а:*! = -1,7, *#2 = 0}, {«* = 0,
**ι = —1,0, а^г^О}, {** = 0, я*! = — 0,4, аг*2 = 0}. Цена
Ρ°(**ι ##i» ##2) (60.10) приняла соответственно такие значения:
ρ·(0, -3,0, 0)-2,43, р°(0, -1,7, 0) = 1,29, р°(0, -1,0, 0)=0,95,
ρ·(0,-0,4,0) =0,79.
Обратимся теперь в рассматриваемом примере к построению
оптимальных стратегий »°(ί, χ, ε) = »°(ί, xl9 ж2, ε) и ν°(£, ж, ε) =
= ι?φ(ί, a?i, #2, ε) в соответствии с материалом из § 58. В данном
случае радиус η[ί] (58.8) окрестности к— {#, 0)1 <η[£], которая
фигурирует в (58.6), (58.7), можно выбрать таким:
η2Μ = ε(1 + It - t0]) exp 2U - te]. (60.11)
Вектор Зи(х#, χ[τ%], в) (58.16) определяется теперь
равенствами
*£(τ*, * [τ*], ε) =
— \5wl(^*i «^ Ιτ*]» ε)> Su2\t*i ^Ιτ*]ί ε)ί 5г/3 (τ#^ 1^#Ь ε)/ι
*2ι (τ*, * [τ,Ι, ε) = η [τ*] m°ul(i + \X' [θ, τ*] ι»° |2)~1/2,
- η 1Ы [ mux (θ - τ*) + л&] (l + | Χ' [θ, τ J m°u |2)"1/2,
?гз (^, * [τ*], ε) - η [τ*] (ΐ + | Χ' [θ, τ*] m°u |2)~1/2, (60.12)
где Χ' [θ, τ*] — транспонированная матрица Χ [ft, τ#] (4.33)
ж вектор rriu = {/»ui, /Ииг) является решением задачи на
максимум (58.14), которая принимает здесь форму следующей задачи:
<т£.Х {θ, τ*] χ [τ*]> + <m£ -F (τ*) m°u> -
- λτ\ |m°u |2 - η [τ,] [ 1 + I X'l&, τ.1 m°u |2]1/2 =
= max [(хг [τ*] + (θ — τ*) χ2 [τ*])^ + я2 [τ*] m2 +
{mvm2)
+(-^4i-«)<*-^-*:.)«i-
- η [τ*1 (1 + H + (θ - τ*)2] ι»ϊ + 2 (θ - τ,) то^ + τη\)1'2 ], .
m? + m|<l. (60.13)
Таким образом, управляющее воздействие и'Ш = η°ίί(1 =
*=ιι°(ί<, жМ, е), ίι^ί<ίι+ι, которое назначается законом уп-
432
равления
<М =-{*·(·>, ε> Ш{}), (60.14)
отвечающим оптимальной стратегии и°(·), определяется в
соответствии с (58.18), (60.12), (60.6) следующим равенством:
-«,.*■.,].е>-- 2 <·:1>·'"''■;» -
= - -|-(» - U + а) [т°и1 (ft - U) + mjf], (60.15)
где fliui = w^uiliil» w^u2 = иг«2 1ЭД суть решение задачи на<
максимум (60.13)jnpHT* «■ ti, хг [τ#] = χχ [*J, #2 [τ*] = #214·
Вектор $£(τ#, ^Ιτ*], ε) (58.43) определяется здесь
равенством
- К; n»Si (θ - τ*) + 7»S2; 1} η [τ*]/[ΐ + | Χ' [ft, τ*] ml|2]1/2, .
(60.16)
где вектор т% = {шп, "&} является решением задачи на
максимум (58.41), которая принимает здесь форму следующей
задачи:
<»ι$·Χ[θ,τ,]*[τ,]> + (ml-Fix^ml}-
- λ?. I m°v |2 + η [τ*] [l + | Χ' [ft, τ,] m$ |2]1/2 =
= max I («! [τ*] + (ft — τ*) ж2 [τ*]) ^ +
+ x.lTjm. + ^i^bi-4+ (|-«) <^b£-*i.)mi+
+ Л [t*] (1 + [1 + (ft - x*)2] ml + 2 (ft - τ,) тхтг + m2.)1'2],
ml + ml^i. (60.17)
Задача (60.17) по сравнению с аналогичной задачей (60.13)
в вычислительном отношении осложняется тем обстоятельством,
что максимизируемая функция в (60.17) не является теперь уже
вогнутой.
Итак, помеха v'lti = y°[fj = v°(tt, xltti, β), f,<f<i<+1,
которую назначает закон формирования
Г = {иЧ·), г, Ш<», (60.18)
433
отвечающий оптимальной стратегии ν°(·), определяется в
соответствии с (58.45), (60.16), (60.7) следующим равенством:
*°(*ь *[*<],») =
" *<*<)·:.(',.*[',].·) =ΐβΚι(θ-ίί) + ^' (6019>
где mvl = mSi[^]9 и*2а = "ώ Ud образуют какое-нибудь решение
задачи на максимум (60.17) при τ* = tb х1 [τ*] = хг [£$], #2 [τ*] =
= *2 [ίJ-
Ha рис. 60.1, α в плоскости {#ι = g, я2 = q} приведены
изображения реализаций {#? [ί], ^ [ί]}, 0 = £* < г <[ θ = 3,
порожденных законами <U (60.14), (60.15) и Τ (60.18), (60.19) из тех
самых исходных позиций {£#, ж*}, для которых выше была
подсчитана цена игры р° (£#, х%) (60.10). Эти реализации были
получены с помощью ЭВМ на основе алгоритмов, разрешающих по
ходу времени t = ti (i = l, ..., к) вспомогательные задачи (60.13)
и (60.17) при α = 0,001, β = 0,5, ε = 0,01, δ = ti+l - tt = 0,005.
434
Во всех этих случаях значения показателя γ (7.20) оказались в
согласии с теорией близкими к указанным выше
соответствующим значениям цены игры р°(£*, х*) (60.10). На рис. 60.1, б
приведены для примера реализации u°[t*[-]$) (сплошная
линия) и (—ν° [£# [·] θ)), отвечающие исходной позиции {t# = 0,
я*1 = — 1,0, х*2 = 0}.
Исходя из этой же позиции, рассматриваемая
дифференциальная игра симулировалась на ЭВМ в трех случаях, когда
первый игрок, распоряжающийся выбором управления щ неизменно
1-
У
у
У
У
/>--^Л ^у
V )
// ·
·
У
У
τ . «^.
f х{
[
Рис. 60.2.
придерживался закона °U (60.14), (60.15), а помеха выбиралась
такой: (1) »[*]■■ 1,0, (2) i?M-0, (3) »[d — —1,0, 0<ί^3. Этим
трем случаям отвечают на рис. 60.2 реализации движения,
изображенные соответственно пунктирной, точечной и штрихпунк-
тирной линиями. Для сравнения на этом же рисунке сплошной
линией изображена реализация, отвечающая закону
формирования помехи Τ (60.18), (60.19). В случае v[i\ ss 1 получилось
γ = 0,6145 < р° = 0,9493, в случае v[t]=0 вышло γ = 0,5415 <
<р° = 0,9493 и в случае »[f]s--l γ = 0,8488 < р°-= 0,9493/
На рис. 60.3, а приведена реализация управления u°[t*[-] ϋ
отвечающая позиции {t* = 0, х*г = — 1,0, х%2 = 0}, помехе vli\ ss
= 0, О^г^З и закону управления °U (60.14), (60.15) при ε =
= 0,01, δ = ti+l — U = 0,005, а на рис. 60.3, б — соответствующая
реализация движения в плоскости {хи х2У. На рис. 60.4, а
изображена реализация управления в* [*#[·] О), а на рис. 60.4, б —
реализация движения в точно такой же ситуации, но при уело-
435
вии, что управление вычислялось формально по равенству (60.15)
путем формального решения задачи (60.13) при 8 = 0. В таком
случае получилось γ = 1,6121 >р° = 0,9493, что обусловлено
существенным увеличением интеграла от квадрата управляющего
-1,00 -0,90 -0,80 -0,70
Рис. 60.3.
0,60 -0,50 I яу
воздействия u*[i], 0^£<3. Этот эксперимент подчеркивает
существенную (стабилизирующую) роль параметра ε > 0 в законе
управления <U (60.14), (60.15).
Из приведенных рисунков 60.1, а и 60.2 видно, что во всех
случаях величина \х\Ь\\ оказывается достаточно большой. Это
означает, что при выбранных ценах φ(ί) (60.6), ψ(ί) (60.7) и
назначенных коэффициентах е4 = ег = 1 в штрафе, минимизация
гарантированного результата для показателя γ (7.20) не влечет
436
за собой существенного уменьшения именно слагаемого ЩдП
в γ. Уменьшение показателя γ достигается в значительной
степени за счет уменьшения в нем интегрального слагаемого.
Щ
1,0
-Щ
u*W
0,5
5,0t
4,00 -0,90 -Ο,βΟ -0,70
б
Рис. 60.4.
-0,60 -0,50 яу
Рассматриваемая игра была симулирована также при другой
политике цен <р(£) и if(£). Именно, были выбраны следующие
функции:
()я| ί8 + 0,01, 0<ί<1,5,
1(*-3)8 + 0,01, 1,5<*<3, (60·
ψ(ί) = 1, 0 < t < 3.
29
Η. Η. Красовский
20>
(60.21)
43Т
В случае такой политики цен формулы для величин р°(£#, х*)
(60.10), λ*# (60.9) и задачи на максимум (60.13), (60.17)
претерпят понятные изменения, вызванные тем, что матрица F(t)
(60.5) вычисляется теперь с учетом (60.20), (60.21). Формулы
для вычисления управляющих воздействий ю°(£», хЩ, ε) (60.15)
и у°(£», хШ, ε) (60.19) сохранят свою прежнюю структуру, но
при этом значения <р(£г) и ψ(ί») определяются теперь уже
функциями φ(ί) (60.20) и ψ(ί) (60.21).
На рис. 60.5 для исходных данных
** = 0,
-1,0,
ь*2
0, # = 3
(60.22)
Щ--1
Л
/
АИ
Η
\У
и для цен <р(£) (60.20), ψ(ί) (60.21) приведены изображения в
плоскости {Xi = q, x2 = q) некоторых реализаций движения,
порожденных законом управления °Ы (60.14), отвечающим
оптимальной стратегии ю°(·). Реализация, изображенная на рис. 60.5
сплошной линией, получается»
\ если помеха ν формируется на
λ' \ основе закона Ψ (60.18), отве-
\ чающего оптимальной страте-
\ гии у°(). При этом выходит,
вй-я что γ = 0,0065 « р° (**, xm). Ре-
\ ализация, помеченная
пунктирной линией, получается в
случае, когда vitl "1, 0<КЗ.
Здесь, V = — 1,7883 < р° (**, хт).
И наконец, штрихпунктирная
линия отвечает помехе v[t\ ^
| / = —1, 0^£^3. Здесь получи-
\ / лось, что V = — 1,8001 < р° (**,
Как видно из этого рисунка,
при ценах φ(ί) (60.20) и ψ(ί)
(60.21) минимизация гарантированного результата для
показателя γ (7.20) проявляется более ощутимо в уменьшении слагаемого
\х[Ь\\ в γ, чем при ценах <р(£) (60.6), ψ(ί) (60.7), которые
согласно рисункам 60.1, а), 60.2 по сути дела вообще не стимулируют
уменьшения слагаемого |#[ф]|.
Интересно сравнить построенные сейчас методом
стохастического синтеза решения для рассматриваемой дифференциальной
игры {7.1; 8.2} в случае системы (4.24).при показателе γ (7.20)
с теми решениями, которые были получены в § 19 (см.
пример 19.1) методом динамического программирования для такой
же системы (4.24), но при показателе γ (19.9), где
I
/
-1\
Рис. 60.5.
: et = 1, а12 — σ21 = 0, σ22 = е2 = 1.
(60.23)
В этом случае показатель γ (19.9) отличается от показателя γ
(7.20) тем, что слагаемое \х[т\ из (7.20) заменяется в (19.9) на
438
слагаемое WO·] I2. В конце § 19 приведено решение этой игры
для тех же исходных данных (60.22), (60.23) и тех же самых
функций <р(£) (60.20), ψ(ί) (60.21). Сравнение результатов,
представленных на рис. 19.1 и рис. 60.5, показывает их близость.
Решение игры с показателем γ (19.9) является менее
сложным, чем решение с показателем γ (7.20). В случае γ (7.20) цена
игры р°(£, х) не является дифференцируемой функцией при всех
О, х). В некоторых точках производные dp°/dt, др°/дх{ (i =
= 1, ..., η) могут не существовать.
Именно такая ситуация складывается для рассматриваемой
игры в случае цен (pit) (60.6), tf(f) (60.7) для некоторых позиции
{£*, #*i> #*2}при 1<КЗ. Попытка проигнорировать это
обстоятельство и вычислять управляющие воздействия ulU] не по
формуле (60.15), а формально в соответствии с правилами,
обоснованными в §§ 15—19 для случая гладкой цены ρ°(ί, χ), может
привести к нежелательным последствиям. Эти последствия πσ
эффекту совпадают с теми, которые имели место при
сделанной выше попытке проигнорировать роль параметра ε > О
(см. рис. 60.4, а), б)). (См. также для сравнения пример из
§ 20*).
Итак, замена показателя γ (7.20) на показатель γ (19.9),
казалось бы, улучшает свойства рассматриваемой игры, так как цена
р°(£, х) (см., например, (19.55)) оказывается функцией гладкой,
ее вычисление не слишком сложно и оптимальные стратегии
u°(t, χ) и v°it, x) (см., например, (19.53), (19.54)) даются
функциями линейными по х. Но такой вывод является односторонним.
Дело в том, что игра с показателем γ (7.20) согласно материалу
из §§ 33, 34, 57—59 имеет решение для любой области G
в пространстве {£, х)\ ее цена р°(£, х) и оптимальные стратегии
u°{t, χ, ε), v°(t, χ, ε) определены для любой возможной позиции
{£, х}. А игра с показателем γ (19.9) имеет решение, вообще
говоря, лишь в таких областях G в пространстве {t, χ], которые
содержатся внутри некоторой полосы 10 < t ^ Φ, может бытьг
в зависимости от параметров — весьма узкой. Это объясняется
тем, что при определенных соотношениях между параметрами
игры решения ρ«(ί) уравнений (19.18) могут уходить в
бесконечность при t-^to + Ο. Такой случай, как показано в примере 19.1,
в частности, имеет место для рассматриваемой сейчас системы
(4.24) показателя γ (19.9), (60.23), когда θ=3, <р(г) = <р*=,
= 1/2 у 13, ψ (t) = ψ* = 1/8. Получающееся здесь решение pait)
(19.49)—(19.52) имеет вертикальную асимптоту при t = t0 = 2»
Отсюда вытекает, что соответствующая игра имеет конечную це-
НУ Р° (£*>_#*) Для каждой исходной позиции {£#, х#} лишь
при t*'>t0 = 2, в то время как подобная игра, но с
показателем γ (7.20), имеет решение при любой политике
положительных цен (pit), i|)U), для любых позиций и для любых значений
параметров.
29*
439
§ 61. Пример стабилизированного управления
Рассмотрим пример построения методом стохастического
синтеза управления, которое в соответствии с (58.32) включает
стабилизирующую добавку
ик It] = ик [ti] = К [ti] si [th χ lUl ε], U < t < ti+1, i — 1, ..., ft.
(61.1)
Пусть управляемым объектом является двузвенный
физический маятник, образованный двумя однородными стержнями ОА
и АВ с массами mi и т2 и движущийся в окрестности верхнего
неустойчивого положения равновесия (см. рис. 61.1).
Стержень ОА подвержен управляющему моменту и. К
стержню АВ в точке В приложена горизонтальная сила, проекция
которой на горизонтальную ось есть величина v. Здесь и и ν суть
скаляры, которые могут принимать любые значения. Положение
данного объекта, имеющего две степени свободы,
характеризуется двумя обобщенными координатами — углами φ4 и <р2,
образованными стержнями ОА и АВ с вертикалью. Пусть
длины стержней О А и АВ равны соответственно г4 и
г2. Дифференциальные уравнения движения в форме
Лагранжа ([6*], с. 76) для данного управляемого объ-
1 / екта будут иметь следующий вид:
(тл \ ·· т2
— + πιή γιΨι + -γ г2 φ2 cos (φ2 — φ2) =
Ψι
2 2
= — ^2ψ2 sin (φ2 — <ρχ) +
+ m2j;sinq>1 +
+ — и + ycosq^, (61.2)
m2 v m2
-γ r^ cos (φ2 — φχ) + -γ Γ2φ2 =
= £ φ? гг sin (φ2 — ψχ) + -^- g sin φ2 + ν cos φ2, (61.3)
Рис. 61.1. Δ Δ
где g — ускорение силы тяжести.
Состояние рассматриваемого объекта характеризуется
четырехмерным фазовым вектором
χ = {хи #2, #з, xj = {φ4, фг, Φι, фг}. (61.4)
В записи через переменные xj (/ == 1, ..., 4) уравнения (61.2),
(61.3) в нормальной форме принимают вид
Χι = #з,
#2 — #4
#3 ==
Г1 (4Щ1 + 3/Л2)
[6 (т1 + 2т2) gxx — 9т2 gx2 +
12
+ — U — 6у + /3 (#!, Я2> *3> *4t W, У)Ь (61.5)
440
** = \(b**+&»J [~ 9(ntl + 2тг) gXl + 6 (mi + Зтг) gXz —
6 (2wx + 3w2)
-b+
*> + /4(^11 *2, *3» *4> И, *>)b
где /3(·) и /4(·) — суть известные функции, разложение которых
в ряд в окрестности точки xi = Хг = #з = #4 = 0 начинается
членами не ниже второго порядка малости по переменным х* ♦
Ограничимся работой с уравнениями (61.5) лишь в их
линейном приближении по #, и и v. Тогда уравнение движения в
стандартной форме
χ = Ах + Ъи + cv
(61.6)
будет определено матрицей
А =
b(m1+2m2) ^
Г1 (Ы1 + Sm2)
9(m1 + 2m2) <
О
О
9w0
ri(4^l + 3W2)
6 (wx + 3/n2)
>2(4/?ll + 3m2) r2(AmX + 3m2)
g 0 .0
£00
(61.7)
и векторами
& =
0
0
12
18
L rir2(4wi + 3m2).
с =
0'
о
Γΐ(4/Λ1+3/?12)
6(2/^ + 3/^)
L r2W2(4mi + 3m2)J
(61.8)
Показатель качества γ (57.2) выберем таким:
V = \х[ЩΙ -Ь ί («и2[^] - β"2 W) dx, (61.9)
где α и β суть положительные постоянные.
Тривиальное решение w = 0 уравнения
(61.10)
с матрицей А (61.7) является неустойчивым, поскольку среди
корней характеристического уравнения (см. [4*], с. 58)
|4-λ£ΐ=0 (61.11)
имеются корни с положительной действительной частью. Однако
система, описываемая уравнением
w = Aw+bu (61.12)
является стабилизируемой. Для нее выполнены достаточные
условия стабилизируемости, которые состоят в том, что векторы
441
δ, Α δ, A2b, АгЪ являются линейно независимыми (см. [4*J, с. 68).
Стабилизирующее управление u = Kw (58.23) можно найти
одним из способов, описанных в книге ([16*], с. 500—507).
Примем теперь для определенности, что параметры
рассматриваемого управляемого объекта и постоянные в γ (61.9) таковы:
wx - 1, т2 = 1, гг = 10, г2 - 10, g - 9,81,
(61.13)
α = ΙΟ"4, β = 102, ί* = 0, θ = 5. '
Тогда матрица А (61.7) и векторы Ь, с (61.8) примут
следующий вид:
0 ι 0ч
-1?261 2 ί ' (61Л4)
3,363 0 0/
л =
о
о
2,523
-3,784
Ь =
Г ° Ί
0
0,017
L— 0,026-
г с==
I
" 0 Ί
0
ι —0,086
L 0,429 J
(61.15)
При этих данных стабилизирующее управление u = Kw в
системе (61.12) можно взять таким:
и = Kw = k^i + k2w2 + k3ws + кьШь, (61.16)
где h = -147,22, fc2 = 133,406, k3 = 0,244, £4 = 15,726. Функцию
Ляпунова v(£, w)=v{w) (58.22) мо&но выбрать такой:
4
ν(ιυ)= Σ чцмм, (61.17)
г, 3=1
где vtl = 6,549, v42 = v21 = 0,661, vls = v3t = —2,473, v14 = v« =
= -0,136, v22 = 0,137, v23 = v32 = -0,407, v24 = v42 = -0,031, v33 =
= 1,307, v34 = v43 = 0,089, v44 = 0,007.
Ее полная производная dv/dt, вычисленная вдоль движений
системы (61.12), в которой управление и определено равенством
(61.16), удовлетворяет условию
\ dt /(61.12)
-ο,ι Σ
W i.
i=l
(61.18)
В рассмотренном примере цена игры р° (£*>##) (57.73) и
управляющие воздействия
и [t] = и* (tu χ [ij, ε) + ик [id =
- "* (tu xlUh ε) + Ks°u(tu xltih ε), (61.19)
ti+i^t<tu i = 1,..., к
вычислялись на ЭВМ БЭСМ-6 с помощью специально
разработанной по описанному в § 58 алгоритму стандартной программы.
Эта программа пригодна для решения широкого класса
рассматриваемых задач высокой размерности. Исходными данными для
442
работы стандартной программы в нашем примере служат
матрица А (61.7), векторы &, с (61.8), вектор К = {к^ к2, kZy kj (61.16),
матрица {v^, i, 7 = 1, ..., 4} (61.17), а также значения
параметров ε и б. Входными данными являются реализовавшаяся
исходная позиция {£#, x%) и текущие позиции {ίί, #[£»]}, которые
реализуются по ходу управления системой в истинном масштабе
времени £е[£,и,Ф]. Выходными данными являются значения
цены игры, вычисляемой для исходной позиции {£#, ##}, и
величины управляющих воздействий uit{], назначаемые в виде (61.19),
а также для контроля — значения цены игры в реализующихся
текущих позициях {£t, хШ). Такая программа может служить
управляющей программой в реальном процессе времени, если
443
она будет реализоваться на ЭВМ, включенной в цепь
управления. Кроме того, разработанная программа может служить для
симуляции всего процесса в ЭВМ в ходе вычислительного
эксперимента. Тогда к входным данным добавляется та или иная
реализация помехи р№*[*]Ф) или алгоритм ее формирования. На
1
1
-ио
-80
Ч20\
\№
г~
/ft
л 1 1
г,о
ι ι г
3,0
1 г
5,0 t
Рис. 61.4.
выходе программа даст реализацию процесса и значения цены
игры по ходу процесса на каждом шаге, а также значение
показателя γ (61.9) для реализовавшегося процесса.
1
0
-щ
-2,0
-щ
vW
I
I
1,0
1
2,0
I I !
3,0
Рис. 61.5.
1
4.0 /
' 5У0 t
Игра, основанная на управлении ult] (61.19), была
симулирована на ЭВМ БЭСМ-6 для исходной позиции t* = 0, (pt (£*) —
= х*г = 0,3, φ2 (ί#) = х*2 = — 0,2, φχ (**) = я*3 = 0, φ2 (£*) —
β^#4 = 0 при значениях 8 = 0,01, δ — ti+i — U = 0,005 и для
444
помехи υ [£*Н^)> представленной на рис. 61.5. Эта помеха
формировалась по ходу процесса некоторым образом по текущим
значениям цены игры р°(**, хШ). В итоге для выбранной исходной
позиции получилось р° (**, х*) = 0,390, γ = 0,400, при этом
затраты в получившемся значении γ на стабилизирующую добавку
UKlhl·]®) составили Δγχ =0,019. На рис. 61.2 и 61.3 изображе-
• ·
ны соответственно в плоскостях {q>i, φ4) и ίφ2, φ2)
реализовавшиеся движения маятника, а на рис. 61.4 представлена
соответствующая реализация управления ult] (61.19).
§ 62. Детерминированный программный синтез
Вернемся к каноническому случаю игры {7Л; 8.1} для данных
(52.1)—(52.3). Рассмотрим программы ι>(·) (52.6) и и(-) (52.8)
частного вида, когда они не зависят от ω, оказываясь
детерминированными. Именно, будем называть детерминированной
программой р(·) функцию
у(')=Мт,м)е?,т*<т<*,цеР}, (62.1)
измеримую по совокупности переменных {τ, и).
Детерминированной программой и[·] будем называть измеримую функцию
и[.]={и[х]<=Р, τ#<τ<0}. (62.2)
Исходная позиция {τ#, ζ#} = {χ*, {w*, z*n+i}} и пара
детерминированных программ ίι>(·), и\·]} определяют
детерминированное движение ζ[·] = ζ[τ#[·]θ; ζ#, ν(·), и[·]] модели,
которое в согласии с (52.11)—(52.15) является решением
дифференциального уравнения
z = A{x)z + h(x, иЫ, v(r, ulx])) (62.3)
при начальном условии ζ [τ#] = ζ*. Для данной исходной
позиции {τ#, ζ*} модели программный детерминированный максимин
Ρ#(τ*> ζ#) определяется как величина
Ρ* (τ*, Ч) = sup inf [ f σ (τ, ιν [χ]) μ (dx) + ζη+1 [ft]
*·> «Μ ([τ*,θ]
= sup inf { \ σ (τ, w [τ]) μ (dx) + χ (τ, и [τ], ν (τ, и [χ])) dx\.
«■> "Ν 1[τ*,0] τ* J
(62.4)
Цель настоящего параграфа — указать достаточные условия,
при которых программный максимин ρ*(τ*, ζ*) (62.4)
определяет цену р°(т*> х*) исходной дифференциальной игры (7.1;
8.1} равенством (53.15), где, однако, ρ (τ*, ζ*) заменено на ρ^τ*,
ζ#), причем снова τ* «■ ί#, ζ* *= {#*, 0}· Рассматриваемые ниже
программные конструкции являются детерминированным
вариантом конструкций из §§ 52—56. Достаточные условия
выполнения равенства, такого же, как (53.15), но уже для вели-
-
445
чины ρ#(τ#»2*) (62.4), получаются перенесением на
рассматриваемый здесь случай игры условий регулярности из § 48.
Итак, следуя конструкциям из §§ 52—56 и упрощая их,
рассмотрим пространство 52, элементами которого являются
г(.) = {Γι(0, ..., rn(·), rn+i} = Ы-), rn+i). (62.5)
Компонента иК·) = {и>4(·), ..., wn(·)} есть измеримая w-мер-
ная вектор-функция
И.) = Мт),т*<т<{>}, (62.6)
интегрируемая на отрезке [τ*, Щ с квадратом ее модуля по
мере μ. Компонента гп+1 скаляр. Определим норму
||r(.)«=( J \ω(τ)\*μ(άχ)γ*+\Γη+1\. (62.7)
Движению ζ[·] = {»[·], z„+i[·]} модели поставим в
соответствие его образ г(·) = r(-)[2[']1 = {w(-)№", r^i1), полагая
н;(.)м-п-и;[.], τίϊι" = ζη+1[θ]. . (62.8)
Зададимся каким-либо числом β. Построим в пространстве 91
выпуклое, замкнутое множество Щ, определенное условием
42> =['(·): f <*(τ> Ητ])μ(<ίτ) + Γη+1<βΊ. (62.9)
[ [τ*,θ] J
Рассмотрим некоторое движение 2 [ · ] = ζ [τ* [ · ] ϋ; ζ*, ν (·),
и[·]]· Обозначим символом α (τ*, я*, у (·), и[·], β) расстояние в
пространстве 91 от образа г()[2[ 1] этого движения ζ[·] до
множества R$\ т. е.
со(т*, **,*;(.),"[·], β) == min |г(.)-г(.)№1]1|. (62.10)
r(Wp2)
Определим величину
а(т*, 2*, β) = supinf α(τ*, ζ», ζ;(·), μ Ν, β)· (62.11)
»(·) u[·]
Составим числовое множество
В (τ*, ζ*) = [β: α (τ*, ζ*, β) > 0]. (62.12)
Можно проверить, что программный максимин ρ*(τ*, zj (62.4)
удовлетворяет равенству
Ρ* (τ*, **) = sup β, β е= £(т*, ζ*). (62.13)
Введем также пространство 2\ элементы которого имеют
такое же строение, как и элементы г(·) из 91. Именно,
Г(·) = {h (·),··.. МО. 7n+i> = {/(·), ?«+!> -
= {Ζ(τ), τ*<τ<0,7η+ι}. (62.14)
44а
Компонента Ζ(·) — МД·), ..., Z„(·)} — измеримая w-мерная
вектор-функция, интегрируемая на отрезке [τ*, О] с квадратом ее
модуля по мере μ. Компонента Гп+1 есть скаляр. Определим
норму
||7(.)Г = тах[7 J \1(τ)\*μ(άτ)γ\ |7W+1|L (62.15)
сопряженную к норме Нг(-)И (62.7). Элементу Г(·) соответствует
(п+ 1)-мерная вектор-функция
?[τ] = {5[τ], 5п+1} =
1, τ] Ζ (η) μ (<Ζη), Тя+Л, τ*<τ<0. (62.16)
1[τ,θ]
Обозначим символом [Г(0 -г(·)] линейный функционал на
элементах К·), порожденный элементом Г(·), т. е.
[T(.).r(.)]= J <ί(η)·^(η)>μ(Α|) + ϊι+ιΓη+ι. (62.17)
[τ*,θ]
Пусть назначено какое-нибудь разбиение ΔΛ{τ,} отрезка [τ*, ft]
и τ* = τ». Зафиксируем какую-нибудь кусочно-неизменную по τ
и измеримую по и функцию ν*() (54.7). Выберем какую-либо
измеримую функцию и[] (54.8). Для фиксированного β, данной
исходной позиции {τ*, ζ#} = {τ*, {w%, ζ#η+ι}} и некоторого
элемента Г(·) (62.14) определим величину
κ (τ*, ζ*, τ*, г;*(·), и[·], Δ^{τ,·}, Τ(·), β) = <* [τ*] · ">*> +
τ*
+ J Κ* Μ ·/ (τ, и [τ], г;* (τ, и [τ]))> +
τ*
+ 7η+1χ (τ, гг [τ], у* (τ, ы [τ]))] dr +
+ J min max [<s [τ] ·/ (τ, и, ν)) + 1η+ι% (τ, и, ν)] dx —
τ* u-=P v=Q
— sup
r(Wf>2)
] <Z (τ) · и; (τ)> μ (<Ζτ) + Τη+ιΓη+1
(62.18)
Как и в случае (54.9), при τ* = τ* символы ι;*(·) и иМ в
обозначениях κ не играют содержательной роли. Поэтому при
τ* = τ* величипу κ будем обозначать так: κ (τ*, ζ*, τ*, Δ^{τ,},
Τ(·),β)·
Рассмотрим какую-либо детерминированную программу ν(·)
(62.1), которая при τ*'^ τ < τ* задается фиксированной
функцией ρ*(·) (54.7). Возьмем также некоторую детерминированную
программу и[] (62.2), часть которой при х*^х<.х* задается
фиксированной функцией и[·] (54.8). Рассмотрим движение ζ[·],
порожденное этой парой программ р(·), и[Л из позиции {τ*, ζ*}.
447
Зададимся элементом £(·) = {/(·), Г„+1> и вычислим величину
[Γ(·)·γ(·)1, где r(·) er(')IlM1- образ рассматриваемого движения
ζ[·]. Подобно (54.13) получим
[Τ(·)·Γ(·)] — <8[Хт]-и>щУ + 7я+Ап+1 +
+ J К* Μ ·/ (τ, и [τ], ι;* (τ, и [τ]))> +1П+Л(т, «[τ], ι;* (τ, и [τ]))] άτ +
τ*
+ J Κ* Μ-/(τ, и [τ], ι;(τ,ι*1τ]))> +
τ*
+ Τη+ιΧ (τ, u [τ], ν (τ, и [τ]))] ώτ. (62.19)
Для элемента Γ(·) с нормой (54.14) найдем программу
ι;Ιγ<·>] (.) = {ι,ΙΤ<·>1 (τ, и), т*< τ<ϋ), (62.20)
которая удовлетворяет условиям
ιΑ·>1 (τ, и) = ν* (τ, и), τ* < τ < τ*, (62.21)
<*[τ]·/(τ, и, ι;ΙΤ(-)1 (τ, и))> + 7η+ιχ(τ, и, ι;Π(·)](τ, и)) -
= тах[<5[т]./(т, и, ι;» + 7η+ιχ(τ, и, ι;)], τ*<τ<θ. (62.22)
Программа гД *(·)!(.) и программа иМ, продолжающая
фиксированную функцию иМ (54.8), определят из позиции {τ*, ζ*}
движение zl'('>](·). Пусть rl*(·)] (·) — образ этого движения
ζι'(·)](.). Как и в § 54 убедимся (см. (54.22)), что для
расстояния от Α Ι(,)1(·) до ближайшего к нему элемента г# (·)εΑ^
справедливо неравенство
μ~(·)1(.)-Γ,(.)|5»κ(τ#,ζ„τ·,Γ·(.),«Ι·], Δ* fth Τ(·),β).
(62.23)
Пусть 2'(2) — множество элементов К·), которые
удовлетворяют условиям
Т»+1-1 и ||Ζ(·)!* = / J \1(τ)\2μ(άτ)Υ2^ί. (62.24)
\[*·Μ /
Определим программный экстремум е равенством
е (τ*, ζ*, τ*, у*(.), и [·], Δλ{τ*}, β) —
- sup κ(τ#,^,τ*,ι;*(.)^[·],ΔΛ{^},Τ(·),β) + β, (62.25)
7(.)Ξ^(2)
если первое слагаемое в правой части в (62.25) неотрицательно.
Иначе полагаем е(х%, ζ^,τ*, ν* (·), и[·], ΔΛ{τ,·}, β) == β. При
τ# = τ* будем обозначать величину е так: е (τ#, ζ*, τ#, Aft {τ^}, β).
448
Как и в § 54 можно проверить справедливость неравенства
е(τ*, *„, τ#, Ak{τ,}, β)< α(τ*, ζ*, β) + β, (62.26)
которое соответствует здесь неравенству (54.26). А при т*я#
величина е (62.25) связана с величиной «(τ*, ζ*, ι>*(·)· и Μ» β)
равенством (см. § 54, (54.27))
*(τ*, **, θ, у* (·), и [.], Afcta), β) = α(τ#, ζ#, ι;* (·), и [·], β) + β,
(62.27)
какова бы ни была исходная позиция {τ*, ζ*} и пара программ
v4-) и иМ, для которых справедливо неравенство (54.28).
Подобно тому, как это сделано в § 55, установим оценку
изменения величины *(τ#, ζ*, τ*, ν* (·), и [·], ΔΛ{τ,·}, β) с
изменением τ*. Обратимся снова к функциям h{i+i}[·] (55.6) и
введем величины κ* и е*, которые отличаются от величин κ* (55.8)
и е* (55.9) лишь тем, что в новых κ* и е* фигурирует
детерминированный вариант элемента Г(·). Следует заметить, что в
равенстве (55.9), которое определяет величину е*, среди
элементов Г(·) (62.24) существует элемент
Р(->-*«·(■>, 1> (62.28)
на котором достигается максимум. Соответствующую ему
вектор-функцию Ί?Μ = {«Μ, Ιη+ι) (62.16) обозначим символом s° [·] =
— U0[«],Tn+il· Упрощая таким образом стохастические
элементы ИЛ из § 55 до детерминированных элементов КО,
рассматриваемых здесь, и повторяя в упрощенном варианте конструкции
из § 55, получим следующее неравенство:
е*(т*, **, ti+1, ι;[4+11(·). »Β][·], ΑΙ,+11Ι·], Ыъ), Р)-
-е(т„ ζ*, τ„ νΗ1(·), иш[·], Ак{х}}, β)<
*i+l Ti+1
< f <s° [τ] ·hli+l] [τ]} дп — f min max <s° [τ] · h (τ, и, ν)) άτ,
т т. «sp "£Q
(62.29)
которое отвечает неравенству (55.17). Здесь все величины имеют
тот же смысл, как и в (55.17), но только в том частном случае,
который отвечает частному случаю элементов Д·),
рассматриваемому здесь.
Сформулируем теперь условие регулярности, отвечающее
условию регулярности из § 48. Пусть зафиксировано число β, дана
позиция {τ#, ζ%), назначено число τ* е [τ*, ft] и выбрана
пара функций ι;*(·) (54.7), мМ (54.8). Предположим, что для этих
данных справедливо неравенство
е*(т„ *„ τ*, !;*(.),*[·], Λ[<+1,[·], Δ*{τ,}, β)>β, (62:30)
449
где ι>*(·) =ι>[ι+11(·), id·] = и1ПН и τ* = τί+ι — число из
назначенного разбиения Δ{τ^. Пусть Ζ°(·) есть максимизирующий
элемент, который согласно (55.9) определяет величину е* при τ* =
= τί+ι. Согласно предыдущему такой-элемент Ζ°(·) существует.
Пусть в соответствии с (62.16)
7° [τ*] = {s° [τ*], 7W+1}, s° [τ*] - J* Χ' [η, τ*] Ζ° (η) μ(ι*η). (62.31)
Максимизирующий элемент Ζ°(·) может быть не
единственным. Множество всех максимизирующих элементов Ζ°(·),
отвечающих данным β, {τ*, ζ*}, τ*, у*(·), иМ, Α[·], породит
множество S°(t%, ζ*, τ*, у* (·), и[·], Α[·], β) соответствующих им
векторов ?°{τ*1 (62.31). Скажем, что в области С* пространства
{τ, ζ) выполнено условие регулярности, если для всякой
позиции {τ*, zJeC при всяком наборе данных τ*, ι;*(·), wM,
Л Μ, β, удовлетворяющих условию (62.30), при всяком выборе
векторов
*°ω[τ*] € 5°(τ*, **, τ*, у* (.), "[·], A [·], β)
(/ = 1, ..., η + i) и чисел
α,·>0, 7 = 1, ...,га+1, 2«ί = 1 (62.32)
справедливо неравенство
minmax<J 2 α^°ω[τ*] -Λ (τ*, и, ν) ><
< 2 c^minmax (soU) [τ*]./*(τ*, α, ν)}. (62.33)
Обратимся к оценке (62.29). Будем перебирать все возможные
вектор-функции ftti+11[·]. Множество функций spM ={£°[τ], τ* <
< τ < τι+1), которые соответствуют всем возможным
максимизирующим элементам Г°(), отвечающим некоторой функции Α[ί+11[·],
обозначим символом S°(h[i+i][·]). Эти множества обладают теми
же свойствами, которые указаны в § 55 для аналогичных
множеств, за исключением свойства выпуклости. Рассмотрим
совокупность *S°(t»+i, h[i+l}[-]) векторов 5°[τί+ι1 = {$°[τί+1], 1), которая
получается для функций 3°Ы eS°(A[i+11M). Множества *5°(τί+1,
Ас<+11[·]) ограничены и замкнуты. При изменении функции
Α[ί+11[·], которое оценивается в слабой топологии для /&[<+11Ы,
множества S°(xi+lJ ACi+13M) изменяются полунепрерывно сверху
по включению в евклидовом (п + 1)-мерном пространстве.
На каждом отрезке [τ*, 0]с:[£0, θ] может содержаться не
более, чем конечное количество точек ί, в которых μ(ί = t) > 0.
Пусть на рассматриваемом отрезке [τ*, θ] такие точки есть
и их число есть q. (Иначе рассуждения только упрощаются.)
В назначенном разбиении ΔΛ{τ,·}, шаг которого 6= max [τ,·+1 — τ^]
i
450
полагаем малым, отметим все отрезки, содержащие такие точки.
Каковы бы ни были наращиваемые по шагам функции v[i}(-)
и итЫ, изменение величины е на всяком отмеченном отрезке
τ» ^ τ < τί+1 будет удовлетворять неравенству
е(т», *., τί+1, vli+1](·), u[i+11[·], Δ* {τ,}, β)-
-β(τ„ ζ*, ть г;м(.), uw[·], A*fo>, β)<δ#. (62.34)
Здесь -ЙГ — постоянная, которую можно выбрать не
зависящей от исходных данных. Таким образом, изменение е на всех
отмеченных отрезках будет удовлетворять неравенству
2Ае<2дЯб. (62.35)
Поэтому при всяком выборе числа ξ > 0 можно указать столь
малый шаг δ(ξ) >0 для разбиения АЛ{т*}, что для изменения е
на всех отмеченных отрезках будет выполнено неравенство
2Δ<?<ζ, (62.36)
каково бы ни было разбиение АА{тД с шагом δ < δ(ξ).
Обратимся к какому-либо отрезку τ» < τ ^ τ*+1, который не
является отмеченным. На этом отрезке мера μ([τ', τ"]) для
всякого отрезка W, τ"]<=[τζ·, Tt+J удовлетворяет неравенству
μ(ίτ', т"])^Мт"-т'). (62.37)
Здесь N — постоянная. Из (62.16) с учетом (62.24) и из (62.37)
вытекает оценка
11 [τ] - * [τ1+1] Ι < Ν* (τί+1 - х)х'\ (62.38)
где Ν# — постоянная, которую можно выбрать не зависящей
от исходных данных. Из (62.29) и (62.38) следует оценка:
**(τ,, *ф| τ1+1, »Ι1+1](·). иСЧМ. ACI+11l·], ΔΛ{τ,}, β)-
-β(τ„ ζ*, τ,, v[i\·), ис*3[-Ь M*i>. β)<
< f <1°[τ<+1]·Λ[ι+11[τ]>Λ-
Ti + 1
— Γ minmax<5°[Ti+1]-fe(T, u, v)}dr + Ν*δ3/2. (62.39)
г
Здесь TV* — постоянная, которую можно выбрать не
зависящей от исходных данных.
Построим теперь некоторое отображение, подобное тому,
какое было сконструировано в § 55. Пусть S — некоторый
выпуклый компакт в (w+D-мерном векторном пространстве Ш,
содержащий все возможные векторы £°[τ*] (62.16), которые только
могут встретиться при всех возможных исходных данных. Возь-
451
мем какой-либо элемент s*Gi и поставим ему в соответствие
$*) всех функций #ί+13[·1*=*{Ζ&Ι<+ι,[τ]*, τ*<τ<
■< τ<+1), которые удовлетворяют условию
f <**·&[ί+11[τ]*> dt= f min (s^.hydx. (62.40)
Множество #*($*) является выпуклым слабым компактом.
При изменении вектора s% множества H*(s%) изменяются сла-
<бо полунепрерывно по включению. Пусть Η — множество всех
возможных функций й[<+11Ы, отвечающих фиксированной
функции ι;Ι<+11(·). ^Построим для всякой пары {fe[l+li [·], s#), где
Л г [·] ей", s% eS, ее образ — множество всех возможных пар
{A[i+13M*, ?*>, где fctml[·]*€= Я(1*) и i**S*(xt+u Λ1*11!·]).
Здесь символ 5*(т<+1, fc[i+11N) обозначает οο5°(τί+ι, fc[i+13M).
Как и выше в §§ 42, 48 и 55, оказывается, что это
отображение имеет неподвижную точку {&[ι+1][·](0\ ^*0)}. Отсюда
следует соотношение
J <*(#0>.А[|+11[.](0)>Л= f minmax<5(#0).fe(T, u, v)>dr. (62.41)
Элемент Т^есо^^+ь fe[i+11l·]), поэтому найдутся числа
«j > 0, / — 1, ..., η + 1, 2 <*j — 1 и элементы ?(0)(i) e 5°(τί+ι,
А[г+13[·]), для которых справедливо равенство
п+1
*10) = 2J ai *(0)(i)· (62·42)
Но тогда в соответствии с условием регулярности (62.33) из
(62.39), (62.41) получим оценку
** (τ*, **, ri+1, ι;[ί+1](.)^1ί1[·],^+1][·1*,Δ,{τ,},β)- .
-е(хт, ζ*, τ4, »[i] (·), »Eil Ι·], Δ*{τ,}, β) «Л· (τι+1 - τ,) δ1/2.
(62.43)
А эта оценка (62.43) вместе со следствием 55.1 позволяют
в свою очередь доказать справедливость следующего
утверждения, которое отвечает здесь лемме 55.2.
Лемма 62.1. Пусть выполнено условие регулярности. Для
любого числа η>0 можно указать столь малый шаг 6[η1 >0,
что каковы бы ни были число β, позиция {τ*, ζ*}, разбиение
ΔΑ{τ>> с шагом δ<δ[η], не отмеченный отрезок [τ», т»+Л и
детерминированные программы vu+l](·), юпз[·], найдется
детерминированная программа ю[<+11М, продолжающая программу иш[-] и
452
такая, что будет выполнено неравенство
е(хш, **, τΗι, rf«+il(.)f и»+«[·], Δ,{τ;}, β)<
<е(т*, **, τ,, *[*](.), ttW[.lf Ак{т,}, β) + η(τ1+1-τ,). (62.44)
Вместе с оценкой (62.36) приращений е на отмеченных
отрезках [τ», τ<+1] оценка (62.44) для не отмеченных отрезков
позволяет доказать, что при выполнении условия регулярности для
любого ξ>0 найдется δ(ξ) >0 так, что при всяком
наращивании по шагам i функции vli+i]{-) можно подбирать по шагам
такое наращивание функции и1<+11Ы, что осуществится неравенство
е(т*,2*, О, ν(·). ы[-Ь MTib Р)<е(т#, 2*,т*, Δ^{τ,}, β) + ζ,
(62.45)
если шаг б разбиения AjtjJ будет не больше δ (ξ).
Это позволяет для детерминировапного программного макси-
мина р*(т«, 2*) повторить полностью рассуждения из § 56.
Таким образом получается доказательство следующей теоремы.
Теорема 62.1. Пусть выполнено условие регулярности. Тог-
да для всякой исходной позиции {£*, я*}^ G цена р°(^, х*)
позиционной дифференциальной игры {7.1; 8.1} для данных
(4.1)—(4.3) совпадает с программным детерминированным мак-
симином ρ* (τ*, ζ*) (62.4), где τ* = t%, z% = {x%, 0}.
В заключение параграфа отметим, что и развитый в §§ 57—
59 программный стохастический синтез для квазиканонического
случая можно трансформировать до программного
детерминированного синтеза для такого случая. При этом для того, чтобы
программный детерминированный максимин ρ* (τ*, ζ%)
определял цену позиционной игры ρ°(ί*ι χ*) согласно равенству (53.15),
опять оказываются достаточными условия регулярности, которые
получаются понятной трансформацией условий регулярности,
данных в этом параграфе для канонического случая. Наконец,
следует сказать, что можно было бы выяснить и вопрос о
необходимости рассматриваемых в этом параграфе условий
регулярности, подобно тому, как это сделано в частном случае в § 48.
§ 63. Пример
Возвратимся к примеру 17.1. В § 17 в этом примере
выражения для цены игры р°(£, хи ..., я4) (17.8) и (17.22), (17.23)
были приведены как данные, без их вывода. Предлагалось
только проверить прямыми вычислениями, что данная там функция
р°(£, хи ..., хк) удовлетворяет условиям I, II и (15.35) из § 15,
которые достаточны для того, чтобы эта функция давала цену
игры ρ°(ί, χ). В настоящем параграфе выведем выражения (17.8),
(17.22), (17.23) методом программного детерминированного
синтеза, который дан в § 62.
Рассматриваемые уравнения (17.5), показатель γ (17.6) и
ограничения (17.7) составляют частный случай условий (52.1)—
453
(52.3). Поэтому можно обратиться к построениям из § 62.
Фундаментальная матрица Xlt, χ] для dx/dt = Ax в случае (17.5):
(1 о t— τ 0 \
II ! ',-'1 <«·«
0 0 0 1 /
Показатель γ (17.6) получается из показателя γ (52.3) при
выборе меры μ(ί = О) = 1, μ([ί0, *)) = 0и функции
α (θ, χ Щ) - {х\ [Щ + х\ Щ)х1\ (63.2)
Поэтому здесь в элементах г() = {ш(0, г„.ц} и ?(·)=» Ш·),
Гп+1} из пространств 52 и S7 значения н>(т), Ζ(τ) при τ*^τ<θ
не будут играть никакой роли. Отсюда следует, что пространства
91 и 3? с самого начала целесообразно упростить, полагая
элементы г() и ?(·) просто (п+ 1)-мерными векторами
г = {и;, rJl+1} = {r„ ..., rn, rn+1} = {wu ..., ц?я, rn+11}, (63.3)
с нормами
/ η \1/2
И- [Σχw2ij + |rn+1| - Μ + kn+ib (63.5)
I Ι η \ 1/2 \
||T|r = max((2^J ,|T„+1|j=max(|i|,|Tn+1|), (63.6)
где η = 4. Образом движения ζΜ = {и>М, ζη+ιΜ} здесь будет
ruMi = {и?[.[.]1^ ГЩ]} = {M?[(>]f W[fl]>. (63.7)
Согласно (63.2) множество Λβ2) (62.9) теперь в U+D-мерном
векторном пространстве определится условием
(wl + wl)1/2 + r&^p. (63.8)
В соответствии со всем сказанным, величина е(т*, £#> T*f
*>*(·)> ы[·], ΔΛ{τ;·}, β) (62.25) определится равенством
*(τ*, ζ*, τ*, у*(·), и[-Ь Δ^{τ,}, β) =
= max[<Z.X[ft, т*]^*) + ζ*Λ+ι +
||/И*<1
τ*
+ J [<i · -ϊ [θ, τ] (ft* [τ] + Ο; [τ])> + <u [τ]. ν [τ]>] dr +
τ*
+ f minmax[<Z.X[ft, τ] (Bu + Cv)) + (u-v)]dx —
i*\u\<2\v\<l
- sup Kl-w} + rn+1]] + p. (63.9)
Γ<=Κβ
Из условия (63.8), которое определяет множество R$ ,
заключаем, что максимум в (63.9) может достигаться лишь на та-
ких вектора*: I = {lu Ζ2, Ζ3, IJ, У которых h = h = 0. В самом
деле, иначе последнее слагаемое под знаком максимума в (63.9)
обращается в —<». При условии h = Z4 = 0 это слагаемое будет
равно числу —β. Итак, из (63.1), (63.9) получаем следующее
выражение для величины е (62.25):
е (τ*, zm, τ*, ϋ* (.), и [·], ΔΑ{τ,·}, β) = max Цг (w^ +
+ ">*3 (^ — τ*) + 8ι) + h (">*2 + w*4 (* — τ*) + g2) + z#w+i +
τ) (иг + vx) +
τ* 2 \ θ
+ f 2 иД'Фл*] ι ^τ + ίmin max i^i (* ·
T*j=l / T»|U|<2W-<1
+ Z2 (θ — τ) (u2 + v2) + u^i + u2v2] dr], (63.10)
где вектор g = {gt, g2) определен равенством
τ*
ft - J (О - τ) (и, [τ] + Vi [τ]) dx, / = 1, 2. (63.11)
τ*
Величина интеграла в (63.10) не зависит от направления
двумерного вектора Uu hh Она определяется лишь евклидовой
нормой этого вектора
ν = (Й + ll)1/2. (63.12)
А сумма первых двух слагаемых в (63.10) при фиксированном
значении v>0 (63.12) достигает максимума при
lx = /W = ατν/\ а\, 12 = 4V) = flav/| л |, ί63·*3)
где а =· {at, a2) — двумерный вектор
« = {^*ι + ^*з (* — τ*) + £ι> и>*2 + и>*4 (* ^ τ*) + £2}· (63.14)
Величина
ζ (s*> s*) = min max [s* (^i + ^i) + s* (u* + v2) + и&г + u2v2] (63.15)
в соответствии с (17.16) имеет следующие значения в
зависимости от величины модуля |s*| двумерного вектора s* = [sl9 s2}:
(—U*^ Is* 1^1,
Ι —3|**ϊ + 2, l<|i*|<2, (63.16)
(_|5*|_2, 2<|**|.
Таким образом, для значений τ* ^ [θ — 1, Φ] величина е
(63.10) согласно (63.13)—(63.16) определяется равенством
е(τ*, ζ*, τ*, u*(-),u[-], Δ^{τ,}, β) = z*n+1 +
ε(«ι·,*ϊ)-ε·(ΐ«*ΐ)-
max [ν | α | - ν2 (θ— τ*)3/3]. (63.17)
455
Решая задачу на максимум (63.17), получаем такое
максимизирующее значение:
vo 3|α| |α|<2(θ-τ*)3/3,
2(О-τ*)3 ' '^ ν ' (63.18)
ν° = 1, |α|>2(θ-τ*)3/3.
Максимизирующий вектор
Ζ° = αν°/|α|, |α|>0, Ζ° = {0, 0>, \α\=0 (63.19)
■■•является единственным. Поэтому условия регулярности здесь
выполнены. Таким образом, согласно материалу из § 62 приходим
к выводу, что при τ^^Ιΰ*—1, Щ цена исходной
дифференциальной игры ρ0 (τ*, х$) определяется равенством
3&2
Р° (τ*> **) — е (τ*, {#*, 0}, τ*, β) = — -g- (63.20)
4 (О — τ*)
при ft<(2/3)(ft —τ*)3 и
Р° (**, χ*) = е(Ч, {χ*, 0}, т*, β) - ft - (°~3τ*)3 (63.21)
при Λ>(2/3)(θ —τ*)3.
Здесь
* = ((**ι + **з (»;- τ*))2 + (*„, + **4 (О - τ*))2)1/2. (63.22)
Соотношения (63.20)—(63.22) совпадают с теми
соотношениями (17.8), (17.9), которые определяли цену игры р° (£*,#*) в § 17.
Теперь становится ясен смысл фигурирующего там и здесь
числа ν°. Это число равно евклидовой норме вектора 1° (63.19),
который является максимизирующим в определении величины е.
При τ*<Φ —1 величина е в соответствии с (63.10)—(63.16)
определяется равенством
*(τ*> **, τ*, ι*(·), м[-1» Ak{xj}, β) =
τ*
J (iwjW^wb
τ* \j=i /
— *·η+ι + J \2i Щ[тЩх] №+ max [ν | a \ + φ (τ*, ν)],
τ* \j=i / ν<ι
(63.23)
где вектор а снова определен равенствами (63.11), (63.14) и
о
φ (τ*, ν) = f min max [l[v) (θ — τ) (щ + у,) +
i*M<2|i>l<l
+ Ζ(2ν) (θ - τ) (и, + у2) + uxox + u2v2] άτ = j ζ* (ν (θ - τ)) άτ,
(63.24)
причем вектор W и функция ζ*(|$*|) определены равенствами
(63.13), (63.16),
456
Имеем
3ν (θ — τ*)ζ 5
ν2 (e — τ*)3_
3 *»
ν (θ — τ*)2 19
6ν+2(θ-τ*);
<Ρ(τ.*,ν) = { ve[_L_t?A_]n[0, 1], (63.25)
^[rbi^lnto.il·
Не проводя подробно вычисления функции φ (τ*, ν), которые
доказывают равенства (63.25) при всех возможных значениях
аргументов, поясним лишь это вычисление в случае, когда
значение ν лежит в пределах
ve [ο^μ, db] Π №. 1]. (63.26)
При условии (63.26) функция ξ*(ν(ϋ — τ)) в (63.24) имеет
следующий вид:
ί_ 3ν(θ — τ)+ 2, τ*<τ<θ—1/ν,
f(v(0-T)).-(_^_T)tf θ_1/ν<τ<θ. (63.27)
Разбивая в (63.24) отрезок интегрирования [τ*, Φ] на части
[τ*, θ—1/ν) и [Φ — 1/ν, θ], и вычисляя затем интеграл (63.24)
при значениях (63.27), получим как раз выражение для
функции φ(τ*, ν) (63.25) при условии (63.26).
При τ* ^ Φ — 2 возможно уже существование двух
максимизирующих векторов
zo(D и νο(ΐ)α> ре» = νο(2)αβ (63.28)
Эти векторы коллинеарны и различаются только по норме.
Но можно проверить, что при наших данных условие
регулярности опять выполняется. Благодаря этому получаем следующее
выражение для цены игры:
р°(т*, хт) = е(т*, {я*, 0}, τ*, Δ*{τ;}, β) = max[v/c + φ (τ*, ν)],
(63.29)
где к — величина (63.22) и φ (τ*, ν) — функция (63.24).
Соотношения (17.22), (17.23) являются частным случаем выражения
(63.29) притче [ft — 2, 0—1], и теперь ясно, почему было
естественным в § 17 изображение цены игры р°(£, хи ..., хп) в
форме задачи на максимум (17.22) по некоторому параметру v.
В заключение отметим, что в позициях {τ*, я*}, где при
τ* < ^ — 2 существуют два максимизирующих вектора (63.28),
цена игры р° (τ*, х%) (63.29) является функцией недифференци-
руемой.
30 н. Н. Красовскай 457
§ 64. Пример
Обратимся к примеру 10.1 из § 10. Обозначим символом и(Э>
вектор и в плоскости {qu q2), повернутый на угол β. (Считаем
положительным направление против часовой стрелки.)
Управляемым объектом является материальная точка, которая движется в
плоскости {g1? q2) под действием силы £ = Ю(г>) (см. рис. 10.1).
Преобразуем уравнения движения (10.4) к новой
фазовой'переменной
ρ = Χίϋ, i\x, (64.1)
где
(1 τ — t 0 0 \
2 J Ϊ τ-J . (б4·2)
0 0 0 1/
есть фундаментальная матрица решений для однородной системы
уравнений dxJd%=*Xi, άχ2/άτ = 0, άχ3/άτ — #4, dxjdx = 0.
Подобное преобразование рассмотрено в § 6. Полагая массу точки
равной единице, получим из (10.4), (64.1), (64.2) новую систему
уравнений
рг = (ft — t) (wx cos ν — u2 sin ν),
p2 = щ cos ν — Щ sin y, ,„, „v
p3 = (0 — £) {ux sin ι; + и2 cos y),
p4 == цх sin ν + u2 cos v.
Так как ΧίΦ, ΰ1] — единичная матрица, заключаем из (64.1),
что показатель γ (10.8) в записи через новую переменную ρ (64.1)
сохраняет прежнюю форму:
γ = (ρ?[θ] + ρ82[θ])1/2. (Μ·*)
Величина γ (64.4) определяется только значениями ράϋ] и
р3М. Правые части уравнений (64.3) координат ptit] (ι = 1, ...,4)
не содержат. Отсюда заключаем, что при исследовании
рассматриваемой дифференциальной игры достаточно ограничиться лишь
первым и третьим из уравнений (64.3). Поэтому, вводя еще
переменную
г = (η, г2> — {/?ι, Рз>, (64.5)
придем к дифференциальной игре {7.1; 8.1} для системы,
описываемой уравнениями
г4 «*(θ — £)(Wi cos ν — w2 sin у), ,g, gv
зг2 = (θ — t) (щ sin ι; гЬ w2 cos у)
или — в векторной записи —
f = №-t)uiv). (64.7)
458
При этом согласно (64.4), (64.5) показатель γ будет иметь вид
γ = (Γ?[#] + Γ22Ιθ])1/2. (64.8)
В § 10 показано, что условие (8.14) для уравнений (10.4) не
выполнено. Также можно проверить, что условие (8.14) не
выполнено и для двумерной системы (64.7). Поэтому можно только
утверждать, что седловая точка рассматриваемой
дифференциальной игры складывается из чистой стратегии и°(·) и
контрстратегии vl(-). Согласно материалу из § 62 можно утверждать
далее, что цена р°(£, r) дифференциальной игры {7.1; 8.1} для
данных (64.7), (64.8) совпадает с величиной детерминированного
программного максимина р# (£, г) (62.4), если установить, что
выполнено условие регулярности (см. § 62). Проверим, что в
данном случае это условие выполнено. Выпишем выражение для
р# (£, г). В связи с отсутствием в показателе γ (64.8) интеграла,
зависящего от иЫ и у[], здесь достаточно использовать лишь
двумерную компоненту w = {wu w2} из трехмерного вектора ζ —
= {w, zs). Тогда получим из (62.4), (64.7), (64.8) следующие
соотношения:
Ρ* (τ#,, и>*) = max κ (τ*, w*y τη)=κ (τ*, и?*, m°), (64.9)
|mKl
κ (τ*, w%, m) — (m-w%} + \ minmax<m-(0— х)щ»)Ус1х· (64.10)
Так как условия задачи симметричны относительно осей
координат Ti и г2, то достаточно рассмотреть случай, когда вектор
и7* = {и>#1> и>*2} лежит в
первом квадранте. Результаты для
случаев, когда вектор w* будет
лежать во II, III и IV
квадрантах, получатся
автоматически поворотом рассматриваемой
ниже геометрической картины
соответственно на углы π/2, π
и 3π/2. Обозначим символом
ξΓ угол, который вектор г
составляет с осью г1в Полагаем
согласно сказанному выше
ζ»* е= [0, π/2). (64.11)
Пусть вектор т=*{ти т2)
также удовлетворяет условию
ξ,η€=[0, π/2). (64.12)
Из рис. 64.1 видно, что справедливо следующее равенство:
min max (θ — τ) < m · u(v)} = {(ϋ — τ)< τη - и[32а)У, 0 < %т < π/4;
(*-τ)<ι»·48>, π/4<ζ„<π/2).
,<L(i; т
- А
й/3) / \
г~а;Лч. \
/ \\\
/ \ \N
,, (3)\ ^ \ __Ч
V /
V /
ч
>^ \
/ \
/ А
/ / \
/ / ^
///-""" Х
ν /
V /
w
^■*-*^Λι /
L7><
*' и""
Рис.
64.1.
Ί(ϋ
30*
(64.13)
£59
Здесь u{i) суть векторы из тех четырех векторов, которые
составляют множество Ρ (10.1). Число а —предельное значение,
определяющее множество Q (10.2) значений люфтового угла v.
Положим для определенности α = π/6. Опираясь на (64.13),
найдем максимизирующий вектор т° из (64.9).
Для проверки условий регулярности достаточно ограничиться
случаем, когда ρ* (τ#, и>*)>0. В таком случае вектор т° имеет
Рис. 64.2.
Рис. 64.3.
единичную норму |/тг°|=1, а вектор w% не является нулевым.
Рассмотрим сначала векторы w%, удовлетворяющие условию
ие[0,я/4). (64.14)
Составим вектор
(64.15)
„* = щ + (±=1*1иРш.
Если для данного вектора и?* окажется, что
ζ„*>π/4, (64.16)
то из (64.9), (64.10), (64.13) на основе геометрических
соображений вытекает, что
т° = (cos^, sin -j} = {1//2, 1//2}. (64.17)
• (См. рис. 64.2, который иллюстрирует этот результат.)
Если же
ζ„*<π/4, (64.18)
то s
т° « w*I\ и;* |. (64.19)
(См. рис. 64.3, который иллюстрирует этот результат.)
Если при условии (64.14)
ζ**φ0, (64.20)
то других максимизирующих векторов w°, кроме (64.17) или
(64.19) нет, так как геометрические соображения показывают, что
460
в таких случаях не может быть максимизирующим вектор т,
у которого ζτη&[0, π/2). Если же при условии (64.14) имеем,
в частности,
U = 0, (64.21)
то в случаях (64.16) или (64.18) максимизирующим будет также
вектор
moe{cos£f-sin-J-} = { 1//2,-1/Ϋ2] (64.22)
или вектор
то = [w*t _ wl)J\ w* ι (64.23)
соответственно.
Обратимся теперь к случаю, когда
ζ™* е [π/4, π/2).
Составим вектор
w
№%
">* +
№-**) ,.U)
Щл/6)·
Если
(64.24)
(64.25)
(64.26)
ζυ>** < Я/4,
то вектор т° определяется снова равенством (64.17). Если же
ζ«,**>π/4, (64.27)
то
771° = Η?**/Ιη>**|.
(64.28)
(См. рис. 64.4 и рис. 64.5, которые иллюстрируют эти
результаты.) {
Таким образом, приведенные соотношения показывают, что
при условии р# (τ*, ιν%)>Ό в области 0 < £w* < π/2 каждой
позиции {τ*, w*} отвечает единственный максимизирующий вектор
Рис. 64.4.
Рис. 64.5.
т°. Вследствие отмеченной выше симметрии условий задачи, это
означает, что при условии р# (τ*, w#) > 0 всякой позиции {τ*, н;*},
где точка w% не лежит на какой-либо из осей координат, отве-
461
чает единственный максимизирующий вектор т°. Но это в свою
очередь означает, что для таких позиций требование из условия
регулярности выполнено автоматически. В позиции {τ*, и;*}, где
выполнено условие (64.21), будет два максимизирующих вектора
т°. Вследствие симметрии условий задачи, это означает, что при
условии ρ*(τ*, w%)>0 каждой позиции {τ*, м;*}, лежащей на
одной из осей координат, отвечает два максимизирующих вектора
т°. Рассмотрим такой случай. Пусть точка w* лежит на оси д1#
Ей отвечают два максимизирующих вектора тош и т0[2}.
Согласно (64.17), (64.19), (64.22), (64.23) эти векторы можно записать
в виде
те·"!-{cos η, sin η}, m0l2] = {cos η, -sin η}, (64.29)
где угол η, зависящий от w%, лежит в пределах
0<η<π/4. (64.30)
Согласно материалу из § 62 для выполнения условия
регулярности достаточно, чтобы при всяком выборе чисел cti > 0,
α2 > 0, αϊ + ok = 1 было справедливо неравенство
min max UO - τ*) ί 2 α,ι»0113) · и(,Л <
2
< 21minmax[<(0 —x^otiiii0111.^))]. (64.31)
Из (64.29), учитывая возможные значения u=*w(i) (/ = 1, ...
..., 4) (10.1) и ye [—jt/6, π/6] (10.2), получаем равенство
min max </ιιοί43·Μ(Β)> =
-cos (π-(-J +r))) = -cos(-£ +η), i =1, 2. (64.32)
(См. рис. 64.6, который иллюстрирует это равенство.)
Из (64.32) следует, что правая часть (64.31) не зависит от
значений а» и равна величине
(в· — τ*) 2 aimin max <w°[il · w(t))> = — (ft — τ J cos ( -£- + η ).
i=l u<=P DSQ \ D }
(64.33)
Из геометрической картины для левой части (64.31) вытекает
равенство
(ft — τ*) min max \ 2 αί^0[ι] -u(v) у =
u=P v~Q \Li=l J /
= -(^-^3cos(-J + P), (64.34)
462
где "угол β зависит от η и at, Ог и удовлетворяет неравенству
О < β < η. (6435)
(См. рис. 64.7, который иллюстрирует равенство (64.34).)
Тригонометрические преобразования показывают, что при
всяком значении β из (64.35) справедливо неравенство
- <* - *·> S3cos (τ + β) < - <θ - τ*>cos (т + η)· (64·36>
Из (64.33), (64.34), (64.36) следует неравенство (64.31). Стало
быть, для позиций {τ*, w#}, лежащих на оси д1? требование
условия регулярности выполнено. Но вследствие симметрии в
условиях задачи, это означает, что данное требование выполнено для
Рис. 64.6. Рис. 64.7.
позиций, лежащих на любой из осей координат. Таким образом,
нужное неравенство выполнено для всякой позиции {τ*, н;*}, где
Ρ*(τ*« 10*) >0. А это доказывает, что в рассматриваемом случае
условие регулярности выполнено. Следовательно,
детерминированный программный максимин ρ* (τ#, ιυ%) (64.9) совпадает с ценой
Р°(**> г*) дифференциальной игры {7.1; 8.1} для системы (64.7)
с показателем γ (64.8) для всякой возможной позиции {τ*, w*} =
= {£*, г*}. Поэтому преобразования (64.1), (64.5) и равенства
(64.9), (64.10) позволяют вычислить цену ρ°(τ*, #[т*]) для
исходной дифференциальной игры {7.1; 8.1} для системы (10.4) с
показателем γ (10.8). А это согласно материалу из §§ 26, 27
позволяет построить оптимальные стратегии ц°(·) и
контрстратегию Vu(-), исходя из условий экстремального сдвига (26.22) и
(27.6). Однако в этом параграфе, пользуясь случаем, применим
другой способ построения оптимальных управляющих
воздействий и9[и[-]и+1) и помехи v°[til-]ti+i). Этот способ базируется на
моделировании в ЭВМ в реальном процессе управления
некоторого впомогательного движения ζ [£*[·] θ], которое будем
называть движением поводыря. Обратимся сначала к формированию
управления и. При построении управляющего воздействия u°[tj
на я-объект состояния z[£j названного движения будут играть
роль сопутствующей точки из § 26, и искомое воздействие u9ltH
определяется тем же условием экстремального сдвига, но уже не
на сопутствующую точку, а на состояние zfij поводыря. При этом
движение поводыря определяется, как ив § 26, из условия
4G3
u-стабильности. Различие проявляется лишь в том, что в момент
ti+l мы не переходим к новой сопутствующей точке, но поручаем
ее роль той точке z[ti+l], в которую приходит в момент ti+i
движение поводыря. Таким образом, в реальном процессе
управления осуществляются параллельно два движения: движение #-
объекта x[t] и движение поводыря zlil, моделируемое в ЭВМ.
В отличие от воображаемого сопутствующего движения zlil из
§ 26, движение поводыря zlt] оказывается непрерывным.
Аналогичным образом, с понятными изменениями строится процесс
формирования помехи и°(и, и) с поводырем zlt]. Эта помеха
конструируется из условия экстремального сдвига из § 27 на
состояния zlti]. Движение поводыря ζ[** [·]#!· строится также
уже на основе условий у-стабильности из § 27.
Доказательство того, что описанные процедуры управления
(формирования помехи) с поводырем при малом шаге δ
обеспечивают результаты не хуже, чем гарантированный результат
Р°(**> #*) со сколь угодно малой наперед выбранной добавкой
ξ>0 (—ξ<0), в основном повторяет доказательства из §§ 26,
27. Это доказательство опустим.
Вычисления цены игры р°(£, х) на основе детерминированной
программной конструкции и построение управления u°[t] и
помехи у°[£, и] в схеме с поводырем были выполнены на ЭВМ
БЭСМ-6. Результаты численной симуляции игры в ЭВМ были
приведены выше в § 10 на рис. 10.2.
§ 65*. Модель на броуновском процессе
В гл. IV и в предыдущих параграфах этой главы
стохастическая модель построена с использованием вероятностного
процесса, который порождается последовательностью независимых
случайных величин ξι, ..., |ft. Но случайный сигнал для
подобной модели можно выбирать среди различных вероятностных
процессов с независимыми приращениями. Опишем в этом
параграфе построение модели, выбрав в качестве случайного
сигнала стандартный броуновский процесс ([21*], с. 318). Этот
сигнал можно трактовать, например, как предельный случай сигнала
€ приращениями |4, ..., ξΛ при &-+■«>, причем случайная вели-
, (О — **)(/ — 1)
чина |j отвечает моменту Tj = τ* Η ^ и распределена
равномерно на отрезке — ^- , * γ^— . Таким
образом, цель настоящего параграфа — описать соотношения, в
которые обращаются соотношения из предыдущих параграфов при
переходе от сигнала {£1? ..., Ы к броуновскому сигналу. При
этом основное внимание будет уделено описанию конструкций
без их досконального обоснования. Итак, пусть дан отрезок [τ*,0],
отвечающий какой-то исходной позиции {τ*, ζ*} модели, которая
характеризуется уравнением (52.11). Рассмотрим стандартный
464
броуновский процесс
η(.) = {η[ί, ω], т*<*<0, ωεΩ}, (65.1)
определенный на подходящем вероятностном пространстве
Ш, ^f, Ρ}. Таким образом, η[£, ω]—скалярная случайная
функция. Но можно было бы выбрать за основу векторный
броуновский процесс η[£, ω] = {η»[ί, ω], ί=1, ..., q). Иногда это
оказывается удобным. Процесс η [τ, ω] имеет независимые
приращения
Δη = η[ν, ω]— η[τ, ω], (65.2)
подчиненные нормальному закону распределения
Ρ (Δη < ξ) =- ) \ е~ «5=5 άζ, (65.3)
γ2π(ν — τ) J
— 00
где символ Ρ14) обозначает вероятность события А. Стало быть
Μ{Δη} = 0. (65.4)
Условное математическое ожидание Μ{η[ν, ω]|η[τ, ω]}
удовлетворяет равенству
Μ{η[ν, ω]|η[τ, ωΠ^ηΓτ, ω], (65.5)
дисперсия D{Ar|} приращения Δη (65.2) удовлетворяет равенству
0{Δη} = (ν-τ).~ (65.6)
Кроме того, будем предполагать выполнение равенства
η[τ*,ω]-0. (65.7)
Обозначим символом η [τ* [·]τ*; ω] реализацию этого процесса
на полуинтервале τ*^ < τ*. Назовем стохастической программой
ν(·) функцию (52.6), измеримую по совокупности аргументов
(τ, и, ω} и неупреждающую относительно процесса η(·) (65.1).
Стало быть, согласно ([14*], с. 31) почти наверное справедливы
равенства
ν (τ, и, ω) = ν (τ, и, η [τ* [ - ] τ; ω]). (65.8)
Стохастической программой и(-) назовем функцию и(-) (52.8),
измеримую по совокупности аргументов {τ, ω} и неупреждающую
относительно η(·). Стало быть, почти наверное справедливы
равенства
и (τ, ω) = и (τ, η [τ* [ · ] τ; ω]). (65.9)
Обозначим символом &{п[т*[.]т·,·]} такую σ-подалгебру из 3&у
которая порождена случайными функциями η [τ* [·] τ*; ω].
Дальнейшие построения повторяют построения из §§ 52, 53 с той
разницей, что все строится уже на базе нового вероятностного
пространства Ш, Jf, Ρ}. Здесь можно не вводить разбиения Ак{т£
отрезка [τ*, О]. Для текущего момента τ роль набора {|1? ..., У,
465
где Χχ => max τ,·, передается реализации η [τ^ [·] τ; ω]. Движение
Xj^X
ζ [τ# [ · ] &, · ] (52.16) является неупреждающей относительно
процесса η(·) (65.1) функцией. Величина α (53.9) заменяется
здесь сразу величиной
α (τ*, ζ*, β) =
= sup inf Γ inf inf |r*(.)—r(.)|] (65.10)
»(·) u(.) |^r*(.)€H(l)(r(.)) Γ(.)£β(β2) J
и программный максимин определяется равенством
Ρ (τ*, ««) = sup β, βεδ (τ*, ζ*), (65.11)
где -Β (τ*, ζ*) числовое множество, определенное условием
В (τ*, ζ*) = [β: α (τ,, **, β) > 0]. (65.12)
Снова можно доказать, что цена p°(t*,3:%) исходной
позиционной дифференциальной игры {7.1; 8.1} для данных (52.1)—
(52.3) связана с программным максимином ρ (τ*,2*) (65.11)
равенством (53.15). Величина ρ (τ*, ζ*) определяется программным
экстремумом е(х%, ζ*, τ*, β), который строится подобно тому, как
это сделано в § 54. Однако теперь, используя дифференциальные
уравнения Ито ([21*], с. 340), соотношениям, которые определяют
е, можно придать новую форму. Ограничимся для определенности
случаем, когда показатель γ (52.3) имеет частный вид
V = σ (χ [Щ) + J χ (τ, и [τ], ν [τ]) dx. (65.13)
ί*
В этом случае соотношения принимают наглядную форму и
допускают полезную интерпретацию. Так выражение для е
принимает вид
е(х*, ζ*, τ*, β) = sup[<^.^> + z#n+i +
«Η
+ Μ imin max [<s [τ, ω] · / (τ, и, ν)} + χ (τ, и, ν)]\ dx —
- sup Μ««[0,ω].Μ;(ω)> + Γη+1(ω)>] + β, (65.14)
rcWp2)
где случайная неупреждающая и-мерная вектор-функция
$[.]={$ [τ, ω], т*<т<А, (oei3} (65.15)
является решением следующего дифференциального уравнения
Ито:
ds = — A'(x)sdx + a(x, ω)ίίη(τ, ω); .. (65.16)
она удовлетворяет начальному условию
s[x*, ω] = s# (65.17)
и V ^нена условие^
1Ш, ·]Π*-(Μ{|ί[Φ, ω]|2))1/2<1. (65.18)
Здесь α (τ, ω) — неизвестная случайная неупреждающая п-
мерная вектор-функция. Уравнение (65.16) является как бы
предельной формой уравнения (50.36), когда последовательность
случайных скачков a[|i, ..., ξ,] в дискретные моменты х,
переходит в непрерывное случайное возмущение α(τ, ω)ίίη(τ, ω). В
частности, если в(х) — \х\, то множество Щ можно определить
условием
Μ{σ(α>(ω)) + гп+1(ш)} ^ β. (65.19)
Тогда из (65.14) вытекает следующее выражение для
программного экстремума:
«(τ«,{*„ 0}, τ*, β) -впрЯ(*[·]), \s [θ,·]|·< 1, (65.20)
где
#(*[·]) = <*··*·> +
+ ί Μ/minmax[<s|4, ω]·/(τ, и, ν)} + χ(τ, w, v)]\dx, (65.21)
Ъ luep v<=Q I
причем верхняя грань вычисляется на функциях $[τ, ω], которые
удовлетворяют условию
vraimaxlstfl, ω]|<1. (65.22)
Таким образом, задача о вычислении цены игры р°(**> ·τ*) —
= Ρ (τ* ι {#*, 0}), где τ* = ί^, сводится к задаче (65.20) о
максимизации функционала #(sl·]) на случайных движениях sM,
описываемых уравнением (65.16), при условиях (65.17), (65.22).
Здесь искомыми являются начальное состояние s% (65.17) и
функции α(τ, ω) в уравнении (65.16). Эту задачу в свою очередь
можно рассматривать как задачу об оптимальном управлении
стохастической системой (65.16) при условии максимизации
функционала H(s[·]) (65.21) при ограничении (65.22). Если вместо
функции sl·] использовать функцию ml·], связанную с s[-]
равенством
s [χ, ω] = Χ' [θ, τ] т [χ, ω], χ# ^ τ <; Φ, ω е Ω, (65.23)
то из (65.20) получим равенство
е (τ*> {х*, 0}, τ*, β) = sup #* (τη [ - ]), (65.24)
где
ο
## (т Ι · ]) = <^*' % №> τ*1 #*) + f Μ imin max [<т[т, ω] ·
• Χ [θ, τ] / (τ, и, ν)} + χ (τ, uf v)}} dx. (65.25)
467
Случайная функция тоМ является мартингалом ([29*], с. 467).
Она удовлетворяет уравнению
dm — α* (τ, ω) d\\X%, ω), (65.26)
начальному условию
то [τ*, ω] = то* (65.27)
и стеснена ограничением
vraimax | то [&, ω] | < 1. (65.28)
Далее можно проверить, что при решении данной задачи о
максимизации (65.24) достаточно ограничиться лишь такими
мартингалами тоМ (65.26)—(65.28), которые удовлетворяют
диффузионному ([21*], с. 342) уравнению (65.26), имеющему вид
е2то=а*(т, то)йг)(т, ω). (65.29)
Итак, задача о вычислении цены игры р° (t%, x%) сводится к
задаче (65.24) о максимизации функционала Я*(то[·]) (65.25)
на решениях то[·] диффузионного уравнения (65.29) при
ограничении (65.28). Здесь искомыми максимизирующими
параметрами являются начальное состояние т* (65.27) и управляющая
вектор-функция α*(τ, то). Такая задача, построенная на базе
броуновского процесса η(·) (65.1), имеет более компактный вид,
чем аналогичная задача, рассмотренная в § 50. Однако, в
отличие от задачи из § 50, которая во многих случаях имеет
максимизирующий элемент то°Ы, задача (65.24), базирующаяся на
процессе η(·) (65.1), может во многих достаточно естественных
случаях игры не иметь максимизирующего элемента т°[·].
В заключение параграфа приведем еще одну интерпретацию
задачи (65.24). Будем полагать теперь процесс броуновского
движения η[ί, ω] векторным, складывающимся из η независимых
скалярных процессов г|Д£, ω]. Использование такого процесса
η[£, (о]={г|Д£, ω], / —1, ..., η} вместо скалярного процесса не
вносит каких-либо специальных изменений в предшествующие
построения. Разница будет состоять только в том, что уравнение
(65.29) примет вид
η
dm = B (τ, то) dr\ [χ, ω] = 2 &0) (τ> m) dr)j 1τ> ω1· (65.30)
i=i
Здесь роль искомого векторного управления α*(τ, то)
переходит к искомому матричному управлению 5(τ, то)=*[Ь(1)(т, яг),...
..., Ь(п)(т, то)]. Если матрица Ζ?(τ, то) будет неособой, то
процесс то[т, ω] будет невырожденным. Пусть символ р(д, τ; g,.v)
обозначает условную плотность распределения вероятности для
рассматриваемой случайной тг-мерной векторной величины
то[т, ω] относительно to[v, ω], так что
Ρ (α{< mi [τ, ω]< βί, ι = 1, ..., η \ τη [ν, ω] = g) =
— j · · · J Ρ (?> τ; 8> ν) dqx ... dqn. (65.31)
[αιΑ) [»».βη)
468
Так как мы\е требуем существования максимизирующего
для (65.24) элемента го°М в рассматриваемом классе случайных
функций го[·], то можно ограничиться невырожденными
функциями го[·] с достато^о хорошей функцией плотности p(q, τ;#, ν).
Но в таком случае функционал Н%(т[-]) принимает следующий
вид функционала от /*(·):
В*(р(-))-<т*-Х№,г*]х*> +
+ J ·'' J Р(т> τ> т*> тф)тттах[<го-Х[в, τ]/(τ, и, ν)) +
+ 1 (t> u> *>)] ^гох · · · dmndx, (65.32)
ρ (θ, ro, τ*, m%) = 0, |го|>1. (65.33)
При этом плотность распределения вероятности ρ(·)
удовлетворяет известному уравнению ([21*], с. 324):
η
др(т, τ; wu, τ*) 1 ^ 5 /L / ч 7 w л
i,i=l г 3
(65.34)
δ«(τ, in) — <δ(ί)(τ, го) · δω(τ, ro)>,. i = 1,..., η; ; = 1,..., п. (65.35)
Таким образом, согласно (65.24), (65.32)—(65.34) задача о
вычислении цены р°(£#> #*) рассматриваемой позиционной
дифференциальной игры {7.1; 8.1} оказывается эквивалентной задаче
о максимизации функционала Н*(р(·)) (65.32) при ограничении
(65.33) за счет выбора коэффициентов диффузии &<,·(τ, го). Если
трактовать плотность вероятности ρ (го, τ; го*, τ*) как плотность
распределения некоторого вещества в га-мерном пространстве {го},
диффузия которого в этом пространстве подчиняется уравнению
(65.34), то можно сказать, что задача о вычислении цены игры
ρ°(ίΗί, χ%) оказывается эквивалентной задаче о том, в какой точке
т% надлежит поместить в момент τ* = t% единичное количество
этого вешества и как распорядиться коэффициентами диффузии
6«(τ, го) 65.35) во времени τ*<τ<;θ и пространстве {го},
чтобы полечить возможно большее значение функционала #*(/?(·))
(65.32), который имеет вид
θ
#* (р (·)) = J J Ρ (™>> τ; го*, τ*) φ (го, τ) dmx... dmndx9 (65.36)
τ* |m|^i
и притом удовлетворить ограничению (65.33).
Заметим, что конструкции, рассмотренные в этом параграфе,
переносятся также и на квазиканонический случай
рассматриваемой дифференциальной игры.
§ 66. Нестандартный показатель качества '
/
В этой монографии для определенности рассмотрена
дифференциальная игра с показателем качества γ (7.4). Однако,
основные построения и выводы переносятся и на случаи других
функционалов γ. Прежде всего это можно сделать для
позиционных функционалов [58]. Примерами их служат функционалы
у = П\х[т]\Ых) , (66.1)
у = max \x[t]\. (66.2)
Для позиционных функционалов теория справедлива без
каких-либо существенных изменений. В общем случае
дифференциальной игры с показателем γ в форме позиционного
функционала существует цена игры р° (£#>#*)> которая является
функцией от исходной позиции {t%, x%}. И существует седловая
точка, которая складывается из пары {w°(·), v°(-)} оптимальных
позиционных стратегий ю°(£, #, ε) и v°(t, #, и, ε) или — у°(£,я, ε),
если выполнено соответствующее условие седловой точки
маленькой игры, подобное условию (8.14) для показателя γ (7.4).
При перенесении теории на функционалы γ более общего вида
информационный элемент — позиция {£, х) заменяется
информационным элементом — историей x[U[-1t] движения объекта,
которая складывается к текущему моменту времени L Изменения,
которые претерпевает при этом теория, получаются естественной
заменой в соответствующих формулировках и построениях
позиции {£, х) на историю x[t0[']il. Таким образом, цена игры р°(·)
и стратегии, в том числе — оптимальные стратегии и°(·), ι;°(·),
оказываются функциями от истории движения к моменту £, так
что
ρ·(·) = {ρβ(*[*.[ ·]*])>, (66.3)
tt°(-) = {tt§U[i.[-]fl, ε)>, (66.4)
v0(-) = {v°(x[t0[-]t], щ ε)}. (66.5)
В этом параграфе сказанное будет проиллюстрировано на
примере системы, которая описывается уравнением (57.1), причем
показатель γ выбран в виде функционала
γ-/ J \χΙτ]?μ(άτ)Υ%+ $1<ц1х]-Ф(х)и1ф-
- <у [τ] · Ψ (τ) ι? [τ]>] dx. (66.6)
Смысл задач, которые мы рассмотрим для показателя γ (66.6),
таков. Предполагается, что процесс начинается в момент времени
ί0. Этот заданный по условиям задачи начальный момент t0
зафиксирован на все время рассмотрения задачи. Задано также на-
470
чалъное cocTOHHue\cltQ] = х0 для ^-объекта. Показателем качества
процесса {ж[*аМФ], \*[f0MO), vltol^ft)} на заданном
зафиксированном отрезке времени [t0j Φ] будет величина γ (66.6).
Начальная задача состоит в отыскании такого закона управления <2/,
который гарантирует возможно меньшее значение для этого
показателя γ. Пусть, однако, часть процесса, отвечающая отрезку
[£0, t*\ с [t09 О], уже осуществилась. Таким образом, на отрезке
1*0» **] Уже осуществилась история движения ##1*01·]**]
вместе с историей управления u[t0l-]t%) и историей помехи
ν [t0 [ · ] £#). История движения х* [t0 [ · ] t%\ будет исходной для
формирования процесса на оставшемся отрезке времени [tM, О].
И для момента t% мы можем поставить исходную задачу об
отыскании закона управления °U, который гарантирует возможно
меньшее значение показателя γ (66.6) при сложившейся истории
процесса . {х [t0 [ · ] ij, и [t0 [ · ] £*), ν [t0 [ · ] t%)}. Но при решении
этой задачи мы можем опираться на информацию только об
истории движения. При этом в (66.6) u[t0[-№), vltdl-Ίϋ)
составляются из реализовавшихся уже u[t0[-]t%), v[t0[·]£#) и из
реализаций управления и помехи и [f* [· ] Ф) = {и [т], *#^т<в},
v[t#[-]H) = {v[r]f *# ^τ <.Щ,которые получаются на
оставшемся полуинтервале времени [£#, θ). Функция #[£0[-Ш ={#[τ], t0^
<: τ < Φ} под знаком первого интеграла непрерывно склеивается
из исходной истории х% [t0[-] t%\ = {χ* [τ], t0 <! τ<1 £#, я [ί0] =
= я0} и из движения ж[^[-]0]={ж[т], t%^T^.$, x[t%] =
= x* U*]}> которое сформируется на оставшемся отрезке времени
Ιί*, θ]. Таким образом, по смыслу исходных задач на минимум
гарантированного результата γ (66.6), которые будут
рассмотрены в этом параграфе, эти задачи будут ставиться для
всевозможных исходных историй x[t0 [·]£*] е G. Здесь & уже
функциональная область, складывающаяся из функций x[t0[ ·]£*], £0^
^ί^,^θ и обладающая тем свойством, что из включения
я [*оН **1 е & следует включение ж [£0 [·] £*] еб, £* е (£*, О],
для всякой истории a?[f0Mf*], которая непрерывно продолжает
^[^ot'H*] и может получиться в процессе управления. В
частности, в согласии с материалом из § 4, функциональная область
G может быть определена условиями
= (1 + R0) ехр {λ(45) (t -t0)\ - 1, t0 < t < tm; tm e [f0, *]]. (66.7)
Итак, назначив показатель γ (66.6), рассмотрим совокупность
исходных задач, отвечающих всевозможным исходным историям
х \Ч Ы **] е £· Эта совокупность включает и начальную задачу.
Эта задача будет исходной задачей для истории x[t0[-]t0],
которая сводится к начальному состоянию x[t0] = Хо.
Подчеркнем, что в исходной задаче для истории χ [t0 [ · ] t%]
части u[t0[·]£*), v[t0[-]t%) управления и помехи в показателе
γ (66.6) предполагаются уже реализовавшимися, хотя они могут
оставаться неизвестными для любого из игроков.
471
Примем, что управление и и помеха ν н^7 стеснены какими-
либо ограничениями. Мера μ(Γ) в первом7 интеграле в (66.6)
удовлетворяет условиям, которые оговорены в § 52.
Квадратичные формы <и-Ф(£)ц> и <ν-Ψ(ί)ν> в (66.6) являются
определенно положительными. Они удовлетворяют условиям (34.3) и (34.4).
Для этих данных формулируется дифференциальная игра в
классах стратегий
ιι(·) = {Β(ώ0[']ί],8),Λ0[·]ί]εδ, *о<*<А, 8>0}, (66.8)
v(-) = {v(x[t0\.-lt],e),x[t0[-]t]e=€i, *0<*<fl, ε >0>. (66.9)
Закон управления
<2/ = Μ·), ε, АШ} (66.10)
или закон формирования помехи
Т=Ы·), ε, Δ{*«», (66.11)
назначенные для данной исходной истории x[t0[-]t#],
определяют каждый те части движения χ[ϋ0[·]ϋ], которые реализуются
при ί^^ί^ϋ· соответственно, как решения пошаговых
уравнений
х = АШхи] + ВШШ01-и{\, s) + C(t)v[il, (66.12)
x = A(t)xli\+B(t)u[il+C(t)Ob[t0l-]tJ, ε), (66.13)
U < t < f1+1, i = 1, ..., A, tx = t^ tk+1 = #,
Реализацией v[t%[-]b) в (66.12) или реализацией κ[ί*[·]θ)
в (66.13) может быть любая измеримая и ограниченная функция
времени. Рассматриваемая игра имеет цену (66.3) и седловую т.оч-
ку (66.4), (66.5), причем в (66.5) функция ι>°(·) от и не зависит.
Понятие цены, однако, теперь приобретает следующий смысл.
Пусть выбрано число ξ > 0 и к моменту t% так или иначе
сформировалась исходная история процесса {х [t0 [ · ] £#], и [t0 [ · ] ί*),
v[t0[-]t%)}. Пусть начиная с момента ί* управление и
формируется по закону °U, который отвечает оптимальной стратегии и°(·),
причем ε<ε(ξ) и шаг max (*i+i— Ц) = δ<1δ(ε, ζ). Тогда будет
г
выполнено неравенство
*-( ί Ι^[τ]|2μ(ώτ)ν/2 + ί[<^[τ].Φ(τ)^[τ1>-
-<ι;[τ].ψ(τ)ι;[τ]>]ώτ<ρ0(^[ί0[.]^]) +
+ J [<Μ[τ]·Φ(τ)ϋ[τ]>-<ι;Ιτ].ψ(τ)ι;[τ]>]£Ϊτ + ζ, (66.14)
Ό
какова бы ни оказалась реализация помехи v[t%[>]$).
472
Таким образом/чпена игры р°(#[£0М/*]) связана теперь с
оптимальным гарантированным результатом
ри[и°(·); * I'd Ι·]'*]. »М']Ц »UdM*·)]-
a— min lim lim sup sup γ (66.15)
«(·) e-*o δ-»ο Δ6 τ[·]
следующим соотношением:
Ри[и°(·); *[*0М*·]. "tt0H**), *ί*0Μ*·)1-
-ρβ(*[*οΙ·]«·]) + ί[<ϊ*[τ]·Φ(τ)Μ[τ]>-
*β
— <»[τ]·Ψ(τ)ι;[τ]>]£ΐτ. (66.16)
Если, начиная с момента £** помеха ν формируется по закону У*9
который отвечает оптимальной стратегии ι;°(·), причем ε<ε(ξ)
и шаг δ ^δ(ε, ξ), то будет выполнено неравенство
\1/2 0
f μ [τ] |V (Л) 1 + ί[<κ[τ]·Φ(τ)ι*[τ]>-
-<v[x].W(x)v[x])]dx>p°(x[t0[-)t*]) +
t*
+ $1<η[χ}·Φ(χ)η[χ]>-&[χ]·Ψ(χ)νΙχ}>]άχ-ζ. (66.17)
*·
При известной цене игры ρ°(·) (66.3) оптимальные стратегии
и°{-) и ν°(·) определяются из таких же условий экстремального
сдвига (26.22) и (27.24), которые даны в §§ 26, 27 в случае
позиционной игры. Разница только в том, что векторы
*£ (ft х[ ΜΙ *]. ε) = l*tfl - »«[»]. Ώ,η+ιΐ, (66.18)
*?(*;* [«о Ж. 8)-(«[q-we[q,l!,n+il (66.19)
определяются теперь не сопутствующими точками м;, а
сопутствующими историями w[t0[-]i\, которые находятся из решения
следуюпщх задач:
P°("UM-iq)-e2t«+i-
min {ρ°(^[ίο[·]φ-*η+ι}, (66.20)
pVJ*oM ί])-*ί,η+ι = max {ρ°(^ϊί0[·14)-^η+ι}, (66.21)
{«ΐν·]4·7η+ι}
*[f0Md = ii?[f0Md + slt0[']t],
ϊβ (·; a: [t0 [-1 i], e) — l«° (т; я: [ί0 [·] ί], β) — β° [τ], *0<τ<ί; «Jh-iI-
При этом минимум (66.20) и максимум (66.21) вычисляются
для истории w[t0[-]t] и параметра sn+u которые удовлетворяют
31 н. Н. Красовский 473
ограничению /
j \χ[τ]-ι»[τ]\*μ((Ιτ)+Ίΐ+1 + \χ[ϋ]-ιν[ί]\2^
f*o·*)
<[ε2 + ε2(ί —ί0)]θχρ(2λ(ί—g+ J μ(άτ)\. (66.22)
I ['··*) J
Здесь
λ- max ||Л(ί) 1, \A(t)\=max\A(t)z\. (66.23)
*0^ί<θ |χ|=1
Итак, задача о вычислении оптимальных стратегий и°(·) и ν°(·)
опять сводится к задаче о вычислении цены игры р°(·) (66.3).
Будем искать эту цену p°(x[t0[-]il) методом стохастического
программного синтеза. Обратимся к модели, описанной в §§ 57, 58.
В построения из этих параграфов надлежит внести по существу
лишь одно изменение. Роль исходной позиции {τ*, ζ%} =
= {%%, м;*, ζ+η+ι} в модели будет играть исходный элемент
{τ*, м?[£0Нт*Ь ζ*η+ι}, который складывается из истории
движения м?[£0[·] τ#] к моменту τ* и из координаты z#w+1, отвечающей
этому моменту τ*. Пространство 52, отвечающее назначенному
разбиению Δ^ίτ,} отрезка [τ*, О], будет иметь элементами
случайные функции
К-) = Ы·), гп+1} = Ыт, ω), ίο^τ^θ, ω^Ω; rn+1>. (66.24)
Здесь ω есть элементарное событие из того же вероятностного
пространства Ш, 3$, Р), которое фигурирует в § 52. Независимые
случайные величины ξ,·, которые определяют ω, снова связаны с
моментами τ^ΔΛ{τ,·) (/^Ι, ..., к). Стохастические программы
ν(') и и(-) опять определяются равенствами (52.6) и (52.8).
Движение
ζ[·] = {w[·], Zn+il·]} = {ιν[τ} = w[t0[T]x#], ί0<τ<τ*;
w[r, ω; ΐ£?[ί0[·1τ*], ν(·), и(·)]» ζη+ι[τ, ω; w[t0[-]T^]9
ζ.„+ι, »(·).*(·)]. τ*<τ<0}, (66.25)
порожденное парой программ ι>(·) (52.6), w(·) (52.8) из данного
исходного элемента {τ*, w [t0 [·] τ*], ζ,,,η+1}, является при τ^^
^ τ < θ решением стохастического дифференциального
уравнения (52.17) при начальных данных w [τ*, ω] = w [t0 [τ*] τ*],
^n+i ft*, ω1 = 2*η+ι· Компонента и;Ы движения ζίτ\ (66.25) при
t0 ^ τ ^ τ^. совпадает с компонентой и; [£0 [τ] τ*] исходного
элемента {τ*, w[t0[-] τ*], 2#η+ι}. Образом r()U[n движения «[■]
(66.25) является элемент
г(0№]1-{ш(.)№И,гй1И)-
== {ц; [τ] == И*0 Μ τ*1, *0<т<т*; и; (τ, ω),
τ*<τ<θ, ω£Ω; Μ{ζη+1[θ, ω]}}. (66.26)
Для данного исходного элемента {τ*, и?[£0Ыт*Ь ζ*η+ι} и
назначенного разбиения Δ*{τ,} отрезка [τ*, θ] программный мак-
474
симин определяетсячравенством
= 8ирт£[1ш(.)[2И]1 + гШ1]. (66.27)
Здесь
|i*(.)|-/f J |ι*(τ, ω)\*μ(άχ)Ρ(άω)Υ\ (66.28)
Справедливо следующее утверждение, которое отвечает
теореме 53.1. Каковы бы ни были исходный элемент {τ*, w[t0[-]x#],
z*n+i} и последовательность разбиений Δ& {tjk)} (к = 1, 2, ...),
удовлетворяющая условию
lim 6h = О, 6fe = max (τ$χ - xjk)). (66.29)
fc-»oo j
существует предел
lim ρ(τ*, w[t0 [-]τ*], ζ#η+ι, Δ^ {τ(/°}) =
Λ-»οο
= Ρ (τ*, ы> [ί0 Η Т*Ь **η+ι). (66.30)
Этот предел назовем программным максимином. Какова бы ни
была исходная история #[£0['1**Ь справедливо равенство
Р° (* lt01 ·] **]) = Ρ (τ*, и> Uo Ι·] τ*], 0)
при т* = **, ш[ί0[·]т*] == ^Г*о[·]'J- (66.31)
Введем в пространстве 91 норму
llr(.)ll = IM-)ll+lrn+1|, (66.32)
где норма Ни?(0И определена равенством (66.28). Рассмотрим
сопряженное к 91 пространство i?, элементами которого Ζ(·)
являются (п+ 1)-мерные случайные функции
!(·)-«(·), Г„+1) = Шт, ω), ί0<τ<0, ω^Ω,Γη+1> (66.33)
с нормой
НГ(-)11* = тахШ(-)11*, 1Гя+1|1. (66.34)
Здесь
Ж-)1* = |Ч J \1(τ,<»)\2μ(άτ)Ρ(άω)Υ\ (66.35)
\Ω Ι'···] /
. Определим программный экстремум в равенством
<?(τ*, w[t0[·]**], ζ#η+ι, τ*, Afe{Tj}, β) =
= sup Γ f </7i [τ] · w [τ]> μ (άτ) +
+ ί <m[x]-X[x, χ*]ιν[τ*]}μ(άτ) + s#w+i +
(τ*,о]
31* 475
+ J M ί min max I<s (τ, ω) ·{# (τ) и f'C (τ) ν)} + *
τ* I u v
+ <и-Ф(τ) и} — (ν·Ψ (τ) ι;>]} ότ. (66.36)
Здесь
тгаЫ = Μ{Ζ(τ, ω)>, *0 < τ < β, (66.37)
six, ω) = $[τ, |i,...,!»], τ< < τ < τ{+1, (66.38)
«[т. 6ι διί— J Χ/Ιη,τ]^[η,|1,...,ξί]μ(ώη), (66.39)
[τ,θ]
ιλ[τ|, |1? ..., У -МШть ω)||1? ..., ξ,}, (66.40)
τ< < η < β, ι =» 1, ..., к.
Справедливо равенство
Ρ (τ*> w [t0 [ · ] τ*], *Wi, Afe {τ,·}) =
= *(τ*, w[t0[-]x*l z#w+1, ΔΗ{χ,}, β) =
= е*(т*, w[t0[-]x#], ζ,η+ι, Δ^{τ,·}), (66.41)
которое аналогично соотношениям между е и ρ в предыдущих
параграфах. Доказательство равенства (66.41), подобное
рассуждениям из §§ 39, 50, 54, здесь опустим.
Вычислим минимакс под знаком второго интеграла в (66.36).
Получим согласно (66.38), (66.39) равенство
г*
f Μ /min max [<s (τ, ω) · (Β (τ) и + С (τ) ν)} +
г* ι « »
+ <и-Ф (τ)и} — <ν·Ψ(τ) у>]} dt =
= 2 j M{<*[Tf6i.....6i]-^W*[Tf6lf...,6j]>}iiT-
;=1 Xj
-Σ ( м!/ f Χ'[η,τ]ιιι[η,ξ1,...,&]μ(ίΙη)·
• Ν(τ) f Χ'[η,τ1ΐΛ[η,ξ1,...,Μμ(ίϊη)\ΐ£Ϊτ-
[τ,θ] /J
= 2M f J J <ΐΛ[η,ξι,...,Ιί]·Χ[η,τ]ΛΓ(τ)Χ
i=l Ι τ) [τ,θ][τ,θ]
χ Χ' [ν, τ] m [ν, ξ1? ..., ξ,·]> μ (Ж|) μ (dv) άή. (66.42)
Здесь матрица Ν(τ) определена равенствами (57.32), (57.33).
476
Пусть \
л[т, Ъи ..., У = mix, |4,..., У -
- mix, \и ,.., ξ,-J, / - 2, ..., ft, Χ} < χ < ϋ, (66.43)
α[τ, У — rotr, У - mM, Tt ^ τ ^ Ο. (66.44)
По определению функций mix, %u ..., У (66.40) и по свойствам
условных математических ожиданий Μ{Ζ(τ, <o)l|i, ..., У
заключаем, что для функций alx, |t,..., У (66.43), (66.44) справедливы
равенства
Μία[τ, |t, ..., У1|1? ..., &-!> = <), /-2, ..., ft, (66.45)
М{а[т,У)=0. (66.46)
В правых частях (66.45), (66.46), как и в других аналогичных
случаях, символ нуль обозначает вектор, все координаты которого
равны нулю.
Выражая в (66.42) mix, \и . >.. У через mix] и alx, ξι,..., У
(i— 1, ..., /) согласно (66.43), (66.44) и учитывая соотношения
(66.45), (66.46), получим
и 'τ
3+1
2м"
J=l
j f J <ΐΛ[η,ξ1,...,ξ,1.Χ[η,τ]ΛΤ(τ)Χ
Χ Χ' [ν, τ] m [ν,ξ1? ..., ξ,]> μ (όη) μ (dv) dx\ =
ft Ti+i
' Σ ί ί ί <^[η].Χ[η,τΐΛΓ(τ)Χ/[ν,τ]^[ν]>·μ(ώη)μ(ών)ίίτ+
i=i ^ [т>] [τ,θ]
+ ΣΜ
ci+i
ί Σ ί J <β[η.ξι,...·ξϋ·Χ[η,τ]ΛΓ(τ)χ
Ι τ,· <=1 [τ,θ] [τ,θ]
Χ Χ? [ν, τ] α [ν, ξχ, ..., li\) μ (dr)) μ (dv) dx\ =
= J f j <^[η]·Χ[η,τ]ΛΓ(τ)Χ/[ν,τ1^[ν]>μ(ίίη)μ(ών)ώτ +
ft ί*
+ ΣΜΙί ί ί <«1л.б1.-...Ы-^1л,члг(т)х
χ Ζ' [ν, τ] α [ν, ξχ, ..., ξί]>μ (dr)) μ (dv) dt}. (66.47)
. Изменяя в (66.47) порядок интегрирования по (η, ν) и τ,
получим из (66.36), (66.42) и (66.47) следующее выражение для
477
программного экстремума:
е (τ*, w [foH τ*], ζ»η+ι, **, Дй{т,·}, β) =
— 4 (τ*> w [ί0 Η τ*], ζ„η+1, τ*, Aft {τ,·}) =
= sup Ι <;κ[τ]·κ;[τ]>μ(ίΖτ) +
+ J <m [τ] · Χ [τ, τ*] u; [τ*] > μ (dx) +
+ ί ί <»г[Л] ^"(τ*, η,ν)ττΐ[ν]>μ(<ίη)μ(<ίν) +
•F(xit η, ν) α [ν, glt ..., ξ,]> μ (*ι) μ (dv)j J. (66.48)
Здесь матрица-функция F(cc, η, ν) выражается равенством
ζ(η,ν)
F(a,t), v) = J Ζ [η, τ] TV (τ) Χ'[ν, τ)άτ, τ«^α^ΰ, (66.49)
α
где
ζ (η, ν)-πιίη(η,ν). (66.50)
Из выражения для нормы ΙΙΖ(·)ΙΙ* (66.35) заключаем, что,
переходя к функциям ml·] и α[·], ограничению IU(-)H*<1, которое
фигурирует в · (66.48), или, что тоже самое — ограничению
Ш(-)Н*)2< 1, можно придать следующую форму
(Ρ(·)Ι*)2= ί |»[τ]|»μ(*Γ) +
+ Sm( f |α[τ,ξ1,...,|,]|»μ(*τ)1<1. (66.51)
Имея в-виду аналогичную ситуацию из § 57, обозначим
символом λ[τ] решение следующей задачи на максимум:
λ [τ] = max f J <α[η]·^(τ, η, ν) α [ν]> μ (dr]) μ (dv) (66.52)
"Ι*1 [τ,*][τ,<>]
[ ограничении
Обозначим
J <α[η]·α[η]>μ(<*η) = 1.
[τ,Ο]
λΐ* = max λ [τ] = λ [τ].
(66.53)
(66.54)
478
Подобно тому, как в § 57, заключаем, что справедливо
равенство
р°(я[*о[·]*♦!)=- тах Г f <η*ίτ]·*[τ]>μ(£ϊτ) +
+ J <w[t].X[t, **]*[**!> μ(dr) +
+ J J <™ΐ4]-Ρ(ί^ιΐ),ν)ηιΙν]}μ{ά,4)μ(άν) —
-λΓ* f |^[τ]|2μ(^)Ί+λΓ*. (66.55)
ΙΌ·*] J
Обратимся к вычислению оптимальных стратегий и°(·) (66.4)
и ι>°(·) (66.5). Для построения этих стратегий согласно условиям
экстремального сдвига (26.22), (27.24) надлежит определить
сопутствующие истории и; [f0 [ - ] τ*] и векторы ^(τ*; £[ί0[·]τ*], ε)
из условий (66.18)—(66.23). Это делается опять по аналогии с
процедурой из § 57. (Здесь обозначения отличаются от
обозначений из §§ 26, 27. Именно роль момента t из условий (26.22),
(27.24) и т. п. здесь играет момент τ*.) Остановимся для
определенности на построении оптимальной стратегии и°(·).
Определяющая ее вектор-функция s£(·; #UoHT*b ε) (66.18) получается
в результате решения следующей задачи на максимин
Р°(ivutt0 Η τ*]) — ίί,η+ι =
= max min I <jn [τ] · (χ [τ] — s [τ])> μ (άτ) +
ΝΜΙΚίΤΜ [[ί0,τ*]
+ J <jn [τ] · Χ [τ, τ*] (χ [τ*] — s [т*]> μ (άτ) +
(τ*,ο J
+ j J <m [η] ·F (τ*, η, ν) m [ν]> μ (άη) μ (dv) —~sn+i —
— λί, J j ro [τ] |2 μ (άτ) 1 + λ**. (66.56).
Здесь минимум вычисляется по (п+ 1)-мерным
вектор-функциям
*Н — Ul·]. «n+il —
— 1*М —{*ιΜ. ...,ίηΐτ]}, i0<f<^;'5w+1}, (66.57)
которые в соответствии с условием (66.22) стеснены неравенством
f Η1τ]12μ(ώτ) + |5[τ^12 + |7η+1|2<
ΙΌ·τ·)
<[ε2 + ε2(τ*-ί0)]βχρΓ2λ(τ^-ί0)+ J μ(3τ)1. (66.58)
L IV*·) J
479
Вектор-функцияSu[·] из набора {$£[·],
ιλ°[·]1,доставляющего максимин в (66.56), и дает искомый вектор ££[т«],
определяющий согласно (26.22) значение u°(x[t0[-] τ*], ε) для текущей
истории #[£01'1*]» * = т* Для оптимальной стратегии и°(-).
При решении этим методом какой-либо конкретной
дифференциальной игры рассматриваемого вида возникающие по ходу дела
вспомогательные задачи (66.52), (66.53), (66.55), (66.56) можно
решать, используя аппроксимацию на полуинтервале t0 <1 τ < τ*
и на отрезке τ* ^ τ ^ & по какой-либо подходящей полной
системе ортогональных функций. Эта аппроксимация законна, так как
доказывается, что приближенное решение сходится нужным
образом к точному решению. Возникающие при этом вспомогательные
задачи оказываются вычислительными задачами из выпуклого
программирования. Если исходная дифференциальная игра
задается не слишком сложными уравнением движения и показателем
качества γ, то эти задачи оказываются посильными для доступных
ЭВМ.
В заключение параграфа отметим, что аналогичным образом
решается задача о вычислении цены p°(x[t0[-] t%]) и
оптимальных стратегий ю°(£, g[f0Mf], ε) и v°(t, z[t0[-]tl, ε) для игры с
показателем
Т = М 10(τ)(χ[χ)-χ*[χ])\*μ(άτ)Υ/2 +
\ [*ο·»1 А /
и
+ f 1<Μ[τ1·Φ(τ)ι*[τ]> — <ι;[τ]·Ψ(τ) ν [τ]>1 dr, (66.59)
К
несколько более общим, чем показатель γ (66.6). Здесь D(t) есть
кусочно-непрерывная матрица-функция, х* [t] —
кусочно-непрерывная вектор-функция. При таком изменении γ в ходе решения
возникнут лишь некоторые изменения в выкладках, связанные
с тем, что роль элементов К·) будут играть элементы
г(-) = Ш(тЫт,<й), ί0<τ<θ, ω ^Ω; γ/+1}, (66.60)
величина 11и;(-)11 (66.28) заменится величиной Ш(-)и>(-)Н, роль
элементов Г(·) (66.33) будут играть элементы
Γ(·) = Φ(τ)Ζ(τ,ω), t0<t<®, ω^Ω; Γη+ι>, (66.61)
величина ΙΙΖ(·)ΙΙ* (66.35) заменится величиной Ш(-Ж0И*. Образом
г(.)ып дВИжения ζ[·]—{ιν[·],ζΛ+ι[·]} будет элемент
r(-) = {D(x)lwlTt<u] — xm[x]}, ί0<τ<θ,
ω е= Ω; rw+1 = Μ {ζη+1 [θ, ω]}}. (66.62)
В соответствии с этими изменениями изменятся понятным
образом задачи на максимум (66.52), которые определяют числа λ[τ1,
а вместе с тем — и число λτ#. В согласии с этими изменениями
понятным образом изменятся выражения, которые определяют
цену игры р°(·) и оптимальные стратегии и°(·) и ι;°(·).
480
§ 67. Пример
Обратимся к задаче из § 1. Немного усложним ее. Пусть
наряду с начальным и конечным условиями
qlU\=qA, q[t0]=qA, q[$\ = g„ q[ft]=qB (67.1)
оговорены еще промежуточные условия
?[i(1)]=g(1>, g[i<2>]=g(2), *ί0^ί(1)<ί(2)<«, ?α < q{i) < q{2) < ffB,
q[t^] = g[*(2)J = /> = (g(2) - g(1))/(*(2) - *(1)) (67.2)
для двух указанных заранее моментов времени t{i) и t{1). Пусть,
кроме того, требуется, чтобы в течение времени t{i)<t<t{2) груз
шел с заданной скоростью
q[t] - ($(2) - g(1))/(*(2) - ί(1)) = p. (67.3)
Введем, как и раньше, двумерный фазовый вектор χ = {х^ х2) s
=» {g, g}. В этом случае штраф можно определить величиной
/>·-( J |β(τ)(^[τ]-^[τ])|2μ(Λ)ν/2. (67.4)
Здесь мера μ(ώτ) определена условиями
μ([ί0,*(1))) = 0, μ(ί = ί(1)) = μ4, μ(ί =» ί(2)) = μ2, μ(ί = ϋ) = μ«,
μ((ί(1\τ)) = τ-ί(1\ те (f(1\f(1)), μ((ί(Ι\β))-0. (67.5)
При ί2^θ преобразование ΖΚτ)# определено условиями
*wo)-"(«-)*-(rj[i]-[i;,l·
»«.-(: !)ЕШв«-(*'0М-[*::]·
ίω<τ<ί(2). (67.6)
Функция «*[·] в (67.4) удовлетворяет равенствам
*.[*0)]-1^,р}, **И = {<?(2>,р1,
«* ίτ] = {0, ρ}, ίω < τ < ί(2), ж* [θ]='{gB, ίΒ). (67.7)
Таким образом, в конкретной записи штраф D* (67.4) при
ti^-Q определяется равенством
D* = (μχ [d\ (χ, [fi>] - q"f + dS (x2 [f(1)] - p)a] +
+ Щ [ d\ (χ, [П - q^f + dl (x2 [ί(2>] - pf] +
j(2)
+ J fo [τ] - pf dx + μϋ [dl (хг [Щ - qBf + d\ (x2 [Щ - gB)2])1/2.
(67.8)
481
В случае ί(2)==0 определим £>* (67.4) равенством (67.8) без
второго слагаемого в правой части.
Сохраняя прежнее условие из § 1 о стоимости энергии (см.
(1.3) и (1.4)), выберем в соответствии с (67.4) показатель
качества γ (66.6) таким:
У=( J \η(τ)(χΙτ]-χ*[τ])\*μ(άτ)Υ2 +
+ j (φ (τ) и2 [τ] - ψ (τ) ν2 [τ]) άι. (67.9)
Ό
Таким образом, получается дифференциальная игра для
системы (57.1) с показателем γ (67.9). Эта игра относится к тому типу
игр, который рассмотрен в § 66. Отличная от нулевой вектор-
функция ##[·] в (67.4), (67.9) не оказывает слишком большого
влияния на вычисление цены игры р°() и оптимальных стратегий
и°(·) и ν°(·). Получаются лишь небольшие изменения в
выкладках, которые отметим в этом параграфе по ходу дела. Основное
отличие будет в следующем. В пространстве i#, которое будет
состоять из элементов г(·) (66.24), удаление одного элемента г(1)(·)
от другого г(2)(·) будет оцениваться величиной
r(1)(-)-r(2)(-)!=ff J |ΐ)(τ)[»»(τ,·)-
\l/2
- κ/2) (τ, ω)] |2 μ (άτ) Ρ (<№»)) + | [ι$.χ - Γ&] ]. (67.10)·
Элементы Γ(·) (66.33) будут оцениваться величиной
|7(·)Ρ-
-maxfff J \ΰ(τ)1(χ,ω)\'μ(άτ)Ρ(άω))1,\ |fn+1|l =
= max [|Л (·)!(·) I*» I Will· (67.11)
Образом г(-)Ы11 движения ζ[ ·]={«>[·], ζ„+1[·]} (66.25) будет
теперь элемент
г(0[2[]1={Я(0[И-]-**НЬ Ж]} =
= {2) (τ) [w [τ] — ** [τ]], t0 < τ < τ*, D (τ) [и; [τ, ω] — χ* [τ]],
τ* < τ < θ, ω е Ω; Μ {ζη+ι [θ, ω]}}. (67.12)
Здесь ##[·]—вектор-функция из показателя γ (67.9), которая
удовлетворяет условиям (67.7).
В соответствии с этими изменениями для движения ζ[·],
порожденного из истории {^Ιί0Ι']τ*]> ζ*η+ι} детерминированными
482
программами «[τ„,[·]θ), νΙτ*[·]ϋ), имеем
I J \0(х)(и>[х}-х*[т])\^(с1х))1/г +
+ J (φ (τ) и2 [τ] — ψ (τ) ι;2 [τ]) ώτ + ζ#η+1 -
= ||Ζ?(.)(^[.]-^[·])ΙΙ + 2η+ι[θ]=|Γ(.)||-|Γη+1| + Γη+1. (67.13)
Поэтому программный экстремум е, отвечающий (66.36), здесь
удобно определить равенством
е (τ*, w [t0 [ ·] τ*], ζ#η+1, τ*, Δ^{τ,·}, β) =
J φ (τ) m [τ]. Ζ> (τ) (и> [τ] - ** [τ])> μ {dx) +
+ J <Ζ> (τ) m [τ].D (τ) Χ [τ, τ*] w [τ*]) μ (Λ) +
= sup
|л<-Ж-Я*<1
(t*,oj
+ ^#η+ι + Μ fmin max [<s (τ, ω) · (Β (τ) и + С (τ) у)> +
τ* I u ·
+ <и-Ф (τ) ц> — <ι;·Ψ (τ) ι;)]} ότ —
- J <Ζ)(τ)ϊΐι[τ].β(τ)^[τ]>μ(Λ)1. (67.14)
<τ·.0] J
Здесь вектор-функция т[-] определена равенством (66.37),
а случайная вектор-функция $(τ, ω) определена равенствами
(66.38), где
s[τ, 119 ...,Ы =
= J Χ'[η,τ]β'(η)β(η)'Λ[η.δι.....ε<]μ(*ι). (67.15)
причем случайная вектор-функция m[rj, |1э ..., |J (£=1, ..., ft)
определена равенствами (66.40). Для этого программного
экстремума е (67.14) справедливы такие же равенства,
связывающие его с ценой р°(х[t0[-]£#]) рассматриваемой игры с
показателем (67.9), какие справедливы для программного экстремума е
(66.36) в его связи с ценой р° (я [f0 [-]£*]) игры с показателем
γ (66.6). Поэтому после преобразований, повторяющих
преобразования из § 66, получим здесь следующее правило для
вычисления искомой цены игры р°.
Обозначим
£(■)*(·)-**(·), (67.16)
Л (·)!»(·)-»»*(·), (67.17)
Ό(-)Χ[.,χ] = Χ*[·,τ], (67.18)
1)(.)и>(·)-«*·(·)· (67.19)
483
Тогда из (67.14) получим для программного экстремума
следующее выражение:
*(τ», ИМ·]*»], ***+ь τ*, ΔΛ{τ,}, β) —
= sup Γ Γ <т* [τ] · (w* [τ] — D (τ) я* [τ])> μ (dr) +
ΙΙί*(·)|ΐ*^ι|[ίο^]
+ J <τη* [τ]. Χ* [τ, τ*] w [τ*]> μ (άτ) + *#Λ+1 +
(τ*, θ]
+ | Μ Iminmax
[τ.*]
+ <и.Ф(т)м> —<ι;.ψ(τ)ι;>
f Х*[Л, τ] m* (η, ω) μ (dx\). (Я (τ) и+С (τ) ι;)\+
\dx— J <^*Μ·^(τ)^[τ]>μ(ίίτ) L
i (τ*,θ] J
(67.20)
Введем величины
<** [τ, ξι, ..., lj] = m* [τ, ξ1? ..., ξ,·] — m* [τ, ξ1? ..., £j-i],
7-2, ...,&, ^<τ<0, (67.21)
я* [τ, У = m* [τ, gj — m* [τ], τχ < τ < д. (67.22)
Повторяя преобразования из § 66, которые привели там от
(66.36) к (66.48), перейдем здесь от (67.20) к следующему
выражению для программного экстремума:
е* (τ*, w[t0 [·] τ*], z„n+1, τ*, Δ^{τ,·}) =
= e (τ*, w [t0 [·] τ*], z#7l+1, τ*, Aft{Tj}, β) =
= z*n+l +
sup Γ f <m* [τ] - (w* [τ] — Z> (τ) χ* [τ])> μ (Лг) +
<τ*,Α] [τ*,θ][τ^,0]
η, v) m* [v]> μ (dr\) μ (dv) + Μ Σ J J <я* [η, ξ1? ..., gj·F* (ть
η,ν)α*Κ lXi ...,ξί]>μ(^η)μ(ίν)]- J Wt]·
J (τ*,θ]
•/)(τ)«*[τ]>μ(£ϊτ). (67.23)
Здесь матрица-функция F% (α, η, ν) определена равенством
ζ(η,ν)
^(α,η,ν)- J Χ.[4,τ]Ν(τ)Χΐΐν,τ]άτ, (67.24)
где функция ξ(η, ν) определена равенством (66.50).
Далее будем следовать материалу § 66. Пусть λ[χ] — решение
следующей задачи на максимум:
λ [τ] = max f J <α*[η]·^ (τ, η, ν)α*[ν]> μ(*|) μ(άν) (67.25)
α*Η [τ>][τ,θ]
при ограничении
f <Μη]'«·[η]>μ(*ι) = ι. (67·26)
Полагаем
λ*¥= max λ[τ] = λ[τ]. (67.27)
Цена р° рассматриваемой дифференциальной игры получается, как
решение следующей задачи на максимум:
Р°№[-]**])=тахГ f <»·Μ·Β(τ)(«[τ]-ϊ,[τ])>μ(Λ) +
+ J <™*[τ]-Χ*[χ,τ*]χ[χ*]}μ(<Ιτ) +
(τ*,θ]
+ j J <™* hl·^* (τ*> Л. ν) m* [v]> μ(*ΐ) μ (dv) —
[τ*,0][τ*,θ]
— J <^*[τ]·2)(τ)Λ:Ηί[τ1>μ(ώτ) —
(τ»,0]
-λτ\ ί <^Μ·^[τ]>μ(ώτ)1+λχ\ (67.28)
при ограничении
J </7ΐ* [τ] ·m* [τ]> μ (Λ) < 1. (67.29)
Вектор-функция Su(-;x[t0[-]T%],e) (66.18), которая определяет
оптимальную стратегию и°(·), получается в результате решения
следующей задачи:
Р° fan [t0 [ · ] τ*]) — β£η+1 =
= max min Г \ (m* [τ] · D (τ) (χ [τ] — s [τ] — χ% [τ]> μ (dr) +
m[']?N |_[V4
+ J <w* W · Χ* [τ, τ*] (* [τ*] — s [τ*])) μ (άτ) +
+ J J <™* [η] -F* (τ*, η, ν) m* [ν]> μ (ац) μ (ών) —
[τ»,0][τ*,0]
— ) <™,χ[τ]·Ό(τ)χ*[τ]}μ(άτ) —
— λί» J <И1* Μ ·m* [τ]> μ (άτ) — 5W+11 + λ?# (67.30)
['··*] J
при ограничении (67.29) на ml·] и ограничении (66.58) на ?[·].
Рассматриваемая дифференциальная игра была смоделирована
на ЭВМ в упрощенном варианте для следующих значений
485
параметров:
fc —1(1\ ί(2)=θ, μ4 = 0, d3 = 0, d4=l> qA = qB=°p. (67.31)
В этом случае матрица-функция F# (α, η, ν) (67.24) принимает
• следующий конкретный вид:
ηΚη,ν) = Ι0 j_ j (1/ψ(σ)_1/φ(σ)) J- (67.32)
Задачи (67.25), (67.26), (67.28)-(67.30), (66.58) в нашем
конкретном случае суть следующие задачи соответственно:
[» » /ζ(η,ν) ч
Τ J Д J (1/* («) — 1/ф (о)) Аж Ια,Ιη] α. [ν] <1η dv +
+ 4" ^ J (Ι (4/* (σ) ~ 1/φ <σ)) * ) α*1η1*!"· [θ1 +
+ Τ μ» ί (4/* (σ) ~1/φ (σ)) ^ ^] (67.33)
при ограничении
|βίΐη]*| + μβα"[θ]-1, (67.34)
t
ρ°(*UoΙ·] τ*1) = max ί т2Ыχ2 Μdx +
о
+ J m2 [χ] χ2 [τ*] dt + μ&Ηΐ2 [θ] #2 [τ#] +
t*
j (1/ψ (σ) - 1/φ (σ)) da J т2[ц] т2 [ν] dr\ dv +
τ* /
+4" ^ ί ί ί(1/ψ (σ) ~1/φ (σ)) **)m% Ιη1 ώη™* ιθ] +
—- μ| J (1/ψ (σ) — 1/φ (σ)) dam\ Щ — ρ J /τι2 [τ] ώτ — р\х№г Щ —
- λί. j mj [τ] dx - λί¥ μ^Ι [Ο] + λ^ (67.35)
τ»
при ограничении
J ml [τ] dx +>eml [θ] < 1, (67.36)
U
Ρ°(">„[*0[·]τ*]) — 35,—
= max min J m2 [τ] (x2 [x] — s2 [τ]) dx +
о
+ j ro2 [τ] (я2 [τ*] — s2 [τ*]) dx + μϋτη2 [ϋ] (x2 [χ*] — s2 [χ*]) +
τ*
0 Α /ζ(η,
■4-И ί
τ* τ* ч τ»
+4" ν* ί (ί(1/ψ (σ)""1/φ (σ)) όσ) ™2 Ιη] ^ ιθ] +
+ 4" μ* J (1/ψ (σ) - 1/φ (σ))Λιι»; [θ] -
τ»
0
—> J ^2 Μ <*τ — ρμοτη2 [θ] —
- λϊ. J m2, [τ] dx - λί.μ*ΐΛ5 [θ] -73\ + λ?. (67.37)
при ограничении (67.36) на т2[-] и ограничении на ϊΜ:
χ*
< ε2 (1 + τ* - у exp {(l + 2λ(66·23)) (τ* - f0)}. (67.38)
В (67.37) минимум по ?[·] достигается на элементе
**[·] — Ull-h s*2 [·], «£], *ΪΜ = 0, *0<τ<τ*>
m2[x]sl, £0<τ<τ*
θ >
m2 [a] do + μ^τη2 [Щ
? * /6(η,ν) \
+ -^-JJI J (1/ψ(σ) — 1/φ(σ))όσ)^2[η]τη2[ν]ώηών +
τ* τ* * τ» '
θ / η
τ» χτ»
52 [τ] =
]]^3,
τ — τ*>
?; ε(1 +Τ* - ί0)1/2 βχρ[(λ(ββ·23> + -Ι) (τ* - θ] ίΐ +
+ J mi [τ] dx + ί J m2 [τ] άτ + μϋτη2 Щ\\ . (67.39)
487
j (1/ψ (σ) - 1/φ (a))da I m% [η] m2 [v] dr\dv +
θ / η
+
τ* Ντ#
Поэтому задача (67.37) принимает следующий вид:
Р° (и>гЛ*0 Η τ*]) — 7£з =
J ™2 [τ] #2 [τ] ώτ + χ2 [τ#] J /7i2 [τ] dx + μ^χ2 [τ*] m2 [θ]
4Π ί
τ* τ» \ τ*
w2 [η] ώη/τι2 [θ]
+ "4~ μ<Π (1/ψ (σ) — 1/φ (σ)) dxsm\ Щ — ρ \ m2 [χ] dx — ρμ$т2 [Щ —
— λί, J ml [χ] dx — %и\хът\ [Щ —
- β (1 + τ, - ί0)1/2 exp [(λ(66'23) + 4-) (τ, - «] ί 1 +
+ J ml [χ] dx + Μ ττι2 [τ] ώτ + μθ™2 [Щ 1 1 + λί,. (67.40)
Искомая вектор-функцияs«(·; x[t0[·]τ*], ε) (66.18),
определяющая оптимальную стратегию и°(·), равна вектор-функции
£*([·]) (67.39) при т2[], равной той функции яг2[·],
которая максимизирует (67.40).
Оптимальная стратегия и°(·), таким образом, задается
равенством
ио(*м-]т.ьв)--4"4^-
3u
■^(i^w*
+ |W»J[<>1 . (67.41)
На рис. 67.1, α, б приведены просчитанные на ЭВМ реализации
SitfoMfll, #2[£оМО], юЧ^МО), порожденные законом управления
<2/, основанным на стратегии и°(·) (67.41), и некоторой помехой
u[f0MO)r близкой к оптимальной. При этом были выбраны
следующие данные:
U = 0, ϋ = 0,25, gA = 0, qB = 0,25,
За — g* = /? = 1, φΜ — 0,07, ψΜ ^ 0,05,
μ* = 3, 8 = 0,05, 6 = 0,0025. (67.42)
488
Величина р°, подсчитанная по формуле (67.35), (67.36), Ήρπ-
няла значение р° = 1,11, а значение показателя γ получилось
таким: γ = 1,13.
На рис. 67.2, а, б изображены реализации zJfoMul, £2[foMO],
»°[£0МФ)9 полученные при тех же данных (67.42), но в случае
vltl ss 10. Здесь вышло, что у = 0,50.
§ 68*. Управление при неполной фазовой информации
В настоящем параграфе покажем, как данный в гл. IV, V
метод стохастического программного синтеза, развитый для
задач об управлении в условиях неопределенной динамической
помехи v9 но при полной информации о текущих фазовых
состояниях объекта x[t], остается применимым и для решения
таких задач об управлении, в которых полной информации о
текущих фазовых состояниях объекта нет. Суть этого факта
состоит в том, что задачу об управлении движением данного
я-объекта в условиях неполной информации о состояниях xltl
можно трактовать, как задачу об управлении движением
подходящей информационной у-системы уже в условиях полной
информации о текущем фазовом состоянии этой системы. При этом
в новой системе появляется динамическая помеха, которая
перенимает на себя роль информационной помехи из исходной систе-
32 н. Н. Красовский
489
мы. Отмеченное обстоятельство будет видно явно в решении
задачи, рассматриваемой в этом параграфе.
Обратимся к управляемому объекту, который описывается
уравнением (57.1). Пусть исходный показатель качества γ снова
имеет вид (57.2), где t% = ί0, причем опять выполнены условия
(34.3) и (34.4). Однако, в отличие от условий задачи в § 57
^примем, что информация о текущих состояниях xlt]
доставляется, вообще говоря, лишь по части координат и притом еще с
искажением. Именно, пусть задана некоторая
кусочно-непрерывная (ρΧга)-матрица-функция Kit], ίο^ί^Φ. Примем, что
текущая информация об объекте доставляется р-мерной векторной
переменной g*[rf, которая связана с фазовым состоянием xlt]
объекта соотношением
q*[t] -Kluxlt] -Ag*W, (68.1)
где, стало быть, Лд*[Й — ошибка в наблюдении величины
Kltlxlti. В частности, если Kit] —матрица-строка
Mfl-{Of ..., О, 1, 0, ..., 0), (68.2)<
где единица стоит на г-м месте, то скалярная величина q*lt]
представляет искаженное значение έ-й координаты Xilt]
вектора-столбца xlt]. Кроме того, примем, что начальное фазовое
состояние xlt0] = х0 также сообщается с некоторым искажением,,
так что сообщенное значение #0 связано с вектором х0
соотношением
я* — χ0 = Δχ*. (68.3)
В зависимости от характера оценки искажений (68.1), (68.3)
задачу об управлении можно формализовать так или иначе.
Примем для определенности, что ошибка Aq*lt] (68.1)
оценивается на отрезке [ί0, θ] в среднем квадратичном и ошибка Δχζ
(68.3) оценивается квадратом ее модуля | Δχ% \. Тогда
формализуем задачу следующим образом.
В качестве информационных данных в текущий момент
времени t = τ* выберем вектор #©, историю наблюдаемой
переменной
?* [ί0 [ · 1 **] = {<Z* Μ, t0 < τ < τ J (68.4)
и реализацию управления
и [t0 [ · ] τ*) = {и [τ], t0 < τ < τ*}, (68.5)
которые случились к этому моменту <г#.
Введем (л+1)-мерную векторную переменную у =
= tyi, · · ·, Уп, Уп+ι) = {*, Уп+1>. ПОЛОЖИМ
х [t] -. J X [ft, ν] Β (ν) и [ν] dv, (68.6)
Ό
490
t
У»+1 Ш - J <и [ν] -Φ (ν) и [ν]> dv, (68.7)
Ό
где Xlt, τ] — фундаментальная матрица решений для уравнения
x = A(t)x.
Стало быть, изменение переменных xltl и yn+dtl
определяется дифференциальными уравнениями
if-Л*, t\B(t)u[il, (68.8)
* yn+i = <u[t] -ФИЫАУ. (68.9)
Построим информационную у-систему, текущее состояние
которой — информационный образ Y[t] будет совокупностью из трех
«омпонент
Уга-{*;,9*[М-1*Ь If [*о [·]*]!. (68.10)
Переменную г/[τ] назовем управляемой компонентой образа
У[Й. Функцию q*[t0[-]t] назовем помехой. В согласии с этим
назовем стратегией и(-) функцию
и(.) = МШ, ε), t0^t<fl·, ε>0}, (68.11)
определенную для всех возможных значений Y[t]. При этом
полагаем допустимыми в (68.10), (68.6), (68.7)
кусочно-непрерывные функции q*[-] и измеримые, ограниченные (каждая своей
постоянной) функции иМ. Назовем законом управления °и для
отрезка времени t% ^ t ^ ft совокупность трех компонент
<U = Ы·), ε, MU)}. (68.12)
Движение #[£0[·]θ] данного ж-объекта определяется при этом
на отрезке [£#, О] как решение пошагового
дифференциального уравнения
iltl =>A(t)zlt] +B(t)u(Yltu9 e)+C(tMtl,
ti<t<ίί+1, i — 1, ..., k (68.13)
при некотором неизвестном нам исходном условии
* 1**1-*[*в [*·!*·]. (68-14)
где #[ί0 [·Κ*] — так или иначе сложившаяся к моменту t%
история движения данного объекта. Динамическая помеха
ι?[ί0Μθ)β ii>[fl, £0^£<θ}, действующая на объект, как и в
предыдущих параграфах, полагается неизвестной. Допустимы
любые измеримые и ограниченные (каждая своей постоянной)
функции p[foM0).
Параллельно с реальным движением #[£<>[ ΊΦ] данного я-объ-
екта закон управления ^, отвечающий стратегии и(·), будет
формировать воображаемое движение НЦОФ] информационной
^-системы. Управляемая компонента ylt] будет при t*^f^u
в согласии с (68.8), (68.9) решением пошаговых дифференци-
32* 491
альных уравнений " /
Ш=Х[в, ДВШ(УШ, ε), (68.15)
yn+i[tl = <и№1, ε) · ФЬЫУШ, ε)>, (68.16)
*г<*<*1+ь ί = 1, ...,&, *ι = **, ^+ι = *
с известным нам исходным состоянием
£[**] = in ^n+i [**] = У*п+и (68.17)
«^»
где х%, Уьп+1 суть компоненты сложившегося так или иначе в
момент £# известного нам состояния
У [fd-W, ί*1*ο[·]*·1, ИМ']**]}. (68.18)
При этом помеха g*[f0M<W назначается вторым игроком
произвольно. В соответствии с ее смыслом полагаем помеху q*[t0[-]tH
в моменты U нам (первому игроку, назначающему управление
ulil) известной. Назначим для ^-системы показатель качества
V* (Υ in - sup Π * [*11 + Г [<и [τ] ·Φ (t) u [τ]> -
— <ι; [τ] -Ψ (τ) ι; [τ]>] dx —
— j <Ag* [τ]·<?* (τ) Δ^* [τ]> άχ — <Δ*ί·Ρ·Δ*ί>]. (68.19)
Здесь ^* (τ) — кусочно-непрерывная матрица-функция, для
которой квадратичная форма <Ад* ·ζ>*(τ)Δςτ*> является
определенно-положительной так, что
<Ag*-<?*WAg*>^ajA0*l2, a5>0. (68.20)
Квадратичная форма <Δ#ο·Ρ*Δ#0> также является
определенно-положительной:
<A^.P*A4>>aa|Aiol2, ax>0. (68.21)
Верхняя грань в (68.19) вычисляется по всем возможным
движениям χΐ·] =χ[ί0[-]ϋ] и связанным с ними реализациям
динамической помехи ι;[·] = v[t0l-W в я-объекте. Показатель γ*
(68.19) для информационной г/-системы связан понятным
образом с показателем γ (57.2). Величина γ* есть верхняя грань для
всех возможных значений величины
γ(Γ[θ],^0,ι;[ί0[.]θ)) = ν(α:[0],α[ί0[.1^,ι;[ί0[.]θ))-
о
- J <Δ?* [τ] .<?* (τ) Δ?* [τ]> άχ - <Δ^ ·Ρ*Δ^>, (68.22)
Ό
которые могут случиться при известном состоянии ΥΤΰΊ. Здесь
γ исходный показатель качества для ^-объекта. Второе и третье
492
слагаемые в (68.22) можно истолковать как штраф, налагаемый
на второго игрока за неточную информацию о начальном и
текущих состояниях я-объекта. Для исходного информационного
состояния У [£*] > (68.18) и назначенного закона управления <U
(68.12) назовем гарантированным результатом величину
Ρ (^; У [**])= sup γ*, (68.23)
где верхняя грань вычисляется по всем возможным помехам
#* (*# I · 1 Φ] ι продолжающим соответствующую компоненту
9*[*оЫ**1 из Данного исходного состояния Υ[**]·
Гарантированным результатом для стратегии и(·) (68.11) для данного
исходного информационного состояния У[*#] назовем величину
ρ(^(·);^[ί*]) = Π^Ηιη8πρρ(^δ;Υ[^]), (68.24)
ε->ο δ-»ο <U^
где верхняя грань вычисляется по всем законам управления <U
(68.12), которые отвечают данной стратегии, назначенному е и
разбиения которых A{£j удовлетворяют условию
ti+i - U < б, г = 1, ..., к. (68.25)
Назовем оптимальной стратегию и°(·), которая удовлетворяет
равенству
Р(^(.);У[и) = ттр(^(.);У[^]) (68.26)
«(·)
для всякого возможного исходного состояния Y[f*].
Задача состоит в построении оптимальной стратегии и°(·).
Эта задача имеет решение. Не доказывая априори это
утверждение, опишем прямое построение искомой стратегии и°(·) методом
программного стохастического синтеза.
Наряду с реальным управляемым я-объектом мы имеем
воображаемую вспомогательную ^-систему, состояние которой в
текущий момент времени t определяется информационным
элементом Y[tl. При этом компонента д*[£0М*1 играет роль помехи,
назначаемой вторым игроком. Кроме того, в согласии с
показателем γ* (68.19) второй игрок как бы наделяется правом в
момент t = θ окончания процесса назначить еще помеху, состоящую
из вектора x0 = x[t0] и функции ι;[£0ΜΦ). Тогда показатель γ*
(68.19) приобретает явный смысл гарантированного результата
для величины γ (68.22) для рассматриваемой информационной
г/-системы относительно этой импульсной помехи {х0, 1>[£0МО)>.
Величина ρ (68.23) принимает тогда смысл гарантированного
результата для величины γ (68.22) для г/-системы еще и по помехе
?*(**[ Ί^Ι· Описанной г/-системе с добавленной так в конце
движения мгновенной помехой {#0, vitol-Ы)} поставим в
соответствие ее z-моделъ. Согласно сказанному выше, она строится
493
так. Введем переменную
t
g ц] = g* [t] _ К [t] J X It, ν] Β (ν) и [ν] dv. (68.27)
Ό
Переменную g[tl назовем информационной помехой. Согласно
условиям задачи мы можем полагать известной нам в текущий
момент времени t реализацию информационной помехи
g[tQl-]t]={g[T], t0<x<t). (68.28)
Назначим момент τ* и исходное состояние информационной
помехи £[£0ЫТ*]· Зададимся также некоторым (w+D-мерным
вектором ζ = {ζι, ..., z„, zn+i} — {й;, zn+i). Назначим разбиение
Δ{Τί} (i = 1, ..., &, τχ = τ*, ..., xk = 0). Подобно тому, как это
сделано в предыдущих параграфах, выберем за основу
программной конструкции вероятностное пространство Ш, 3$, Р), где Ω
есть fc-мерный куб, Ω = {ω = {ξι, ..., ξΛ/, 0 ^ |i < 1, / = 1, ..., ft).
Введем га-мерные случайные величины w(-) = iwito), ©sQ),
ί(·)={ί(ω), ω^Ω) и 5-мерную случайную функцию ι;(·) —
= {ι>(τ, ω), %<т<$, ω е Ω>. При этом выберем нормй
||o;(.)||=ff|u;(W)|2P(dio)Y/2, (68.29)
\\1(-)\\ = (§\1(ω)\*Ρ(άω)Υ\ (68.30)
Назовем стохастическими программами неупреждающие
функции
#(τ, ω) = glx, ξι, ..., U, τ< < τ < τ<+ι, (68.31)
w(t, ω) = и[т, ξι, ..., |J, τ< < χ < τί+4, (68.32)
i==r 1, . ·., л» "■* ι.
Состояние конструируемой z-модели в момент τ^τ* будет
определено ее фазовым элементом
Ζ (τ, ω) = {xt, £[*01·]τ,ω1,ζ(τ, ω)}. (68.33)
Здесь (η+ 1)-мерная векторная переменная ζ(τ, ω) = {2;(τ, ω),
ζ«+1(τ, ω)} изменяется согласно дифференциальным уравнениям
#(τ, ω)=Χ[#, тШтМт, ω), (68.34)
ζΛ+ι(τ, ω) — <и(т, ω) · Φ(τΜτ, ω)> (68.35)
при известном исходном состоянии
ζ (χ*, ω)=ζ*. (68.36)
Β (68.34), (68.35) μ(τ, ω) — неупреждающая программа (68.32).
Реализация glt0[-]x, ω] в (68.33) продолжает компоненту
£l*ol'J Т*Ь содержащуюся в известном исходном состоянии
494
Ζ[τ#1ι в форме неупреждающей программы £(т*[·]*, ω] (68.31).
При такой трактовке случайная величина м>(·) = {м>(со), шеШ
играет роль мгновенной помехи в момент £ = '&, которая
имитирует в стохастическом варианте помеху χ о из ^-системы, а
случайная функция р[*0МФ, ω) = Μτ, ω), £ο<τ<0, ©eQ)
имитирует в стохастическом варианте помеху v[t0[']$) из ^-системы.
Такая трактовка предлагает для рассматриваемой ^-системы и
ее z-модели и для показателя γ* (68.19) построение программного
экстремума е в форме той же конструкции, в какой построены
величины, определяющие программный экстремум е в
предыдущих параграфах для систем с полной фазовой информацией, ибо
такой системой с полной фазовой информацией о текущем
состоянии Ylt] (68.10) оказывается теперь информационная у-си-
стема. Как видим здесь, действительно, информационная помеха
исчезает, переходя в импульсную динамическую помеху,
срабатывающую в момент t = $.
В согласии со сказанным назовем программным экстремумом
величину
*(Ζ[τ*], Δ{τ;})= sup x(Z[xJf Δ{^}, Ι (.)), (68.37)
ΙΚ·)ΙΙ*<1
где
κ(Ζ[τ*!,Δ{τ;}, «(·))-
— sup inf sup sup Μ {\ Ι (ω) · I X [ft, t0] w (ω) +
£(·> «(·) t>(·) w(.) I \ L
ft & Ί\
+ w* + JXfft, χ]Β(τ)ιι(χ, ω)άτ + jX[ft, t]C(t)i;(t, ω)ώτ\ +
τ· t0 J/
*η+ι + J <и (τ, ω)·Φ (τ) и (τ, ω)> άτ — J <y (τ, ω)·Ψ(τ) ν (τ, ω)> +
τ· *0 L
Л *(τ»ω) —Я[т]И Χ [τ, ν] С (ν) ι; (ν, ω) dv + Χ [τ, уиф)1 ·
•C*W ί(τ, ω)-Χ[τ]ί j Χ [τ, ν] C(v)i;(v, ω)ών+
(68.38)
В согласии с описанной аналогией с материалом из
предыдущих параграфов этой главы, повторяя с понятными
изменениями рассуждения из этих параграфов, установим, что
справедливо равенство
Ρ (и°(·). Υ ['*]) - ет (Ζ [τ*]) (68.39)
495
+ ζ.
+
при ^ _
τ* = **, ζ* = (и;*, z*w+1} = у* = {5*. y,n+il, (68.40)
ffMM·] ^1 = ^ Μ τ^+/[ί0[·]*·]* (68.41)
/[ίοΙ·]τ*]
Здесь
Κ [τ] |Χ[τ, v]fl(v)tt[vjdv, ί0<τ<τ*. (68.42)
«α '
β* (Ζ [τ*]) «sup β (Ζ [τ*], Δ). (68.43)
Δ
Доказательство этого утверждения опустим. Оптимальная
стратегия строится как экстремальная стратегия следующим
образом.
Пусть в текущий момент времени t = τ* в реальном
процессе управления ^-объектом и в параллельном процессе
управления ^-системой реализовалось информационное состояние
Ylt] = YlT*] = [xlq*lt0[-]x*l уИ0[-]т*]}. (68.44)
Этому состоянию ставим в соответствие сопутствующее состояние
z-модели
^[xj-l^^liol-lbl,^1}, (68.45)
где
^1[τ]=^[τ]-^[τ]Χ-1[θ,τ]ϊ[τ], *0<*<**· (68·46)
При этом значение z[c] из (68.45) определяется из решения
следующей задачи на минимум:
е*(Zlcll4\) = «.(К, glellto[·1 τ,], z[c]}) -
, = mine* (Z [!:*]) = mine* ({ж*, β1"1 [*· t·] τ»], «}) (68.47)
Ζ[τ»] г
при следующем ограничении на ζ из Ζ [τ*]:
I г/ [τ*] — ζ |2 < β + β (τ* — ί0). (68.48)
Как и в предыдущих параграфах (п + 1)-мерный вектор
ΗΥ [τ*], ε) = {s(Υ [τ*], ε), 7η+1 (Υ [τ*], β)}, (68.49)
определяющий решение
*-*V[t*]—»(Yl**h*) (68.50)
задачи (68.47), вполне определяется известным в момент t = τ*
элементом Υ [τ*] (68.44) и величиной ε. Значение
и°(У[х*],г) = ие (68.51)
определяется из условия экстремального сдвига
<ε(Υ[τ*], ε)·Χ[Α, τ*] Β (τ*) ие> + 7п+1 (Г [τ*], β)<»β·Φ(τ»)Μβ> =
= min[<s(Г [τ*], ε)·Χ[ϋ, τ*]5(τ*)«> +
U
+ *«+ι(Πτ,], ε)<α·Φ(τ*)«>]. (68.52)
496
Доказательство того, что построенная так стратегия м°(·) (68.51),
(68.52) действительно дает минимальный гарантированный
результат, здесь опустим. Оно повторяет доказательство
аналогичных утверждений из предыдущих параграфов.
Итак, вычисление оптимального гарантированного результата
р(и°(·), Υ [£#]) и построение оптимальной стратегии и°(·)
сводится к вычислению величины е* (68.43), (68.37), (68.38) и
к решению задач (68.47)—(68.52).
§ 69*. Программный экстремум в случае
неполной фазовой информации
Вычисление программного экстремума е% (68.43) подобно тем
вычислениям, которые описаны в §§57, 58. Зафиксируем
случайную величину 2(0. Проварьируем случайную величину w(-)
и случайные функции ι>(·), и(-) и #(·), которые фигурируют в
(68.38). Приравняем к нулю соответствующие вариации
величины математического ожидания из (68.38). Получим линейные
интегральные уравнения, выражающие необходимые условия
экстремальности для этой величины.
Возьмем случайную величину Ζ(·) в виде
к
Ι (ω) = т [τ*] + 2 Φϊ, ω), (69.1)
i=i
*А{а(лз, ω) Ι ξι, ..., |i-i} = 0, / = 1, ..., fc, (69.2)
a(Tj, ω) = a[%h \u ..., gj, 7 = 1, ..., k. (69.3)
Анализ линейных интегральных уравнений, которые
выражают условия экстремальности для κ, показывает, что
удовлетворяющие этим уравнениям экстремальные аргументы н?(·), ι;(·),
и{-) и g(') целесообразно искать в форме линейных разложений
по компонентам #о, g [t0 [·] τ*], ζ% состояния Ζ [τ*] и компонентам
Tftfr*]» a(Th ω) функции i(·) (69.1). Подставляя найденные
разложения в (68.38), придем к задаче о вычислении верхней грани по
функции Ζ(·) от известного линейно-квадратичного функционала
Η (I (·), Δ) = Η (т [τ*], α (·), Δ). Таким образом, задача о
вычислении экстремума е приводится снова к задаче: найти
max Η(ηι[τ*], α(·), A) = e(Uo, g[t0[·] τ*]> ζ*}, Δ) (69.4)
ιη[τ#],α(.)
при ограничении
I m [τ*1 J2 + Μ { 21 a (xh ω) |2} < 1. (69.5)
Это такая же задача, как и задача, рассмотренная в §§57,
58. Максимизируемые функционалы там и здесь имеют
одинаковое строение. Разница состоит только в тех вычислительных
процедурах, при помощи которых вычисляются параметры этих
функционалов. Это позволяет прямо перенести выводы из §§ 57,
497
58 на рассматриваемый здесь случай. А это в свою очередь
упрощает практическое вычисление параметров искомого
функционала #(Ζ(·), Δ). В самом деле, теперь уже известно, что
при поиске максимума для #(Ζ(·), Δ) достаточно ограничиться
случайной величиной Ζ(·) (69.1) вида (см. § 57)
1№ = т[х*] + а[^Л] (69.6)
и, стало быть, элементарное событие ω сводится к случайной
величине £et0, 1). При этом момент τ определяется из условия
max F(x, a) = max max F (τ, α), (69.7)
|аИ1 τ*<τ<θ |α|=ι
где F(t, а) есть квадратичная форма от а, входящая в
выражение для Η(т[х%\, α, Δ). Вектор α[τ, ξ] принимает лишь два
значения а(1) и а(2). Далее, при практических вычислениях
удобно искать случайную функцию νΙ·) в форме ряда Фурье по
какой-либо полной системе линейно независимых функций у[Я[Д,
t0 < t < θ, ; β 1, 2, ..., полагая
οο
Ρίτ,ξΐ-Σ^ΐδΐ^ΐτ], (69.8)
j=i
где ν(,)[|] суть искомые случайные функции.
Варьирование величины математического ожидания в (68.38)
и приравнивание вариаций к нулю, дает, таким образом,
следующие уравнения:
о/
V № Χ I*. У +. 2 J \g' [т, ξ] ρ* (τ) Κ [τ] Χ [τ, ί0] -
«Λ
- J j' »(i)' Κ] νίη [ν] С [ν] Χ' [τ, ν] dvK' [χ] Q* (χ)Κ [τ] Χ [τ, ί0] -
- W № Χ' [χ, t0] Κ' [χ] Q* (τ) Κ [τ] Χ [τ, ί0] J dx -
-2(w[l]-x*0)'P* = 0, (69.9)
f \ΐ' β] Χ [θ, τ] С (τ) *[{' [τ] + 2 /V [τ, ξ] - u/ β] Χ' [τ, ί«] tf? [τ] -
τ οο \
- ί Σ vU)' β] i>[il [ν] С (ν) Χ' [τ, ν] dvK' [τ] £*(τ)Χ
τ
χ Κ [τ] j* Χ [τ, ν] С (ν) νιύ [ν] dv —
Ό
- 2 2 vuy β] νιη [χ] Ψ (τ) vm [χ]) dx - Ο, (69.10)
t t ~-1 1, ^, · · ·,
598
ί=ι<0
m' l4] X Ιθ, τ} Β (τ) + 2w' [τ] Φ (τ) = Ο, τ# < τ < τ,
(τη' [τ*1 + α' [χ, Ι]) Χ [θ, τ] Β (τ) + 2u' [τ, Ι]Φ (τ) - Ο,
τ<τ<θ, (69.11)
*'Μ - ( S ί Μ {y(i)' [|] ] ρ01 [ν] С (ν) Χ' Ιτ, ν] dv +
+ Μ {»' 1|]} Χ' [τ, у J JC' [τ] - Ο, τ» <τ < τ,
/ К И - ( 2 f у0)' HI *W Μ С Μ·*' If. ν]dv +
+ Η>ΊΙ]Χ'[τ, ί0])^/[τ] = 0, τ<τ<0. (69.12)
Исключая из уравнений (69.9), (69.10) и (69.12) ц;[|] и p(i>[|]
(/ = 1, 2, ...), придем к интегральному уравнению для функции
g[x, ξ]. Это уравнение имеет вид
g[x] = J [б,(τ, ν) + JjGHT, v)] M{g[v, £]}dv +
+ ^o Μ ™ [τ*1 + Λ> [τ] a£, τ„ < τ < τ,
£ [τ, |] - J G0 (τ, ν) + 2 G} (*, ν)] £[ν, ξ] dv + L0 [τ] τη [τ#] +
*,L ,=1
+ £[τ]α[τ,ξ] + Ρ0[τ]*0*, τ<τ<θ, (69.13)
где функции G,(t, ν), / — О, 1, 2, ..., ι£,[τ], £[τ],-Ρ§[τ]
выражаются известным образом через параметры уравнений (69.9),
(69.10), (69.12).
Уравнение (69.13) имеет решение вида
τ»
g [τ] = J G* [τ, ν] g [ν] dv + L* [τ] m [τ*] + Ρ*0 [τ] a£, <r* < τ < τ,
τ»
ί Ι*, II - ί G* [τ, vl g [ν] dv + £* Ιτ] то 1τ#] +
*·
+ Α*Ιχ)α[τ,ΐ] + Ρΐΐτ)ζ*ο, τ<τ<0, (69.14)
где функции G*lx, ν], £*Ы, -Ρβ [т],-4* [т] находятся с учетом
явного вида функций бгДт, ν) (/ = 0, 1, 2, ...), £,Ы, £Ы, РвЫ.
Подобные представления через функции g[t0l']x*], mlT*J.
о [τ, |] и величину яО могут быть получены и для и[х, ξ],
ι>">[|] (/ = 1,2, ...), и>[|].
Эти выражения оказываются довольно громоздкие. Поэтому
выпишем их для примера лишь для такого упрощенного
варианта исходной задачи, когда динамическая помеха ν[·] вообще
отсутствует. Тогда в предыдущих соотношениях полагаем
формально vltl = 0. Из уравнений (69.14), (69.9), (69.11) с учетом
состояния (68.36) в этом упрощенном варианте получаются
следующие выражения:
κΙτ] = -±φ-1(τ)Β'(τ)Χ'[ϋ,τ]ηιΙτ*}, τ„,<τ<τ,
и [τ, Ι) = - -γΦ'1 (τ) Β' (τ) Χ' [θ, τ] (m [τ*] + α [ τ, ξ]),
τ<τ<0, (69.15)
g [τ] - Κ [τ] Χ [τ, у W-1 (τ*) (±- Χ' [θ, у m [τ*] +
+ / Χ' [ν, у Κ' [ν] ρ* (ν) g [v] dv + Ρ*χ*λ
** ■< τ <! τ при τ* > ί0 или ί0 ^ τ ^ τ при τ* = ί0
git., ξ] - Κ [τ] Χ [τ, у И^"1 (r^i-X' [θ, ί,]ι»[τ*1+
+ ] Χ' [ν, у Я' [ν] Q* (ν) g [ν] dv + Р*Ч ) +
+\Κ [τ] Χ [τ, у И^1 (τ)Χ' [θ, у α [τ, Θ, τ< τ <θ, (69.16)
w [ξ] - W"1 (τ*) (-1 Χ' [θ, у ι» Ιτ#Ι +
t, \
+ ) Χ' [ν, у /Γ [ν] Q*'(v) g [ν] dv + Ρ*χζ +
«. '
+ i-^-1(t)X'[»,ya[t,i], (69.17)
где
Τ
TF (τ) = f X' [ν, t0] Κ' [ν] ρ* (ν) Κ [ν] Χ [ν, t0] dv+P*. (69.18)
Подставляя эти значения в (68.38) и рассуждая как в § 57,
придем к задаче
Ч (ζ [τ*]) = max lz*n+i + m'w* + m'A [τ#] +
|mUi
+ m'(F*[Tj-^)m + 5*[Tj], (69.19)
500
где
Л [τ«] = X [Ь% ί0] W1 (τ*) ί J' Χ' [ν,, t0)K' [ν] Q* (ν) g [ν] dv + ***?),
(69.20)
** [τ*] j- j Χ [θ, ν] Β (ν) Φ-1 (ν) Β'(ν)Χ' [ϋ, ν] dv -
- Χ [ϋ, у И^"1 (τ#) Χ' [Ο, ί0] ], (69.21)
τ*
5* [τ*] = λ?. - j" g' [ν] Q* (ν) у [ν] dv -
'ο
- xfP*xl + ( J *' [ν] ^* (ν) Я [ν] Χ [ν, ί0] dv +
4
+ ^'-Ρ*) И^"1 (Tjf J X' [ν, ί0] ΛΓ' [ν] Q* {y)g [ν] dv + Ρ*χο ).
0
(69.22)
Здесь τ тот момент времени, для которого
λ [τ]- max λ[τ] = λ**, (69.23)
где λ[τ] — решение задачи
λ [τ] = max <α · F* [τ] a}. (69.24)
|α|=ΐ
Построение экстремальной стратегии и°(-) далее опять
сводится к решению задачи
sup [-η[ίί](1 + |Η2)1/2 +
ifflKl
+ т'х [ti] + т'А [t{] + т' (F* [t{] - %*.E) τη] -
- [-η Ш (l + \m«[U]|2)1/2 + m0' [tt] x[ti] + m»' [Ц] Л[ij +
+ i»0f [*i](^*[*i] -λΓ.^)/7ΐ0[^]],( (69.25)
где
η2[ί,Ι «ε + β(ί,-ίβ). (69.26)
Таким образом, оптимальное управляющее воздействие
u°[tj =Μ°(Γ[ί»1, ε), отвечающее реализовавшемуся состоянию
Г[£<], определяется здесь равенством
и° Ш = - i-Φ-1 (td В' (ti) Χ' [θ, ti] m« [ti], (69.27)
501
где вектор т°[Ь] определяется из решения задачи (69.25)г,
(69.26).
Разумеется, в рассматриваемом здесь случае, как и в § 58у
оптимальную стратегию и°(·) можно строить исходя не из
простейшего условия экстремального сдвига (68.44)—(68.52), но
исходя из стабилизированного условия этого сдвига. Это внесет в
предыдущие выкладки понятные изменения, подобные тем,
которые были рассмотрены в § 58.
§ 70*. Пример
В заключительном параграфе с целью иллюстрации
материала из §§ 68*, 69* обратимся снова к задаче, рассмотренной в
§ 1. Пусть требуется по оси q перевезти груз из точки А с
координатой qA в точку В с координатой qB- Пусть qlt] — координата
груза в момент времени t. Движение начинается в момент
времени t = ί0 из состояния {qltol = qA, qltol — qj}. За перевоз груза
заказчик готов заплатить количество денег С, если в
назначенный момент £ = Ф будет выполнено условие qlifl =дв = 0, д[Ф] =
β ?в = 0. Если оно не будет выполнено, то из вознаграждения С
вычитается штраф
D = (q2m + ?Ш)1'2. (70.1)
Располагая моторной тележкой, мы намерены взять подряд
ра эту работу. Тележка перемещается под действием тяги
мотора и и силы ν, создаваемой ветром. Пусть суммарная масса
тележки и груза есть т. Уравнение движения экипажа примет
тогда вид
mq = u+v. (70.2)
Значения и я ν априори не стеснены никакими
ограничениями. Пусть денежный баланс определяется так. Если мотор
вырабатывает тягу и[Й, to*^t<'&, то при этом затрачивается энергия*
стоимость которой £, как и в § 1, вычисляется по формуле
Ε = J* φ (t) и2 [t] at, φ (t) > 0. (70.3)
Тележка снабжена ветровым генератором. Если объект
подвергается воздействию ветра vlil, t0<t<ft, то генератор
вырабатывает энергию, стоимость которой Η снова вычисляется πα
формуле
а
Я = J ψ (t) v2 [t] dt, ψ (t) > 0. (70.4)
Ό
Введем для рассматриваемого объекта двумерный фазовый
вектор χ = {#ι, я2), где Xt = gf x2 = q* Предположим, что
информация о состоянии тележки в начальный момент U, q[t0] =#i[£0]»
502
$lt0] = Xz[tQ] передается нам заказчиком с искажением в виде
величин #οι и #02· За искажение начального состояния заказчик
выплачивает нам компенсацию
F-pl (*i [*о! - *oi)2 + pl (#2 [t0] - #о2)2. (70.5)
Текущее состояние тележки xlt\ = {яДД, #Jf]} в момент ί
нам неизвестно. Информация о текущем состоянии xlt]
доставляется, вообще говоря, лишь по части координат и притом еще с
искажением. Именно, она доставляется прибором в виде сигнала
д*[Й, который является векторной или скалярной величиной.
Истинное движение тележки #[£] = {яДЯ, xzli\}, U^tKil·
становится известным только по окончании всего процесса
управления. За отклонение доставляемой информации от истинного
движения тележки фирма, изготовившая прибор, выплачивает нам
компенсацию
G - j* (g* [t] - К [t] χ [t))'Q* (t) (q* [t] — К [t] χ [t]) dt. (70.6)
Здесь Kit] в случае, когда q*[t] — двумерный вектор, есть
заданная (2 X 2)-матрица, а в случае, когда qHt] — скаляр, есть
заданная вектор-строка {йДА, k2lt]}; Q*(t) есть заданная
соответственно (2X2) определенно-положительная матрица или
положительная скалярная величина. Например, если qHt] и QHt) —
скалярные величины и kj.il β 1Э k2lt] =s 0, то компенсация G
вычисляется по формуле
о
G - j Q* (t) (g* М- xjt])4t. . (70.7)
Таким образом, после выполнения задания по перевозу груза
мы получим вознаграждение
/-С-7, (70.8)
где
V =D + E — Η — F—G =
θ
- (*; m + A W)l/2 + J [φ (*) & It] - Ψ (ί) *a Ш -
-(g* [t] - К [t]x[t])'Q* (t) (ί* [t] -K[t]x It])] dt -
— pl (*i [t0] — «bi)f — pl (*2 [i0l — *o2)2· (70.9)
Наша цель состоит в получении возможно большего
вознаграждения / (70.8). Значит, мы заинтересованы в том, чтобы в
результате управления экипажем значение γ (70.9) было бы как
можно меньше при заданной политике штрафов и цен за
энергию (т. е. при заданных ρί, pl, QHt), Kit], φ(ί), ψ(ί)) и при са-
503
'Мых неблагоприятных для нас ι реализациях ветрового
воздействия v[t0[-]'&)9 а также при самом неблагоприятном для нас
реальном движении я[£0МФ], совместном с ложной информацией,
доставляемой условным вторым игроком. Но это как раз и есть
задача из § 68* об отыскании оптимальной стратегии к°(·),
которая дает минимальный гарантированный результат p°(F[£0l) —
= p(w°(·); Yit9]) (68.26) при заданном показателе γ (68.22),
проявляющемся здесь в конкретном виде (70.9). При этом
информационный элемент Y[t] (68.10) в текущий момент t е= [£0, ф]
складывается здесь из ложного начального состояния х = {#οι> ^огК
указанного заказчиком, из информационной истории ?*[ίο[·]ί],
сложившейся на основе показаний прибора q*[r] при t0<r^tr
и из значений управляемой компоненты y[t] = {yt[t]9 j/8[i], г/з[*]}г
т. е. фактически из истории управляющей силы u(t0[-]il ={иЫ,
U < τ < t).
Эта задача для рассматриваемого примера была решена
методом программного стохастического синтеза, описанным в §§ 68*,
69*. Ее решение
симулировалось на ЭВМ БЭСМ-6 для
такого упрощенного
варианта задачи, когда
динамическая помеха отсутствует.
На рис. 70.1—70.9
приведены изображения на
плоскости {х1 = д, Хг = q) цеко-
торых, просчитанных на ЭВМ
реализаций движения хЫ —
= {xj.il, #2Μ), t0<t<ft при
условии, что в уравнении
(70.2) m = l, #o = 0, 0 = 3.
На рис. 70.1 представлена порожденная оптимальными
управляющими воздействиями и°[£»] (69.27) при ti+l — U = δ = 0,01, ε =
«=0,001 реализация xlt], t0<t^$, получающаяся при
следующих параметрах
Рис. 70.1.
φ (ή = φ* = 1, pi = pi = ρ* = 2,5,
/1 0\ (ρ* 0 \
'Μ-(θ !><?*«-(θ ρ*>
(70.10)
и исходных данных
* А
#01 = — *»'
= 0.
(70.11)
При этом в качестве неизвестного первому игроку
начального состояния x[t0] = {#oi, #02} было взято подсчитанное по
формуле (69.17) экстремальное начальное состояние x°[t0] = {#Si =
= — 1,15, Xq2 = —0,29), осуществление которого является для
нас — первого игрока — наиболее неблагоприятным. В качестве.
504
показаний прибора g* [t] = [gilt], gilt]}, t0^t^$ были взяты
экстремальные (также самые неблагоприятные для нас) функции
g»»[i]-{?ί°[ί], ?;°[«]}э ί0<ί<θ.Здесь при исходных данных
(70.10) получается, что второму игроку, занимающемуся
искажением информации о фазовом состоянии x[i\, выгоднее всего в
смысле увеличения значения показателя γ (70.9) сообщать это
текущее состояние точно, т.е. gi°[t] = ^iW» 02 W — x%[t\
при всех t0<t<®. (Но подчеркнем: то, что второй игрок
использует именно этот способ подачи информации, первому
игроку неизвестно.) В результате вычислений для величины γ (70.9),
отражающей наши итоговые денежные расходы на перевоз груза,
получилось значение γ = 0,58. В согласии с теорией это
значение 7 в рассмотренной ситуации совпало в пределах выбранной
точности вычислений с величиной минимального
гарантированного результата р°(И*в]) = 0,58. Таким образом, мы во всяком
случае гарантируем себе вознаграждение
/ = С-0,58.
Если либо начальное состояние x[tQ]t либо показания прибора
gHtol-Ш будут отличаться от экстремальных, то должно
получиться γ < р°Ш*0]) = 0,58, и
тогда наше вознаграждение
/ может увеличиться. Такой
ситуации отвечают движения, JI \ Ληΐ
представленные на рис. 70.2. τ/ \ 1>
Здесь при тех же
параметрах (70.10) в качестве на-
/
-1,0
,
1
-0,5
{χζ
0,5
0 х1
'0,1
Ό Χ+
Л-0,1
Рис. 70.2.
Рис. 70.а
чального состояния x[t0] принято ложное начальное состояние х* =*
= {#ои х1ъ\ из (70.11), сообщенное заказчиком. Сплошная линия
на рис. 70.2 отвечает реализации x[t], t0<t<,& в случае, когда
прибор точно регистрирует состояние объекта, т. е. g*[t] =x[t]r
ί0<ί<θ. В этом случае получилось, что γ = 0,43<ρ°(7[ί0]) =
= 0,58. Штрихпунктирная линия на рис. 70.2 получилась в
случае, когда д\ [t] = хг [t] + 0,2 βίηωί, gl[t]=x2 [t]+0,2<ucos(utt ω —
= 8π/3. Здесь выпшо, что f= -10,05<p°(Ylt0]) =0,58, т.е.
33 н. Н. Красовский 505,
компенсация, полученная нами от заказчика за искажение
информации, существенно превышает наши расходы на управление
и на штраф за недовоз груза. Таким образом, здесь
вознаграждение будет сверхприбыльным и оно составит
1 = С+10,05. (70.12)
Рис. 70.3 для тех же самых параметров (70.10) и данных
(70.11) отвечает в известном смысле противоположной
ситуации. Именно, начальное состояние x[t0] и показания прибора
β*[£οΝθ] были взяты теперь экстремальными, а управление
экипажем вырабатывалось по наперед выбранной
детерминированной программе
ί 4/9, 0<*<1,5„
~\_4/Q u^/xu (70.13)
ua)[t]
4/9, 1,5<ί<3,0
или
по программе
и(2) [fl = 0,5 - 0,3f, 0 < t < 3,0.
(70.14)
Сплошная линия на рис. 70.3 отвечает формированию
движения по программе (70.13), а штрихпунктирная — по программе
(70.14). При этом в первом случае получилось γ = 1,41 >
> р°(У[£0]) = 0,58, а во втором случае получилось γ = 1,10 >
>p°(yU0J) =0,58. Заметим, что управление w(2)[fl (70.14) явля-
кх2 ется оптимальным в задаче об
\1,о управлении в условиях полной
информации о начальном
состоянии объекта и при выборе
показателя
Yo = (^[*] + ^[*])1/S +
о
+ §u*[t]dt$ (70.15)
Ό
но, как видим и как следовало
ожидать, не является
реализацией оптимального закона
управления в рассматриваемой
исходной задаче.
На рис. 70.4 изображены реализации я[£0МФ], полученные на
основе оптимального закона управления и°Ш (69.27) и
экстремальных действий второго игрока, т. е. на основе экстремального
начального состояния и экстремальной текущей информации. Эти
реализации отвечают различным значениям штрафных
коэффициентов р*ц Ρ * и Q*(t) за искажение информации о начальном
и текущих состояниях объекта. Было испытано р* = 1,0; 1,5;
2,5; 5,0. Этим значениям р* соответствуют значения γ = 1,35;
0,83; 0,58; 0,47 и им отвечают кривые, расположенные на рис. 70.4
соответственно слева направо. Видно, что увеличение указанных
506
Рис. 70.4.
штрафных коэффициентов ведет с одной стороны к уменьшении*
оптимального гарантированного результата р°(Г[£©]) — γ, а с
другой стороны, как это и подсказывает интуиция — к более точному
выполнению задания о перевозе груза.
Следующий эксперимент связан с изменением в данных
(70.10) коэффициента <р*, характеризующего стоимость единицы,
энергии, затраченной на управление. Результаты этого
эксперимента заключены в следующую таблицу.
ф*
1,00
0f50
0,25
0,10
Р° (У [*·])
0,58
! 0,33
| 0,20
0,12
τ
2,28
| 2,54
2,69
8,00
|m* [foil
1,00
0,80
0,40
0,05
wt
-1,15
—1,10
—1,11
—1,05
-1,05
-1,03
-1,02
y>»
-0,29 1
-0,18 1
—0,07
-0,11 |
0,00 [
| 0,03 [
-0,09 [
В третьей колонке этой таблицы стоит момент времени те
e[f0j ft], который находится из условия (69.7), а в четвертой
колонке стоит норма вектора m*[t0], на котором достигается
максимум в задаче (69.19)—(69.24). Случай <р* = 1 уже был обсужден
при описании рис. 70.1. На рис. 70.5, а, б представлены кривые,
отвечающие случаю φ* = 0,5. Поясним этот рисунок.
Здесь, благодаря тому, что |яг*[£0]| ==0,8< 1, экстремальная
случайная величина wl%] (69.17), имитирующая в стохастическом*
Рис. 70.5.
варианте начальное состояние аг0, принимает уже два значения
в отличие от случая φ* = 1, где |т*[£0]| = 1 (см. таблицу). Таким
образом, при φ* = 0,5 получаются два экстремальных начальных
состояния. Кроме того, по формулам (69.16) получаются теперь
две реализации для экстремальной функции git, ξ], ί0^τ<θ.
33*
507
При этом на отрезке [£0, τ] эта экстремальная функция в
согласии с первой из формул в (69.16) является для всех Iе [0, 1)
одной и той же функцией времени, а на промежутке (τ, Φ] она
случайным образом распадается на две ветви. На рис. 70.5, а
сплошной линией изображено одно из двух возможных реальных
движений объекта. Оно получается, если экипаж стартует из
экстремального начального состояния {xli = ινχ = — 1,10; #J2 —
= w2 = — 0,18) при этом показания прибора g*°[d, t0 < t < Φ
формируются по формуле (68.41) на основе соответствующей
ветви экстремальной стохастической программы g[t, ξ], ί0^ί<Ό·
(69,16). Эти экстремальные показания прибора изображены на
рис. 70.5, а пунктирной линией. На рис. 70.5, б сплошной линией
изображено другое возможное реальное движение объекта, когда
экипаж стартует из экстремального начального состояния {#οι =
== wx = — 1,11; #02 = Щ = — 0,07) и при этом показания прибора
</*°[ί0Μθ] формируются на основе другой соответствующей
ветви программы g[t, ξ], ίο^ί^Φ (69.16). Эти показания прибора
также изображены на рис. 70.5, б пунктирной линией.
Получается, что до момента τ = 2,54 экстремальные показания прибора
искаженно информируют нас о текущем состоянии экипажа xitl,
при этом они не зависят от того, из какого экстремального
начального состояния стартовал экипаж. На оставшемся
промежутке (τ, Φ] прибор в экстремальном режиме работает совершенно
точно, поэтому пунктирные линии на рис. 70.5, а, б при τ < t < θ
совпадают с соответствующими сплошными линиями.
Рис. 70.6 иллюстрирует при φ* = 0,5 ситуацию, когда
управление и°Ш выбирается оптимально, а реальное исходное состоя-
ние xit0l выбирается вторым иг-
\ А,; роком не оптимальным образом.
' Именно, оно, как и в случае φ* =
= 1, описанном на рис. 70.2,
совпадает с ложным начальным
состоянием х0. При этом.
показания прибора опять таковы:
\о Ϊ q*[i\ ={#t[ri, x2\.i\) (сплошная ли-
1 ' ния) и q*lt] = ЫЙ + 0,2 sin ωί;
Рис. 70.6. x2[t] + 0,2ω cos ωί), ω = 8π/3
(штрихпунктирная линия).
Сплошной 4щнии на рйс. 70.6 соответствует значение γ = 0,25, а
штрихпунктирной — значение γ = —10,20. Оба эти значения
снова в согласии с теорией получились меньше величины
оптимального гарантированного результата р°(^Т*о]) =0,33 (см. табл.).
Проследим теперь влияние на результаты управления
матрицы Я[Й, ί0<ί<0. Положим в данных (70.10) Kit) = (1; 0), tQ<
<£<θ. Это означает, что выражение для G (70.6) имеет теперь
вид (70.7). Пусть управление и°Ш выбирается оптимально. В
508
этом случае получается одно экстремальное значение {wu w2],
и кривая, начинающаяся из начального состояния [x°0i = и>1г
#02 = щ} при экстремальной информации о текущем состоянии
объекта, мало отличается от кривой, изображенной на рис. 70.1.
Изменим еще в данных (70.11) ложное начальное состояние х0.
Именно, пусть х*01 = — 1, #0*2 = 1. Тогда получаются уже два
экстремальных значения iwi = —0,74,jv2 = 0,99} и {wi = — 0,85, и?2=
= 1,49). Кроме того, выходит, что τ = 1,66 и γ"= р°(F[i0]) = 0,90.
Рис. 70.7.
Рис. 70.8.
На рис. 70.7 изображены сразу обе кривые, соответствующие
двум возможным реальным движениям объекта xlt] ={Xiit],
ХгШ), t0^t^il·, когда он стартует из одного из начальных
состояний {#οχ, Xq2], соответствующих указанным экстремальным
значениям {ю\, w2), и при этом показания прибора формируются
на основе соответствующих
ветвей экстремальной
стохастической программы g[t, ξ],
*„<*<# (69.16).
На рис. 70.8 сплошной
линией изображено для
одного из реальных движений
изменение в зависимости от
времени одной только
первой координаты #4[Й, £0^
^ t <: Φ. В рассматриваемом
случае показание прибора Рис. 70.9.
q*ii\ — скалярная величина.
На рис. 70.8 пунктирной линией изображено соответствующее
экстремальное показание прибора д*°Ы, £0^ ί^θ.
J
'if \\ \
\-t,o \
\ JJ
0,5
0 xpfi
509
Била симулирована также ситуация, когда при параметрах
φ(ί) ■■ φ* — 0,5, ρ* — pi = ρ* =ь 2,5 и исходных данных (70.11)
первый игрок формирует управление и на основе программы
(70.13). В таких случаях, когда первый игрок действует
неоптимально, второй игрок как всегда может обеспечить значение γ*
не меньшее, чем величина р°( И £<>]). При этом на практике
значение γ оказывается, как правило, существенно большим, чем
р°(У[£0]). Для этого второй игрок может формировать свои дей- ι
ствия на основе текущей информации, опираясь на отрезки pea- ι
лизаций подходящих оптимальных стохастических программ. Эти
программы отвечают текущим моментам истинного времени U
как начальным для программной конструкции в модели.
На рис. 70.9 изображена пунктирной линией
информационная история (показания прибора g*[rf, ί0<£<#), которая ело- !
жилась в результате описанного способа действий второго игро- ι
ка при формировании управления и по программе (70.13). Сплош- ι
ной линией изображено соответствующее реальное движение·
я-объекта. Экстремальное начальное состояние для него оказа- ι
лось равным χιο=—1,07, #2о=— 0,21. При этом получилось γ=-
- 0,87 >р0(У[*0])« 0,33.
СПИСОК СПРАВОЧНОЙ ЛИТЕРАТУРЫ
1*. Аркин В. И., Левин В. Л. Выпуклость значений векторных
интегралов, теоремы измеримого выбора и вариационные задачи.— Успехи
матем. наук, 1972, 27, № 3.
2*. Балакришнан А. Введение в теорию оптимизации в гильбертовом
пространстве.—М.: Мир, 1974.
3*. Б а р б а ш и н Е. А. Введение в теорию устойчивости.— М.: Наука, 1967.
4*. Б е л л м а н Р. Введение в теорию матриц.— М.: Наука, 1976.
5*. Бесконечные антагонистические игры. Сб. статей.— М.: Физматгиз, 1963.
6*. Бухгольц Н. Н. Основной курс теоретической механики, ч. 2.—М.:
Наука, 1972.
7*. Варга Дж. Оптимальное управление дифференциальными и
функциональными уравнениями.— М.: Наука, 1977.
8*. Г ант махе ρ Φ. Р. Лекции по аналитической механике.—М.: Наука,
1966.
9*. Д а н φ ο ρ д Н,, Шварц Дж. Т. Линейные операторы, т. I.— M.: ИЛ,
1962.
10*. Демьянов В. Ф., МалоземовВ. Н. Введение в минимакс— М.:
Наука, 1972.
11*. Карлин С. Математические методы в теории игр, программировании
и экономике.— М.: Мир, 1964.
12*. Колмогоров А. Н., Фомин С. В. Элементы теории функций и
функционального анализа.—М.: Наука, 1976.
13*. КрасовскийН. Н. Теория управления движением.— М.: Наука, 1968.
14*. Л и π ц е ρ Р. Ш., Ширяев А. Н. Статистика случайных процессов.—
М.: Наука, 1974.
15*. Л о э в М. Теория вероятностей.— М.: ИЛ, 1962.
16*. Малкин И. Г. Теория устойчивости движения.— М.: Наука, 1965.
17*. Натансон И. П. Теория функций вещественной переменной.— М.:
Наука, 1974.
18*. Немыцкий В. В., Степанов В. В. Качественная теория
дифференциальных уравнений.— М.— Л.: Гостехиздат, 1949.
19*. Понтрягин Л. С. Обыкновенные дифференциальные уравнения.—
М.: Наука, 1965.
20*. Понтрягин Л. С, Болтянский В. Г., Гамкрелидзе Р. В.,
Мищенко Е. В. Математическая теория оптимальных процессов.—
М.: Наука, 1983.
21*. Прохоров Ю. В., Розанов Ю. А. Теория вероятностей.— М.:
Наука, 1973.
511
22*. Пшеничный Б. Η. Выпуклый анализ и экстремальные задачи.— М.г
Наука, 1980.
23*. Рисе Ф., Секефальви-НадьБ. Лекции по функциональному
анализу.— М.: Мир, 1979.
24*. Рокафеллар Р. Выпуклый анализ.— М.: Мир, 1973.
25*. С а неоне Дж. Обыкновенные дифференциальные уравнения, т. II.—
М.: ИЛ, 1954.
26*. Филиппов А. Ф. О некоторых вопросах теории оптимального
регулирования.—Вестник МГУ. Серия математика, механика, физика,
химия, 1959, № 2.
27** Филиппов А. Ф. Дифференциальные уравнения с разрывной
правой частью.— Матем. сб., 1960, 51, № 1.
28*. Шилов Г. Е. Математический анализ (функции одного переменного),
ч. 1—2.— М.: Наука, 1969.
29*. Ширяев А. Н. Вероятность.— М.: Наука, 1980.
СПИСОК СПЕЦИАЛЬНОЙ ЛИТЕРАТУРЫ
1. А й з е к с Р. Дифференциальные игры.— М.: Мир, 1967.
2. Брайсон Α., Χο Ю-ши. Прикладная теория оптимального
управления.— М.: Мир, 1972.
3. Красовский Н. Н. Игровые задачи о встрече движений.— М.:
Наука, 1970.
4. Красовский Η. Η., Субботин А. И. Позиционные
дифференциальные игры.— М.: Наука, 1974.
5. Куржанский А. Б. Управление и наблюдение в условиях
неопределенности.—М.: Наука, 1977.
6. Петросян Л. А. Дифференциальные игры преследования.— Л.: Изд-
во Ленингр. ун-та, 1977.
7. Субботин А. И., Ч е н ц о в А. Г. Оптимизация гарантии в задачах
управления.— М.: Наука, 1981.
8. Черноусые о Ф. Л., Меликян А. А. Игровые задачи управления
и поиска.— М.: Наука, 1978.
9. Biaquiere Α., Gerard F., Leitmann G. Quantitative and
qualitative games.— New York etc.: Acad. Press, 1969.
JO. Friedman A. Differential Games.—New York: Wiley Intersci., 1971.
11. Hajek 0. Pursuit Games.—New York: Acad. Press, 1975.
12. Габасов Р., Кириллова Ф. М. О некоторых применениях
функционального анализа к теории оптимальных процессов.— Изв. АН СССР*
Сер. техн. киберн., 1966, № 4.
13. Г а м к ρ е л и д з е Р. В. Об одном интегральном уравнении из теорий?
игр.—In: Banach Center Publ. Vol. 1. Proc. Conf., Zakopane, 1974. War-
szawa: PWN, 1976.
14. Гороховик В. В., Кириллова Ф. Μ. Ο линейных
дифференциальных играх нескольких лиц.— В кн.: Управляемые системы. Вып. 1&
Новосибирск, 1972.
512
15. Γ ρ иго ре нко Н. Л. К линейной задаче преследования несколькими
объектами.— ДАН СССР, 1981, 258, № 2.
16. Гусятников П. Б. Необходимые условия оптимальности в
линейной задаче преследования.— ПММ, 1971, 35, № 5.
17. Гусятников П. Б. Убегание и Z-убегание в дифференциальной
игре многих лиц.— ДАН СССР, 1977, 232, № 3.
18. 3 е л и к и н М. И. Об одной дифференциальной игре с неполной
информацией.— ДАН СССР, 1972, 202, № 5.
19. Келенджеридзе Д. Л. К теории оптимального преследования.—
ДАН СССР, 1961, 138, № 3.
20. Кононенко А. Ф. О равновесных позиционных стратегиях в
неантагонистических дифференциальных играх.—ДАН СССР, 1976, 231,
№ 2.
21. Лагунов В. Н. Нелинейная дифференциальная игра убегания.—
ДАН СССР, 1972, 202, № 3.
22. Μ е л и к я н А. А. Необходимые условия оптимальности на поверхности
разрыва одного типа в дифференциальной игре.—Изв. АН СССР. Сер.
техн. киберн., 1981, № 4.
23. Μ и щ е н к о Ε. Φ. Задачи преследования и уклонения от встречи в
теории дифференциальных игр.— Изв. АН СССР. Сер. техн. киберн., 1971,
№ 5.
24. Мищенко Ε. Φ. О некоторых игровых задачах преследования и
уклонения от встречи.— Автомат, и телемех., 1972, № 9.
25. Мищенко Ε. Φ. О дифференциальных играх преследования и
уклонения от встречи.— В кн.: Девятая летняя математическая школа.—
Киев, Ин-т математики АН УССР, 1972.
26. Никольский М. С. О линейной задаче убегания.—ДАН СССР, 1974,
218, № 5.
27. Никольский М. С. Об альтернированном интеграле Л. С. Понтря-
гина.—Мат. сб., 1981, 116, № 1.
28. Петров Н. Н. Существование значения игры преследования.— Диф-
ференц. уравнения, 1971, 7, № 5.
29. Π е τ ρ о в Η. Η. Об отсутствии значения игры преследования.—
Дифферент уравнения, 1973, 9, № 5.
30. Петросян Л. А. Устойчивость решений в дифференциальных
играх со многими участниками.—Вест. Ленингр. ун-та, № 18. Сер. Мат.,
мех., астрон., 1977, № 4.
31. Пожарицкий Г. К. Импульсное преследование точки с
ограниченной тягой.— ПММ, 1973, 37, № 2.
32. Пожарицкий Г. К. Задача Айзекса об огибании острова.—ПММ,
1982, 46, № 5.
53. Понтрягин Л. С. О линейных дифференциальных играх, I.—ДАН
СССР, 1967, 174, № 6.
34. Понтрягин Л. С. О линейных дифференциальных играх, И.—ДАН
СССР, 1967, 175, № 4.
35. Понтрягин Л. С. Линейные дифференциальные игры
преследования.—Мат. сб., 1980, 112, № 3.
36. Пшеничный Б. Н. О задаче преследования.—Кибернетика, 1967,
№ 6.
513
37. Пшеничный Б. Η. Структура дифференциальных игр.—-ДАН СССР,
1969, 184, № 2.
38. Сатимов Н. Нелинейная дифференциальная игра убегания.—Мат.
заметки, 1977, 21, № 3.
39. ТынянскийЕ Т. Общие вогнуто-выпуклые игры.—ДАН СССР, 1969,
184, № 2.
40. ΦеДоренко Р. П. Об одном классе дифференциальных игр
преследования.—ЖВМ и МФ,,1970, 10, N° 5.
41. Черноусько Ф. Л. Одна задача уклонения от многих
преследователей.— ПММ, 1976, 40, № ι.
42. Ч икр и й А. А. Задача уклонения в нестационарных
дифференциальных играх.— ПММ, 1975, 39, № 5.
43. Ч икр и й А. А. Групповое преследование при ограниченных
координатах убегающего.— ПММ, 1982, 46, № 6.
44. Альбрехт Э. Г. О встрече квазилинейных объектов в регулярном
случае.— ПММ, 1971, 35, № 4.
45. Альбрехт Э. Г., Логинов М. И. О непрерывной зависимости
линейной игры сближения от параметра.— ПММ, 1976, 40, № 2.
46. Байдосов В. А. К вопросу о конфликтно управляемых системах в
метрическом пространстве.—Дифференц. уравн., 1978, 14, № 7.
47. Барабанова Η. Η., Субботин А. И. О классах стратегий в
дифференциальных играх уклонения от встречи.— ПММ, 1971, 35, № 3.
48. Батухтин В. Д. Экстремальное прицеливание в нелинейной игре
сближения.—ДАН СССР, 1972, 207, № 1.
49. Батухтин В. Д. Об одной игровой задаче наведения с неполной
информацией.— ПММ, 1982, 44, № 4.
50. Боткин Н. Д., Π а цк о В. С. Позиционное управление в линейной
дифференциальной игре.— Изв. АН СССР, Сер. техн. киберн., 1983, № 4
51. Буслаева Л. Т. Стохастическое управление в дифференциальной
игре.— ПММ, 1978, 42, № 4
52. Г у с е в М. И., К у ρ ж а н с к и й А. Б. О ситуациях равновесия в
многокритериальных игровых задачах.— ДАН СССР, 1976, 229, № 6.
53. 3 а в а л и щ и н С. Т., У ш а к о в В. Н. Задача о приведении при
ограничениях на полные импульсы управляющих сил.— ПММ, 1975,39, № 2.
54. Зайцев А. В. Построение множества поглощения в
дифференциальной игре сближения.— Управляемые системы. Новосибирск, 1970, 7.
55. Клейменов А. Ф. Задачи конфликтного управления.—ПММ, 1975,
39, № 2.
56. К л е й м е н о в А. Ф. Равновесные коалиционные контрстратегии в
дифференциальных играх многих лиц.— ПММ, 1982, 46, № 5.
57. К о ρ ο τ к и й А. И. Об аппроксимации задач позиционного
управления,— ПММ, 1980, 44, № 6.
58. К ρ а с о в с к и й А. Н. Дифференциальная игра для позиционного
функционала.— ДАН СССР, 1980, 253, № 6.
59. К ρ а с о в с к и й А. Н. Нелинейная дифференциальная игра с
интегральной платой.— Дифференц. уравн., 1982, 18, № 8.
60. Красовский А. Н., Красовский Н. Н., Третьяков В. Е.
Стохастический программный синтез для детерминированной
позиционной дифференциальной игры.—ПММ, 1981, 45, № 4
514
61. Кр асов с кий Η. Η. Дифференциальные игры. АппроксимЪционные и
формальные модели.— Матем. сб., 1978, 107, № 4.
62. К ρ а с о в с к и й Η. Η. О стохастическом программном синтезе
стратегий в дифференциальной игре.— ПММ, 1982, 46, № 6.
63. Красовский Η. Η., Субботин А. И. Альтернатива для игровой
задачи сближения.— ПММ, 1970, 34, № 6.
64. Красовский Н. Н., Третьяков В. Е. Стохастический
программный синтез для позиционной дифференциальной игры.— ДАН СССР,
1981, 259, № 1.
65о Красовский Н. Н., Третьяков В. Е. Одна задача оптимального
управления на минимум гарантированного результата.— Изв. АН СССР.
Сер. техн. киберн., 1983, № 2.
66. К ρ я ж и м с к и й А. В. К теории позиционных дифференциальных игр
сближения — уклонения.— ДАН СССР, 1978, 239, № 4
67. К ρ я ж и м с к и й А. В. Об устойчивом позиционном управлении в
дифференциальных играх.— ПММ, 1978, 42, № 6.
68. К ρ я ж и м с к и й А. В., Ченцов А. Г. О структуре игрового
управления в задачах сближения и уклонения.—Свердловск: ИММ УНЦ АН
СССР, 1979 (Рукоп. деп. в ВИНИТИ, № 1729—80 Деп.).
69. Ку ржа не кий А. Б. Дифференциальные игры наблюдения,—ДАН
СССР, 1972, 207, № 3.
70. Л о г и н о в М. И. Об одном способе экстремального управления.— ПММ,
1982, 46, № 6.
71. Максимов В. И. О существовании седловой точки в
дифференциально-разностной игре сближения — уклонения.— ПММ, 1978, 42,
№ 1.
72. Осипов Ю. С. Альтернатива в дифференциально-разностной игре.—
ДАН СССР, 1971, 197, № 5.
73. Осипов Ю. С. Дифференциальные игры систем с последействием.—
ДАН СССР, 1971, 196, № 4
74. О с и π о в Ю. С. К теории дифференциальных игр в системах с
распределенными параметрами.— ДАН СССР, 1975, 223, № 6.
75. Осипов Ю. С. Позиционное управление в параболических системах.—
ПММ, 1977, 41, № 2.
76. Охевин С. II. Дифференциальная игра сближения — уклонения для
параболической системы при интегральных ограничениях на
управления игроков.— ПММ, 1977, 41, № 2.
77. Пак В. Е. Задача наведения с неполной информацией.— Изв. АН СССР.
Сер. техн. киберн., 1976, № 4.
78. Па ц к о В. С. Дифференциальная игра уклонения на плоскости.— ПММ,
1977, 41, № 4.
79. Пацко В. С. Дифференциальная игра качества второго порядка.—
ПММ, 1982, 46, № 4.
S0. По л ищу к Е. Г. Вычисление цены для некоторых
дифференциальных игр.— ПММ, 1977, 41, № 4.
81. Решетов В. М. Об одной линейной дифференциальной игре
уклонения.—ПММ, 1974, 38, № 4.
β2. Ρ е ш е τ о в В. М. Об одном способе синтеза регулятора.— Изв. АН СССР.
Сер. техн. киберн., 1976, № 1,
515
83. Роль щ^и ков В. Е. Об одном классе дифференциальных игр со
случайными моментами выбора управлений.— Свердловск: ИММ УНЦ АН
СССР, 1982 (Рукоп. в деп. в ВИНИТИ, № 2584—82 Деп.).
84. Ρ у в а к о в В. Я., Ч е н ц о в А. Г. Об одном классе дифференциальных
игр в смешанных стратегиях.—Дифференц. уравн., 1980, 16, № 10.
85. Субботин А. И. Обобщение основного уравнения теории
дифференциальных игр.— ДАН СССР, 1980, 254, № 2.
86. С у б б о τ и н А. И., Субботина Η. Η. Свойства потенциала
дифференциальной игры.— ПММ, 1982, 46, № 2.
87. С у б б о τ и н А. И., У ш а к о в В. Н. Альтернатива для
дифференциальной игры сближения — уклонения при интегральных ограничениях на
управления игроков.— ПММ, 1975, 39, № 3.
88. Субботина Η. Η. Универсальные оптимальные стратегии в
позиционных дифференциальных играх.— Дифференц. уравнен., 1983,· 19,
№ 11.
89. Субботина Η. Η., Ченцов А. Г. О существовании функции Бел-
лмана в линейной дифференциальной игре.— В кн.: Дифференциальные-
системы управления. Свердловск: ИММ УНЦ АН СССР, 1979.
90. Тарлинский С. И. Об одном регулярном классе дифференциальных
игр.— Изв. АН СССР. Сер. техн. киберн., 1973, № 6.
91. Третьяков В. Е. К теории стохастических дифференциальных игр.—
ДАН СССР, 1983, 269, № 5.
92. Τ ρ е τ ь я к о в В. Е. Программный синтез в стохастической
дифференциальной игре.— ДАН СССР, 1983, 270, № 2.
93. Ушаков В. Н. Экстремальные стратегии в дифференциальных
играх с интегральными ограничениями.— ПММ, 36, № 1.
94. Ушаков В. Н. К задаче построения стабильных мостов в дифферен'·
циальной игре сближения — уклонения.— Изв. АН СССР. Сер. техн.
киберн., 1980, № 4.
95. Филиппов С. Д. Об одной задаче уклонения в условиях неполной
информации.— Дифференц. уравн., 1977, 13, № 10.
96. Ченцов А. Г. К игровой задаче наведения.—ДАН СССР, 1976, 226,
№ 1.
97. Ч е н ц о в А. Г. Об игровой задаче сближения в заданный момент
времени.— Матем. сб., 1976, 99, № 3.
98. Ч е н ц о в А. Г. Об игровой задаче сближения к заданному моменту
времени.— Изв. АН СССР. Сер. математическая, 1978, 42, № 2.
99. Шишмаков В. С. Минимаксная задача преследования при
запаздывании информации.—Изв. АН СССР. Сер. техн. киберн., 1973, № 3.
100. Ш о ρ и к о в А. Ф. Об одном классе нелинейных многошаговых задач
управления — наблюдения.— Изв. АН СССР. Сер. техн. киберн., 1983,
№ 3.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Гарантированный результат для
закона управления 48, 69, 265, 266
контрстратегии 77, 266
оптимальный 77, 83
равномерный 77
стратегии 70, 265, 493
оптимальный 71
равномерный 71
стратегий в контингенциях
180, 185
оптимальный 181,185
оптимальный 49
в классе чистых стратегий
79
универсальный 49
Движение 39, 201
— вспомогательное 211, 244
— обобщенное 110, ИЗ
— поводыря 463
— пополненное 198, 210
информационное 244
— случайное 374
— сопутствующее 211
Дифференциальная игра
позиционная 78
Закон управления 98
— допустимый 47, 68, 83, 98
— оптимальный 48
— универсальный оптимальный 48
Законы управления совместимые 101
Информационная дискриминация 80
История движения 470
— наблюдаемой переменной 490
— сопутствующая 473
Канонический случай 38, 67
Квазиканонический случай 257, 268
Контрпомеха 42
Контрстратегия допустимая 75, 83
— оптимальная (максиминная) 7?
равномерно 77
— универсальная 78
Контруправление 41
Маленькая игра 79
Область достижимости 302, 385
Обобщенная помеха 116
Обобщенное воздействие ИЗ
Обобщенный процесс 114
в контингенциях 179, 184
Образ движения 384, 446
Параметр точности 68, 75, 166
Позиция игры 40
— пополненная 197
информационная 243
— сопутствующая 209, 244
Программа детерминированная 350,.
445
— минимизирующая 303
— стохастическая 292, 381, 465, 494
Программная задача
вспомогательная 328
Программный максимин
детерминированный 445
стохастический 296, 297, 386,475
— экстремум 306, 391, 448, 466, 475
Пучок движений 111, 290, 385
Разбиение 68, 83, 291
Реализация вероятностного
процесса ών/4
— обобщенного воздействия ИЗ
процесса 114
в контингенциях 184
517
Реализация обобщенной помехи
116
— процесса 67
Свойство неупреждаемости 292
— ю-стабильности 208, 288
— 1М5табильности 216, 289
Седловая точка
дифференциальной игры 78, 267, 274
для маленькой игры 79
Сопутствующая точка 209, 216
Сопутствующее состояние z-модели
496
Стандартный броуновский процесс
464
Стохастическая ш-модель 291
Стратегия в контингенциях 178
оптимальная 181
— допустимая 68
— контрпомехи оптимальная
(минимаксная) 83
*■* оптимальная (максиминная)
чистая 79
(минимаксная) 70
— смешанная 118
— универсальная 71, 166
~=· чистая 79
Стратегия чистая позиционная
85
— экстремальная 235, 290, 496
Условие дифференциального мини-
макса 138
— регулярности 357, 450
Цена игры 78, 267, 274, 472
Экстремальный сдвиг 210, 217, 280,
496
^-процедура 223, 289
ю-модель 287
я-объект пополненный 198
у-система 489
— информационная 491
z-модель 198, 381, 493
β — ^-процедура 224
[ξ, ζ]-модель 276
Николай Николаевич Красовский
УПРАВЛЕНИЕ ДИНАМИЧЕСКОЙ СИСТЕМОЙ
Редактор А. И. Штерн
Художественный редактор Г. М. Коровина
Технический редактор С. Я. Шкляр
Корректоры Т. С. Вайсберг, Л. С. Сомова
ИБ № 12667
Сдано в набор 25.10.84. Подписано к печати»
03.07.85. Т-12334. Формат 60X90Vie. Бумага тип.
JMs 1. Гарнитура обыкновенная. Печать высокая.
Усл. печ. л. 32,5. Усл. кр.-отт. 32,5. УЧ.-413Д.
л. 35,07. Тираж 5000 экз. Заказ № 459. Цена
5 р. 20 к.
Ордена Трудового Красного Знамени
издательство «Наука»
Главная редакция
физико-математической литературы
117071 Москва В-71, Ленинский проспект, 1& _
4-я типография издательства «Наука»
630077 г. Новосибирск 77, Станиславского, 25
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
117071 Москва В-71, Ленинский проспект, 15
ГОТОВИТСЯ К ПЕЧАТИ
Μ а с л о в В. П. Асимптотические методы решения
псевдодифференциальных уравнений.
В книге рассмотрены современные асимптотические
методы решения линейных и нелинейных уравнений с
частными производными. Исследованы случаи либо малой
нелинейности, либо нелинейности со сглаживающим оператором.
Строится асимптотика уравнений, содержащих малый
параметр, а также находится сингулярная часть решения по
модулю гладких функций. Приводятся приложения из теории
плазмы, нелинейной оптики и акустики.
Для специалистов в области прикладной математики,
механики, физики.