Титульный лист
Посвящение
От редакции
1. О статистическом рассмотрении динамических систем
2. О динамических системах, близких к гамильтоновым
3. Грубые системы
5. Эрмитовы операторы в пространстве с индефинитной метрикой
7. Периодические решения систем дифференциальных уравнений, близкие к разрывным
8. К теории оптимальных процессов
9. Асимптотическое поведение решений систем дифференциальных уравнений с малым параметром при высших производных
10. Системы обыкновенных дифференциальных уравнений с малыми параметрами при высших производных
11. Доказательство некоторых асимптотических формул для решений дифференциальных уравнений с малым параметром
12. Вывод некоторых асимптотических оценок для решений дифференциальных уравнений с малым параметром при производных
13. Одна статистическая задача оптимального управления
14. Оптимальные процессы регулирования
15. Теория оптимальных процессов. I. Принцип максимума
16. Приближенное решение одной системы обыкновенных дифференциальных уравнений с малым параметром при производных
17. Периодическое решение одной системы обыкновенных дифференциальных уравнений с малым параметром при производных
18. Об одной статистической задаче оптимального управления
19. Об одной вероятностной задаче оптимального управления
20. Математическая теория оптимальных процессов
21. О некоторых дифференциальных играх
22. К теории дифференциальных игр
23. Линейные дифференциальные игры
24. О линейных дифференциальных играх. 1
25. О линейных дифференциальных играх. 2
26. Задача об убегании одного управляемого объекта от другого
27. Линейная дифференциальная игра убегания
28. Задача об уклонении от встречи в линейных дифференциальных играх
29. Линейная дифференциальная игра убегания
30. Линейные дифференциальные игры
31. Оптимизация и дифференциальные игры
32. Линейные дифференциальные игры преследования
33. Решение линейной дифференциальной игры преследования без дискриминации убегающего объекта
34. Решение линейной дифференциальной игры преследования на основе альтернированного интегрирования без дискриминации управления убегания
35. Математическая теория оптимальных процессов и дифференциальные игры
36. Некоторые вопросы теории дифференциальных уравнений с малым параметром
Содержание
Выходные данные

Автор: Понтрягин Л.С.  

Теги: математика  

ISBN: 5-02-014410-Х

Год: 1988

Текст
                    Л.СПОНТРЯГИН
ИЗБРАННЫЕ
НАУЧНЫЕ
ТРУДЫ
В ТРЕХ ТОМАХ


Л.С.ПОНТРЯГИН ИЗБРАННЫЕ НАУЧНЫЕ ТРУДЫ Том I топология ТОПОЛОГИЧЕСКАЯ АЛГЕБРА Том II ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ ТЕОРИЯ ОПЕРАТОРОВ ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Том III НЕПРЕРЫВНЫЕ ГРУППЫ Редакционная коллегия: Д. В. АНОСОВ, Р. В. ГАМКРЕЛИДЗЕ (ответственный редактор), Е. Ф. МИЩЕНКО, С. П. НОВИКОВ, М. М. ПОСТНИКОВ, И. Р. ШАФАРЕВИЧ Составитель Р. В. ГАМКРЕЛИДЗЕ
Л.С.ПОНТРЯГИН ИЗБРАННЫЕ НАУЧНЫЕ ТРУДЫ ТОМ II ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ ТЕОРИЯ ОПЕРАТОРОВ ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИТРЫ Ответственный редактор член-корреспондент АН СССР Р. В. ГАМКРЕЛИДЗЕ ■щ МОСКВА «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 19 8 8
Моей жене и другу Александре Игнатьевне Понтрягиной посвящаю Л. Понтрягин
ОТ РЕДАКЦИИ Настоящее трехтомное издание избранных математических трудов Льва Семеновича Понтрягина осуществляется Главной редакцией физико-математической литературы издательства «Наука» на основании постановления президиума АН СССР. В первый том включены основные работы Л. С. Понтрягина по топологии и топологической алгебре. Первый цикл топологических работ Л. С. Понтрягина относится к теории размерности и топологическим теоремам двойственности и завершился открытием общей топологической теоремы двойственности для замкнутых множеств и построением теории характеров локально компактных коммутативных групп. Создание общей теории характеров знаменовало начало топологической алгебры как самостоятельной науки, приведшей к построению гармонического анализа, и оказало глубокое влияние на все алгебро-топологическое мышление 30-х годов. Второй большой цикл топологических работ Л. С. Понтрягина — его исследования по гомотопической топологии. Они завершились открытием характеристических классов, определивших последующее развитие гладкой топологии. Кроме этих двух больших работ, следует особо отметить его две классические работы— о топологических телах и о группах гомологии матричных групп Ли, также включенные в первый том. Первый том содержит также обзор научных трудов Л. С. Понтрягина, написанный Д. В. Аносовым, Р. В. Гамкрелидзе, Е. Ф. Мищенко и М. М. Постниковым, и краткий обзор самого Льва Семеновича своих работ по топологии и топологической алгебре, написанный им в 1984 г. Кроме того, в первый том включены основные даты жизни и деятельности Л. С. Понтрягина и хронологический указатель его трудов. Настоящий второй том содержит работы Л. С. Понтрягина по динамическим системам, обыкновенным дифференциальным уравнениям, теории операторов, оптимальному управлению и дифференциальным играм. Особое внимание уделено его работам по оптимизации, в которых сформулирован знаменитый «принцип максимума Понтрягина» — центральный результат современной математической теории управления. Третий том является перепечаткой первого издания классической монографии Л. С. Понтрягина «Непрерывные группы». Эта замечательная книга, формировавшая мировоззрение многих поколений математиков во всем мире, сохранила удивительную актуальность даже в наши дни, спустя полвека после ее опубликования. Статьи в первых двух томах расположены в хронологическом порядке. Подготовка всех трех томов была осуществлена Р. В. Гамкрелидзе.
1 О СТАТИСТИЧЕСКОМ РАССМОТРЕНИИ ДИНАМИЧЕСКИХ СИСТЕМ*) Совместно с А. А. Андроновым и А. А. Виттом § 1. Постановка задачи.— § 2. Уравнение для плотности распределения вероятности.— § 3. Уравнение для математического ожидания времени перехода.— § 4. Случай одного уравнения первого порядка.— § 5. Случай двух уравнений первого порядка.— § 6. Некоторые общие замечания. § 1. Постановка задачи Пусть мы имеем динамическую систему, определяемую п дифференциальными уравнениями первого порядка1): **L~X™(xu хг, .... хп) (i=l,2f .... л). (I) Эти уравнения при заданных начальных условиях однозначно определяют поведение «изображающей» нашу систему точки в фазовом пространстве. Мы примем, что на нашу систему, подчиняющуюся уравнениям (1), действуют по законам случая (здесь возможны различные вероятностные гипотезы) «толчки» или «возмущения». Введение в рассмотрение таких «случайных» толчков преследует две цели, связанные с теми двумя задачами, которые себе ставит настоящая работа. Первая задача. Несомненно, что процессы в реальных динамических системах не полностью отображаются дифференциальными уравнениями вида (1); эти уравнения определяют движение системы лишь в основном, лишь приблизительно, не учитывая случайных толчков и возмущений. При благоприятных условиях эксперимент может обнаружить некоторые следствия существования таких случайных толчков. Отсюда возникает задача—выяснить общее поведение системы при наличии случайных толчков и, в частности, дать теоретическое построение, которое позволило бы из экспериментальных данных подойти к выяснению характера «случайных толчков» в реальных динамических системах. Такая задача была поставлена несколько лет назад Л. И. Мандельштамом как очередная задача теории автоколебаний. *) Журн. эксперим. и теорет. физики.— 1933.— Т. 3, вып. 3.— С. 165—180. *) Мы ограничиваемся рассмотрением автономных систем, т. е. таких, для которых дифференциальные уравнения не зависят явно от времени. Аналогичное рассмотрение может быть проведено и для неавтономных систем.
8 1. C'l А1ИС1ИЧЬОКИЙ ниДЛиД К ДИНАМИЧЫ.КИМ 1.И^1ЬМАМ Вторая задача. До сих пор в общей теории движений, например у Биркгоффа, все рассмотрения, в том числе и вероятностные, связывались с представлением о движении изображающей точки по определенной фазовой траектории. Случайные толчки, о которых только что была речь и возможность которых всегда учитывалась в динамике, когда шла речь об устойчивости по Ляпунову, переводят изображающую точку с одной траектории на другую. Отсюда естественно возникает задача дополнить бирк- гоффовскую общую теорию движений соображениями, связанными с учетом случайных толчков, в частности выделить из множества движений динамической системы те движения, которые осуществляются с наибольшей вероятностью при наличии таких толчков. Случайные толчки при такой постановке вопроса являются лишь аппаратом, который служит для исследования характера движений, определяемых уравнением (1). Хотя ни первая, ни вторая задачи нами не решены сколько- нибудь общим образом, тем не менее нам кажется, что последующие соображения представляют известный шаг вперед в этих направлениях и, возможно, имеют некоторый общий интерес помимо тех применений, которые они могут найти в теории автоколебаний. На наш взгляд, также является интересным проследить связь излагаемых ниже вещей со статистической механикой, однако мы не предполагаем этого сделать в настоящей работе. § 2. Уравнение для плотности распределения вероятности Рассмотрим сперва простейший случай, когда п=\ и когда фазовое пространство — прямая Ох. Вместо системы (I) получим одно уравнение £=*(*)■ (о Как мы уже сказали, можно задаться различными вероятностными гипотезами относительно случайных толчков. Пусть толчки происходят следующим образом: через каждый промежуток времени т фазовая точка мгновенно перескакивает на расстояние а по случайному направлению (направления вправо и влево равновероятны), затем двигается т секунд в согласии с уравнением движения, затем снова перескакивает и т. д. В силу того что движение изображающей точки определяется не только уравнением (1), но и вероятностными законами, невозможно рассматривать х как определенную функцию t, а можно говорить лишь о вероятности для нашей изображающей точки находиться в той или другой области фазового пространства. Легко усмотреть аналогию между поставленной таким образом задачей и так называемой «задачей о движении абсолютно пья-
1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ Q ного человека», которой, по-видимому, первым занимался Релей1) в связи с вопросами сложения колебаний. Рассматриваемую нами задачу можно по аналогии назвать «задачей о плавании абсолютно пьяного человека в канале, где существуют регулярные течения». Необходимое вероятностное рассмотрение сравнительно просто приводится в предельном случае, если мы предположим, что а стремится к нулю вместе с т, в то время как а2/х стремится к конечному пределу, характеризующему интенсивность толчков. Именно переходя к пределу, можно получить уравнение в частных производных: f + |{*M/}=>5- ft-lim^. (2) которому2) удовлетворяет плотность распределения вероятности f(t, x). В том случае Релея, о котором только что шла речь, т. е. для Х(л;) = 0, уравнение (2) превращается в простое уравнение теплопроводности. Мы взяли очень частное предположение относительно характера случайных толчков. В более общем случае мы можем считать, что у нас имеется детерминированное движение изображающей точки согласно уравнению (1), на которое накладывается случайный процесс, подчиняющийся некоторому статистическому закону, зависящему от местонахождения изображающей точки. Если мы примем, что этот статистический процесс не имеет никакой собственной направленности и что случайные воздействия таковы, что вероятность больших перемещений достаточно быстро стремится к нулю с уменьшением времени т, то мы вместо уравнения (2) получим несколько более общее уравнение: -зк|{Х(*)/}=т£1* (*>/}. (3) где Ь(х)—коэффициент, характеризующий силу рассеяния статистического процесса, который может быть определен как lim (l2/t) при т—* 0, где |2 — средний квадрат смещения за время т под !) Релей [1], § 42а. 2) Это уравнение в частных производных и его обобщения, о которых будет идти речь дальше, хорошо известны благодаря работам Релея, Фоккера, Смолуховского, Колмогорова и т. д. (См., например, перечень литературы у Цернике [2], с. 357). Заметим, что если f(t, *) —плотность распределения вероятности, то вероятность нахождения изображающей точки в момент t в области G определяется формулой W(t, G)- [ f(t, x)dx. G
Ю I ГТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ действием статистического процесса1). По смыслу понятия плотности вероятности нас интересуют только такие решения уравнения (3), для которых f(t, х)^0у и которые нормированы, т. е. для которых2) + 00 S f(t,x)dx=\. (4) — GO Чтобы найти определенное решение уравнения (3), достаточно знать функцию f(t, х) при / = 0, т. е. иметь начальное распределение вероятности. Если желают изучить поведение изображающей точки, в начальный момент имевшей определенное положение £, то следует найти такую функцию распределения /(/, х), которая при t—г оо стремилась бы к нулю во всех точках, за исключением £, и, кроме того, удовлетворяла бы условию (4). Определенная таким образом функция зависит, конечно, от точки |; мы ее будем обозначать /?(£, /, х)\ /?(£, t, x)dx—это вероятность случайной точки, находившейся в момент £ = 0 в положении £, перейти за время t в положение от х до x+dx. Может случиться (системы, для которых это имеет место, и будут нас главным образом интересовать), что всякое нестационарное распределение плотности /(/, х) при t—■* оо стремится к определенной предельной функции f(x). Чтобы найти это предельное стационарное распределение, следует положить в уравнении (3) df/dt = 0 и рассматривать уравнение г) Пусть р (jc, х, у) dу—вероятность изображающей точки, находившейся в положении jc, попасть в силу случайного процесса в положение от у до y-\-dy за промежуток времени т. Тогда + 00 Ь(х)= lim — \ р(х, т, y)(y—x)*dy. х -+ 0 т J — 0D Так как мы приняли, что статистический процесс не имеет направленности, то + 00 lim V р(х, т, y)(y—x)dy = 0. Х->-оо J — во Быстрота уменьшения вероятности больших отклонений с уменьшением т характеризуется тем, что J- 00 lim [ р(х, т, у)\у—x\3dy = 0. — 00 2) При некоторых предположениях общего характера относительно уравнения (3) можно утверждать, что если при / = 0 f (0, х) всюду положительно и нормировано, то эти условия будут сохраняться и при всех / > 0.
'ИЧЕСКИЯ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ которое мы будем называть стационарным случаем уравнения Фоккера. Решение уравнения (5), не зависящее от начальных условий, в наилучшей степени отражает свойства динамической системы (I). Поэтому в дальнейшем мы будем заниматься исследованием именно этого уравнения и его обобщением на случай п> 1. Что же касается уравнения (3), то, хотя его исследование и представляет интерес с точки зрения задачи о характере толчков в реальных физических системах, мы им не будем непосредственно заниматься; это исследование в общем виде весьма трудно; решение удается найти лишь в немногих частных случаях [3, 4]. Отметим—это нам понадобится в дальнейшем,—что уравнению (3) можно дать и иное чисто статистическое толкование, а не рассматривать его, как это мы только что делали, как результат наложения статистического процесса на динамический г). Мы предполагали до сих пор, что у нас одно дифференциальное уравнение вида (1) и что соответствующее фазовое пространство— прямая. В общем случае вместо уравнения (1) мы будем иметь систему (I), а вместо уравнения (3) уравнение а = 1 а, р=1 р где biJ'(xly х2, ..., хп) опять характеризуют статистический процесс2). Заметим, что координаты хи х2, . .., хп мы будем пони- г) Пусть изображающая точка находится под действием только статистического процесса и пусть существует функция р (|, /, х) такая, что р (|, /, х) dx есть вероятность для изображающей точки перейти из определенного положения | в положение от х до x+dx за время t. Тогда можно показать при известных предположениях, относящихся к функции р, и при условиях + 00 lim 1 [ P(S. '. x)(x-$dx=X(l)9 — со + 00 +00 lim 1 С p(l, т, x)(x-l)*dx=b(Q, lim - f p (g, x, x) | *-g \*dx= 0, — 00 — CO что P (£» *» х), как функция t и *, удовлетворяет уравнению (3). Нетрудно видеть, что тогда и распределение общего вида /(/, *) удовлетворит этому + со уравнению, так как f (/, *) = \ /(£)р(£, t, х) d%t где /(£) —распределение — со при / = 0. 2) При этом + оо + со biJ (*ь *2. .... ^/i) = lim ^ \ ••• \ Р(*ь х*> •••» ^» т> 0ь ^2> • ••. ^/i)X — со — со X (*// — */) (у/ — */) dyi dy2... d#„, причем p(*j, х2, ..., хп; т; */ь */2, •••> Ы ^i ^а- • •<&/„ —вероятность изоб-
12 1. СТАТИСТИЧРГ.КИЛ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ мать как декартовы координаты в эвклидовом пространстве. Таким образом, если мы знаем уравнения (1), которые характеризуют динамическую систему, и знаем функции &'"', которые характеризуют случайные толчки, мы можем написать уравнение (II). Уравнение (II) мы будем называть уравнением Фоккера, соответствующим системе (I)1). Само собой разумеется, что нас интересуют не отрицательные и нормируемые решения этого уравнения. Стационарный случай этого уравнения мы получим, полагая, как и раньше, df/dt — Q: а=1 а. р=1 р Вернемся теперь, имея уравнения (II) и (III), к нашим задачам, поставленным в § 1. С точки зрения первой задачи—задачи изучения случайных толчков в реальных динамических системах2) — нужно отыскать такие №\ которые наилучшим образом отражали бы результаты эксперимента. Здесь bij' задаются исследуемой физической системой. С точки зрения второй задачи — изучения при помощи уравнений (II) и (III) динамической системы, определяемой уравнениями (I), и этих уравнений — в особенности уравнение (III) должно отражать свойства системы (I). Поэтому с точки зрения второй задачи коэффициенты biJ' являются вспомогательными величинами, служащими для исследования системы (I). В дальнейшем мы, например, будем исследовать поведение решений уравнения (III) при bij'—+0 и будем смотреть при этом, как ведут себя эти решения в зависимости от характера стремления biJ' к нулю. § 3. Уравнение для математического ожидания времени перехода Кроме функции распределения /(/, х) имеются еще и другие функции, существенные для характеристики поведения случайной точки. Начнем рассмотрение этих новых функций опять с простейшего одномерного случая. Пусть фазовое пространство является ражающей точки, находившейся в положении х\, х2, . ... хп, попасть в силу случайного процесса в положение от уг до f/i + Фь от У 2 Д° УгЛ-&Уг и т. д. за промежуток времени т. Соответствующие соотношения для первых и третьих моментов могут быть написаны по аналогии с такими же для уравнения (3) (см. примечание 2 на с. 10). х) В виде (II) оно приведено у Колмогорова [4], с. 415. 2) Мы отнюдь не утверждаем, что всякие случайные воздействия в реальных динамических системах могут быть исследованы по схеме уравнения Фоккера.
!. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ 13 прямой Ох. Пусть по этой прямой двигается случайная точка, для которой соответствующая плотность распределения вероятности подчиняется уравнению Фоккера1). Вычислим вероятность того, что случайная точка, находившаяся в начальный момент времени / = 0 в какой-нибудь точке х внутри отрезка ab, в течение времени / выйдет из этого отревка, перейдя 2) (хотя бы один раз) либо точку а, либо точку Ь. Обозначим искомую вероятность через ф(/, х) и исследуем ф(/ + т, х). Так как в начальный момент / = 0 изображающая точка имела фиксированное положение х, то в момент т она имеет распределение плотности вероятности р(х, т, £). Так как вероятность выхода случайной точки в течение малого времени т из интервала ab весьма мала, то, имея в виду дальнейший предельный переход, можно, пренебрегая ею, написать ь Ф(/ + т, *)=*$/>(*, т, £)ф(/, \)&\. (6) а Разлагая ф(/, |) в ряд Тейлора, находим Ф(Л £) = Ф(/, x)+q>'x{t, x)(l — x) + T7^(p,,xx{tix)(l—x)2+ + Т7^3<Р*;Л'> x+Q{l—x)]{l—xy\ откуда по (4) ь ь ф(/ + т, *) = ср(/, х) 1р(х, т, l)dl-{ ф;(/, х) [p(x,x,l)(l—x)dl + а а Ъ + уф**(*> х)^р(х, т, Ъ){Ъ—x)2dl + а Ь + j4>'xxx[t,x+b(l-x)]§p(x, т, t)(t-xydZ. а Деля на т и переходя к пределу при т —> 0, мы можем распространить стоящие здесь интегралы на всю прямую3). После перехода к пределу получим уравнение в частных производных4) *) В дальнейших рассуждениях мы будем придерживаться чисто статистической схемы (см. замечание 2 в § 6). 2) Можно ставить также вопрос о вероятности выхода случайной точки либо только через левый, либо только через правый конец отрезка, либо, наконец, о вероятности невыхода. Уравнение остается, как нетрудно видеть, тем же, меняются лишь краевые условия. 3) Законность этого следует из условия, наложенного на третий момент (см. примечание 2). 4) Уравнения (7) и (9), как и их обобщения на случай п > 1, получены Л. С. Понтрягиным.
14 1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ для функции ф (/, х): Найдем теперь начальные и краевые условия для ф(/, х). Очевидно, что в начальный момент ф (0, х) = О, если х, как было предположено, лежит внутри отрезка (а, Ь). Мы примем также, что ф(/, а) = ф(/, Ь) = \ при любом U так как если случайная точка приближается к а или к Ъ, то естественно допустить, что вероятность ее выхода из отрезка (а, Ь) вместе с тем приближается к единице. Поставим теперь вопрос о математическом ожидании М (х) времени выхода, т. е. времени, необходимого для того, чтобы изображающая точка, первоначально находившаяся в какой-нибудь точке х отрезка (а, Ь), вышла из этого отрезка либо через точку а, либо через точку Ь. Так как вероятность выхода случайной точки за промежуток времени от t до t+ dt есть (d(p/dt)dt, то искомое математическое ожидание равно ос M(x)=$t&-dt. (8) О Чтобы получить дифференциальное уравнение, определяющее М, продифференцируем уравнение (5) по t, затем умножим обе его части на t и проинтегрируем от 0 до сю. Тогда мы получим 0 0 0 или так как х) j<&*-f<*];-fe<«~['C'. *«--•-=-'• 0 0 то искомое дифференциальное уравнение будет иметь вид тЬ(х)-ш- + Х{х)-37 = -1. (9) Соответствующие краевые условия, как нетрудно видеть, будут следующие: М(а)=*0, М{Ь) = 0. Кроме того, по смыслу задачи необходимо, чтобы М (х) > 0. Заметим, что если мы интересуемся математическим ожиданием *) ф (0, х) = 0, так как по предположению х лежит внутри отрезка (а, Ь); ф(оо, *) = 1, так как это вероятность того, что случайная точка когда-нибудь выйдет из отрезка (а, Ь), равная достоверности.
1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ J5 времени перехода случайной точкой положения а(а<х), тоннам следует найти решение только что поставленной задачи, а затем перейти к пределу при Ь-+оо. Предыдущие рассуждения легко могут быть обобщены на случай п> 1. Пусть мы имеем случайную точку, движение которой подчиняется уравнению Фоккера, соответствующему общему случаю. Пусть G будет некоторая область соответствующего фазового пространства, пусть А—граница этой области и y—часть этой границы. Назовем ф(/, х19 х2, ..., хп) вероятность случайной точки, находившейся в момент / = 0 в положении х1У ..., хп в области 6\ в течение времени / выйти из области G, пересекши при выходе часть границы у. Поступая аналогично предыдущему, легко найти для функции ср(/, х19 х2, ..., хп) уравнение в частных производных а=1 а а, 0=1 ар с такими начальными и краевыми условиями: ф (0, х19 х2, ..., хп)=0 для всех точек, лежащих внутри области G; <p (t> хи х2, ..., хп) = 1 для точек, принадлежащих к части границы y, и <p{t,xl9x2, ...,*„)= О для точек, принадлежащих к остальной части А. Если мы хотим исследовать вопрос о выходе случайной точки из области G через часть границы у не в течение определенного /, но в течение всего времени, следующего за начальным моментом, то нужно перейти к пределу при t—*+oo. В этом случае подобно тому, как это мы делали в § 2, нужно положить Следовательно, вопрос сводится к нахождению решения Ф(*1, *8, • •> хп) уравнения а=1 « а, 0=1 ар при тех же самых краевых условиях, о которых только что шла речь. В случае если у совпадает с Л, функции y(t, х19 ..., хп) и Ф (*i, ..., хп) обращаются в единицу вдоль всей границы А. В этом случае уравнению (IV) удовлетворяет единица; это значит, что вероятность случайной точке выйти из области G когда-нибудь и где-нибудь равна единице.
16 1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ Уравнение для математического ожидания времени выхода в этом случае будет иметь такой вид: 2 Z* ° l*i> *2> •• •> хп)дх дх -Г а, 0=1 аР + X *"(*!. *2> '••> ^)-§J- = — Ф(*1» *2> '"> *«)» (V) а= 1 а где ф(л:1, х2, • • •> -О— соответствующее решение уравнения (IV), а краевые условия М (х1У х2, . .., хп) на всей границе1) Л. Если у совпадает с Л, то, как мы знаем, ф(*1э х2, .. ., хл)— 1 и, следо- вательно, уравнение (V) получает вид а, 0=1 а Р а= 1 а с теми же краевыми условиями. § 4. Случай одного уравнения первого порядка А. Стационарное распределение плотности вероятности. Как мы уже знаем, стационарное распределение является неотрицательным нормированным решением уравнения На существование стационарного решения в общем случае рассчитывать нельзя. Наиболее естественные условия, при которых можно ожидать существования стационарного решения и которые мы в дальнейшем будем считать выполненными, суть следующие: а) с">Ь(х)>с'>0; Ъ)Х (х) при достаточно больших положительных х—отрицательно, при достаточно больших отрицательных х—положительно, причем и в том и в другом случае по модулю больше некоторой константы g > 0. Первая интеграция уравнения (5) дает х^)!-\тх{ь^)П = с1. (Ю) х) Так как на границе А величина ср (/, хъ х2, ...» хп) — константа, то 00 M{xlt хг, .... «„)== [t-^-dt на границе А обращается в нуль-
I. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ J7 Если условия а) и Ь) соблюдены и если f(x) неотрицательна и нормируема1), то Сг — 0. Интегрируя второй раз, находим где Ф(х) = 2|4#^ о а С — новая константа интеграции, или коэффициент нормирования. Отметим прежде всего то обстоятельство, что при Ь(х) постоянном максимумы (или соответственно минимумы) нашего решения совпадают с точками устойчивого (или соответственно неустойчивого) равновесия для исходной динамической системы, определяемой уравнением (1). Действительно, так как ez—функция монотонная, то максимумы и минимумы нашего решения совпадают с таковыми же функции ф(х); что же касается этой последней функции, то для нее рассматриваемый факт весьма легко установить. Исследуем теперь решение в предположении, что Ь(х) равномерно убывает. Для этого представим Ь(х) в форме b(x) = Xq(x), где q(x)(q"> q(x) > q > 0) — неизменная функция, а X—параметр, который мы будем стремить к нулю. Решение тогда запишется так: ^)=we" • (12) где + 00 Ш +<*И£|*' cWw*- (,3) 0 -оо Допустим, что существует единственная точка (пусть это будет начало координат), в которой ty(x) достигает абсолютного максимума. Можно показать, что при X —► 0 f(x) всюду, кроме точки нуль, стремится к нулю, а в точке нуль стремится к бесконечности. Действительно, в том случае можно найти оценку С (к) для достаточно малого к: 2) Именно можно показать, что при этих условиях / и ее производная при х —► оо убывают настолько быстро, что левая часть уравнения стремится к нулю и что, следовательно, Ci = 0.
где /г—целое четное положительное число и s(k) заключено в по ложительных пределах1). Следовательно, Ф (*) е к Пх)=яМ[в(к)УЩш °4) Если хфО, то числитель этого выражения убывает гораздо быстрее при Я —► О, чем знаменатель, и все выражение стремится к нулю. Если же х = 0, то числитель не зависит от X и, следовательно, все выражение стремится к бесконечности. Имея заданную функцию X (х), можно так подобрать функцию q(x), что абсолютный максимум у^(х) попадает на любую из точек устойчивого равновесия уравнения (1). Стационарное рас- С —!—г Ь rf£ = + 00 ф (£) 1 f 1 С (Я) -00 + h ф (I) -h ф (6 + «> ф (S) Чш"х "6+1та"х "6+Iw'fc * - h -oe + Л Пусть Л — весьма малое положительное число. Легко можно показать в силу свойств я|)(£), чт0 Ава последних интеграла при X—► 0 бесконечно малы по сравнению с первым интегралом. В достаточно малом интервале (—-Л, +/i) функцию гр (л:) можно приближенно представить в виде —kxn, где п — четное положительное целое число, т. е. — k'xn > г|) (х) >—k"xn, где k' > kT > 0. Таким образом, в том же интервале имеем k"x" ф (х) k'xn Are' Х <^гте * <-U~ Я • (А) Я Я(х) q' Так как в равенстве + h kln +00 fefc» oo feS" f в" Л. d£ = ^ в" Л. dg — 2 С Г Л. rfg -Л -оо Л мы опять можем (как это мы только что сделали) пренебречь вторым слагаемым правой части и так как + 00 k\n +00 J е~ X d| = »/X \ e-kznd2 = p(k)iyx, — 00 — 00 где р (k) не зависит от X, то отсюда в силу (А) и вытекает сделанное утверждение.
1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ i9 пределение будет всюду стремиться к нулю при К —► 0, за исключением той точки устойчивого равновесия, где ty(x) достигает абсолютного максимума. Следует отметить, что это свойство не есть локальное свойство данной устойчивой точки равновесия, т. е. может случиться, что в точке, локально наиболее устойчивой, т. е. где |Х'(л:)| х=0 Рис. 1 имеет наибольшее значение, функция ф(л:) не достигает абсолютного максимума, даже если Ь(х) постоянно. Рассмотрим пару простых примеров на стационарное распределение. Пр имер 1. — - — kx k>0, b(x) = 2D^consty (15) где D—константа. Фазовое пространство в этом случае—бесконечная прямая с единственным состоянием равновесия х = 0 (рис. 1). Это состояние равновесия устойчиво. Условия а) и Ь) (с. 16) выполнены. Решением динамического уравнения служит функция x = Ce~kt. Если при t — О х = х0, то решение o-kt Л/ — ЛПС/ f{x) = Ce (16) kx2 2D причем _ "6 2лР k (17) Мы получили обычное гауссовское распределение (рис. 2), тем больше размытое, чем сильнее толчки, чем больше D, и тем больше сжатое, чем больше k, чем больше устойчивость состояния равновесия *). х) Этот пример хорошо известен. См., например, Мизес [3], § 547.
20 1 СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ Пример 2. ^■ = kx(a*—х2), k>0, b(x) = 2D, (18) где D—константа. Фазовое пространство в этом случае—бесконечная прямая с тремя состояниями равновесия: х = 0, х = а, х = — а (рис. 3). Из них состояние х = 0 неустойчивое, состояния х = а и х = — а устойчивые. Условия а) и Ь) выполнены. Решением динамического о х- -а -т»-о-<: = х=0 х - +а Рис. 3 Рис. 4 уравнения служит функция х2 = а2/(1 + С'е~ 2a2kt). Если при / = 0 х=?х0, то С' = (а2—4)/4» * W = 2J 2D Я= -D {-2 Tf (19) Пх) = Се-»Ы2х2-х'] причем 4т-J *-4- i-f-v. £ ас. (20) Мы получим стационарное распределение с двумя максимумами (х=-\-а и л: — — а) и минимумом л: = 0 (рис. 4). Б. Математическое ожидание времени перехода. Вычислим для рассматриваемого одномерного случая математическое ожидание Мд(х) времени перехода изображающей точки из положения х в положение q(q<x). Как было показано, М (х) удовлетворяет уравнению 1 ,, .d2M .X(x)™L + i = o. (9') Мы должны найти решение этого уравнения при условиях M(q) = 0 и при условии, что интересующее нас решение возрастает наиболее медленным образом при х—► оо. Производная общего решения уравнения (9') имеет вид dM dx И 2 е<н^ие-<н*>,гдеф(х) = 2^4щ-^. ) о Ml)
!. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ 21 Очевидно, что при возрастании х М (л:, q) также возрастает; следовательно, С^О. Но так как интересующее нас решение должно возрастать наиболее медленным образом, то С = 0. Следовательно1), откуда, интегрируя и принимая во внимание, что при x = q М (q) = 0, находим * ( x I Мя№ = ]\1^*{у)*у\*-*ш<Ь- (22) Нетрудно видеть, что функция *<*)=1 Jw*4"1"^ КФ(Л:> (23) ' х ' представляет собой обратную величину средней скорости, с которой точка двигается от положения х к положению q справа налево. Точно также найдем, что математическое ожидание Мр(х) времени перехода изображающей точки из положения х в положение р(рух) представится интегралом Мр{х) = \< \ Т(у)е^{у)(1У >*-ф(Б)<Й, (24) X \ -со ) *(*н j 1ш^{у)йуг^ (25) V -со ) представляет обратную величину средней скорости, с которой точка двигается от положения х к положению р слева направо. Можно показать, что в пределе при точках, стремящихся к нулю, эта средняя скорость стремится к той скорости, которая получается из динамического уравнения (1), если выбранное нами направление (от х к q или от х к р) совпадает с динамическим направлением движения, и стремится к нулю, если выбранное нами направление и динамическое противоположны. Рассмотрим опять пару примеров, иллюстрирующих изложенную теорию, причем рассмотрим те же случаи, для которых мы только что исследовали стационарное распределение вероятности. причем Г 2 Ф (£) X (х) и b (х) тол жни быть таковы, чтобы \ , /V4 e d£ имел смысл. J Ml)
22 1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМА*' Пример 3. _ £у2 \ ft*2 2D 1 \ 2D е ау> е (26) Математическое ожидание времени перехода из положения х=0 в положение х = р (0 ^ /?) I ! I _ О Г» J . ! ОГ» Пример 4. M?(0)=ij J e"2D^\e2Ddl. (27) 0 I -oo I <p(x)=^{2a»x»-*«}, +w=i{j ) (28) ,4D v * * ' Au\ о *D dy> e Математическое ожидание времени перехода из точки х = — а в точку х = р(—а^.р^ + а) ал < \ * Г ! Г 177 (2aV-*/4) a } "ITr^0^1-^) * /от М„(— а)=75 \ 1 \ е dy>e 4D dl. (29) V § 5. Случай двух уравнений первого порядка Мы ограничимся здесь несколькими замечаниями, касающимися стационарной задачи, и одним наглядным примером. Если динамическая система характеризуется уравнениями ^ = Х<» (хи х2), 4г = Х(2' (*• *«>• (3°) то плотность распределения вероятности в стационарной задаче подчиняется уравнению Нас интересует неотрицательное решение этого уравнения, интеграл от которого, взятый по всей плоскости, равен единице, т. е. + СО 4 СО ^ 5 f(XiX2)dXidx2=^L Вопрос о том, когда уравнение (31)
I. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ 23 имеет такое нормированное решение, остается невыясненным. Если b'J (хи х2) ограничены сверху и снизу, т. е. если 0< с'< < bij < с", то следует ожидать, что такое решение существует в том случае, когда бесконечно удаленная точка плоскости является вполне неустойчивой для системы (30). Качественный характер решений системы (30) хорошо известен благодаря работам Пуанкаре [5] и др. Особые точки, предельные циклы, сепаратрисы—вот те замечательные движения, которые являются определяющими элементами такой системы. Какова роль этих движений с точки зрения уравнения (31), с точки зрения статистического рассмотрения динамической системы? Следует ожидать, что вблизи устойчивых особых точек образуются максимумы функции /(*!, х2) вблизи точек вполне неустойчивых—минимумы, вблизи устойчивых предельных циклов — подъемы характера валов и т. д. Как обстоит дело, когда толчки стремятся к нулю? Какие решения тогда выделяются как наиболее вероятные? На эти вопросы не удалось дать столь исчерпывающих ответов, как для п= 1. Исходя из предположения о существовании интересующего нас решения, можно доказать следующее предложение, доказательства которого мы здесь не приводим. Пусть а—некоторая точка фазовой плоскости. Если 1) через а можно провести цикл без прикосновения, или 2) а лежит на неустойчивом предельном цикле, или 3) а—неустойчивый фокус или неустойчивый узел, то существует такая малая окрестность g точки а, что lim \f(xl9 х2\ X)dx1dx2-+0, (32) где f(xu х2, X) — стационарное распределение, а X—параметр, характеризующий величину толчков [bij' (х1У x2) — Xq1'/ (xlt х2)}. Отсюда следует, что при Х—>0 случайная точка с вероятностью, как угодно близкой к единице, находится в произвольно малой окрестности устойчивых фокусов и узлов, устойчивых предельных циклов, сепаратрис и седел1). По-видимому, и здесь, подобно тому как это было при п= 1, выбором соответствующих qij (хи х2) можно создавать (при X —>0) абсолютный максимум вероятности в окрестности того или другого из этих движений. В заключение рассмотрим один простой пример, наглядно иллюстрирующий распределение плотности вероятности в двумерном случае. Пусть наши толчки постоянны и изотропны (612 = 0, b11 = b22 = b0)2). Тогда уравнение (31) получает простой вид: dXf '<Я1_Ь1(дЧ_ t*L\ тч дх + ду ~ 2 V дх* "Г ду* У К°°} 1) Можно дать примеры, где случайная точка при %—►() с вероятностью 1 попадает в окрестность устойчивого узла, устойчивого фокуса или устойчи- вого предельного цикла; однако полностью выяснить роль седла пока не удалось* 2) Постоянные толчки могут быть сделаны изотропными линейной заменой переменных.
I. ^Jrtinv>ii'iviL^i\i'H'i пидлид i\ ^i-i nrtivuii L^rvi-im ьмы bivwu»: где X(x, у)=-Л, Y(x, y) = % dt (34) Выберем теперь в качестве характерного примера такую систему уравнений (34), которая имела бы неустойчивую бесконеч- yi Устойчивый предельный 'цикл Неустойчивый фокус Рис. 5 Рис. 6 ность, устойчивый предельный цикл и неустойчивую особую точку в начале координат (рис. 5). Рассмотрим частный случай % = Y{x, у) = {\-(х* + у2)}у + х, (34') которые весьма легко решается путем перехода к полярным координатам г и ф(х = гсозф; y = rs'm(p). Действительно, переходя к полярным координатам, имеем dr d(p £ = Я(г, Ф) = г(1-г»), Ъ = Щг, Ф)=1. dt (35) С другой стороны, нетрудно написать уравнение (33) в полярных координатах с функциями R и Ф вместо Х(х, у) и Y (х, у): TSF^/J+TaJjr^n- 2 I г дг\гдг \ +г*Лр«.|- (36) В согласии с тем, что в нашем примере R и Ф не зависят от ф, будем искать симметричное, не зависящее от ф решение уравнения (36). Такое решение удовлетворяет уравнению 1 Hf С откуда, интегрируя, находим Rf = -2bod7~^~~r .Предполагая, что f и df/dr при г > оо достаточно быстро стремятся к нулю, можем
1. СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ 25 положить С = 0, откуда "о *> _ < г2—- г4 } , 1 Г» —- \ г2—- г4 } f = Ce ° =Сеьо\ '2 * причем -£-=-2я\е*о1 2 / rdr. о Нетрудно сообразить характер полученной нами плотности распределения вероятности. Мы имеем «кратерообразную» поверхность, имеющую минимум в точке г = 0 и максимумы которой образуют окружность, лежащую над предельным циклом г=\ (рис. 6). § 6. Некоторые общие замечания Замечания, касающиеся первой задачи 1. Схема с «толчками», или, точнее, со «скачками» на фазовой плоскости, является абстрактной схемой. Ее следует приспособить сообразно тем или иным условиям задачи1). Например, обычные «удары» классической механики—это толчки или «скачки» по отношению к скоростям, но отсутствие воздействия на изображающую точку по отношению к координатам. 2. При всяком выводе уравнения Фоккера допускается, что в течение сколь угодно малого промежутка времени возможны сколь угодно большие «скачки», однако с весьма малой вероятностью. Это соответствует тому, что допускаются сколь угодно быстрые движения фазовой точки. Естественно, что такое допущение отражается и на результате: именно если мы будем исходить из начального Дираковского распределения при / = 0 нуль всюду, кроме одной точки, то мы получим решение, при сколь угодно малом значении t всюду отличное от нуля. Однако это решение стремится к нулю при отдалении от начального значения чрезвычайно быстро. Если даже принять, что в реальных случаях сколь угодно быстрые движения фазовой точки невозможны, получаемые нами решения в достаточной мере соответствуют действительности, так как они допускают сколь угодно большие толчки лишь с малой вероятностью. Аналогичные вещи, как известно, имеют место и в обычной теории теплопроводности. 3. Заметим еще следующее: не всегда является очевидным в конкретной системе, какое воздействие считать статистическим и какое динамическим. Например, при движении броуновской частицы в поле консервативных сил следует принять, что, кроме консервативных сил, на нее еще действует регулярная сила трения, пропорциональная скорости, порожденная случайными толчками молекул. Эту силу трения разумно учесть при написании Динамических уравнений. 2) Мы уже упоминали о том, что отнюдь не всякие случайные воздействия и динамических системах могут быть исследованы по схеме уравнения Фоккера.
26 J- СТАТИСТИЧЕСКИЙ ПОДХОД К ДИНАМИЧЕСКИМ СИСТЕМАМ Замечания, касающиеся второй задачи Мы занимались поведением стационарного решения при толчках, стремящихся к нулю, для случаев п=1 и п = 2. В более общих случаях, при п > 2, естественно предположить, что соответствующим предельным переходом можно выделять те или другие асимптотические устойчивые (в смысле приближения к орбитам) совокупности рекуррентных траекторий; однако несомненно, что такой предельный переход может выделять и другие классы движений. Все это относится к существенно неконсервативным случаям, не обладающим интегральными инвариантами. В случае если система допускает интегральный инвариант и если фазовое пространство системы замкнуто, то картина поведения функции распределения при толчках, стремящихся к нулю, по-видимому, существенно иная. Здесь возникает интересный вопрос: не стремится ли стационарное распределение при толчках, стремящихся к нулю, к одному из интегральных инвариантов системы? На эту мысль наводит тот факт, что уравнение Фоккера при толчках, стремящихся к нулю, переходит в уравнение интегрального инварианта. Положительный ответ на этот вопрос может быть использован для обоснования *) некоторых выводов классической статистической механики, опиравшихся на квазиэргодическую гипотезу. Действительно, пусть R будет фазовое пространство некоторой механической гамильтоновой проблемы и М—многообразие постоянной энергии в нем. Пусть М будет замкнуто. Так как всякая траектория, пересекающаяся с М, проходит целиком на М, то на М тем самым установлена система дифференциальных уравнений. Если эта система дифференциальных уравнений имеет единственный интегральный инвариант, то он известен — это фазовая площадь на М. Таким образом, при достаточно малых толчках вероятность попадания случайной точки в некоторую область пропорциональна приблизительно соответствующей фазовой площади. ЛИТЕРАТУРА 1. Rayleigh Lord. Theory of sound. Vol. 1. London, 1894. 2. Zernike F. Wahrscheinlichkeitsrechnungund mathematische Statistik. Hand- buch der Physik. Bd 3. Berlin, 1928.—S. 419 — 492. 3. Mises R. von Wahrscheinlichkeitsrechnung und ihre Anwendung in der Statistik und theoretische Physik. Wien, 1931.—§ 517. (Vorlesungen aus dem Gebiete d. angewandte.ni Mathematik. I). 4. Kolmogoroff A. Uber die analytischen Methoden in der Wahrscheinlich" keitsrechnung. Math. Ann. 1931. By 104. S. 454. 5. Po in care H. Oeuvres. T. I. Paris, 1928. x) Мы сейчас не рассматриваем вопроса о физической ценности такого обоснования, основывающегося на допущении статистических воздействии.
2 О ДИНАМИЧЕСКИХ СИСТЕМАХ, БЛИЗКИХ К ГАМИЛЬТОНОВЫМ*) Дается теорема, определяющая существование предельных циклов для систем близких к гамильтоновым. Лемма 1. Пусть f(u, \i)—функция с непрерывной производной } } ^ при значениях аргументов \и — и0\ < е| \х\ < е, такая, что Тогда существует единственная определенная для малых значений \i функция u(\i)y непрерывная и обращающаяся в и0 при |ы = 0Э удовлетворяющая уравнению / [и (|i), \i] — и (|i); и (\i) аналитическая, если f(u, \i) аналитическая. Доказательство. Легко видеть, что функция v(и, \i) = = ^ и непрерывна и имеет непрерывную производную по и. Так как v(»..o>=^=o „ ^_2^»^о, то из общей теоремы существования следует, что существует функция w((i), удовлетворяющая уравнению u[tf(|i), |x] = 0. Лемма 2. Пусть ^ = г(р, Ф, (i) (1) — дифференциальное уравнение, заданное в полярных координатах; г(р, ф, 0) —0. Правая часть — периодическая функция ф, имеющая несколько непрерывных частных производных при IP—Ро | < в, ||х| <е. Если 2л *) Журн. эксперим. и теорет. физики.— 1934.— Т. 4, вып. 9.— С. 883—885
Ой 2. ДИНАМИЧЕСКИЕ СИСТЕМЫ, БЛИЗКИЕ К ГАМИЛЬТОНОВЫМ то существует один предельный цикл, непрерывно зависящий от (1 с характеристическим числом того же знака, что и \iq, переходящий В р = р0 При (1 — 0. Доказательство. Пусть w(u, ф, \i) есть решение дифференциального уравнения (1) с начальным значением и, w(uy 0, \i) = u. Легко видеть, что f(u, \i) = w(uy 2л, jo,) удовлетворяет условиям леммы 1, так как dw(pQt 2л, 0)=а/?(р0, 0)=0 д2ш(р0, 2я, 0)^ d*R(p0, 0) Q d\i д\х ' ди д\х dp dfx ' Таким образом, лемма 2 доказана. Теорема. Пусть dx ОН (х, у) . . ч ~di = sr^ + Pi*' у* М р(х, у, 0) = 0; система уравнений; рЛ*. у)=Щ^-, dy _дН(х, у).п(у dt ~ дх ~тЧ\*> q(x, у, 0) = 0 чЛх,у) = ?Щ£^ (2) Пусть С0 — замкнутая кривая, точки которой удовлетворяют урав- нению Я (х, у) = п0У вдоль которой -т- и j- не равны одновременно нулю. Тогда вблизи С0 имеется замкнутая кривая Сл, точки которой удовлетворяют уравнению Н(х, y) = h при \h—h0\ достаточно малом. Обозначим через -ф (/г) двойной интеграл 1 1 \~§x^"W^ix^' распространенный на внутренность кривой Ch. Если ^. ° = еФ0 и я|)(Л0) = 0, то существует один, и притом только один, предельный цикл системы (2), непрерывно зависящий от параметра |х, характеристическое число которого имеет тот же знак, что и )хе, и стремящийся к кривой С0 при \i~+-0. Доказательство. Введем на кривой С0 некоторый циклический параметр ф, так что х=£(ф), У = г\(ц) есть параметрическое уравнение кривой С0, причем правые части имеют период 2л. Направление ф мы выберем так, чтобы оно возрастало с возрастанием t. Проведем далее через точку £(ф), т](ф) малый отрезок кривой, ортогональной к кривым Сл, и пусть уравнение этого отрезка имеет вид п(х, у, Ф) = 0. При помощи уравнений Н(х, y) = h, n(x, у, ф) = 0 можно вблизи С0 ввести новые координаты h и ф, причем ф есть периодическая координата, a h принимает лишь значения, близкие к й0.
2. ДИНАМИЧЕСКИЕ СИСТЕМЫ, БЛИЗКИЕ К ГАМИЛЬТОНОВЫМ 29 Вблизи С0 в новых координатах система (2) будет иметь вид ■5Г = г(Л, ф, ц); ?t = s(h, ф, ц), г (А, ф, 0) = 0. Вычислим г (А, Ф, ^)=—._ + _._ = _^(х, у, [i) + ly-q(x, у, р.), где х и у должны быть заменены их выражениями через А и ф в силу преобразования координат dh __r (h, ф, fx) Жр ~S(/l, ф, ц) * Производная от правой части последнего уравнения по |i при |i = 0 есть dr(h,q>,0) дН дН -— —=g(A. ф). s (Л, ф, 0) s (Л, ф, 0) Легко видеть, что при h — h0 дН dx\ /t лч дН d\ ,< m 17 = ^5(Л0) ф, 0); — = --±s(h0, ф, 0); следовательно, 2л £(Л°' Ф) = "2^1—7§<7i» J £(Л°> ф)Лр = Ф(А0), о но так как значение А0 не играло, по существу, особой роли, то 2Л S «Г (А, <р)Лр = ф(А). о Таким образом, по лемме 2 теорема доказана.
3 ГРУБЫЕ СИСТЕМЫ*) Совместно с А. А. Андроновым Рассмотрим динамическую систему, опредечяемую двумя уравнениями первого порядка: Ъ = Р(Х'УУ> %-Q(xty), (A) где х и у—декартовы координаты на плоскости и где Р (х, у) и Qix> У) — аналитические функции для всех рассматриваемых значений переменных х и у. В дальнейшем мы ограничимся рассмотрением таких систем вида (А), для которых существует так называемый «цикл без контакта», т. е. такая простая замкнутая кривая g с непрерывно вращающейся касательной, что все траектории, проходящие через точки этой кривой, ее пересекают и ни одна траектория не касается. Областью G назовем область плоскости внутри кривой g. Без ограничения общности мы можем предположить, что фазовые траектории, пересекающие кривую g, входят внутрь области G с возрастанием времени /. Рассмотрим наряду с системой (А) измененную систему: ?£=Р(х, у) + р(х, у)\ % = Q(x, y) + q(x% у), (В) где р(х> у) и q(x, у)—также аналитические функции для всех рассматриваемых значений переменных х и у. Определение I. Систему (А) мы будем называть «грубой» (в отличие от систем «не грубых») в данной области G, если для всякого т] > 0 можно указать такое е > 0, что при произвольных аналитических р(х, у) и q(x, у), удовлетворяющих в области G условиям | р (х% у) | < е, | <7 (*, ?)|<8, I Рх(х, У) | < в, \р'у (*, у) | < е, \q'x(*, у) | < е, | q'v(*, у)\<г, существует взаимно однозначное и взаимно непрерывное преобразование Т области G самое в себя, при котором: 1) соответствующие друг другу точки находятся на расстоянии, меньшем tj; 2) точкам, лежащим на одной и той же траектории системы (А), *) Докл. АН СССР.— 1937.—Т. 14, № 5.—С. 247 — 250.
3. ГРУБЫЕ СИСТЕМЫ 31 соответствуют точки, лежащие на одной и той же траектории системы (В) и обратно х). Необходимые условия грубости системы (А) в области G могут быть сформулированы в виде следующих трех предложений. Теорема I. Если система (А) грубая в области G, то в области G система (А) может иметь только такие состояния равновесия, для которых действительные части корней соответствующего характеристического уравнения отличны от нулей. Или иначе: в области G система (А) не может иметь состояний равновесия х = х0У у = у0: а) для которых Д = Р'х (*<ъ Уо) Р'у (*о» Уо) Qx {х0, Уо) Qy (x0, уо) = о, б) для которых при А > 0 а = — [Р'х (х0, у0) + Qy (xot y0)] = 0. Теорема II. Если система (А) грубая в области G, то в области G система (А) может иметь только такие периодические движения, для которых характеристический показатель не равен нулю. Или иначе: в области G система (А) не может иметь периодических движений х= (p(t)> y = Mt)[4>(t+ т) = ф(0> г|)(/ + т) = г|)(/)], для которых т 0 Теорема III. Если система (А) грубая в области G, то в области G система (А) может иметь только такие сепаратрисы (усы седла), которые не идут из седла в седло. Или иначе: в области G система (А) не может иметь сепаратрис, идущих из седла в седло. Мы будем говорить, что система (А) удовлетворяет в области G условиям Г, если система (А) имеет внутри цикла без контакта g: 1) лишь такие состояния равновесия, для которых А^=0, и если А > 0, то а Ф 0; 2) Это определение грубости системы можно рассматривать как определение устойчивости совокупности траекторий динамической системы по отношению к достаточно малым изменениям правых частей уравнений (А). Устойчивость такого рода представляет интерес для физики. В частности, требование устойчивости периодических движений по отношению к достаточно малым изменениям правых частей системы (А) было высказано и использовано одним из авторов П] при доказательстве утверждения, что лишь предельные циклы могут отоб- ражать'в системах вида (А) реальные автоколебательные процессы. В этой связи следует отметить, что П. Боль [2] дал существенно иное, относящееся к движениям изображающих точек по траекториям определение Устойчивости динамической системы по отношению к малым изменениям правых частей уравнений. Такая устойчивость в смысле Боля накладывает исключительно тяжелые требования на исходную систему. Например, исходная система вида (А) может быть устойчивой по Болю только в том случае, если в области G имеется лишь одно состояние равновесия и если все остальные движения стремятся при /—j--)-00 к этому состоянию равновесия.
32 3. ГРУБЫЕ СИСТЕМЫ 2) лишь такие периодические траектории, для которых НФО, 3) лишь такие сепаратрисы, которые не идут из седла в седло. В силу известных результатов Бендиксона [3] система (А), удовлетворяющая в области G условиям Г, может иметь в области G траектории лишь следующих одиннадцати типов. (фокусы) [А > О, II. Состояния равновесия: Предельные циклы III. Сепаратрисы: IV. Траектории, имеющие в качестве своих предельных траекторий лишь узлы (фокусы) и предельные циклы, расположенные в области G: V. Траектории, входящие в область G и не являющиеся сепаратрисами: ( Узлы ог^О]. 1 ( Седла [А < 0]. 2 [НфО]. 3 Выходящие из узла (фокуса) или стремящиеся к узлу (фокусу). 4 Сворачивающиеся с предельного цикла или стремящиеся к предельному циклу. 5 Входящие в область G. 6 Выходящие из узла (фокуса) и стремящиеся к узлу (фокусу). 7 Сворачивающиеся с предельного цикла и стремя- \ щиеся к предельному циклу. 8 Выходящие из узла (фокуса) и стремящиеся к предельному циклу (или обратно). 9 (Стремящиеся к узлу (фокусу). 10 Стремящиеся к предельному циклу. 11 Определение II. Траектория называется положительно (отрицательно) устойчивой по Ляпунову в области G [4], если, какова бы ни была ее точка M0(M0cG), соответствующее движение M=y(t —10, M0) удовлетворяет следующим двум условиям: 1) при всех t > t0[t < /0] MczG; 2) для любого е>0 можно найти такое 6(е, М0), что при всех t > t0 [t < t0]p[v(t — tQ% M0), ф(/ —10, МЛ < е, коль скоро р[М0, М;]<б. Траектория называется положительно (отрицательно) неустойчивой по Ляпунову1) G, если она удовлетворяет условию 1) и не удовлетворяет условию 2). L) В дальнейшем для краткости мы будем опускать слова «в области G».
3. ГРУБЫЕ СИСТЕМЫ 33 Определение III. Траектория называется особой, если она положительно или отрицательно неустойчива по Ляпунову. Траектория называется обыкновенной, если она 1) либо положительно и отрицательно устойчива по Ляпунову, 2) либо положительно устойчива по Ляпунову и выходит из области G при / —►— оо. Теорема IV. Для системы (А), удовлетворяющей в области G условиям Г, траектории типа I, II, III особые, все остальные траектории в области G обыкновенные. Теорема V. В динамической системе (А), для которой в области G выполнены условия Г, множество особых траекторий разбивает область G на конечное число связных компонент («ячеек»), заполненных обыкновенными траекториями1). Эти компоненты разделяются на два класса: на класс компонент, примыкающих к циклу без контакта g, и на класс внутренних компонент. В каждой внутренней компоненте любая траектория положительно и отрицательно устойчива по Ляпунову; каждая такая компонента имеет в составе границы одну положительно устойчивую по Ляпунову особую траекторию, являющуюся «элементом притяжения», или «стоком», и одну отрицательно устойчивую по Ляпунову особую траекторию, являющуюся «элементом отталкивания», или, «источником». В каждой компоненте, примыкающей к циклу без контакта, любая траектория положительно устойчива по Ляпунову, каждая такая компонента имеет в составе границы одну положительно устойчивую по Ляпунову особую траекторию, являющуюся стоком. Пусть мы имеем две динамических системы типа (А), (Ах) и (А2) и соответственно два разбиения фазовой плоскости на траектории Sl и S2, причем пусть в соответствующих областях Gx и G2 выполнены условия Г. Мы будем говорить, что качественные структуры разбиений фазовой плоскости на траектории Sx и S2 одинаковы в областях G, и G.2, если существует взаимно однозначное и взаимно непрерывное преобразование Т плоскости в плоскость, переводящее область Gx в область G2, при котором точкам области Gu лежащим на одной и той же произвольной траектории разбиения Sx, соответствуют точки области G2, лежащие на одной и той же траектории разбиения S.2, и наоборот. Нижеследующая теорема позволяет утверждать, что в системах вида (А), для которых в соответствующих областях G выполнены условия Г, качественная структура разбиения этих областей на траектории определяется особыми траекториями, направлением движения по замкнутым особым траекториям и характером устойчивости предельных особых траекторий. ]) Заметим, что существует лишь конечное число возможных топологических нов ячеек, рассматриваемых вместе с их границами.
34 3. ГРУБЫЕ СИСТЕМЫ Теорема VI. Качественные структуры разбиений S^ и S2, для которых внутри соответствующих циклов без контакта выполнены условия Г, одинаковы в областях Gx и G2 в том и только в том случае, если существует взаимно непрерывное и взаимно однозначное преобразование 7\ плоскости в плоскость, переводящее область Gx в область G2, при котором точкам области Gl9 лежащим на одной и той же (любой) особой траектории разбиения Slt соответствуют точки области G2, лежащие также на одной и той же особой траектории разбиения S2, и наоборот, причем: 1) всем источникам и стокам соответствуют опять источники и стоки (или всем, наоборот,— стоки и источники); 2) направление вращения (по времени) на всех соответственных замкнутых особых траекториях сохраняется (или переходит в противоположное). В условии этой теоремы пункты 1) и 2) можно заменить следующим требованием: в каждой компоненте разбиения Si существует обыкновенная траектория, точки которой при преобразовании Тг переходят в точки одной и той же обыкновенной траектории соответствующей компоненты разбиения S2, и наоборот. Достаточные условия грубости системы (А) в области G формулируются в виде следующей теоремы. Теорема VII. Если система (А) удовлетворяет в области G условиям Г, то такая система является грубой в области G. Очевидно, что грубые системы существуют. Теоремы IV, V, VI, относящиеся к системам вида (А), удовлетворяющим в соответствующих областях G условиям Г, могут быть сформулированы непосредственно для систем вида (А), грубых в соответствующих областях G. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] A. And го now, С. R., 189,559(1929). [2J P. Bohl, J. f. reine u. angew. Mathem., 144, 284 (1914). [3] I. Bendixson, Acta Mathem., 24, 1 (1901). [4] A. Mark off, Math. ZS., 36, 706 (1933).
4 О НУЛЯХ НЕКОТОРЫХ ЭЛЕМЕНТАРНЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ*) Пусть h (z, /) — полином двух переменных с действительными или комплексными коэффициентами. В работе решается вопрос о том, при каких условиях все нули функции h (z, ez) имеют отрицательные действительные части. В теории устойчивости решений обыкновенных дифференциальных уравнений важную роль играет вопрос о поведении корней векового уравнения P(z) = 0. Если данному положению равновесия р системы уравнений соответствует вековой полином P(z)y то для устойчивости этого положения равновесия достаточно, чтобы все корни полинома Р (г) имели отрицательные действительные части, и необходимо, чтобы у полинома Я (г) не было ни одного корня с положительной действительной частью. Вопрос о такого рода поведении корней полинома Р (г) играет поэтому существенную роль, и он был решен Гурвицем. В применении к уравнениям в частных производных такой же вопрос возникает иногда, но уже не для полинома, а для трансцендентной функции. Решению этого вопроса для трансцендентной функции вида H(z) = h(z, ez), где Л (г, /) — полином, и посвящена настоящая работа. Точнее говоря, она приводит этот вопрос к решению некоторого вопроса об элементарных трансцендентных функциях, но уже относительно их поведения в действительной области, дальше же этот вопрос может быть вполне эффективно решен при помощи способа Штурма. Обозначим через г степень полинома Л (г, /) относительно z и через s степень полинома h (г, /) относительно /. Член вида azrts будем называть главным. В случае если полином h (г, /) не имеет главного члена, функция Я (г) непременно имеет бесчисленное множество нулей с произвольно большими положительными действительными частями. Если полином Л(г, /) имеет главный член, то для решения поставленного вопроса рассматривается поведение Функции Я (г) на мнимой оси, т. е. при z = yi, где у—действительное переменное. Функция Н (yi) распадается тогда на свою действительную и мнимую части: H(yl) = F(y) + iG(y), *) Изв. АН СССР. Сер. мат.—1942.—Т. 6, № 3.—С. 115—134.
36 4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ где F(y) = f(y> cos</> sin</)> G(y) = g(y* cos#> sin#)> причем f(y, u, v) и g(y, u, v) — полиномы. Оказывается, что, для того чтобы функция Н (z) имела действительные части всех корней отрицательными, необходимо и достаточно, чтобы корни функций F (у) и G(y) были все действительными и перемежались, а также чтобы хоть при одном значении у имело место неравенство G' (y)F(y)—F' (y)G(y) > 0. Вопрос о том, будут ли все корни функции вида F (z) действительными, решается следующим критерием: для того чтобы все корни функции F (г) были действительными, необходимо и достаточно, чтобы на интервале —2/гл^г/^ ^ 2kn функция F (у) имела, начиная с достаточно большого k, ровно 4sk-\ r корней; здесь имеются в виду уже действительные корни. Последний критерий вполне аналогичен соответственному критерию для полинома, именно: наличие достаточно большого числа действительных корней обеспечивает отсутствие комплексных. Настоящая работа является развитием работы Н. Г. Чеботарева. В своем докладе на заседании Московского математического общества зимой 1941/42 г. Н. Г. Чеботарев изложил решение того же вопроса, который решается в предлагаемой работе, для случая, когда полином /г(г, t) линеен относительно t. Впрочем, и для этого случая Н. Г. Чеботарев дал лишь достаточные условия того, чтобы функция Я (г) имела лишь нули с действительными отрицательными частями, необходимость же этих условий не была им доказана. Возможность использования метода Штурма для доведения решения задачи до конца вполне эффективным способом была отмечена Н. Г. Чеботаревым. Все указанные результаты Н. Г. Чеботарева публикуются в журнале «Доклады Академии Наук». § 1. Нули функции Л (г, ег) при отсутствии главного члена Пусть h(z> t) — полином от двух переменных z и t с постоянными, действительными или комплексным»! коэффициентами h(z, 0= 1>ат,г'Н". (1) т, п Главным членом полинома (1) будем называть такой член arszrts> что аг5ФО и показатели г и s достигают одновременно своих максимумов, т. е. для всякого другого члена amnzmtn из (1) при атп =^=0 имеет место или г > m, s > п, или r = m,s>ny или г > т, s = n. Очевидно, что не всякий полином имеет главный член. Теорема I. При отсутствии главного члена у полинома (1) функция H(z) = h(zt e*) (2)
д О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 37 непременно имеет бесконечное множество нулей с произвольно большими положительными действительными частями. Доказательство. Рассмотрим простейший полином t — z без главного члена и на его примере выясним тип решения, которое мы будем искать. Мы имеем уравнение ez — z = 0. Полагая z==XJrii/y получаем два уравнения ех cos у = х, exsmy — y. (3) Будем искать приближенные решения полученных двух уравнений в предположении, что х и у оба положительны и весьма велики. В этом предположении из уравнений (3) следует, что cosy = xe~x и, следовательно, приближенное значение у есть 2&л-; л, 2. Из уравнений (3) далее приближенно следует х = = In (2kn л/2). Таким образом, решение нужно искать в форме 2 = 1п(2/гл- л/2)-; i(2kn -{- л/2)-{-£, где £— малое неизвестное, стремящееся к нулю одновременно с l/k. По аналогии с полученным решением, решение для общего уравнения Н (z) =0 без главного члена будем искать в форме z = a In 2fcnc + 2km -|- In 0 + £. (4) Здесь а — положительное рациональное число, которое будет подобрано в зависимости от полинома (1), 0^=0—комплексное число, которое также будет подобрано в зависимости от полинома (1); наконец, £ — неизвестное, стремящееся к нулю одновременно с \/k. Из (4) мы имеем ez = (2kn)«№, z = i2kn{\ -| 6^)), (5) где бх (£)— аналитическая функция переменного £, равномерно стремящаяся к нулю одновременно с \/k. Подставляя полученные значения в Я (г), имеем Н(г)= 2 {2kn)m+™amni'nQnent (1 + 61 (£))*. (6) т, п Таким образом, мы разложили функцию Н (z) в конечную сумму по дробным степеням величины 2kn. Выберем в этом разложении главные члены, т. е. такие, в которых показатель т + ап достигает своего возможного максимума (3 при атпф0. Тогда выражение (6) записывается так: н W = 2 (2knf amnim№ent+(2knf б2 (£) = п = 2 (2knf 6„e»e»s + (26л)*5 б2 (£). П ^десь суммирование ведется по тем значениям я, для которых т- ая = р и атпф0. Суммировать по т нет надобности, так как соотношением т+а/г=р число т однозначно определяется числом/г.
38 4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ Величина 62(£) является аналитической функцией переменного £, равномерно сходящейся к нулю в круге |£|^1 при &-+оо. В силу самого определения числа (3 существует хоть одно такое значение пу для которого т -1- an = fi и одновременно атп Ф 0. Ниже будет доказано, что при отсутствии главного члена в полиноме (1) и при надлежащем выборе а найдутся по меньшей мере два различных значения п, для которых указанные условия будут выполнены. В этом предположении уравнение 2М" = 0 (7) п относительно неизвестного 0 будет иметь хоть одно отличное от нуля решение. Отныне мы и будем считать это решение значением 6. Итак, соотношение (7) уже не уравнение, а равенство, выполненное для выбранного значения 0. Вместо уравнения Н (z)=0 рассмотрим эквивалентное ему уравнение 2&Bevc + 6,(0=o. (8) п Левая часть этого уравнения при k —+ оо равномерно сходится к функции 2bnQnent, но уравнение ^Ьпвпеп£ =0 имеет очевидное п п решение £ = 0 [см. (7)]. Ввиду равномерной сходимости и уравнение (8) при достаточно большом k имеет решение £ft, притом стремящееся к нулю одновременно с \/k. Таким образом, уравнение Н {г) = 0 имеет решение г = In 2kn -!- 2km -} In 6 + £л, (9) начиная с достаточно большого fe, причем Z>k стремится к нулю одновременно с \/k. Ввиду того что а и 6 не зависят от k, решение это очевидным образом имеет положительную действительную часть при достаточно большом k. Теперь остается выбрать такое положительное рациональное число а, чтобы существовало по крайней мере два значения для п, при которых т-\ an = fi и атпФО, при этом мы будем исходить из предположения, что полином (1) не имеет главного члена. Пусть s—максимальное значение /г, для которого атп Ф0У г — максимальное значение ш, при котором атзФ0. По предположению об отсутствии главного члена в полиноме (1) существуют тогда такие значения р и q для тип, что р > г, q < s и apq Ф 0. Заменим теперь в полиноме (1) t через га, где а > 0, и рассмотрим полученное выражение 2 amnz^\ (10) т, n расположенное по положительным степеням переменного г. Главным членом этого разложения будем называть тот, который будет
4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 39 иметь максимальную в нем степень т + ап для z при коэффициенте атпфО. Когда а очень велико, главным членом разложения (Ю)» очевидно, является arszr+as. Когда а достаточно близко к нулю, этот член не может остаться главным, так как показатель степени у aPi1zp+ag, очевидно, больше, ибо р > г. Таким образом, в процессе непрерывного изменения а от + оо к 0 наступит такой момент, когда появится по меньшей мере два главных члена в разложении (10), это значение а мы и обозначим через а. Очевидно, что а рационально, так как оно определяется некоторым целочисленным уравнением r + as = m + an. Итак, утверждение теоремы I доказано. § 2. Нули функции f(z> cos z, sin z) Пусть f(z, и, v) — полином с действительными постоянными коэффициентами относительно переменных z, uy v. Тогда /(г, cose, sinz) = F(z) (11) является целой трансцендентной функцией аргумента z и принимает действительные значения при действительных значениях аргумента. Здесь будет дано условие, необходимое и достаточное для того, чтобы функция F (z) имела лишь действительные нули и притом в терминах поведения функции F (z) в действительной области. Полином /(г, и, v) представим в форме /(z, u%v)= 2 z*qC(". v). (12) m, n Через ф^ здесь обозначен однородный по uwv полином степени п. Так как в дальнейшем предполагается положить и = cos z, v = sin г, то без ограничения общности мы можем считать, что полином Фт} (и, v) не делится на u2-tv2y иначе говоря, выполнено условие ф£>(1, ±о=^о (13) для всех входящих в разложение (12) полиномов. Главным членом полинома (12) будем называть тот член zry(rS) (и, v) разложения, в котором показатели г и s одновременно достигают своих максимумов, т. е. для всякого другого члена zmy%)(ut и), входящего в разложение (12), выполнено условие: или г > m, s > я, или r = m, s > я, или г > т, s = n. Очевидно, что не во всяком полиноме (12) главный член существует. С помощью результатов § 1 доказывается Теорема II. Если полином (12) не имеет главного члена, то функция F (г) [см. (11)] непременно имеет бесконечное число недействительных нулей. Для формулировки решения в случае наличия главного члена У полинома (12) выделим в нем коэффициент при старшей степени z: f(z, и, v) = zrq>[s}(u, v)-\- 2 г'-фЙЧ". v). О4) т < г, п < s
40 4- О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ Здесь ф(/} — уже неоднородный полином по и, v степени s: <Pis)(", v)= 2 <р<л>(и, v). (15) п < s Функция Ф[ь)(г) = (р[5) (coszy sine), очевидно, периодическая с периодом 2л и, как будет показано ниже, имеет на полосе а^х <2л4- a (z = x-{-iy) лишь конечное число нулей, именно 2s. Ввиду этого существует бесчисленное множество таких значений а = е, что Ф[8)(е+1у)ф0 при любом у. В большинстве случаев за е можно будет принять нуль. Теорема III. Пусть f(z, и, v)—полином с главным членом zr<p(rS) (и, v). Если е таково, что <b[s)(E~-iy) не обращается в нуль ни при каком действительном у, то на полосе —2kn-\- &^x^Z ^2£л4 e (z = x-+ iy) функция F(z) будет, начиная с некоторого достаточно большого k, иметь ровно Ask Л г нулей. Таким образом, для того чтобы функция F (г) имела лишь действительные нули, необходимо и достаточно, чтобы она на интервале—2fcnc+ + е <! х ^ 2kn + 8 имела ровно Ask -j- r действительных нулей, начиная с достаточно большого k. Доказательство. Докажем прежде всего, что на полосе а^х < 2л + a(z = x-\ iy) функция Ф[5)(г) имеет ровно 2s нулей. Положим и-т(ч4)' y=i('-i)- <16> Тогда при t = eIz мы будем иметь u = cosz, и = sin г. Подставляя в полином <p[s) (и, v) вместо и и v выражения (16), получим конечный ряд q>[s) (t) по положительным и отрицательным степеням/. Коэффициент при высшей положительной степени s переменного t будет равен, как легко видеть, cp(rs)(l/2, —i/2) [см. (15)]. Точно так же коэффициент при низшей отрицательной степени —s будет равен cp(rs)(\/2, i/2) [см. (15)]. Следовательно, оба эти коэффициента отличны от нуля [см. (13)]. Таким образом, уравнение <p(/>(tf) = 0 имеет ровно 2s корней, и они все отличны от нуля. Обозначим эти корни через tx, t2, .. ., t2s. Для решения уравнения Ф*>(г) = 0 (17) теперь достаточно решить все уравнения efz = tf. При фиксированном / такое уравнение имеет на полосе a<L#<2jT-' а ровно один корень. Если все tj различны, то мы получаем на рассматриваемой полосе ровно 2s корней уравнения (17). Если же имеются совпадающие tj, то получается соответственная кратность и для уравнения (17).
4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 41 Выясним теперь поведение функции Ф;(/;> (г) = (pJIP (cosг, sine) при больших значениях y(z-=x- iy) как положительных, так и отрицательных, именно покажем, что ЯС(*-: iy)=-e»v-»''*(<p™(l/2, i/2)-' б,), ) Ф™(х-\ ^) = б-я^и'А-(ФЙ)(1/2, -1/2)-! б2), j (18) где 6i равномерно стремится к нулю при у—-►-| оо, а б2 равномерно стремится к нулю при у-^ — оо. Для доказательства соотношений (18) достаточно отметить соотношения cosz = y(e/x"y4 е~'х + У), sinz = -^-(^-v—б-'* + у) и принять во внимание поведение функций еу и е~у при больших положительных и отрицательных значениях у. Из соотношений (18) непосредственно следуют соответствующие соотношения и для неоднородной функции 0(,S)(z), именно Ф15) (*Ч- iy) = e*v-«'* (<р<» (1/2, f/2) -i- 63), \ Ф(/>(*-| ^)=6Г^+5'*(ф(г5)(1/2, — i/2)-| б4), )' (19) где б3 равномерно стремится к нулю при у—+Н- оо, а б4 равномерно стремится к нулю при у -+ — оо. Выберем теперь такое Ь' > 0, что Ф^5) (хЛ iy) ф§ при \у\ > Ь'. Принимая во внимание соотношения (18) и (19), получаем <?<*+*> l<Cl (20) ®[S)(x+iy) ПРИ \у\>Ь', где сх — некоторая константа, зависящая от полинома (12) и выбора Ь'. Точно так же из соотношений (18) и (19) следует, что 0C(±2toi4-eJ iy) Ф[$)(±2кп\ в+iy) | ^2' (21) где г., — некоторая константа, зависящая от полинома (12) и числа е. На основе сделанных оценок вычислим теперь число нулей функции F (z) внутри некоторого прямоугольника плоскости комплексного переменного г. Нужный прямоугольник—обозначим его через Ркь — зададим соотношениями — 2kn ! e<Jt<2fcnc-! e, — Ь<#<6. Функцию F(z) запишем в форме F(z)=zms)(z)(\+ V г»-г*ф*1\ (22) \ m<r,n<s Ф* W У ^Десь все показатели т—г у z отрицательны, а потому, принимая во внимание соотношения (20) и (21), мы видим, что на гра-
42 4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ нице многоугольника РкЪ при достаточно больших k и b имеет место соотношение F(z) = z'CP<s>(z)(l-H5), (23) где б5 стремится к нулю при одновременном стремлении к бесконечности чисел k и Ь. Из последнего соотношения непосредственно следует, что число нулей функций F (г) и ггФ(*Б) (г) в прямоугольнике Pkb одинаково. Несколькими строками ниже мы докажем это предложение в общем виде, здесь же сделаем вывод из полученного результата. Зафиксируем k на достаточно большом значении и будем стремить b к бесконечности. Тогда мы увидим, что число нулей функций F(z) и ггФ{*} (z) в полосе —2kn+s^x^2kn-\-г одинаково. Для последней же функции число нулей, очевидно, равно 4sk+г. Этим теорема доказана, за исключением одного пробела, который мы сейчас пополним. Замечание. Пусть Р — некоторый замкнутый контур в плоскости комплексного переменного z и g(z)—аналитическая функция, не имеющая особенностей как внутри, так и на контуре Я, причем на контуре Р она не обращается в нуль. Тогда в силу известной теоремы о логарифмическом вычете число нулей функции g(z) внутри контура Р равно полному числу оборотов вокруг начала координат вектора w = g(z), в то время когда переменная z описывает контур Р. Пусть теперь функция g*(z) также аналитическая внутри и на контуре Я, связанная на контуре Р с функцией g (z) соотношением g* (z)=g (г) (1+6 (z)), где | б (z) | < 1. Рассмотрим теперь на контуре Р функцию g(z, i)=g(z) (\+%8(z)), где т—действительное число. При фиксированном т вектор w = =g(z, т) описывает некоторое число полных оборотов вокруг начала координат, в то время как z пробегает контур Р. Если теперь т непрерывно менять от нуля до единицы, то вектор w никогда не обратится в нуль и потому число его полных оборотов не может измениться. Таким образом, число нулей функций g*(z) и g(z) одинаково внутри контура Я. Этим замечанием пробел в доказательстве теоремы III заполнен. Перейдем теперь к доказательству теоремы II. Заметим, впрочем, что она не нужна для теорем из § 3, решающих вопрос об отрицательности действительных частей всех корней функции Л (г, ег). Доказательство теоремы II. Пусть полином /(z, и, v) [см. (12)] не имеет главного члена. Обозначим через s наибольшее значение, которое может принимать п в сумме (12), а через г — наибольшее значение индекса /л, которое он может принять при n = s. Тогда в сумме (12) присутствует член zry{rs)(u, v). Ввиду отсутствия главного члена в той же сумме присутствует еще член zP<p(v(uy и), у которого р>г и q<s. Заменим теперь и и v по формулам (16) и полученную сумму умножим на /3, чтобы превратить ее в полином A(z, t). В этот полином будет входить член zrt2stp(rs) (1/2, —//2), причем член этот будет высшим по степени /
4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 43 и высшим, возможным при этой степени t, по степени z. Сверх того, в полиноме h(z, t) будет иметься член г/?^ + 5ф},<7)(1/2, —i/2), причем р > г, q + s < 2s. Таким образом, полином Л (г, /) не имеет главного члена (см. § 1). Из этого непосредственно следует, что полином h(—iz, t) также не имеет главного члена, и потому уравнение Л(—iz, ez) = 0 имеет корни с положительной действительной частью (см. теорему I). Отсюда непосредственно следует, что уравнение h(z, eiz) = 0 имеет корень с мнимой частью, отличной от нуля. Таким образом, теорема II доказана. Теоремы II и III дают необходимые и достаточные условия для того, чтобы функция /(г, cos г, sine) имела только действительные нули. Особенно просто решается вопрос в случае, когда полином f(z, и, v) не имеет главного члена. Тогда сразу можно сказать, что функция /(г, cose, sine) имеет бесчисленное множество недействительных нулей. Для функций с главным членом имеются случаи, когда сравнительно простым исследованием можно обнаружить бесчисленное множество недействительных корней: Теорема IV. Пусть полином f(z, и, v) имеет главный член [см. (14)]. Если функция Ф(*Б)(г) = cp(*s)(cosг, sine) имеет недействительные корни, то функция F (г) имеет бесчисленное множество недействительных нулей. Если функция Oc*s)(z) имеет только действительные и притом простые нули, то функция F(z) имеет не более конечного числа недействительных нулей. Доказательство. Вместо уравнения F(z) = 0 будем рассматривать уравнение Ф(*5)(г) + 2 г*-'Ф{Я>(г) = 0. (24) т< г, /z<s Допустим, что Ф(*Б) (с) = О, где с—недействительное число. Будем искать решение уравнения (24) в форме 2kn-\-c -j-£, где k велико, а £ мало. Уравнение (24) можно переписать в форме <KS)(* П) I-«(£) = 0, (25) где 6(£) — есть аналитическая функция £, равномерно сходящаяся к нулю в круге |£|^1 при k—+oo. Так как левая часть уравнения (25) равномерно сходится к функции Ois)(c + t) при k—> оо, а уравнение (D(*s)(c-|-£) = 0 имеет очевидное решение £ = 0, то уравнение (25) имеет решение £Л, близкое к нулю при достаточно большом k. Ввиду того что с число недействительное, решение 2fcn-f c+^k при достаточно большом k также будет недействительным. Если уравнение <I>(*s)(z) = 0 имеет все действительные и притом некратные корни, то на интервале 2fertH е^л:^ 2(k + 1) я + е кривая w = OiS)(x) пересекает ось ш = 0 в 2s различных точках.
44 4- ° НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ Так как кривая w = Ois)(x) + 2 хт-гФ™(х) (26) т< г, n<s при k достаточно большом лишь очень мало отличается от кривой 1ю = Ф^ (х), то и кривая (26) пересекает ось оу = 0 в 2s точках на интервале 2fcnc-|- е^л:^ 2 (k -■- \)л-\ г при k достаточно большом. Таким образом, число действительных корней функции F(z) на интервале —2fcnc -f е ^ х ^ 2kn -f е будет равно 4sk + г' при достаточно большом fe. В силу теоремы III число недействительных нулей функции F(z) равно г—г'. Таким образом, теорема IV доказана. Вопрос о характере корней функции <P(*S) (г) в интересующем нас смысле приводится к решению того же вопроса относительно некоторого полинома. Для этого нужно выразить cose и sine через tgy, l-tg'-i 2tgi- cosz = , sinz = , и затем принять tg -^ за новое неизвестное t. Таким образом, в полиноме (pis) (и, v) нужно положить _ I — /2 _ 2/ и умножить полученное выражение на (1-f/2)5. Полученный так полином обозначим через ф(5)(/). Полином этот имеет степень 2s. Если бы члены с этой степенью сократились, то это означало бы, что полином фы(/) имеет бесконечный корень, т.е. уравнение Oc*S)(z) имеет решение г = л, причем нуль этот имеет кратность, равную понижению степени полинома ф(5)(/) против 2s. Каждому конечному корню tQ полинома ф(5) (t) соответствует нуль функции Ois)(z), получаемый из уравнения tg-j = f0> пРичем действительным корням соответствуют действительные, а недействительным — недействительные. Исключение в этом смысле мог бы представлять корень t0=±i, так как уравнение tgy=±f не имеет решений Но полином ф(5) (t) не может иметь корня ± i, что непосредственно вытекает из условия (13). Действительно, мы имеем Ф«*)(0 = Ф^(1 —/2, 20+ 2 Ф?°(1 —*2. 2/)(1+ *«)*-». (27) п <s Целая замену t = ±i в этом выражении, мы получаем Ф(5)(±0 = Ф'г5)(2> ±20=^0 [см. (13)].
4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 45 § 3. Нули функции А (г, ez) при наличии главного члена В § 1 было показано, что функция Л (г, ez) имеет бесчисленное множество нулей с произвольно большими положительными действительными частями в случае, когда полином h(z, t) не обладает главным членом. При наличии главного члена у полинома h(z, t) вопрос о существовании нулей функции H(z) = h(z, ez) будет решен здесь. Пусть Ми)=2й»Л" (28) т, n и arszrts—главный член полинома (28). Выделим в (28) коэффициент при zr, т. е. положим h(z, t) = z'xl*s)(t)+ 2 aMj»t». (29) т<г, л <s Функция x*s)(^)^ очевидно, периодическая с периодом 2ш и на полосе b^y <Ь + 2я (z = x-\-iy) имеет не более s нулей. Таким образом, существует действительное число е такое, что X(s)(^+ei)_^0 (30) при произвольном х. Теорема V. Пусть h(z, t)—полином с главным членом arszrts и а — такое действительное число, что %[S) (ех+1г) ФО при произвольном действительном х [см. (29)]. Число нулей функции Я (г) на полосе —2fcnc+ е^г/^ 2kn~ г, х > 0 (z = x-lriy) обозначим через N.k. Предположим далее, что функция Я (г) не обращается в нуль на мнимой оси, т. е. H(iy)=/=0; обозначим через Vk угол, который опишет вокруг начала координат вектор w=H(iy), в то время когда у пробегает значения от —2kn-]rE до 2kn-\-z. Оказывается, что где 8k —> О одновременно с \/k. Доказательство. Рассмотрим прямоугольник Pka, определяемый условиями 0<С,х^а — 2kn~l e^//^2fert-{ e, и оценим полный поворот вектора w = H (z), когда z пробегает в направлении против часовой стрелки три стороны прямоугольника Рка, за исключением стороны л: = 0, т.е. стороны нижнюю, правую и верхнюю. Из соотношений (29) и (30) непосредственно следует, что tf(2) = 2'X(.S,H(l ЬМ*)). где 81 (г) равномерно стремится к нулю на указанных трех сторонах прямоугольника Ры, когда k и а одновременно стремятся к бесконечности. Таким образом, искомое вращение вектора w для Функции Я (г) будет отличаться от вращения для функции zrx*s) (cz) лишь на число т), стремящееся к нулю при k -- оо, а * оо,
46 4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ Вращение вектора w для функции zr%™ (ez) равно сумме вращений его для функции zr и для функции х(Г(^г)- Очевидно, что для функции zr вращение это вдоль трех сторон прямоугольника Pka равно яг. Для функции %(*s) (ez) вращение вдоль нижней стороны сокращается с вращением вдоль верхней стороны, ибо функция %is) (ez) периодическая, и стороны эти пробегаются в противоположных направлениях. Вращение вдоль правой стороны для функции %™(ег) мало отличается от вращения вдоль той же стороны функции arsesz. Для последней же оно, очевидно, равно 4kns. Итак, полное вращение для функции Н (z) вдоль трех сторон мало отличается от 4nsk-{-nr. Так как число нулей функции Н (z) внутри прямоугольника Pka равно числу полных поворотов вектора w = H(z), когда z пробегает все стороны у прямоугольника Рка, то из сделанного подсчета непосредственно вытекает утверждение теоремы. Теорема V показывает, что для нас теперь важно рассмотреть поведение функции Я (г) на мнимой оси, т. е. функцию Н (iy) при действительном у. Разобьем функцию Н (iy) на ее действительную и мнимую части: H(iy) = F(y) + iG(y). (31) Непосредственно видно, что F(y) = f(y> cos</> sin#)> в(у) = ё(У> cos</> sin у), где f(y, и, v) и g(y, и, v)—полиномы. Выясним теперь более подробно связь между полиномом h(z, t) и полиномами f(y, и, v) и ё(у> и, v). Положим а{п) (и, v) + фш (и, v) = (u + iv)ny где а{п) (и, v) и $(п) (и, v)— полиномы с действительными коэффициентами. Тогда мы имеем а(я)(и, v) = y((u Ь"0п \-(u—iv)n); , (32) fi(n)(u, v) = ^r-((u-\ iv)n — (u — iv)n). Покажем, что полином ааш (и, v)-\- b&{n)(u, v) = у{п) (и, и), где а и Ъ действительны и не обращаются одновременно в нуль, удовлетворяет условию (13), т. е. у(я)(1. ±0=^0. (33) Из (32) имеем y{n)(l, ±i) = 2n-1(a±ib)^0. Непосредственно видно, что f(y, и, v)+ig(y, и, v) = -= 2 (flm/, + ialnn) imym (<*(rt) (и, v) + ф(»> (и, v)). (34)
4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 47 Здесь atnn-\ iamn = a/nn [см. (28)], причем атп и ^„—действительные числа. Если положить /Q/, и, v)= 2 у'п№(и, v), g(y, и, v)= 2 ^ГФЙЧ". v)t (35) m,n т,л то из (34) получаем, что полиномы ФЙ}(и, v) и ФтЧ"» и) равны полиномам ± (а'тпа^ (и, v)—amn^ {и, v))\ где знаки и порядок соответствия зависят от остатка при делении т на четыре. Пусть X и |i—два действительные числа, не обращающиеся в нуль одновременно, тогда Xf(y, U, v)+\Lg(y, U, V)= 2 ym(Wm(u, v) + \i^} (и, v)). m, n Из (36) следует, что Хср^> (и, v) -h (дл^Т (u, v) = aain)(u, v)+b${n) (u, v). Так как детерминант матрицы атп — &тп I II 0>тп О-тп II отличен от нуля при агппФ0, то при этом же условии а и b не обращаются одновременно в нуль. Если теперь arszrts—главный член полинома h(z, и, и), то главный член полинома Ц(у, и, v)-\- + М£(#» и, v) есть yry{s)(u, v) = yr(aa{s) (и, v) + bfiis) (и, v))y где а и b не обращаются одновременно в нуль, и, следовательно, он удовлетворяет условию (13). Так же как и в § 2, выделим коэффициенты cplS) {и, v) и i|)ls) (и, и) при #г, тогда в полиноме Xf(y, и, v)-\-\ig(y, и, v) коэффициент при уг будет иметь вид X<pis) (и, v) h |i/ip(*s) (и, v) и, так же как в § 2, существует такое действительное е, что ХФ[Б) (£+iy) + \№is) (г-\-1у)=ф0 при произвольном действительном у. Очевидно, что при этом условии %*s)(e*+80 ФО при произвольном действительном х. После этих предварительных замечаний докажем теоремы VI и VII, дающие критерии отсутствия у функции Я (г) нулей с положительными или нулевыми действительными частями. Теорема VI. Пусть Н(z) = h(z, ez), где h(z, t)—полином с главным членом arszrts [см. (28)]. Положим Н (iy) = F (у) + iG (у). Если все нули функции Н (г) лежат по левую сторону от мнимой оси, то вектор w = H(iy) при изменении у от —оо до +оо все время вращается в положительном направлении с положительной скоростью, что аналитически выражается условием G' (у) F (у) — ~ ^" (У) G (у) > 0 и сверх того при пробеге у-ом интервала ~2kn <; у <с: 2kn вектор w описывает угол, равный Akns + яг + б1? где Птб1 = 0. Если, наоборот, вектор w описывает угол, равный 4/ens -f- яг+8j, в то время когда у пробегает интервал —2kn^y<^2kn,
48 4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ то он вращается все время в положительном направлении с положительной скоростью, и нули функции Н (г) все расположены по левую сторону от мнимой оси. (В последнем утверждении предполагается, что функция Н (z) не имеет нулей на мнимой оси, так как без этого предположения даже невозможно определить угол поворота вектора w.) Для формулировки теоремы VII условимся о терминологии. Пусть р(у) и q (у)—две действительные функции действительного переменного. Мы будем говорить, что нули этих функций перемежаются, если каждая из функций не имеет кратных нулей, между каждыми двумя нулями одной функции имеется хоть один нуль другой. Кроме того, предполагается, что функции р(у) и q(y) нигде не обращаются в нуль одновременно. При этих условиях нули функции р(у) и q(y) идут, чередуясь, вдоль оси у. Теорема VII. Пусть Н (z) = h(z, ez), где h(z, t)—полином с главным членом. Функцию Н (iy) разобьем на ее действительную и мнимую части, т. е. положим Н (iy) = F (у) ■■{- iG (у). Если все нули функции Н (z) лежат по левую сторону мнимой оси, то нули функций F(y) и G(y) действительны, перемежаются и G'(y)F{y)-F'(y)G(y)>0 (37) при всяком у. Далее, для того чтобы нули функции Н (г) все лежали по левую сторону от мнимой оси, достаточно выполнения одного из условий: 1) все нули функций F (у) и G (у) действительны и перемежаются, а неравенство (37) выполнено хотя бы для одного значения у; 2) все нули функции F (у) действительны и для каждого ее нуля у = у0 выполнено условие (37), т.е. F' (y0) G (у0) < 0; 3) все нули функции G (у) действительны и для каждого ее нуля у = у0 выполнено неравенство (37), т. е. G' (y0) F (у0) > 0. Доказательство теоремы VI и VII. Доказательство разобьем на пункты. a) Поворот вектора w = H(iy), в то время когда у пробегает интервал а^у^Ь, обозначим через v(a, b). Скорость j-v(0, у) вращения вектора w в момент у, очевидно, выражается по формуле Таким образом, знак скорости з-^(0, у) и знак выражения G'(y)F(y) — F'(y)G(y) совпадают. b) v (а г е, b-'re) = v (а, Ь) - б2, (39) где б2 —> 0 при г фиксированном, когда а ^ + оо и 6 -> ± оо Прежде всего, мы имеем v (a, b) = v(a, c) + v(c, b). Далее, из струк-
4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 49 туры функции Я (г) непосредственно видно, что v (a, a + e)^e-j б3, Где (% • 0 при фиксированном е, когда а - ч= оо. Сопоставляя эти два утверждения, получаем (39). c) Пусть X и (1—два действительные числа, не обращающиеся одновременно в нуль, тогда существует такое действительное е, что при произвольном действительном у одновременно выполнены четыре следующие неравенства: fc<D?> (£ + iy)... ^ipcs) (е + ^ ^0? \ М,Ф?> (е + iy)-XVP (г + /у) ф О, I ф«>(еЧ-1у)ф0, Г * ' Ч™(е-| *</)^0. ) Выполнение этих неравенств гарантирует применимость теоремы III к функциям XF(у) ;-(.iG(f/), F(y), G(y). Из тех же неравенств следует, что точка Н (±2km -| ei) при достаточно большом k не лежит ни на одной из прямых Xw' + \iw"= О, до' = 0, ш" = 0 (&• = до' -I- iw") в плоскости до. Одновременная выполнимость неравенств (40) следует из замечаний, сделанных перед формулировкой теоремы VI. d) Допустим, что v(—2feji, 2kn) = x(4kns-t Jtr) -f б4, гдет=±1, a 64 — 0 одновременно с l/k. Покажем, что при этих условиях функция XF{y)-\ \iG(y) имеет только действительные и простые нули при произвольных действительных и не обращающихся одновременно в нуль X и (1, сверх того, t(G'(y)F(y)— Ff (y)G(y)) > 0. Для доказательства утверждения d) выберем е, удовлетворяющее условиям с) при заданных X и |х. Так как вектор w на интервале —2kn -f е ^ у ^ 2kn -i е описывает угол т (4fcncs -f яг) + б5 (см. Ь), то геометрически очевидно, что кривая w=H(iy) на том же интервале должна пересечься с прямой Xw' + |ш/' = 0 не менее чем при 4kn -\- r различных у. В силу же теоремы III число нулей функции XF (у) |- (iG (у) на том же интервале не превосходит 4£s -г, таким образом, все нули функции XF(y) + \iG(y) действительные и некратные. Некратность нулей означает, в частности, что кривая w=H(iy) нигде не касается прямой Xw' -f \iw" = 0, т. е. вектор w все время вращается со скоростью, отличной от нуля, а из этого вытекает неравенство т (G' (#) Т7 (#)— F' (у) G (у)) > 0 (см. а). Докажем теперь первые половины теорем VI и VII. Допустим, что все нули функции Я (г) лежат по левую сторону от мнимой °си. Тогда в силу теоремы V и b) v(—2kn, 2kri) = 4knsJr nr+ б6. Отсюда на основании d) заключаем, что нули функций F(y) и ~ (у) все действительные, простые и G' (у) F (у) — F' (у) G (у) > 0. Таким образом, вектор w все время вращается против часовой стрелки с положительной скоростью, а из этого геометрически очевидно, что нули функций F(y) и G (у) перемежаются. Таким образом, первые половины теорем VI и VII доказаны.
50 4. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ Докажем теперь вторые половины теорем VI и VII. Заметим, прежде всего, что если v(—2kn, 2kn) = 4kns + r -f- б7, где б7 стремится к нулю одновременно с \/к, то в силу теоремы V и Ь) видим, что все нули функции Н (z) лежат по левую сторону мнимой оси. Таким образом, вторая половина теоремы VI доказана. Покажем теперь, что если выполнено одно из условий 1), 2), 3) теоремы VII, то имеем v(—2kn, 2kn) ^\kns+ nr + 87. В случае если нули функций F (у) и G(y) действительны, просты и перемежаются, мы на основании теоремы III и Ь) заключаем из непосредственных геометрических соображений, что v(—2kn, 2kn) = = x(4kn + яг) + б7. Таким образом, в силу d) заключаем, что x(G' (y)F (у) — F' (у) G (у)) > 0, но так как по условию 1) неравенство (37) выполнено хоть в одной точке у, то имеем т=1. Если выполнены условия 2) или 3), то на основании теоремы III, b) и геометрических соображений заключаем, что v(—2kn, 2kn) = 4kns + nr + 87 и, следовательно, по ранее замеченному, все нули функции Н (z) лежат по левую сторону от мнимой оси. Таким образом, теоремы VI и VII доказаны. Нижеследующая теорема дает дополнительные соображения к решению вопроса о существовании корней функции Я (г) по правую сторону от мнимой оси. Теорема VIII. Пусть Н (z) = h(z, ez), где h(z> t) — полином с главным членом arszrts. Через %[s) (t) обозначим коэффициент при zr в полиноме h(z, t). Если функция %(;°(еГ) имеет хоть один корень по правую сторону от мнимой оси, то функция Н (z) имеет бесчисленное множество нулей по правую сторону от мнимой оси. Если все нули функции x{V ieZ) лежат по левую сторону от мнимой оси, то функция Н (г) имеет не более конечного числа нулей по правую сторону от мнимой оси. Доказательство проводится аналогично тому, как это делалось при доказательстве теоремы IV. Вопрос о том, расположены ли все нули функции %(*s) (ez) no левую сторону мнимой оси, легко приводится к тому же вопросу относительно полинома. Заметим, прежде всего, что нули функции %(*s> (ez) тогда и только тогда лежат по левую сторону от мнимой оси, когда все нули полинома %(*s)(0 лежат в круге 11\ < 1. Дробно-линейное преобразование t = ._ * переводит внутренность круга ]/|< 1 плоскости переменного t в полуплоскость, лежащую по левую сторону мнимой оси переменного z*. Таким образом, в полиноме %(*s>(0 следует сделать замену переменного t = = ._ * , отбросить у полученной дроби знаменатель и решать вопрос для полинома относительно г* при помощи теорем VI и VII.
5 ЭРМИТОВЫ ОПЕРАТОРЫ В ПРОСТРАНСТВЕ С ИНДЕФИНИТНОЙ МЕТРИКОЙ *) >) 2) Пространство IIj0 так же как гильбертово, составлено из всех последовательностей Xi, х2, ..., *£,... комплексных чисел со сходящейся суммой квадратов модулей; скалярное произведение в нем задается, однако, формулой (*» y) = —x1y1—...—xk'yk + xk + l'yk^1+... + ... Работа посвящена исследованию эрмитовых операторов, действующих в линейном пространстве Нк. Устанавливается, что каждый эрмитов оператор, действующий в #£, имеет инвариантное конечномерное подпространство размерности &. В § 1 изучаются элементарные свойства пространства Нк, которые оказываются несколько более сложными, чем соответствующие свойства гильбертова пространства. Важную роль здесь играют подпространства, на которых квадратичная форма (#, л:) не вырождается. Устанавливается, что если на подпространстве Q квадратичная форма (х> л:) не вырождается, то: (a) Q изоморфно некоторому пространству Ht, l^k; (b) на ортогональном дополнении Q' к Q квадратичная форма (ху х) тоже не вырождается; (c) ортогональное дополнение к Q' совпадает с Q и Hk распадается в прямую сумму своих подпространств Q и Q', так что возможно ортогональное проектирование на оба эти подпространства. В § 2 рассматриваются операторы, действующие в Hk. В отличие от гильбертова пространства, симметрический оператор, действующий в Ну может иметь комплексные собственные значения и непростые элементарные делители. Устанавливается, что число тех и других сильно ограничено числом k. В § 3 устанавливается нетривиальное специфическое свойство эрмитова оператора Л, действующего в пространстве Hk\ именно доказывается, что оператор А имеет инвариантное подпространство / размерности ky причем для каждого вектора х из / имеет место неравенство (#, л:) ^ 0. Сверх того, каждое собственное зна- *) Изв. АН СССР. Сер. мат.—1944.—Т. 8, № 6.—С. 243—280. 3) О том, что эрмитовы операторы, действующие в пространстве с индефинитной метрикой, могут представлять некоторый интерес, я узнал от С. Л. Соболева, который встретился с подобным оператором при решении одной механической задачи. 2) Основные понятия теории эрмитовых операторов в гильбертовом пространстве даны у Плеснера («Спектральная теория линейных операторов», Успехи математических наук, IX, 1941, 3—125).
52 5. ЭРМИТОВЫ ОПЕРАТОРЫ чение оператора А в I имеет неотрицательную мнимую часть. Таким образом, в отличие от случая гильбертова пространства, эрмитов оператор, действующий в пространстве Нк, всегда имеет собственные значения при k > 0. § 1. Линейное пространство Hk Определение 1. Линейное пространство Нк составлено из всех последовательностей Хц X2i • • • , Х/г, • • • (1) комплексных чисел с числом членов, равным n^k (конечномерный случай) или бесконечности (бесконечномерный случай), для которых ряд Х\Х\ ~f Х2Х2 "г • • • ~г ХкХк ~г • • • (^) сходится. Сходимость и линейные операции в пространстве Нк определяются так же, как в конечномерном аффинном или, соответственно, в гильбертовом пространстве. Скалярное произведение (#, у) векторов х и у дается формулой (х, у) = — х1у1—х2~у2—...—хкук+хк+1ук+1+... (3) Для того чтобы пространство Нк трактовать как банаховское, в нем достаточно задать норму соотношением II х |2 = хгхг + х2х2 -|- . . . -!- хкхк -!- ... (4) Понятия линейного многообразия и подпространства определяются как обычно. Скалярное произведение удовлетворяет обычным условиям: (Хх, у) = Х(х, у)\ (х+х\ у)=>(х, y)-L(x\ y)\ (х, у) = (у, х). Векторы х и у называются ортогональными, если (х, у) = 0' На основе этого обычным образом определяется ортогональность подпространств. Если Р — подпространство пространства НкУ то его ортогональное дополнение Я' определяется как подпространство, составленное из всех векторов, ортогональных к Я. Вопреки обычному, подпространства Я и Я' могут в пересечении содержать векторы, отличные от нуля. В этом случае мы будем говорить, что квадратичная форма (х, х) вырождается на Я, т. е. в подпространстве Я имеется вектор хфО, ортогональный ко всем векторам подпространства Я. Если такого вектора не существует, то будем говорить, что квадратичная форма (х, х) не вырождается на подпространстве Я. Очевидно, что на самом пространстве //,, квадратичная форма (а:, х) не вырождается. Определение 2. Пусть HkwHt—два пространства, описанные определением 1, а Я и Q — их подпространства. Отображение/
5. ЭРМИТОВЫ ОПЕРАТОРЫ 53 подпространства Р на подпространство Q мы будем называть изоморфным, если оно взаимно однозначно, взаимно непрерывно, сохраняет линейные операции и сохраняет скалярное произведение. Р и Q будем называть изоморфными, если существует изоморфное отображение / Р на Q. Ниже будет показано, что если пространства Hk и Н1 изоморфны, то числа k и / равны: * = /. (5) Изоморфное отображение подпространства Р самого на себя будем называть автоморфизмом Р. В определении 1 пространство Hk было описано координатным методом — каждый вектор х задавался своими координатами х1У *2, • • •, **»••• Любой автоморфизм / пространства Hk дает возможность ввести в Hk новую систему координат. Если х[, х2, .. . .. ., х'к, . .. —координаты вектора f(x), то числа х[, х2, . .., x'k, . . . можно принять за новые координаты вектора х. (A) Обозначим через Н+ подпространство пространства Нк, составленное из всех векторов х, для которых х1 = х2= ... = xk — и. Через Н_ обозначим подпространство пространства Hk, составленное из всех векторов, для которых Очевидно, что на подпространствах Н+ и Н_ квадратичная форма (х, х) не вырождается. Очевидно также, что каждый вектор х из Hk однозначно разлагается в сумму х = х_-\- х+, где *-€#_, х+£Н+. Положим х_ — ф_ (л:), х+ = ф+ (х). Отображения ф_ и ф+ линейны и непрерывны, их ядра равны соответственно tf, и #_. (B) Пусть Р — подпространство пространства Hk, на котором квадратичная форма (х, х) неположительна, т. е. для всякого х£Р (х, х)^0у тогда размерность подпространства Р не превосходит числа k. Из этого непосредственно вытекает равенство (5). Из (х, х) ^ 0 следует, что пересечение Р с Н+ содержит только нуль, а следовательно, при отображении ф_ подпространство Р отображается линейно, непрерывно и взаимно однозначно на некоторое подпространство из Н_. Таким образом, размерность подпространства Р не превосходит размерности пространства #_. (C) Пусть Р_—некоторое подпространство пространства Н_ и Р +—некоторое подпространство пространства Н+, а Р — прямая сумма подпространств Р_ и Я + , Р = Р- + Р+> тогда Р изоморфно некоторому подпространству #*,, описанному в определении 1. Пространство H'k, построим так, чтобы размерность //'_ равнялась размерности Я_, а размерность Н'+ равнялась размер-
54 5. ЭРМИТОВЫ ОПЕРАТОРЫ ности Я + , тогда пространства Р_ и Н'_ изоморфны между собой; точно так же пространства Р+ и Н'+ изоморфны между собой. Эти изоморфизмы, вместе взятые, порождают изоморфное отображение Р на H'k,. Лемма 1. Пусть Р—подпространство пространства Hk1 на котором квадратичная форма (х, х) не вырождается и имеет один и тот же знак г для всех своих векторов; тогда существует автоморфизм f пространства Hk, при котором подпространство Р переходит в Я8, /(Р)сЯе. Доказательство. Сведем сперва случай бесконечномерного Р к случаю конечномерного Р. Очевидно, что бесконечномерный случай может иметь место лишь при е=+ (см. (В)). Обозначим через Q пересечение подпространств Р и Н+. Так как Н+ — обычное гильбертово пространство, то Н+ можно разложить в прямую сумму ортогональных между собой подпространств Q и Н'+. Прямую сумму подпространств Н_ и Н\ обозначим через H'k, а пересечение Р' и Hk—через Р'. Очевидно, что Hk распадается в прямую сумму взаимно ортогональных подпространств H'k и Q. Из этого следует, что Р также распадается в прямую сумму взаимно ортогональных подпространств Р' и Q. Так как Р' имеет в пересечении с Н+ только 0, то размерность его не превосходит &, т. е. конечна. Квадратичная форма (х, х) на подпространстве Р' не вырождается и имеет знак +. Допустим теперь, что существует автоморфизм /' подпространства H'k, при котором /'(Р')сН'+. Определим автоморфизм / всего пространства Hk как совпадающий с /' на H'k и как тождественный на Q. Тогда f(P)czH+ и лемма доказана. Нам остается доказать ее для случая, когда Р имеет конечную размерность. Допустим, что Р имеет конечную размерность и обозначим через #+ подпространство ср+ (Р) гильбертова пространства Н+. Ортогональное дополнение подпространства Н\ в пространстве Н+ обозначим через R, а прямую сумму пространств Н_ и Н"+ — через H"k. Тогда Hk является прямой суммой взаимно ортогональных подпространств Щ и R, причем Щ конечномерно и содержит Р. Допустим теперь, что существует автоморфизм /" конечномерного пространства H'k\ при котором Р переходит в Щ. Автоморфизм / всего пространства Hk определим как совпадающий с f на Н'^ и как тождественный на R. Тогда /(Я) = Я8, т. е. лемма доказана. Таким образом, нам достаточно доказать ее лишь для случая, когда Hk имеет конечную размерность. Допустим, что Hk имеет конечную размерность. В этом предположении случаи е=+ и е = — вполне равноправны, и мы ограничимся рассмотрением лишь того, когда е=+. Положим ф_(Я) = Я1" и ф+(Я) = #+". Ортогональные дополнения подпространств Я1" и #+" в пространствах #_ и Н+ обо-
5. ЭРМИТОВЫ ОПЕРАТОРЫ 55 значим через S_ и S+. Пространство Hk распадается в прямую сумму двух взаимно ортогональных подпространств Я^," = Я1"4- Как и в двух предшествующих случаях, мы можем построить надлежащий автоморфизм сперва в подпространстве Щ',, а затем дополнить его тождественным автоморфизмом подпространства S. Таким образом, нам достаточно рассмотреть случай, когда Ф.(/>)=//_, ф+(Р)=я+: (6) В пространстве Р форма (ху х) является позитивно-дефинитной; если принять ее за основную метрическую, то форма (ф+ (х), Ф+ (х)) будет позитивно-дефинитной эрмитовой формой в пространстве Р. Выберем в пространстве Р нормальный ортогональный базис е(1\ е(2\ ..., е{г\ в котором эрмитова форма (ф+ (х), ф+ (х)) имеет канонический вид. Если 1ф\, то мы получаем (еи\ е{/)) = 0, (е(1\ е(1)) = 0у а отсюда следует, что и (е11\ е11)) = 0. Здесь eU) = = eil) + e?+) (см. (А)). В силу условия (6) векторы е{+\ ..., е(+} составляют ортогональный базис пространства Я+. В силу того же условия те векторы из е(_!\ ..., е*!\ которые отличны от нуля, составляют ортогональный базис пространства Я_. Линейное пространство, натянутое на пару векторов е(1> и е(1\ обозначим через Я(/). Пространство Hk распадается в прямую сумму взаимно ортогональных подпространств Я(1), ..., Н{г). Допустим теперь, что для каждого пространства HU) существует автоморфизм /(/), при котором fU) (eU)) — aU)e(i\ где а(/) — число. Определим автоморфизм / как совпадающий с /(/) на Я(/). Мы будем иметь f(P)czH+ — и лемма тем самым будет доказана. Таким образом, достаточно доказать ее лишь для случая, когда размерность Hk не превосходит двух. Одномерный случай вполне тривиален, остановимся лишь на двумерном. Итак, пусть #j имеет базис из векторов а и Ъ, причем (а, а) = = —1, (6, 6)=1, (а, Ь) = 0. Единичный вектор из Р обозначим через q, (q, q)=l. Через р обозначим ортогональный к <7 вектор, удовлетворяющий условию (/?, р) =—1. Очевидно, что р и q образуют базис пространства Н1. Искомый автоморфизм / пространства Я2 определим условиями f(p) = a, f{q) = b. Лемма 1 полностью доказана. Теорема 1. Пусть Q—некоторое подпространство пространства Hk, на котором квадратичная форма (х, х) не вырождается; тогда существует автоморфизм f пространства Hk, при кото- Ром Q переводится в прямую сумму подпространств Р_ и Я+, где Р_^Я_, Р+аН+.
56 5. ЭРМИТОВЫ ОПЕРАТОРЫ Из теоремы 1 непосредственно вытекает, что всякое подпространство Q пространства Hk с невырождающейся квадратичной формой (ху х) изоморфно некоторому пространству H'k, (см. определение 2). Доказательство. Если квадратичная форма (х, х) имеет один и тот же знак для всех векторов из Q, то утверждение теоремы 1 следует из леммы 1. Откидывая этот случай, построим в подпространстве Q максимальную систему е{1\ е{2\ ..., е{Г) векторов, удовлетворяющую условию (*<>, *«/>) =-6,,. (7) Так как в подпространстве Q имеются векторы х, для которых (х, х) < 0, то один вектор е(1), удовлетворяющий условию (7), всегда найдется. Если среди векторов x£Q, ортогональных к е(1), вновь существуют такие, что (х, х) < 0, то найдется и второй вектор е{2). В силу предложения (В) процесс этот не может продолжаться неограниченно и потому максимальная система векторов, удовлетворяющих условию (7), существует. Линейную оболочку максимальной системы е(1\ ..., е(г) обозначим через Q_. Квадратичная форма (х, х) на подпространстве Q_ не вырождается и имеет знак —; таким образом, в силу леммы 1 существует автоморфизм /', удовлетворяющий условию /' (Q_) = Положим f (Q) = Qf. Пересечение Q' и Н + обозначим через Я+. Ортогональные дополнения подпространств Р_ и Р+ в пространствах Н_ и Н+ обозначим через #1 и Н\. Теперь пространство Hk разложено в прямую сумму двух взаимно ортогональных подпространств (P_JrP'+) = Р' и (Н'__-]-Н'+) = Н'. Первое слагаемое Р' входит в Q', а потому Q' разлагается в прямую сумму пространства Р' и пересечения R пространств Q' и //'. Легко видеть, что на подпространстве R квадратичная форма (х, х) не вырождается и имеет знак + . Таким образом, в силу леммы 1 существует автоморфизм /" пространства #', при котором R переходит в Н'+. Определим автоморфизм /'", как совпадающий с /" на Н' и как тождественный на Р', Автоморфизм f'"f' = f будет искомым — и теорема 1 доказана. Теорема 2. Пусть Q—подпространство пространства Hkt на котором квадратичная форма (х, х) не вырождается, и Q' — ортогональное дополнение Q в Hk\ тогда на Q' квадратичная форма (х, х) также не вырождается и Hk распадается в прямую сумму подпространств Q и Q'. В частности, это означает, что возможно ортогональное проектирование из пространства Hk в подпространство Q. Сверх того, Q есть ортогональное дополнение Q'. Доказательство. В силу теоремы 1 существует автомор- физм / пространства Hk, при котором /(Q) = P = Р_ + Я+, причем
5. ЭРМИТОВЫ ОПЕРАТОРЫ 57 р_с:Я_, Р+сН+. Ортогональные дополнения подпространств Р_ и р+ в подпространствах Н_ и Н+ обозначим через Pi и Р'+. Тогда пространство Hk распадается в прямую сумму взаимно ортогональных подпространств Р и Р' = PL + P'+. Очевидно, что на Р' квадратичная форма (х, х) не вырождается. Автоморфизм /_1 переводит подпространство Р в Q, а подпространство Я' — в некоторое Q' и Hk = Q^-Q'. Теорема доказана. § 2. Линейные операторы в пространстве //* Так как линейное пространство Hk является банаховским, то нет надобности для него определять понятия линейного функционала и линейного оператора; нужно только заново просмотреть те факты теории операторов в гильбертовом пространстве, которые связаны с понятием скалярного произведения. Здесь обнаруживаются некоторые существенные отличия, составляющие основной интерес. Тождественный оператор будем обозначать через £, Ех = х. Область определения Q линейного оператора Л будем всегда считать всюду плотной в Hk. Линейный оператор А будем называть симметрическим, если для всяких двух векторов х и у из его области определения (Ах, у) = {х, Ау). (1) В отличие от обычной теории, симметрический оператор в Hk может иметь комплексные собственные значения, а также непростые элементарные делители. Число тех и других связано сильными ограничениями с числом k благодаря соотношению (В)§ 1. Говорят, что вектор х принадлежит собственному значению X оператора Л, если существует натуральное число г, при котором (А—ХЕ)гх = 0. (2) Множество всех векторов, принадлежащих собственному значению X оператора Л, составляет линейное многообразие в Hk, и называется собственным многообразием числа X для оператора А. (А) Пусть Хфц; тогда векторы х и у, принадлежащие собственным значениям X и \х симметрического оператора Л, ортогональны между собой, или, что то же самое, собственные много- рбразия Sk и S^ ортогональны между собой. В частности, когда '-'--|д, причем X комплексное, собственное многообразие Sk ортогонально самому себе, т. е. квадратичная форма (х, х) обращается на нем тождественно в нуль и, следовательно, размерность S^ не превосходит k (§ 1, (В)).
58 5. ЭРМИТОВЫ ОПЕРАТОРЫ По предположению (А— ХЕУх = 0, (A—iiE)sy = 0. (З) Требуется доказать, что (ху у) = 0. Будем доказывать это предложение индуктивно по числу г + s; считая, что г^О; s^O. Для r-fs = 0 оно очевидно. Положим (А — Щх = х'9 (4) (A-[iE)y = y'. (5) Тогда в силу (3) (А — Щ'^х'^О, (A — \iE)sy = Oy (6) (А — Щгх=0, (А —\iEy-1 у' = 0. (7) В силу предположения индукции из (6) следует {х'\ у) = 0у а из (7) вытекает (х, у') = 0. Умножая соотношение (4) справа ска- лярно на уу а соотношение (5) слева скалярно на ху получаем ((А-Щх, у) = (х', у) = 0у (8) (х, {А-рЕ)у) = {х9 у') = 0. (9) Вычитая (9) из (8) и принимая во внимание симметрию А, получаем (X—{!)(*, у) = 0у т. е. (х, у) = 0. Предложение (А) показывает, что собственное многообразие комплексного собственного значения X является конечномерным пространством. Этого нельзя утверждать относительно действительного собственного значения а, однако оказывается, что непростые элементарные делители сосредоточены в конечномерном подпространстве многообразия Say а число их и порядки ограничены в зависимости от числа k. (В)1) Пусть Sa — собственное многообразие действительного собственного значения а замкнутого симметрического оператора А в пространстве Нк. Тогда Sa замкнуто в Hk и его можно разложить в прямую сумму двух взаимно ортогональных инвариантных относительно А подпространств S и S'; где S имеет конечную размерность, а S' составлено из собственных векторов оператора А, причем квадратичная форма (х, х) не вырождается и положительна на S', так что S' есть гильбертово пространство. (Заметим, что если Sa само имеет конечную размерность, то можно считать, что S = Sa.) На конечномерном подпространстве S оператор А имеет еле- дующие свойства. Обозначим элементарные делители оператора А на S через Dly D2, ..., Dr, а их порядки—соответственно через dly d2y ..., dn тогда число непростых элементарных делителей ) Предложение (В) и теорема 3 в дальнейшем не используются.
5. ЭРМИТОВЫ ОПЕРАТОРЫ 59 каждого данного порядка является инвариантом оператора А и числа а. Далее, если положить г р(а) = £,[т-]> Ц-j-l—целая часть от -±\, (10) то существует в S подпространство Ра размерности р(а), на котором квадратичная форма (х, х) тождественно обращается в нуль и, следовательно, р(а)<й (§ 1, (В)). При доказательстве предложения (В) мы будем считать, что а = 0. Это не налагает никаких ограничений, просто вместо симметрического оператора А следует рассматривать симметрический оператор А — аЕ. Если Sa = S0 имеет конечную размерность, то положим S = S0. Если S0 бесконечномерно, то обозначим через Sc0 множество всех векторов х из S0, для которых А'х — 0. Имеем S£czSJ+1, f=l, 2,... Пусть PaQ—два линейные многообразия; индексом PbQ будем называть максимальное число векторов из Q, линейно независимых относительно Р. Если индекс PbQ конечен и равен г, то в Q существует линейное многообразие R размерности г такое, что Q распадается в прямую сумму Р и R, Q = P + R. Покажем, что индекс So в Sl0+1 не превосходит k и, следовательно, конечен. Пусть R—такое линейное многообразие из S0+1, что пересечение S[ и R содержит лишь нуль. Тогда A'RaSl, причем отображение А1' линейно и взаимно однозначно на Ry так что AlR имеет ту же размерность, что R. Пусть, далее, у £R и xgSJ. Тогда (х, А'у) = (А% у) = (0, у) = 0 и, следовательно, пространство SJ ортогонально к Al'R. Так как A'RaSl, то, в частности, A'R ортогонально самому себе и потому размерность AfR не превосходит k (§ 1, (В)). Пусть t — натуральное число такое, что SJ-1 отлично от S0. Обозначим через Ri конечномерное пространство из Sf0 такое, что StQ = St0~1JrRt0. Тогда отображение А взаимно однозначно на Ri и пересечение SJ-2 и ARi содержит лишь нуль. Благодаря этому SJf1 можно так разложить в прямую сумму S^1 = SJ~2-f/?J_1, что ARiaRi'1. Продолжая этот процесс дальше и полагая /?J = SJ, получим такую последовательность Ri, Ro> • • • » Ro> U Ч что Si является прямой суммой членов последовательности (11), причем ARlcRir1, * = 2, 3, ..., t.
60 5. ЭРМИТОВЫ ОПЕРАТОРЫ Положим Л''/?|'=<& 1=1, 2, ..., [у|. Тогда Q0 <=#;>. Из этого следует, что можно составить прямую сумму: JP'o = QS+QS+.-+Qo,-2-i- Покажем, что на Я0 квадратичная форма (х, х) тождественно равна нулю. Для этого достаточно показать, что пространства Q0 и Q0 ортогональны между собой при произвольных i и /, не превосходящих у • Будем считать, что i ^ /, и пусть x£Ql0y y£ Qy0. Тогда х = А'х', y = AJy' и (х, у) = (А*'х', А'у') = (А''+'х', у') = (0, у') = 0. Таким образом, размерность Я0 не превосходит k и, в частности, мы видим, что t^2kJr 1. Таким образом, последовательность SJ, Sq, .. ., SJ, . . . стабилизируется на конечном номере, и мы можем считать, что за t принято максимальное число, для которого Si не совпадает с SJ-1. Если индекс SJ-1 в Sj обозначить через rS, то размерность Ri равна rj, и мы получаем в многообразии S0 подпространство Pi размерности р = rl+ г\+ • • • Л-Л • • • Л- г\1 -| ... -| r0 l 2 J, причем на Я$ квадратичная форма (*, л:) тождественно равна нулю. Пусть х1—вектор из R\, не принадлежащий к ARl0+1. Тогда векторы х'\ Ах1', . . ., А1'~1х1' линейно независимы. Линейную оболочку этих векторов обозначим через Nxi. Очевидно, что пространство Nxi инвариантно относительно А, и А имеет на Nxi единственный элементарный делитель порядка i. Пусть х'\ у1', z1', ...—максимальная система векторов из Ri, линейно независимых относительно ARl0+1] тогда совокупность всех пространств вида Nxt, Nyi4 Nz, ..., i=l, 2, ..., t составляет разложение в прямую сумму пространства S0. Из этого видно, что число элементарных делителей порядка i преобразования А пространства S0 равно ri — rl0+1 = pl0. Из последнего следует г*о = р1о + р10+1+ ...+pi Таким образом, Р = £ |у \р°> i = 2 L J что совпадает с соотношением (10). До сих пор доказательство велось без предположения замкнутости А. Здесь благодаря тому, что размерность S0 может быть
5. ЭРМИТОВЫ ОПЕРАТОРЫ 61 бесконечной, употребление понятия элементарных делителей представляется не вполне обоснованным, хотя, конечно, при той сравнительно простой структуре, которую имеет оператор А на S0, теорию элементарных делителей можно было бы развить без большого труда. Допустим теперь, что оператор А замкнутый. Так как SJ составлено из собственных векторов оператора А для собственного значения 0, линейное многообразие SJ замкнуто и является подпространством пространства Hk. Ввиду того что индекс S\ в S0 конечен, многообразие S0 также является подпространством в Н\. Выберем теперь в Hk какие-либо координаты и обозначим через S' пересечение SJ с Н+. Очевидно, что квадратичная форма (л*, л') не вырождается на S' и имеет постоянный знак +, ибо так обстоит дело для Н+. В силу теоремы 2 пространство Нк разлагается в прямую сумму подпространства S' и некоторого подпространства H'k. Если обозначить через S пересечение S0 с H'k, то очевидно, что S0 = S-\- S'. Так как S' инвариантно относительно преобразования А, именно AS' = {0}, то и пространство H'k также инвариантно относительно А, а отсюда следует и инвариантность S. Теперь мы можем провести для S все построения, проведенные ранее для S0. Важным различием является лишь тот факт, что размерность S1 конечна, ибо пересечение S1 с Н+ содержит лишь нуль. Так как индекс S1 в S конечен, то и размерность всего S тоже конечна. Ввиду этого применение элементарных делителей к пространству S не требует теперь уже никаких дополнительных разъяснений, и полученные выше для S0 соотношения, примененные к S, дают полное доказательство предложения (В). Итак, предложение (В) полностью доказано. Суммируя результаты, данные в (А) и (В); мы можем сформулировать теорему. Теорема 3. Пусть X—собственное значение симметрического оператора А\ действующего в пространстве Нk. Если X невещественно, то через р(Х) обозначим размерность собственного многообразия числа X. Если X вещественно, то через р(Х) обозначим число, введенное в (В). При вещественном X число р(Х), очевидно, равно нулю, если все собственное многообразие его составлено из собственных векторов, т. е. в том случае, когда все элементарные делители, принадлежащие к собственному значению X, просты. Выберем теперь произвольную систему собственных значений Хх, Х2, ... • • •, Хп такую, что она не содержит двух сопряженных между совой. В частности, за эту систему можно взять совокупность всех собственных значений с неотрицательной мнимой частью. Тогда p(bi) + p(b2)+...-fp(X„)<*. Доказательство. При комплексном А, обозначим через Яд, собственное многообразие числа X. При вещественном X за Рк
62 5. ЭРМИТОВЫ ОПЕРАТОРЫ примем то пространство, на котором в силу (В) квадратичная форма (х, х) тождественно обращается в нуль. Тогда размерность ЯЛ равна р(^). Прямая сумма всех пространств Я^, К = Х19 ^2> • • •> ^«» дает некоторое пространство Я, на котором квадратичная форма (х, х) тождественно обращается в нуль, ибо в силу (А) и (В) каждое Р^ ортогонально каждому /V, включая и случай i = j. Таким образом, в силу предложения (В) § 1, размерность Р не превосходит k. Итак, теорема 3 доказана. Для пространства Hk теорема 3 заменяет предложение о том, что симметрический оператор в гильбертовом пространстве имеет только действительные собственные значения и допускает лишь простые элементарные делители. Дадим теперь определение эрмитова оператора применительно к пространству Нп, сделав предварительно некоторые замечания. (C) Если L—линейный функционал, действующий в пространстве Hky то существует такой вектор / из Hk, что Lx = (x, I) при любом x^Hk. Так как линейные операции и сходимость определены в Hk точно так же, как в гильбертовом пространстве, то существует последовательность чисел 1[, ..., Гку Гк+1, ... со сходящейся суммой квадратов модулей такая, что Lx = x1l'1+ ... -}- xkrk + xk + 1l'k+1+ ... (12) при произвольном x£Hk. За координаты вектора / примем теперь числа —Г1У ..., —l'k, -Mifen» ... Тогда соотношение (12) запишется в форме Lx = (x, I). (D) Говорят, что последовательность х1, х2, ..., хп, ... элементов из Hk слабо сходится к х, хп —>ху если \'\т(хп, у) = П -*- со = (х, у), или, что то же, lim (у, хп) — (у,х) при всяком у^Ни. П -*■ со Так же как и в случае гильбертова пространства, для слабой сходимости достаточно выполнения одного из указанных соотношений при у£М, где М—множество, всюду плотное в Hk. Определение 3. Пусть А—линейный оператор в Hk с всюду плотной областью определения Q и y£Hk. Может случиться, что для всякого x£Q имеет место соотношение {Ах, у) = (х, г). (13) Множество всех у, удовлетворяющих условию (13), обозначим через Q* и положим z = A*y. Так как множество £2 всюду плотно в #£, то соотношение (13) однозначно определяет z и потому А* является линейным оператором с областью определения Q*. Оператор А* называется сопряженным с А. Если А* = Л, т. е. Q* — Q и А*х = Ах для всякого хg Q, то оператор А называется эрмитовым.
5. ЭРМИТОВЫ ОПЕРАТОРЫ 63 (E) Пусть А—эрмитов оператор с областью определения QaHk и у1, У2, • • • > Уп> • • • —такая последовательность элементов из Q, что уп-+У, Ayn-+z (см. (D)); тогда y£Q и Ау = г. Для всякого х£ Q (Аху у)= П(П (Axt yn)= liin (ху Ау") = (ху г), п -*■ со п. -* со т. е. (Ах, у) = (ху z), и в силу того, что оператор А—эрмитов, это означает, что y£Q, Ay = z. Как обычно, линейный оператор Л, действующий в Нк, будем называть непрерывным, если область его определения совпадает с Нк и из хп^>х следует Ахп^>Ах (=> означает сильную сходимость). (F) Непрерывный эрмитов оператор Р будем называть проектирующим, если Р2 = Р. В предположении, что Р — проектирующий оператор, обозначим через Н' множество всех векторов вида Рху где х£Нк. Оказывается, что Н' является подпространством пространства Нк, на котором квадратичная форма (ху х) не вырождается. Ортогональное дополнение к Н' в Hk обозначим через Н"\ тогда, при х' £Н'', х"£Н"у имеем Рх' = х'9 Рх" = 0. (14) Очевидно, что условиями (14) оператор Р определен однозначно через пространство Н'. Если исходить из заданного подпространства Н' с невырождающейся квадратичной формой (ху х) и обозначить через Н" его ортогональное дополнение, то соотношения (14) определяют проектирующий оператор Я. Проектирующий оператор Р и подпространство Н' будем, называть взаимно соответствующими. Множество //', определенное как совокупность всех векторов вида Рх, очевидно, является линейным многообразием в Hk, но оно также и замкнуто. Действительно, если х£Н\ то Рх = ху и, наоборот, если Рх = ху то х£Н'. Таким образом, Н' можно определить как совокупность всех векторов х£НкУ для которых Рх = ху а это соотношение, в силу непрерывности оператора Р, определяет замкнутое множество в Нк. Покажем теперь, что на Н' квадратичная форма (ху х) не вырождается. Если h£H' — такой вектор, что при произвольном х£Н'у (ху h) = 0, то при произвольном векторе у £ Нк {У, h)=^(yy Ph) = (Pyy h) = (xy ft)-0. Так как на пространстве Нк квадратичная форма (х, х) не вырождается, то h = 0. Ортогональное дополнение к Н' в Нк обозначим через Н". Если хГ$Н" и х£ Нк, то (Рх"у х) = (х", Рх) = О, т. е. Рх" = 0. Наоборот, если Рх = 0 и *'€#', то (хух') = (ху Рх') = ^(Рх, х') = 0у т.е. х£Н". Таким образом, подпространство Н"
64 5. ЭРМИТОВЫ ОПЕРАТОРЫ определяется как совокупность всех векторов х из Hk) для которых Рх = 0. Если Я' есть подпространство пространства Hk) на котором квадратичная форма (х, х) не вырождается, и Н"—ортогональное дополнение Я' в Hki то соотношения (14), очевидно, определяют проектирующий оператор. Теорема 4. Пусть А —эрмитов оператор с областью определения QaHky H"aQ—некоторое конечномерное подпространство пространства Hk с невырождающейся квадратичной формой (х, х) и Я' — ортогональное дополнение Я" в Hk. Через Р обозначим проектирующий оператор, соответствующий подпространству Я'. Тогда оператор В = РАР тоже эрмитов и имеет своей областью определения Q. Если оператор В рассматривать на подпространстве Я', то на нем он тоже является эрмитовым и имеет своей областью определения Q'= Q{\H'. Доказательство. Все относящееся к Я' будем отмечать значком ', а относящееся к Я" значком ". Таким образом, оператор В, рассматриваемый на Я', будем обозначать через В'. Так как Н"а£1, то Q = H"+Q'. Из этого и из того, что Q всюду плотно в Hkf следует, что Q' всюду плотно в Я'. Областью определения оператора В' является множество Q' Покажем, что сопряженный к В' оператор В'* имеет ту же область определения и совпадает с В' на ней. Этим самым будет установлена эрмитовость оператора В' в Я'. Пусть у'—такой вектор из Я', что при произвольном х' £ Q' (BV, у') = (х\ г'). (15) Из этого соотношения следует (РАРх\ у') = (Ах'у у') = {х\ г'). (16) Если / ^ Я", то {Ах", у') является линейным функционалом вектора х" в Я", ибо H"aQ. Таким образом, (Ах\ у') = {х\ z) (см. (С)). (17) Складывая (16) и (17), получаем (Л (*' + *")> //')-(*' + *", г' + г"). Иначе это можно переписать в виде (Ах, у') = (х, г), где х — произвольный вектор из Q. В силу эрмитовости оператора А из последнего соотношения следует у' £ Q''. Тогда из (15) вытекает (В V, у') = (РАРх\ у') = [х\ РАРу) = (х\ В'у') и, следовательно, эрмитовость оператора В' доказана. Рассмотрим теперь оператор В. Областью его определения, как легко видеть, является Q. Пусть у—такой вектор из Hkf что для произвольного x£Q имеем (5л:, у) = (х, z). Иначе это
5. ЭРМИТОВЫ ОПЕРАТОРЫ 65 можно переписать так: (РАР(х' + хГ)ъ у' + у") = (Ах\ у') = {х\ z')+(x", г"). При у" = 0 мы получаем соотношение (16), из которого мы уже раньше вывели, что у'£&\ но так как Н"аО>, то у —у' + у £ Q. Из этого, далее, следует (Вх, у)=(РАРх, у) = (х, РАРу) = (х, By). Таким образом, теорема доказана. § 3. Эрмитовы операторы в пространстве Hk В этом параграфе устанавливается главное специфическое свойство эрмитова оператора в Hk (k > 0) — существование собственных значений (см. основную теорему). При проведении доказательства основной теоремы некоторые детали его, характера лемм, будут помещены не впереди доказательства, а после него, для того чтобы основной ход рассуждений сделать более отчетливым. Основная теорема. Пусть А —эрмитов оператор с областью определения QaHk. Тогда в Hk существует инвариантное подпространство I размерности k, квадратичная форма (х, х) на котором неположительна, т. е. для каждого х£1, (х, х)^0 (см. определения \ и 3). Сверх того, все собственные значения оператора 1А в I имеют неотрицательную мнимую часть. Доказательство. В пространстве Яд, выберем такие координаты, при которых Н_ содержится в Q. Это всегда можно сделать. Действительно, допустим, что в Hk взяты произвольные координаты и е[, ёъ, ..., ek—базис пространства //'_ при этих координатах. Так как Q всюду плотно в Hk, то для каждого вектора ер найдется сколь угодно близкий к нему вектор e'p£Q. Линейную оболочку векторов е\, el, ..., е\ обозначим через Н_. Ввиду близости каждого вектора е"р к ер квадратичная форма (х, х) не вырождается на Н_ и имеет постоянный знак минус. Ортогональное дополнение к Н_ обозначим через Н +. Выбирая в Н_ и Н + произвольные ортогональные координаты, мы получим желаемую систему координат в Hk. Нормальный ортогональный базис в Н_ составим из некоторых векторов ех, е2, . . ., ek. Итак, (ер, eQ) = -8pq, ep£Q, p=\, 2, ...,£; <7=1, 2, ..., k. (1) В основу всего дальнейшего построения будет положено расщепление пространства Hk в прямую сумму Н_ + Н+. В соответствии с этим каждый вектор из Hk запишем в форме k с+х=^срер + х, с£Н_, х£Н+. (2)
66 5. ЭРМИТОВЫ ОПЕРАТОРЫ Проектирующие операторы, соответствующие подпространствам //_ и #+, обозначим через Р' и Р (см. § 2). Пусть F = P'AP', V = PAP. (3) Здесь F—эрмитов оператор, действующий в #_, а V—эрмитов оператор, действующий в #+, область определения которого Q' — Q()H+ (см. теорему 4). Мы имеем А = (Р + Р') А {Р + Р') = V + F + РАР' + Р'АР. (4) В силу (4) к Aep = Fep — up=^fpleil — up, up£H+, (5) Ax = Vx+P'Ax, P'Ax = y£H_, хёЯ+. (6) Вектор у, принадлежащий //_, можно записать в форме к У= 2 —(У, ер)еру (7) р=-\ что проверяется умножением справа на ец (см. (1)). Эрмитовость оператора А дает (Ах, ер) = (х, Аер). На основе соотношений (5) и (6) последнее можно переписать так: Ол еР) = — (*. Up). Таким образом, соотношение (6) получает вид к Ax=Vx+ 2 (*. uP)eP. (8) Объединяя (5) и (8), мы на основе (2) окончательно получаем k k k А (С + X) = 2 fpiCpeq + 2 (X, Uq) вд + Vx— 2 CpUp. (9) p,q-\ q-\ p-\ Поставим теперь перед собой задачу отыскания собственного вектора с+ х оператора Л, А (с+ х) = Х(с + х). Это соотношение в силу (9) можно записать так: k 2 fPlcP+(x, u) = )x , (10) р=\ k Vx — 2 cpup = Xx. (11) Будем пытаться решить систему уравнений (10) и (И). Для этого введем в рассмотрение резольвенту Rx эрмитова оператора V в пространстве Н + . Резольвента эта определена для всех комплексных (недействительных) значений X, так как Н+ представляет собою обычное гильбертово пространство, а V—обычный эрмитов
5. ЭРМИТОВЫ ОПЕРАТОРЫ 67 оператор, действующий в нем. Приводимые ниже вычисления носят эвристический характер —и потому не нужно смущаться размышлениями о том, имеют ли они смысл при всех входящих в них значениях величин. Уравнение (И) перепишем в виде k х = 2 cpRKup. (12) р= 1 Подставляя выражение для х из последнего в (10), получаем k k 2 fPjcp+ 2 (RkUp, uq)cp = U . (13) Неизвестными в этом уравнении являются X и координаты с1У с>, . . ., ск вектора с. Операторная функция R^ параметра X, векторы и19 и2, . . ., uk и матрица \\fpq\\ определяются оператором А и выбором координат в Hk. В отношении чисел с19 с2, . .., ck уравнения (13) представляют собой систему однородных линейных уравнений, и, для того чтобы она имела нетривиальное решение с=Ф0у необходимо, чтобы детерминант этой системы обращался в нуль, т. е., чтобы |/м + (Я*и„ и,)-А.6„| = 0. (14) Если последнее уравнение имеет невещественное решение X, то оператор Ri определен для каждого вектора из Н+ и, в частности, для всех векторов и19 и2, . . ., uk. В этом случае все вычисления можно обратить, и мы найдем собственный вектор с+х, сфО, оператора А с невещественным собственным значением X. Наоборот, если оператор А имеет собственный вектор с +х с невещественным собственным значением X, то все проделанные нами выкладки имеют смысл и вектор с отличен от нуля, так как вектор х, имеющий положительный квадрат (х, х), не может быть собственным для комплексного собственного значения X (§ 2, (А)). Таким образом, если оператор А имеет невещественное собственное значение, уравнение (14) им действительно удовлетворяется. Легко привести пример эрмитова оператора А даже в конечномерном пространстве Hk, все собственные значения которого вещественны. Таким образом, уравнение (14) может вовсе не иметь комплексных решений. Вместо уравнения (14) мы будем рассматривать уравнение \fPq + (RtMp* uq)+tspq — X6pq\=:0f \\epq\\ = Ey (15) где Е — позитивно-дефинитная эрмитова матрица. Ниже будет показано (см. лемму 1), что уравнение (15) имеет ровно k корней с положительной мнимой частью. Корни эти могут быть, однако, кратными, и потому вместо уравнения (15)
68 5. ЭРМИТОВЫ ОПЕРАТОРЫ мы рассмотрим уравнение \gPil-\ (Riupi и^)-\ iepf — X8Pil\ = 0, (16) где G = \\gpq\\, так же как ранее F, — эрмитова матрица. Ниже будет показано (см. (А)), что можно найти матрицу G, произвольно близкую к матрице F', и произвольно малую матрицу Е, так что уравнение (16) уже не имеет кратных корней с положительной мнимой частью. Корни уравнения (16) обозначим через Хг, Х2, ..., %k\ все они различны и имеют положительную мнимую часть. Рассмотрим теперь систему уравнений, аналогичную (13): k k k 2 gPlfP + 2 (RxUp* иц) cp+i^ zPqCp = Kcr (17) р-\ р-1 р-\ Система эта имеет нетривиальное решение относительно вектора с, которое мы обозначим через fr. Координаты вектора fr пусть бУДУт frt, />2> • • •, frh- Введем далее вектор k yr=^Rxvn vr= 2 f'r Up. (18) r p=\ p Последнее имеет смысл, так как Хг невещественно. Связи между введенными величинами мы можем теперь записать так: Gfr + 2 (RiVr, «,) ед 4- iEfr = X,f„ (19) Gfr + 2 (Уп и„) е„ + iEf, = Kfn (20) Vyr+ 2 (Л. ер)ир = к,Уг- (21) Системы уравнений (19) и (20) при учете уравнения (21) равносильны. Дальнейшая наша задача заключается в том, чтобы, переходя к пределу при Е —* 0 и G —► F, получить из векторов fr -f уп г=1, 2, ..., k, инвариантное подпространство/. Для дальнейших вычислений потребуются следующие основные свойства резольвенты эрмитова оператора в гильбертовом пространстве: RK — RiL = (b-V)RbRv, (22) (Rxx, у) = (х, R^y), так что (R^x, y) = (R-yy x). (23) Умножая соотношение (19) справа скалярно на вектор fs, получаем (Gfn fs)-(Rirvr> Vs) = K(fn fs)-i(Efn fs)- (24)
5. ЭРМИТОВЫ ОПЕРАТОРЫ 69 Заменяя в соотношении (19) индекс г индексом s и умножая полученное слева скалярно на вектор /г, мы на основании (23) находим (/„ О/,) -(R-kvr, vs) =1, (f„ fs) + i (f„ Efs). (25) Вычитая из соотношения (25) соотношение (24), получаем ((Rxr-Rxs) vr, vs) = - (K-X) (fr, fs) "I- 2i (Ef„ fs). (26) В силу (22) и(23) (R,vr, Rxtvs) = -(frt fs) + I^—(Efr, fs). (27) Последнее соотношение можно переписать в виде (Уп Уз) = - (/„ fs) ЬхДг, (£^- f^ (28) Соотношение (28) во всем дальнейшем играет основную роль. Перепишем его в несколько иной форме. Пусть dly d2, ..., dk — произвольные комплексные числа. Положим k k d=I>drfr, Yd=2dryr. (29) Г- 1 Г- 1 Здесь Y пока еще не оператор, так как Yd не определяется самим вектором d, но задается числами du d2, ..., dk1 которые, быть может, не определяются вектором d, ибо мы еще не знаем, что векторы /1э /2, . . ., fk линейно независимы. Умножая соотношение (28) на drds и суммируя по г и s, получаем (Yd,Yd) = -(d,d) + 2 -гЛ=-(Edrf„ djs). (30) r, s= 1 Kr — Ks Ниже будет показано (см. (В)), что при тех предположениях, которые нами сделаны относительно входящих в рассмотрение величин, имеет место неравенство k к % —L—(Edrfr,dsfs)<-62dJ, (6>0). (31) г, s= 1 Аг — А$ г— 1 Покажем теперь, что векторы /\, f2y . .., fk линейно независимы. Допустим противоположное. Тогда существуют такие числа ^l» d2, ..., dky не обращающиеся одновременно в нуль, что d —0 и в этом случае из (30) и (31) вытекает невозможное неравенство k __ {Yd, Yd)<—28%drdr. (32) r=\ Ввиду линейной независимости векторов /\, /2, ..., /^всякий вектор d из Н_ может быть выражен в форме (29), причем числа
70 5. ЭРМИТОВЫ ОПЕРАТОРЫ dx, d2, ..., dk однозначно определяются вектором d. В силу этого Y есть линейный оператор, определенный на пространстве Н_ . Так как Yd£H, и Н+—обычное гильбертово пространство, то \\Yd\\2 = (Ydy Yd). Вследствие того что d£#_ и Н_—конечномерное пространство с невырождающейся отрицательной квадратичной формой (d, d), то |d|2 = — (d, d). Из соотношений (30) и (31) мы получаем ||7d||<||d||. (33) Пользуясь оператором У, перепишем по-новому соотношение (20). Для этого помножим его на dr и просуммируем по г: к к Gd + 2 (Yd, u„) eq -\ iEd = 2 Wr- (34) q-\ r-1 Стоящее в правой части последнего соотношения выражение линейно зависит от чисел du d2, . . ., dk, и мы будем трактовать его как результат применения оператора Л к вектору d: Ad= 2МЛ. Nr = Kfr- (35) г- 1 Оператор Л дает отображение пространства Н_ в себя. Соотношение (34) переписывается теперь в виде к Gd J- 2 (Yd, uq)eq+iEd = Ad. (36) q=l Из соотношений (33) и (36) следует важное неравенство: \\-\d\\<C\\d\\. (37) Здесь положительная константа С при заданном операторе А и выбранных в Нк определенных координатах зависит лишь от матриц С и £, но остается ограниченной, когда элементы этих матриц ограничены. Из (35) следует, что собственные значения Л равны Х1У Л2, ... . . ., Хк, числа же эти все имеют положительную мнимую часть. Пользуясь операторами У и Л, мы можем записать соотношение (21) в виде VYf,+ 2{f,eP)up = YAfr. (38) Умножая последнее на dr и суммируя по г, получаем к VYd+ 2 (d, ep)up = YAd. (39) Вспомним теперь, что построенные нами операторы Y и Л зависят от матриц G и £, значения которых до сих пор почти
5. ЭРМИТОВЫ ОПЕРАТОРЫ 71 ничем не были ограничены. Выберем последовательность значений £(1\ •••> Е{п)> ••• матрицы £, сходящуюся к нулю, и такую последовательность матриц G(1), . . ., G(n), . . ., сходящуюся к F, чтобы уравнение (16) не имело кратных нулей в верхней полуплоскости переменного X ни при каком п. Соответственные значения операторов Л и У обозначим через Л(п) и Y{n). Неравенство (33) показывает, что норма вектора Y{n)ep меньше единицы, а потому из последовательности Yin)ep, n= 1, 2, можно выбрать слабо сходящуюся. Точно так же в силу неравенства (37) из последовательности векторов А{п)ер, /г=1,2, ..., можно выбрать сходящуюся подпоследовательность. Так как векторов ер имеется ровно fe, то, производя последовательные выборки, мы придем к такой подпоследовательности пи л2, ..., пт, ... натурального ряда 1, 2, ..., для которой Yknm)ep _> Zep, №"*ep -> Мер. (40) Ввиду того что векторы е19 е21 . .., ек составляют базис пространства //_, соотношения (40) можно записать в виде y<"*>d—*Zd, A<"*>d-*Afd. (41) Так как все собственные значения оператора Л имеют положительную мнимую часть, то предельный оператор М имеет собственные значения с неотрицательной мнимой частью. Ввиду того что оператор Y удовлетворяет неравенству (33), предельный оператор Z также удовлетворяет неравенству ||Zd|K||d|| или — (d, d) + (Zd, Zd) < 0, (42) хотя и имеет место лишь слабая сходимость. Теперь в соотношениях (36) и (39) можно произвести предельный переход. В соотношении (36) скалярное произведение сходится при слабой сходимости первого вектора, а остальные члены не вызывают сомнения. В соотношении (39) все члены, кроме У Yd, очевидно, сходятся, а потому и VYd слабо сходится к некоторому вектору. Таким образом, в силу (Е) § 2 оператор V определен из вектора Zd и слабый предел VYd равен VZd. Итак, k Fd+ 2 (Zd, uq)eq = Md, (43) k VZd Л- 2 (d, ep)u =ZMd. (44) p=\ В силу (9) A(d+ Zd) = Md + ZMd. (45)
72 б. ЭРМИТОВЫ ОПЕРАТОРЫ Множество / всех векторов вида d-\-Zd, где d£#_, составляет, как легко видеть, fe-мерное подпространство пространства Hk. Из неравенства (42) вытекает (d+Zd, d+Zd)<0. (46) Таким образом, квадратичная форма (х, х) на / неположительна. Соотношение (45) показывает, что подпространство / инвариантно относительно оператора А и рассматриваемый на нем оператор А эквивалентен оператору М. Следовательно, все собственные значения оператора А яг I имеют неотрицательные мнимые части. Итак, основная теорема доказана с точностью до трех отложенных на дальнейшее предложений. Перейдем теперь к их доказательству. Лемма 1. Пусть R^—резольвента некоторого эрмитова оператора V, действующего в гильбертовом пространстве Н, и1У и2, ..., uk — произвольная конечная система векторов из Н, G = = 11^1, Е —1|еря||, (/?, q)=l, 2, ..., fe,—эрмитовы матрицы, последняя из которых позитивно-дефинитна. Тогда уравнение \gP4+(R*.up, uq)+iepq-X8pq\^0 (47) относительно X имеет ровно k корней с положительной мнимой частью. Доказательство. Пусть а—действительное число, удовлетворяющее неравенству O^a^l. Рассмотрим уравнение \gpP+{R*.Up, uq)a+ iepq — X8pq\ = 0. (48) При а=1 уравнение это совпадает с (47), а при а = 0 получает вид \ispq — Х8д/}\ = 0. Это последнее имеет k нулей в верхней полуплоскости. Доказательство будет заключаться в непрерывном переходе от последнего уравнения к уравнению (47). Положим X = \i+iv. Пользуясь функциями оператора У, мы можем дать следующее выражение для резольвенты: Rk = Sk+iTXy S^=(K-(x£)2 + v«£» Tb==(V-lxE)* + v*E' (49) При v > 0 операторы Sx и 7\ ограничены, а последний из них позитивен. Относительно чисел с1У с2, ..., ck рассмотрим систему линейных уравнений k k а 2 gptfp -!- а 2 (skup> и) ср + + at 2 (Ткир, и)ср ' i 2 *Ptfip = W < tvcr (50) р=\ p=i
5. ЭРМИТОВЫ ОПЕРАТОРЫ 73 Если Я есть решение уравнения (48), то существует нетривиальное решение системы (50) —вектор с с координатами си с2, .. ., ck> удовлетворяющий условию ||с||=1. Положим к и= 2 cpup- (51) Умножая соотношение (50) на cq и суммируя по q, получаем a(Gc, c)-f a(S*w, и)-|-а/(7\и, u)-\ i(Ec, c) = ii+iv. (52) Выделяя мнимую часть из (52), находим v = a(7\H, и)+{Ес, с). (53) Таким образом, для корня уравнения (48) получаем v>(£c, c)> 8>0. (54) В силу известных свойств резольвенты, при v > е имеем (Rku,u)<-j при \Ц>р. (55) Здесь С—некоторая положительная константа, а р—достаточно большое число. Зададим теперь в плоскости переменного X область (/, определяемую условиями v > е, \Х\ < р'. Из соотношений (52) и (55) видно, что при достаточно большом р' все корни уравнения (48), лежащие в верхней полуплоскости, принадлежат области (/; в частности, они не попадают на ее границу. Это справедливо при любом а, удовлетворяющем условию O^a^l. Поэтому число корней уравнения (48), лежащих в области (/, не зависит от а. Число же корней верхней полуплоскости, расположенных вне (/, все время остается равным нулю. Из этого видно, что число корней уравнения (48), лежащих в верхней полуплоскости, совпадает с таковым же для уравнения \i&pq — Х8рд\ = 0, а для него число это равно k. Итак, лемма 1 доказана. Лемма 2. Пусть /?*,—резольвента эрмитова оператора, действующего в гильбертовом пространстве Я, и и1У и2, ..., ик,— произвольная система векторов из этого пространства, а М = = \\mpq\l (Р* <7)=1» 2, ..., k—произвольная матрица с комплексными элементами. Рассмотрим уравнение f(b) = \mpq+(R%Vp, Uq)-X8pq\ = 0. (56) Оказывается, что в пространстве всех матриц М существует всюду плотное множество матриц, для которых уравнение (56) не имеет кратных невещественных корней. Доказательство. Положим T(K)=\\(RKup, uq)-M,J. (57)
74 5. ЭРМИТОВЫ ОПЕРАТОРЫ Матрица Т (к) является аналитической функцией параметра X для всех его невещественных значений. Матрица эта не может быть константой, так как для некоторых значений матрицы М уравнение (56) имеет в верхней полуплоскости ровно к корней (лемма 1). Пусть %' — кратный корень уравнения (56) при М = М'. Разложим матрицу Т (к) в ряд по степеням параметра \i = (k— X'): T(X) = A + Bv,'+...+, A=\\apg\\, Я = |1М- (58) Здесь В— первый из коэффициентов степеней (i, отличный от нуля. Минор элемента mpq-\-apq матрицы М + А обозначим через Мрд, тогда разложение функции f(X) по степеням (i примет вид f(X) = D(M) + A(M)v.'+..., D{M) = \mpq + apq\, А(М) = 2 bpqMpq. (59) (P. <7=1) Здесь степени \i более высокие, чем г-я, не выписаны. D(M) и А(М) представляют собой полиномы относительно комплексных переменных—элементов матрицы М. Полином D (М), являющийся детерминантом, неприводим, и так как полином Л(М) не делится на полином D(M), то пересечение алгебраических многообразий D(M) = 0 и Л(Л1) = 0 нигде не плотно в многообразии D (М) = 0. Имеем D(M') = 0] если Л(М') = 0, то выберем матрицу M"\ произвольно близкую к М' и такую, чтобы D(M") = 0, А(М")фО. (60) Из (59) следует, что при М = М" уравнение (56) имеет г-кратный корень %'. При М = М' кратность корня X' могла быть только больше г; если она понизилась, то это значит, что некоторые корни сместились с точки %'. Существует теперь настолько малое положительное число е, что при М = М" в круге \Х—Х'|^е уравнение (56) имеет ровно г корней с учетом их кратности, а уравнение ^ = 0 ,61) ровно один корень. Корни уравнения (56) все совпадают с У; точно так же и корень уравнения (61) равен V. Положение это в части, касающейся числа корней, сохраняется и для всех матриц М некоторой окрестности V матрицы М", ибо f (к) непрерывным образом зависит от матрицы М. Корни уравнения (56) могут сместиться, оставаясь в круге \Х—А/|^е, но корень уравнения (61) останется равным X'. Последнее для нас важно. Пусть теперь М'"—такая матрица из (/, что D(/W"')^=0. При М=М"' уравнение (56) уже не имеет корней, совпадаю-
5. ЭРМИТОВЫ ОПЕРАТОРЫ 75 л/ с1г-Ч(1) щих с л , и, следовательно, производная dir-\ в этих корнях не обращается в нуль, а это значит, что каждый из возникших корней уравнения (56) уже имеет кратность, меньшую г. Пусть G— некоторая конечная область в плоскости переменного А,, замыкание которой не пересекается с действительной осью. В области G может иметься лишь конечное число корней уравнения (56). Если при М = М' максимальная кратность корней уравнения (56), входящих в G, равна s, то она не будет больше и для всех матриц М, входящих в некоторую окрестность V матрицы М'. В частности, множество W (G) всех значений матрицы М, для которых в G имеются лишь простые корни уравнения (56), составляет область в пространстве всех матриц М. Применяя ко всем корням уравнения (56), расположенным в G, конечное число раз описанную выше процедуру смещения корней, мы убеждаемся, что область W (G) всюду плотна в пространстве матриц М. Плоскость переменного X—за выпуском действительной прямой— покроем счетной суммой областей G„, /i=l, 2, ..., примененного выше типа. Пересечение W всех областей W (Gn) всюду плотно в пространстве матриц М и для каждой матрицы М g W все корни уравнения (56) просты. Таким образом, лемма 2 полностью доказана. (А) Если F—произвольная эрмитова матрица, то существует произвольно близкая к ней эрмитова матрица G и произвольно малая эрмитова позитивно-дефинитная матрица £, для которых уравнение (16) имеет лишь простые корни. Пусть £"— малая позитивно-дефинитная эрмитова матрица. В силу леммы 2 существует матрица М, произвольно близкая к матрице F + iE' и такая, что уравнение (56) имеет лишь простые корни. Положим G = 1(M + M*)f E = -^r{M— М*) (М* сопряжена с М). Здесь G—эрмитова матрица, близкая к Т7, а Е—эрмитова матрица, близкая к Е'. Так как Е близка к £", то Е мала и позитивно-дефинитна. Лемма 3. Пусть Н—унитарное пространство с нормальным ортогональным базисом ех, е2, ..., ek, (ep, ед) = 8рд, А и В — эрмитовы позитивно-дефинитные операторы: k k Лер= 2 W<7> BeP= 2 bpqeq (7=1 (7=1 и, наконец, fl9 /2, ..., fk—векторы из Н, каждый из которых не равен нулю (они могут быть линейно зависимыми). Тогда матрица R = \\apg(Bfpi fq)\\ эрмитова и позитивно-дефинитна.
76 5. ЭРМИТОВЫ ОПЕРАТОРЫ Доказательство. В силу предположения собственные значения оператора В можно задать в виде Ь\, Ъ\, ..., &|, где Ьц b2i ..., bk—действительные положительные числа. Переход от канонических для оператора В координат к координатам, первоначально заданным в Я, дает k _ bpq= 2 dpad'qJ)2a. (62) а= 1 Здесь матрица \d'pa\, дающая преобразование координат, не вырождается, и потому матрица |dpa||, определяемая условием dpa = d'paba, также не вырождается. Из (62) следует bpq=Iidpadqai B = D*D, (63) а= 1 где D — невырождающийся оператор, определяемый условием k Dep= 2<WV (7=1 Положим gp = Dfpi тогда (Bfp, fq) = (Dfp, Dfq) = (gp, gq). (64) Таким образом, нам нужно доказать позитивную дефинитность матрицы R — \\apq(gpi gq)\, имея в виду, что ни один из векторов £i> ^2» • • • » gk не обращается в нуль. Координаты вектора gp обозначим через glp, g2p, ..., gkp. Матрицу Ау так же как и раньше матрицу В, представим в фор- k ме apq= 2 cpbcq$- Координаты произвольного вектора х из Н (3=1 обозначим через х1У х2, ..., xk. При этих обозначениях получаем k __ k (Rx, Х)= 2л sa0saP» Sap— 2j gapxpcp$- (65) (a. p=l) p=l k Если (Rx, x) = 0, то из (65) следует, что 2 £ap-VVp==0. Из это- р=\ го в свою очередь вытекает gapXp^O, (66) ибо матрица ||срР[ не вырождается. Соотношение (66) можно теперь переписать в форме xpgp = 0, /?=l, 2, ..., k\ а так как ни один вектор gly g2, ..., gk не равен нулю, то х1 = х2 = ... = = xk = 0. Таким образом, матрица R дефинитна, а ее позитивность следует из (65). Итак, лемма 3 доказана.
5. ЭРМИТОВЫ ОПЕРАТОРЫ 77 Лемма 41). Пусть а1У а2, ..., ak — комплексные числа с положительными действительными частями, попарно не равные между собой. Введем матрицу M=\mpq\ соотношением т =—-=- (р=1, ..., k; (/=1, ...,£)• ap + aq Матрица М оказывается эрмитовой позитивно-дефинитной. Доказательство. Эрмитовость матрицы М очевидна. Докажем ее позитивность. Для этого вычислим ее детерминант \м\. Элемент mpq будем считать принадлежащим р-й строке и q-й колонне. Вычисление детерминанта | М | будем вести путем вычитания последней колонны из всех предыдущих, беря последнюю колонну с надлежащим коэффициентом, с тем чтобы последняя строка обратилась в нуль. Минор элемента mkk так полученной новой матрицы обозначим через N = \\прд\\, (/?, q) = l, 2, ... ..., k—1. Таким образом, мы имеем \M\=m,k\N\. При вычитании из q-й колонны надлежащим коэффициентом при /е-й колонне будет число —-. Следовательно, __ mpkmkq _^p^kk — mpkmkq _ ПР1-тРЯ щГ^ —ЩН ~~ = mPAmp>m:iq ((ap + ak) (аЛ + aq) — (ар + aq) (ak + ak)) =* = mPQmpk^kq (aP ~ak) {aq—ak). Итак, nP,i = mPimp:z^i1{ap—ak) (aq—ak). При вычислении детерминанта матрицы N можно вынести из ее р-й строки число mpk(ap—ak), а из q-й колонны — число ?nkq(aq — ak). Если обозначить теперь минор элемента mkk в матрице М через М', то получаем \M\ = mkk\M,\[^^mrkmrk)[Jl^ (as—ak)(as—ak) Входящая в этот результат матрица М' имеет тот же вид, что и матрица М, но порядок ее k—1. Ее детерминант можно вычислять тем же способом. Согласно очевидной индукции k __ _ _ |Л*1= П>гг П пгРчтРЯ(ар — a) (ap — aq). r=\ (p<q)=l ^Доказательство этого предложения сообщил мне В. В. Морозов.
78 5. ЭРМИТОВЫ ОПЕРАТОРЫ Вид полученного выражения для \М\ показывает, что \М\ положительно. Так как каждый диагональный минор матрицы М имеет тот же вид, что и матрица М, то все эти миноры положительны, а, как известно, это и означает, что эрмитова матрица позитивно- дефинитна. Итак, лемма 4 доказана. (B) Неравенство (31) справедливо. Для доказательства положим ар =—ikp, тогда а19 а2, ..., ак все различны и имеют положительную действительную часть. Сверх того, =— = IXp—Xq позитивно-дефи- нитна (лемма 4). Матрица Е позитивно-дефинитна, и так как в пространстве Н_ квадратичная форма (,г, х) не вырождается и отрицательна, то из леммы 3 заключаем, что матрица —l-=-(Efpi fq)l негативно-дефинитна, а из этого неравенства (31) ' ^р—^7 II вытекает непосредственно. Теперь пробелы в доказательстве основной теоремы 1 заполнены, и она окончательно доказана. Дадим теперь некоторые дополнения к основной теореме и выводы из нее. (C) Наряду с инвариантным подпространством /, построенным в основной теореме, можно построить аналогичное ему инвариантное подпространство /', на котором квадратичная форма (х, х) неположительна, а собственные значения оператора А все имеют неположительную мнимую часть, причем размерность /' равна k. Для построения подпространства /' следует провести конструкцию, аналогичную данной в основной теореме, только вместо уравнения (16) нужно рассматривать уравнение \gpi+(RiUp> uq) — ispg — X6pi\ = 0\ последнее имеет в нижней полуплоскости переменного X ровно k корней. (D) Пространство / содержит все собственные подпространства Sx оператора А для собственных значений X с положительной мнимой частью. Пространство /' содержит все собственные подпространства Sk оператора А для собственных значений к с отрицательной мнимой частью (см. основная теорема и (С)). Докажем предложение (D) только для /; для /' оно ведется аналогично. Пусть Si—собственное подпространство оператора А для собственного значения X с положительной мнимой частью. Тогда пространство S^ ортогонально к /, ибо / распадается в прямую сумму собственных подпространств для собственных значений с
5. ЭРМИТОВЫ ОПЕРАТОРЫ 79 неотрицательной мнимой частью (§ 2, (А)). В силу предложения (А) § 2 квадратичная форма (х, х) на S*, тождественно обращается в нуль. Ввиду этих двух обстоятельств и того факта, что квадратичная форма (л:, х) неположительна на /, та же крадратичная форма неположительна и на линейной оболочке Sx +1 подпространств Sk и /. Таким образом, размерность Sk+I не превосходит fe, но уже размерность / равна k и потому S^czl. Таким образом, предложение (D) доказано. Теорема 5. Пусть А — эрмитов оператор с областью определения QaHk и К—прямая сумма всех его собственных подпространств S^ для невещественных собственных значений X. Тогда квадратичная форма (х, х) не вырождается на К. Таким образом, все пространство Hk распадается в прямую сумму взаимно ортогональных пространств К и H'k,, причем собственные значения оператора А в H'k все вещественны. (Структура оператора А в конечномерном пространстве К вскрывается предложением (Е).) Доказательство. Пересечение подпространств /Си/ обозначим через J, а пересечение подпространств К и /' через /'. Тогда в силу (D) пространство К распадается в прямую сумму своих подпространств J и J'. Допустим теперь, что существует в J' вектор х'ФО, ортогональный к пространству J. В силу (А) § 2 он ортогонален и ко всему /. Таким образом, линейная оболочка пространства / и вектора х', имеющая размерность k+ 1, обладает тем свойством, что на ней квадратичная форма (х, х) неположительна, что невозможно в силу (В) § 1. Итак, ни один вектор из У, отличный от нуля, не ортогонален к J. Точно так же ни один вектор из У, отличный от нуля, не ортогонален к У. Так как на пространствах J и J' квадратичная форма (ху х) тождественно обращается в нуль (§ 2, (А)), то из установленного непосредственно вытекает, что квадратичная форма (х, х) не вырождается на К. Теорема 5 доказана. (Е) Пусть К — конечномерное пространство типа Hk и А — действующий в нем эрмитов оператор, все собственные значения которого в /С невещественны. Разложим К в прямую сумму подпространств J к J', причем J составлено из всех собственных подпространств Sx собственных значений X с положительной мнимой частью, a J' составлено из всех собственных подпространств оператора Л, отнесенных к собственным значениям с отрицательной мнимой частью. Оказывается, что при произвольном выборе координат в J можно подобрать такие координаты в /', что в матричной форме оператор А' записывается в виде где В — матрица, действующая в У, а б* — матрица, действующая в J'. Здесь В* — матрица, сопряженная с В (комплексно сопря-
80 5. ЭРМИТОВЫ ОПЕРАТОРЫ женная и транспонированная). Из сказанного, в частности, следует, что элементарные делители оператора Л, отнесенные к собственному значению X, могут быть поставлены во взаимно однозначное соответствие с элементарными делителями оператора Л, отнесенными к собственному значению X, так что порядки соответствующих элементарных делителей одинаковы. Для доказательства предложения (Е) введем в J линейно независимый базис ег, е2, ..., еп а в J' — линейно независимый базис /х, /2, ..., /5. Положим Г S Аер = 2 Ьрава, Afq=X ^р/р, В = ||Ьра||, С = ||^р||. а=1 0=1 Так как подпространства J и J' инвариантны относительно Л, то в матричной форме Л получает вид Но °с\[ ^ Далее, (ер, еа) = 0, (fq, /p) —0. В силу этого и на основании того, что квадратичная форма (х, х) не вырождена на /(, матрица \\(ер, fq)l должна быть квадратной и иметь детерминант, отличный от нуля. Выбирая надлежащим образом базис У, можно достичь того, чтобы (еру fq) = upr Таким образом, (*,. U) = ^ (*,. еа) = 0, (/,, h) = 0. (69) Условие эрмитовости оператора Л при выбранных базисах приобретает теперь следующий вид: (АеР* fq) = bpg = (epy Afq) = cqp. Таким образом, С —В* и предложение (Е) доказано. (F) Пусть Л—эрмитов оператор с областью определения QaHt и J — его инвариантное подпространство, составленное из все> собственных подпространств Sk при X, имеющих положительнук мнимую часть. Если размерность J равна &, то Hk распадаетс* в прямую сумму инвариантного подпространства К размерносп 2k и инвариантного гильбертова подпространства Н: Если осуществлены предположения, указанные в (F), то/ = с и /' = /'. Положим К = 1 + /'. Квадратичная форма (х, х) невырож дается на К (теорема 5). Будем считать, что в К введен бази еи •••» eki /i» •••! /*> предусмотренный в (Е). Тогда х£К запи сывается в виде х = х1е1 + ... +xlfik + y1f1+ ... +ykfk и квадратичная форма (а:, х) получает вид k _ — (*, х)= 2 ХрУр + ХрУр (см. (69)). о= 1
5. ЭРМИТОВЫ ОПЕРАТОРЫ 81 Введем теперь в К новые координаты, положив хр = ир-\ vp, yP = up — vp. Тогда квадратичная форма (х, х) на К получает следующий вид: k — — (х, х)= 2 2(upup—vpvp). Таким образом, квадратичная форма (х, х) на К имеет ровно k отрицательных квадратов и, следовательно, на ортогональном дополнении Н0 к К квадратичная форма (#, х) уже не имеет отрицательных квадратов, а это и значит, что Н0 — обыкновенное гильбертово пространство. Итак, предложение (F) доказано. Оценку размерности собственного подпространства Sk для комплексного собственного значения К дает следующее предложение. (G) Пусть А—эрмитов оператор с областью определения {}aHk. Рассмотрим уравнение (14) \f„+(R*.up,ug)-M„\ = 0. (70) Оказывается, что невещественное число К тогда и только тогда является собственным значением оператора Л, когда оно есть корень уравнения (70). Кратность же корня к равна размерности собственного подпространства Sx оператора А. При доказательстве этого предложения будем опираться на некоторые детали доказательства основной теоремы. Здесь мы рассмотрим лишь тот случай, когда к имеет положительную мнимую часть; при отрицательной мнимой части доказательство ведется аналогично. Наряду с уравнением (14) = (70) рассмотрим уравнение (16): |g# + (*xK,. uq)+-ie^-X8pq\ = 01 (71) где последовательности G{n) и Е{п) (/1=1, 2, ...) уже выбраны так, как это указано при доказательстве основной теоремы, т. е., в частности, оператор Л(п), действующий в #_, сходится к оператору М. Как было показано при доказательстве основной теоремы, корни уравнения (71), лежащие в верхней полуплоскости, все просты и число их равно k. Значения этих корней обозначим через К\ *in\ -.., ад»- (72) Числа (72) являются собственными значениями оператора Л(п), и следовательно, удовлетворяют уравнению |Л<»> —А,£ | = 0. (73)
82 5. ЭРМИТОВЫ ОПЕРАТОРЫ Так как оператор А{п) сходится к оператору М, то числа (72) сходятся к корням уравнения |Af-M^| = Of (74) и, в частности, существует ИтЦ?* = \ip\ причем \хр является кор- нем уравнения (74). Числа \1г, \12, . . ., \lk уже не все различны. Кратность любого корня |л уравнения (74) равна размерности собственного подпространства Тц оператора М. Так как оператор М, действующий в пространстве Н_, эквивалентен оператору А, рассматриваемому на /, то размерность подпространства Т^ равна размерности собственного подпространства S^ оператора А в пространстве /. В том случае, когда \i — комплексное число с положительной мнимой частью, собственное подпространство S^ оператора А во всем пространстве Hk совпадает с собственным подпространством S^ оператора А в пространстве / (см. (D)). Таким образом, размерность подпространства S^ равна кратности корня |л в уравнении (74), если только |i имеет положительную мнимую часть. Так как левая часть уравнения (73) сходится к левой части уравнения (74), то кратность корня (i в уравнении (74) совпадает с числом корней уравнения (73), стремящихся к |i при п—* оо. Корни уравнения (73) совпадают с корнями уравнения (71) в верхней полуплоскости неизвестного. Так как в верхней полуплоскости левая часть уравнения (71) равномерно сходится к левой части уравнения (70), то число корней системы (72), стремящихся к комплексному числу (i (при положительной мнимой части у числа \i), равно кратности корня \i в уравнении (70). Таким образом, кратность корня (i в уравнении (70) равна размерности собственного подпространства. Итак, предложение (G) доказано. Теорема 6. Пусть А—эрмитов оператор с областью определения QaHk. Рассмотрим уравнение (14) = (70) \fPq+(RxUp' uq)-X8pg\ = 0. (75) Оказывается, что если число корней этого уравнения, обладающих положительной мнимой частью с учетом их кратности, равно k (больше k число это быть не может), то пространство Hk разлагается в прямую сумму инвариантного подпространства К размерности 2k и ортогонального ему инвариантного гильбертова пространства Н0. Доказательство. Доказательство непосредственно вытекает из предложений (F) и (G).
6 О НУЛЯХ НЕКОТОРЫХ ЭЛЕМЕНТАРНЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ (ДОБАВЛЕНИЕ)*) Результаты моей работы «О нулях некоторых элементарных трансцендентных функций» [1] полностью применимы к функциям несколько более общего вида, чем квазиполиномы. При этом доказательства почти не меняются, и я ограничиваюсь здесь подробной формулировкой основного результата. Результаты настоящей работы и работы [1] связаны с некоторыми вопросами теории регулирования. Пусть Л (г, /)= 2 amnz'ntn — многочлен относительно Переменил, п ных z и t. Функция Я (z) = h(zy £г) называется квазиполиномом. Пусть, далее, / (г) = l0zp + Ixzp~1 + ... + lp—многочлен степени р (10ф0). Обобщенным квазиполиномом наголо ы / ч И (г) вем функцию Н (z) =-утТ ПРИ Условии' что она не имеет полюсов. Здесь даются необходимые и достаточные условия того, что все корни функции Я (г) лежат слева от мнимой оси, т. е. имеют отрицательные действительные части. Функцию Я (г), обладающую этим свойством, будем называть устойчивой. Мы будем говорить, что многочлен Л (г, t) имеет главным членом член arszrts, если агзФ0 и для любого другого не равного нулю члена amnzmtn имеем r^m, s^n, причем одновременное выполнение равенств r = m, s = n, конечно, исключается. Необходимое условие. Для того чтобы функция Я (г) была устойчива, необходимо, чтобы многочлен h (г, t) имел главный член. Ввиду формулированного условия, будем всюду в дальнейшем предполагать, что многочлен Л (г, t) имеет главный член arszrts. В многочлене Л (г, t) соберем все члены, содержащие гГ, т. е. представим его в виде Л (z, t) = z'.x(t) + 2aUHz"t», Где Х(0 — многочлен степени s, а суммирование производится по *) Докл. АН СССР.—1953.—Т. 91, № 6.—С. 1279—1280.
84 6. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ всем т<г и n^.s. Рассмотрим функцию %(е/у), где у—действительное переменное. Разобьем ее на действительную и мнимую части: Х(е*) = <р(у) + 1Ъ(у), где ф и я|) — действительные функции переменного у, являющиеся, как нетрудно видеть, тригонометрическими многочленами. Ввиду этого действительные нули функций ер (у) и я|) (у) периодически повторяются с периодом 2л, и можно подобрать такое действительное число е (им мы воспользуемся позже), что ни при каком целом k число 2fcnc-re не является корнем ни функции (р(у), ни функции я|>(у). Рассмотрим теперь функцию H(iy), где у—действительное переменное. Функцию эту разобьем на действительную и мнимую части: H(iy)=^F(y) + iG(y), где F (у) и G (у) — действительные функции переменного у. Необходимые и достаточные условия. Для того чтобы функция Н (г) была устойчивой, необходимо и достаточно выполнение следующих условий (напоминаем, что предполагается наличие у h(z, t) главного члена): 1) Каждая из функций F (у) и G (у) должна при всех достаточно больших натуральных числах k иметь на отрезке —2kn-\- + е ^ У ^ 2kn -f г не меньше чем 4ks -f r—р различных действительных нулей (большего количества нулей эти функции иметь при достаточно большом k не могут, так что при выполнении указанного условия каждая из функций F(y), G (у) будет иметь на отрезке — 2kn + г ^ у ^ 2kn + г ровно Aks -f r—р нулей). 2) Нули функций F (у) и G (у) должны перемежаться, т. е. между каждыми двумя соседними нулями одной функции должен лежать ровно один нуль другой из этих функций.. 3) Можно доказать, что при выполнении условий I) и 2) выражение G'{y)'F{y)-F'{y).G(y) не обращается в нуль ни при каком действительном значении у и потому сохраняет постоянный знак. Нужно, чтобы это выражение было положительно, что достаточно проверить только для одного значения у. Замечание 1. Если уже проверено, что F (у) имеет указан-] ные в условии 1) число нулей, и проверено, что между каждыми;
6. О НУЛЯХ НЕКОТОРЫХ ТРАНСЦЕНДЕНТНЫХ ФУНКЦИЙ 85 двумя нулями функции F (у) лежит по крайней мере один нуль функции G (у), то легко показать, что условие 1) для функции G (у) и условие 2) будут выполнены, и потому проверять их не нужно. В этом замечании функции F (у) и G(y) можно поменять ролями. Замечание 2. Если уже проверено, что функция F(у) (или G (у)) имеет указанное в условии 1) число нулей, и доказано, что выражение G' (y)-F (у) — F' (y)-G (у) положительно при любом у, то из этого следует, что и все остальные условия выполнены, т. е. функция Н (z) устойчива. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин. Изв. АН СССР, сер. мат., 6, 115 (1942).
7 ПЕРИОДИЧЕСКИЕ РЕШЕНИЯ СИСТЕМ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ, БЛИЗКИЕ К РАЗРЫВНЫМ*) Совместно с Е. Ф. Мищенко В работе рассматривается система дифференциальных уравнений гх< = р(х\ .... хк, у\ ..., у1), 1=1,...,*; yj = gj (х\ ..., хк, у1, ..., у1), j = 1, .. ., /, где е—малый положительный параметр, или, в векторной форме: ex = f(x, у), y = g(x, у). (Г) Предполагается, что соответствующая вырожденная система /(*, У) = 0, y = g(x, у) (2) имеет устойчивое разрывное периодическое решение и что каждое решение системы уравнений ex = f(x, y0), (3) где у0—постоянный вектор, стремится с возрастанием времени к одному из своих положений равновесия. Фазовое пространство системы (1) есть k + /-мерное евклидово пространство R, являющееся прямой суммой fe-мерного пространства X и /-мерного пространства Y. Если считать фазовые траектории системы (2) пределами фазовых траекторий системы (1) при е —> 0, то нетрудно описать в общих чертах движение представляющей точки системы (2) в пространстве /? и, в частности, понять, что такое разрывное решение системы (2), как это было сделано в работе [1]. Опишем траекторию, соответствующую разрывному решению системы (2). Такая траектория состоит из чередующихся кусков двух типов: а) кусков «медленных» движений, лежащих на /-мерной поверхности F пространства R, уравнение которой f(x, у) = 0у и проходимых представляющей точкой в конечное время; б) кусков «быстрых» движений, каждый из которых лежит в некотором fe-мерном подпространстве пространства R, выделяемом уравнением у = const, и проходимых представляющей точкой мгновенно. Переход от медленного движения к быстрому происходит в точках «срыва». Уравнение f(xy y0) — 0 выделяет, очевидно, в пространстве R совокупность всех положений равно •) Докл. АН СССР.—1955.—Т. 102, № 5.—С. 889—891.
7. ПЕРИОДИЧЕСКИЕ РЕШЕНИЯ, БЛИЗКИЕ К РАЗРЫВНЫМ 87 весия системы (3); поэтому поверхность F представляет собой множество всех положений равновесия всех систем (3) при различных у0. Медленное движение вдоль поверхности F есть движение устойчивого положения равновесия системы (3) при меняющемся у0. Предполагается, что срыв происходит при слиянии устойчивого положения равновесия с неустойчивым, причем возникшее при слиянии вырожденное положение равновесия имеет «общий тип», в частности, лишь одно нулевое собственное значение. После срыва точка перемещается в плоскости у = const быстрых движений, переходя к новому устойчивому положению равновесия, а затем возобновляет свое движение по поверхности F. Совокупность точек срыва всех траекторий системы (2) образует /— 1-мерную поверхность срыва Ф. Ее уравнение f(xfy) = 0, D(x,y) = 0, (4) 1 Периодическое движение z0 си- где D(x, у) —якобиан . м стемы (2) состоит из конечного числа кусков, для определенности — из четырех: u1 = (p2i sx), и2 = (ри s2)—куски медленных движений, а vl — (su pi), v2 = (s2, р2)—куски быстрых движений; sx и s2 — точки срыва. В настоящей работе отыскивается с точностью до О (г) периодическое решение z системы (1), близкое к периодическому решению z0 системы (2), и вычисляется его период. Для системы уравнений второго порядка решение z нами вычислено до 0(е4/3). В одном частном случае таких систем (уравнение Ван-дер-Поля) этот результат получен раньше А. А. Дородницыным [2]. Многомерная задача рассматривается впервые. Оказывается, что здесь имеют место явления, качественно новые сравнительно с двумерным случаем. Г. Вычисление решения z. Замкнутую траекторию z мы разбиваем на два участка медленных движений, два участка быстрых движений и на четыре связывающих их переходных участка. Участки медленных движений, расположенных вблизи кусков иг и и2, пусть будут (pi s[) и (/?i, s2); участки быстрых движений, расположенные вблизи кусков vx и v2 — (si р[), (s2, р'2)\ переходные участки (si, si), (р[, pi), (si s2), (pi pi). Быстрое движение вдоль участка (si, p[) проходит с точностью до 0(e) в подпространстве у = const пространства R, смещенном относительно подпространства, содержащего кусок vx, на вектор Л]#, который вычисляется на основе расчета траектории на переходном участке: Д1У=е»/з °.*_e-!£±(!Lb«V (5) VJr Здесь Q — число, не зависящее от системы уравнений g = g(s1) = '—(g1* •••» gl)y h = (hx, ..., hl) — векторы в пространстве Y и р,
88 7. ПЕРИОДИЧЕСКИЕ РЕШЕНИЯ, БЛИЗКИЕ К РАЗРЫВНЫМ <7, г—числа, зависящие от правых частей системы (1) в точке срыва su Для их определения разложим правые части системы (1) в точке срыва s1 = (x1, ух) в ряды Тейлора, выписав только нужные нам члены: /' (*. У) = 4 (** - *?) + Ч itf—tft) + + 4э(*"-*?) (*»-*?) + fl£Pv(*«-*?)(**-*?)(**-*?) + .. .f gJ(x> У) = & + сЦх?-я?)+... (6) Матрица ||о&|| имеет лишь одно нулевое собственное значение; принадлежащий ему собственный вектор обозначим т = (т1, ..., mk). Собственный вектор с нулевым собственным значением транспонированной матрицы обозначим п = (п1, ..., пк). Таким образом, a£ma = 0, naaf = 0. Дополнительно вводим нормирующее соотношение та/?а=1. Мы определяем hJ = ciamai р — п6а^тат&, q = = n6fl^PYmampmv, r = n6h$tgli. Аналогично для точки срыва s2 вычисляется вектор смещения А2у. Переходим к описанию медленных движений вдоль траектории г. Обозначим S\, S2 касательные пространства к поверхности Ф в точках срыва sn s2, через Р*и Р2—касательные пространства к поверхности F в точках ри р2. Будем считать их векторными пространствами с нулями в точках su s2, рг, р2. Пусть tx — время перехода по куску их. Для каждой точки s1-{-8s1, входящей в Ф, найдется точка р2-\- 8р2 на поверхности F, переходящая в нее за время tx по некоторой траектории u1(8s1) системы (2), близкой к траектории их. Линеаризируя отображение 6sx —*■ 8/?2, получим отображение М\ пространства S\ в векторное пространство Р*2. Аналогично определяем отображение М2 векторного пространства S2 в Р[. Перенесем теперь параллельно пространства SJ, S2, Р*1У Р*2 так, чтобы их нули перешли в нуль пространства R, и затем спроектируем в направлении X в пространство Y. Тогда пространства Pi, Р2 отобразятся на У, S^, S2—на его подпространства Sx, S2, а отображения М{ и М2 перейдут в отображения Мх, М2 пространств Sx и S2 в У. Отображением!, заданное только на Sly продолжим в отображение Nx всего пространства Y на себя, положив N1g(s1) = g(p2). Аналогично определим отображение N2. Отображения Nx и N2 вычисляются при помощи решения уравнений в вариациях порядка /. Медленные движения вдоль участков (/?2, si) и (pi, s2) проходят с точностью до О (г) не вблизи кусков иг и ы2, а вблизи траекторий u1(8s1)i u2(8s2). Это явление объясняется наличием векторов смещений Агу и Д2*/ и имеет место только при /^2. Величины ^ и 6s2 с точностью до 0(e) можно рассматривать как векторы пространств S* и S2. Их образы в Sx и S2 обозначим бх и б2. бх находится из уравнения 61—L1L261 =* LjLjjA^ + LxA^. (7)
7. ПЕРИОДИЧЕСКИЕ РЕШЕНИЯ. БЛИЗКИЕ К РАЗРЫВНЫМ 89 Здесь Lx—линейное отображение пространства Кна пространство Si, определенное формулой L1y = N^y-(1w.NTly)g, (8) в которой через 1ш = (1ш11 ..., xwj) обозначен ковариантный вектор с координатами iWj = nabf, определяющий плоскость Sx в Y и пронормированный так, что 1w-g=l. L2 определяется аналогично. 2°. Вычисление периода. Период Т решения z вычисляется на основе расчета траектории на переходных участках. Он представляется в виде Т — Т0 + АгТ -f А27\ гДе TG = t1 + t2—период решения z0, а А^ и А2Т — слагаемые, относящиеся, соответственно, к точкам срыва Sj и s2. Выпишем формулу для А^ (выражение для А2Т аналогично): 4'г-в,(|^)+Чг(*-«)+- <9> Входящие сюда числа /?, q, r и Q были определены выше, s =/i^c^m", a — — (аш •-/Vj"1(61 + А^)) (ковариантный вектор 2w определяется аналогично вектору xw). ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Н. А. Железцов, Л. В. Родыгин. ДАН, 81, № 3, 391 (1951). [2] А. А. Дородницын. Прикладн. матем. и мех., 11, в. 3, 313 (1947).
8 К ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ*) Совместно с В. Г. Болтянским и Р. В. Гамкрелидзе В последнее время в теории автоматического регулирования придается существенное значение наиболее быстрому осуществлению процесса регулирования, что привело к появлению ряда работ, посвященных изучению так называемых оптимальных процессов (см. [1], где приведен список литературы). В настоящей заметке мы даем общий подход к изучению оптимальных процессов. Г. Постановка задачи. Рассмотрим изображающую точку (х1, ..., хп) = х в /г-мерном фазовом пространстве, уравнения движения которой записаны в нормальной форме y = fl{x\ ..., хп; и\ . .., и') = /''(*, u)t i=*l, ..., п. (1) Здесь и1, ..., иг—управляющие параметры. Если задан закон управления, т. е. задан переменный вектор u(t) = = (и1^), ..., ur(t)) в r-мерном пространстве, то система (1) однозначно определяет закон движения точки. На «управляющий вектор» u(t) мы наложим естественные условия кусочной гладкости и кусочной непрерывности; кроме того, будем предполагать, что переменный вектор u(t) принадлежит фиксированной замкнутой области Q пространства переменных и1, . .., игу являющейся замыканием открытой области Q с кусочно- гладкой (г—1)-мерной границей. Например, область й может быть /--мерным кубом: | и1 \^ 1, i = 1, . . ., г, полупространством и1 > О и т. д. Управляющий вектор u(t), удовлетворяющий перечисленным условиям, будем называть допустимым. Формулировка общей задачи. В фазовом пространстве х1, ..., хп заданы две точки £0, Ъг\ требуется выбрать допустимый управляющий вектор u(t) так, чтобы точка прошла из положения £0 в положение \г за минимальное время. Искомый управляющий вектор u(t) будем называть оптимальным управлением, соответствующую траекторию х(t)= = (x1(t), ..., xn(t)) системы (1) — оптимальной траекторией. 2°. Необходимые условия оптимальности. Допустим, что оптимальное управление u(t) и соответствующая ему оптимальная траектория x(t) существуют. Траектория x(t) удовлет- *) Докл. АН СССР.— 1956.— Т. ПО, № 1.—С. 7—10.
8. К ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 91 воряет краевым условиям x(t0) = %{n x(t1) = l1. Допустим сначала, что управляющий вектор u(t) при ^0^^^S^i лежит внутри открытой области Q. Следовательно, при любых достаточно малых по модулю возмущениях 8u(t) = (8u1(t)1 ..., 8ur(t)) вектора u(t) управление u(t)+ 8u(t) будет проходить в области Q. Через х+ бх обозначим «возмущенную» (т. е. соответствующую управлению u(t) -f Su(t)) траекторию точки с прежним начальным условием x(t0)-\-Sx(t0) = %o, T- e- 8x(t0) = Q. Уравнения линейного приближения б1л:=:(б1л:1, ..., 8{хп) для возмущения бх = (бх1у ..., 8хп) имеют вид 6,i'=^6,^ + ^6^, б1х(/0) = 0; 1 = 1, ..., п. (2) ox our В силу линейности системы (2) точки x(tx) -|- б1х(/1), соответствующие всевозможным, достаточно малым по модулю, возмущениям 6,и(/), заполняют область некоторого линейного многообразия Я', проходящего через точку x(tx). Из оптимальности траектории x(t) легко вытекает, что размерность многообразия Р' не превосходит п—1 и Я', вообще говоря, не касается траектории x(t). Пусть Р (tx) — некоторая (п—1)-мерная плоскость, содержащая Я' и не касающаяся траектории x(t). Ковариантные координаты (п—1)-мерной плоскости Р (/J обозначим через а1э ..., ап\ тогда a(X8lxa(t1) = 0. Пусть Ф/(/) = (<#(/), • • -, ф/ (/)), /= 1, • • ., п,—фундаментальная система решений однородной системы, соответствующей системы (2), a ||i|>}(/)||—матрица, обратная к матрице ||ф}(/)|. Решение системы (2) можно записать в виде to Пользуясь равенством aa8lxrt(t1) = 0t получим М/(У = адРа (/J J /v £^г Ьи- йт = о. Введем обозначения: aa(p%(t1) = bfi, ^рМ5? О == "^v (0- Тогда ааб,л:а (/L) = С я|?а -^ 8и$ йт - 0. Так как 8м(/) = (8м1 (/), ..., 8ur(t))— произвольное достаточно малое по модулю возмущение, то из последнего равенства следует система уравнений Фа(0-гГ=-0, t0<t<tu /= 1 г- (4)
92 8. К ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Вектор if(/) = (iM0> •••«'Фл(О) имеет простой геометрический смысл: точка х(Ц^ ^fx(t) лежит в (п—1)-мерной плоскости P(t), проходящей через точку x(t) и имеющей ковариантные координаты гМ0> •••, Ф„(0; в частности, OM'i). •••, *„(*.)) = = (aj, .... а„). Пользуясь соотношением tyi(t) = ba$f(t), i = = 1, ..., /г, выводим систему дифференциальных уравнений для г|5,(/): Ф/(0 = - Объединим системы *'"=/'■(*, "). а/06 Фг ^с а*1' * а*' (1), (4), (5): 1 = 1, '=1, 1, п. (5) df- (6) им/ = 0, /,</</,, /=1, J Система (6) представляет собой совокупность необходимых условий, которым должны удовлетворять оптимальное управление u(t), проходящее внутри открытой области Q, и соответствующие ему оптимальная траектория x(t) и вектор i|>(/). Умножая вектор yp(t) на подходящую константу (что не изменит траектории x(t) и управления и(/)), мы можем добиться того, чтобы было 'фа (W/a (*(*<))> н(/0))>0. Так как плоскость Р (t) не касается траектории x(t), т. е. i|)a/a^=0 при любом t, то в любой момент времени будет выполняться неравенство i|)a/a > 0. ' Если теперь предположить^что оптимальное управление протекает в замкнутой области й и учесть неравенство tyafa\t=to>0, то система (4) необходимых условий заменится более общим условием * -^- бар < 0 to<:t<tl, (7) при произвольных возмущениях бмр(/), на которые наложены «конечные связи», вытекающие из условия и (/) + 8м (/) £ Q. 3°. Достаточные условия оптимальности в малом. В этом пункте мы снова предполагаем, что управляющий вектор u(t) лежит внутри открытой области Q и, следовательно, выполняются необходимые условия (6). Уравнения второго приближения опх для возмущения дха V 8х имеют вид 6,.** + в1 it), где '«-■И д2/' дхадх$ 6IJcexeijcP + 2 а2/'* duadtfi 6иа8и*
8. К ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 93 Точка с координатами д:'(/)+б11д:/(/)=х'(/) + б1х/(/)+ср*6(/) j ^B^dx to уже не лежит в плоскости Р (/). Если движущаяся точка при возмущенном движении к моменту t прошла за плоскость Р (t), то скалярное произведение Фа (0 бП*а (<) = ♦« (0 «!*" (0 + Фа (0 Фр (О J *PiJV dx = = Фа (0 Фр (О S^V^ = S фаЯа Л положительно; если точка еще не дошла до плоскости P(t)y то t Фа(0б11^(0=$Фа5аЛ<0. to дЧа Пусть в точке (x(t0), u(t0), tQ) квадратная форма фа—г— bwbuk ди1 дик (переменных 8м1, ..., Ьиг) является отрицательно-определенной. Тогда скалярное произведение фа (/) биха (/) = ^ фаВаЛ <; 0 при и любых достаточно малых по модулю возмущениях ou(t) и достаточно малой разности / —10. В этом случае управление u(t) и траектория x(t) оптимальны в малом, т. е. точку x(t0) можно окружить столь малой окрестностью V, что если x(t ), x(t")> t'' < Г,—две произвольные точки траектории, принадлежащие У, то ни при каком управлении, достаточно близком к u(t)> нельзя попасть из точки x(t') в x(f') за меньшее чем /"—t' время. д2/а Если форма фа—-г—8ul8uk в точке (x(t0)> u(tQ), t0) неопреде- ди1 дик ленная, то (при некотором достаточно общем дополнительном условии) никакое управление u(t), лежащее вблизи момента t = t0 внутри открытой области й, не может быть оптимальным даже в малом. Если, тем не менее, существуют оптимальные траектории, проходящие через точку x(tn), то соответствующие управляющие векторы u(t) вблизи t=t0 должны лежать на гра- нице замкнутой области QI. 4°. Принцип максимума. Из системы (6) и отрицатель- ной определенности квадратичной формы фа—г-—ди1' Ьик следует, ди1 дик что выражение ^a{i)fa{x{t)y u(t)) достигает при фиксированных векторах x(t), ф(/) и меняющемся векторе u(t) относительно максимума: при достаточно малых по модулю возмущениях 8u(t) имеет
94 8. К ТЕОРИИ ОПТИМАЛЬНЫХ ПРОЦЕССОВ место неравенство Фа (0/"(*('). И0)> Фа (Of* (*('). U(t)+6u(t)) в течение всего времени, пока выполняются уравнения (6) и условие отрицательной определенности квадратичной формы. Этот факт является частным случаем следующего общего принципа, который мы называем принципом максимума (принцип этот доказан нами пока лишь в ряде частных случаев). Пусть функция Н (х, i|), u) = tyafa (xy и) при любых фиксированных ху я|э имеет максимум по иу когда вектор и меняется в замкнутой области Q; обозначим этот максимум через М (х, я|)). Если 2п-мерный вектор (ху я|э) является решением гамильтоновой системы dja дН >, l=U • .., П, (8) дх1 дх1 ) где кусочно-непрерывный вектор u(t) в каждый момент времени удовлетворяет условию H(x(t), i|>(/), и (t)) = М (х (t), я|)(/))>0, то u(t) является оптимальным управлением, a x(t)—соответствующей оптимальной (в малом) траекторией системы (1). Зададим фиксированное начальное условие x(t0) = l0 и всевозможным образом начнем менять начальное условие ty(t0) — т)0. Тогда система (8) вместе с этими начальными условиями и условием H(x(t), i|>(/), и (t)) = М (х (t), i|)(/))>0 определяют множество всех оптимальных (в малом) траекторий, проходящих через точку *(/0) = £о» и соответствующих им оптимальных управлений u(t). ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] А. А. Фельдбаум. Тр. 2-го Всесоюзн. совещ. по теории автоматич. регулирования, 2, 1955, стр. 325.
9 АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ СИСТЕМ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМ ПАРАМЕТРОМ ПРИ ВЫСШИХ ПРОИЗВОДНЫХ*) В работе выводятся асимптотические формулы для решений систем дифференциальных уравнений с малым параметром при высших производных на переходных участках. Различные задачи теории колебаний приводят к изучению систем дифференциальных уравнений, содержащих малые параметры при старших производных. Пусть X = \Х , . . . , л j, у = (у\ •••> у1) — неизвестные функции времени t и гх*=р(х\ . .., xky у\ . .., у1), i=*l, ..., ky — система уравнений, управляющая их изменением, где е—малый положительный параметр, а функции /' и gJ' несколько раз дифференцируемы по своим аргументам. Систему уравнений (1) в векторной форме можно записать в виде zx = f(x, у), .у. У = §(х> У)- Говоря, что параметр е мал, мы имеем в виду приближенное изучение решений системы уравнений (1) с отбрасыванием величин той или иной степени малости относительно е. Пусть * = <р(/, е), */-г|)(*, е) (2) — некоторое решение системы (1). Можно поставить вопрос: стремится ли решение (2) к некоторому пределу при е -+ 0, т. е. может ли оно быть записано в виде х = Ф1(/) + А1Ф(/, е), 0 = яЫО + Д1ФС 8)> (3) где функции Ai9(/, е) и A^it, в) стремятся к нулю при е-^ О? Возможно, что это имеет место лишь на некотором интервале изменения времени t, возможно, что это имеет место лишь для *) Изв. АН СССР. Сер. мат.—1957.—Т. 21, № 5.—С. 605—626.
96 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ одной из функций ф(/, е) или i|)(/, е). Если хотя бы одна из функций A^(/, е) и Ai^(/, 8) стремится к нулю при е-+О, то можно выяснить порядок величины этой функции относительно е. Например, может оказаться, что А1Ф(/, е) = е2/3ф2(/)-! Д2ф(/, е), где А2ф(/, в) стремится к нулю уже быстрее, чем е2/3—скажем, как elne; тогда функция ф(/, е) может быть записана в виде Ф(/, 8) = ф1(0+82/3ф2(0 + е1п8ф3(/)+Л3ф(/, е), (4) где А3ф(Л е) стремится к нулю уже быстрее, чем elne. Таким образом, речь может идти об асимптотическом разложении решения (2) в ряд и о вычислении нескольких членов этого ряда. При этом, конечно, вполне может случиться, что на отдельных участках изменения / будут иметь место различные разложения. Может также оказаться, что запись функции ф(/, е) в виде (4), где Фх(/) уже не зависит от е, невозможна, но окажется возможной запись в виде Ф(/, е) = ф1(/, е) + Д1ф(/э е), (5) где A^(/, е) стремится к нулю вместе с е, а функция ф^/, е) хотя и зависит от е, но может быть вычислена. В этом случае порядок стремления к нулю функции A^(/, e) также представляет интерес, и также можно поставить вопрос о выделении главной части функции A^(/, е). Такова, в общих чертах, постановка вопроса. Переменные х и у в системе уравнений (1) не равноправны: вектор v фазовой скорости в пространстве переменных х и у распадается на два вектора: и=(1/(х, у), g(x, у)) = (!/(*, у), о) + (0, g(x, у)), (6) причем второй из них не зависит от е, а первый стремится к бесконечности при е—> 0, если только f (x, у)фО. На основании этого переменные (1) можно назвать быстро меняющимися, а переменные (2)—медленно меняющимися. Основной подход к системе (1) заключается в том, что сперва изучается поведение быстро меняющихся переменных при постоянных значениях медленно меняющихся переменных. Таким образом, первоначально рассматривается система уравнений ex=:f(x, у), (7) в которой у—постоянный вектор. Относительно поведения решений системы (7) при постоянном у можно делать различные предположения. В настоящей работе рассматривается тот случай, когда система уравнений (7) своими стационарными решениями имеет лишь положения равновесия и каждое решение системы (7) при
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 97 / -- оо стремится к некоторому устойчивому положению равновесия. (Другой важный и естественный случай, когда система (7) имеет среди своих стационарных решений и устойчивые предельные циклы, в настоящей работе не рассматривается.) Пусть Х = Ч>(У) (8) — некоторое устойчивое положение равновесия системы (7). Оно зависит от векторного параметра у и в некоторой области Г изменения параметра у сохраняет свою устойчивость. Подставляя (8) в систему y = g(*> У)> (9) получаем для переменных у систему y = g(<p(y), у)- (Ю) Эта последняя уже не содержит неизвестных функций х. Пусть y = ^(t) (И) — ее решение. Подставляя величину у в правую часть (8), получаем * = Ф (*(*)). (12) и можно ожидать, что совокупность формул (И) и (12) даст нам приближенное решение системы (1). Это действительно было доказано в работах А. Н. Тихонова (см. [1]). Можно доказать также, что полученное таким образом приближенное решение отличается от точного на величину порядка е. Так как положение равновесия (8) определяется из уравнения fix, У) = 0, (13) то мы можем сказать, что приближенное решение (И), (12) системы (1) есть точное решение вырожденной системы У =ё(*> У), } получающейся из (1) при 8 = 0. Описанная операция осуществима до тех пор, пока положение равновесия (8) остается устойчивым, т. е. пока все собственные числа матрицы Л-\\дх«\\ (15) имеют в соответствующих точках отрицательные действительные части («экспоненциальная устойчивость»). Предположим теперь, что на интервале —а < t < 0 решение (11) определено и положение равновесия (8) экспоненциально устойчиво,а при /==0 экспо-
98 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ ненциальная устойчивость решения (8) теряется, и у матрицы (15) появляется одно нулевое собственное значение кратности один, в то время как остальные собственные значения сохраняют отрицательные действительные части. Таким образом, на интервале — а < t < 0 определено решение x = x0(t), y = y0(t) = y(t) (16) вырожденной системы (14). Введем в рассмотрение фазовое пространство Rk+l системы (1). Оно естественно распадается в прямую сумму своих подпространств Хк и Y1 так, что каждая его точка записывается в виде пары (х, у). Пространство всех пар (х, у) с фиксированным вектором у обозначим через X*. Оно является фазовым пространством системы (7). При изменении / вдоль интервала —а < / < О положение равновесия (8) меняется, а при / — 0 в пространстве Х§(0) возникает вырожденное положение равновесия (*1Э уг). Из того, что все собственные значения матрицы (15) в точке (хи ух) имеют отрицательные действительные части, за исключением одного, которое равно нулю, следует, что у системы (10) при у = ух имеется (при некоторых дополнительных предположениях общего характера) лишь одна траектория, входящая в положения равновесия хх при /-> — оо. Зта траектория лежит в подпространстве Х\ф) пространства Rk+l. Рассмотрим решение х =-■*(/, е), y = y(t, e) (17) системы (1) с начальными значениями при / = — а, отклоняющимися от начальных значений решения (16) вырожденной системы (14) на величины порядка е. Как мы уже отмечали, при —а < /<—р, где р — малое положительное, но не зависящее от е число, решение (17) отличается от решения (16) на величины порядка е. Более того, сравнительно легко доказать, что решение (17) раскладывается на этом участке в асимптотический ряд по целым степеням е. Однако при t-->■ 0 его поведение становится более сложным. В настоящей работе получено асимптотическое разложение решения (17) при значениях t, выключающих и / = 0, с точностью до величин порядков е2/3 и elne и с пренебрежением величинами порядка е. Кроме того, с этой же точностью вычислена величина отклонения решения (17) от fe-мерной плоскости Х^(0) на некотором конечном протяжении траектории решения (17). Все вычисления, проведенные в работе, тщательно проверил В. Г. Болтянский, за что я выражаю ему благодарность. Основные результаты настоящей работы в кратком виде были ранее опубликованы в работе [3]. Приведенная в работе [3] формула (5) неверна.
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 99 § 1. Вычисление решений вблизи участков медленного движения Пусть x[ = 4(t), yJ = yW) ( ) — некоторое решение_ системы (14), идущее при /</<;/ (не исключается случай t = -^-oo) по поверхности F, выделяемой уравнением (13), на конечном, не зависящем от е расстоянии от (/—1)-мерной поверхности (1), уравнение которой Пусть, далее, f(x, y) = 0, detl^UUo. дх x'=x'(t, е), (1.2) — решение системы (1) с начальными значениями x'(t, г) = х1\ y/(t, E) = yj\ удовлетворяющими условиям Р_4(7) = 0(е), ]j'-yi(t) = 0(e). Без большого труда можно доказать, что решение (1.2) при / ^ t ^ / представляется в виде Х'=Х$(0 + М{(/, 8), yJ = yi{t) + N[{t, е), V'*> причем функции М[ и N{ стремятся к нулю при 8 — 0. Более того, оказывается (это также следует из результатов А. Н. Тихонова [1J и А. Б. Васильевой [2]), что функции М[ и N{ имеют порядок е и даже могут быть представлены в виде M[ = zx[(t) + Mi(t, 8), N{ = Ey[(t) + NUty е), где М{ и N{ имеют порядок е2. Можно идти и дальше по этому пути и для решения (1.2) получить асимптотические формулы x'=xi(t)-\ ex[(t)+ ... +e*4(0 + A*i+i(*. £)> п 4ч y/^yf>(t) + *yi(t)+ ••• +е*^(/) + Л^{+1(<, е), { 'V где М{+1 и N'k+1 имеют порядок 0(efe+1). Для получения формул (1.4) требуется, конечно, соответствующая гладкость функций /' и g/. На доказательстве справедливости разложений (1.3) и (1.4) мы здесь не останавливаемся. Отметим только, что их можно вывести, комбинируя результаты А. Н. Тихонова [1] и А. Б. Васильевой [2]. Впрочем, в нашей следующей работе мы приведем простое прямое доказательство справедливости разложения (1.4).
100 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Предположим, что решение (1.1) вырожденной системы (14) при некотором значении t = tx^t приходится в точку s(xlf ух), где det К^ =0. Элементарный расчет показывает, что при значениях t, достаточно близких к /1Э суммы к k 2 в'хно, 2*Уг(о уже не представляют с указанной точностью решение (1.2), а при t — tx вообще не имеют смысла. Нашей ближайшей задачей является изучение поведения решения (1.2) при t— > tx. Для этой цели систему уравнений (1) в окрестности точки s(xlf ух) оказывается удобным записать в некоторой специальной форме. Предположим, что точка s(xlf ух) (в дальнейшем мы будем называть ее точкой срыва) имеет «общий тип», т. е. а) является положением равновесия системы (1), б) все собственные числа II df* II / ч матрицы ha7£- в точке s(xly ух) имеют отрицательные действительные части, кроме одного, которое обращается в нуль. Тогда, при выполнении некоторых дополнительных условий невырожденности, система (1) в окрестности точки s(xlf yx) может быть записана в форме elx = (I1)2 + У]1 + &J л)Э' + Ф1^ + d\ (S1)3 + е*№' + • • ■ • 4' - aUa' + b^rf + 4 (l1)2 + d{ (I1)3 + eU1^' + 4^У + • • • . (/ = 2, ..., k, / = 2, ..., /), причем det||a£,\\Ф0. (Здесь мы выписали только члены, которые нам непосредственно понадобятся для расчетов. Отметим, что в (1.5), так же как и всюду в дальнейшем, суммирование по штрихованному индексу начинается с двух: *Ua'= 2 aUa\ W= 2 W a'=2 3=2 и т. д.) В § 3 мы укажем соответствующую систему координат и найдем нужные нам выражения от коэффициентов правых частей системы (1.5) в инвариантной форме. Там же будет указано, какие дополнительные условия невырожденности точки срыва s(xu yx) мы предполагаем выполненными. Систему (1.5) коротко перепишем так: V = 4V(gi, auu9 g*f ie aaa9 l)a
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИИ Ю! Решение вырожденной системы Ф<(£\ .... Б*, г)1, .... Л'НО, V = W(61, ...,£*, л1, •••• Л'). соответствующее в системе координат £', чу решению (1.1), пусть будет (1.7) (1.8) Точкой срыва для решения (1.8) будет теперь начало координат Е = 0, ti = 0. Прежде всего вычислим траекторию решения (1.8), приняв вдоль нее за независимую переменную координату I1. Очевидно, что дФ1 дФ1 дФ1 дц1 д¥ дФ2 дФ2 дц1 д£? дфк дФк дФ2 д& дфк ФЪ (1.9) дг]1 dl2 '" д& при Б = 0, т) = 0. Поэтому из k соотношений ф'ЧБ1, .... Б*, л1, .... л') = о (1.10) величины т)\ |2, ..., £* момно выразить через I1, г)2, ..., г)'. Непосредственно проверяется, что эти выражения имеют следующий вид: л1 = -(БУЧ-А1 (Б1, л2, .... ч'). Б'^/СЧБТ + АЧБ1, л2, .... л')> ' = 2, ...,£, (1.П) где К.'—числовые коэффициенты, а функции А1, ..., А* не содержат членов вида /?£\ ^•(?1)2. Дифференцируя по / первое соотношение (1.11), получим (1.12) (1.13) откуда V = -2g41+AH1-l-AV4f,\ или, подставляя сюда вместо ц1, yf' их значения из (1.5), gi ,1 + «1|' + -..-4р--(«?'11+...) п И) -26» +А|, (I1, г,2 Л') "
102 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Далее, заменяя в (1.14) и в уравнениях г/ = ^а\ •-., £*, л1, ..., л1). / = 2, ..,/, (1.15) Л1» £2> •••» £te их выражениями (1.11), получим следующую систему дифференциальных уравнений для I1, г)2, . . ., г\1: Ь= 1 + а}51+... 9 -2^-!-... ' (1.16) (многоточием здесь заменены выражения, не содержащие членов вида /?, ql1). Вместо системы (1.16) рассмотрим следующую систему: ^=-2«{у).+ •■■ / = 2, ...,/. (1.17) «ь 1+aig1 + ... Ее решение, проходящее через начало координат, как легко убедиться, будет т,/=-|а{(^)я+ ..., (1.18) где не выписаны более высокие степени g1. Подставляя (1.18) в (1.П) и проводя небольшие дальнейшие вычисления, найдем г]1, ..., х\1 и £2, ..., lk: 41==-(Sl)1 + (|fl?'^ + ci-di-^e«')(gi)3 4- ..., j * = -*«№)>+ ■■■. f (M9) Здесь 6' и П'— числовые коэффициенты, явные выражения которых мы не выписываем. Таким образом, мы вычислили траекторию решения (1.8), приняв за независимое переменное вдоль нее I1. Возвратимся теперь к системе (1.5). На участке—р^^^р, где р—достаточно малое, но не зависящее от е число, величину I1 примем за независимую переменную и вместо системы (1.6) будем рассматривать систему dV ФЧЕ1. ..., 6*. л1. .... л') V с4" (б1. ^ Ф1(§1. . .. 6*. п\ ■■■ ... Е*. V. .... Е*. Л», -. V) ' .... V) .... V) i = 2, ...,k, (1.20) / = 1, ...,/• Участок (—р, р) разобьем теперь на три участка: (—/?, —ах), (—ап а2), (а2, р), где а1 = е2-7, а2 = е29. На каждом из полученных трех участков система (1.20) решается по-разному. В этом
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 103 параграфе мы решим ее с точностью до О (е) на участке —р ^ Решение системы (1.20): *' = ^'е>' (121) Л/ = Л/(61. в), ( ' начальные значения которого в точке ^ — — р отклоняются от начальных значений вычисленного выше решения (1.19) системы (1.7) на величины порядка 0(e), естественно попытаться представить приближенно в виде сумм ?• я - Й (S1) + ей (S1) + • • • + в»& (I1), Л;' * = Л* (S1) "i еЛ{ (i1) + • • • + е»т|£ (51). l ' ' Оказывается, что такое представление возможно. Иными словами, оказывается, что для всякого решения (1.21), удовлетворяющего упомянутым выше начальным условиям, на участке — /?^:Е^—ог можно построить суммы вида (1.22), представляющие это решение с точностью до величин любого порядка малости относительно е. Доказательство соответствующей теоремы непросто, требует проведения довольно громоздких вычислений и будет опубликовано отдельно. Здесь мы ограничимся лишь построением вторых приближений решения (1.21) и констатацией факта, что эти приближения представляют решения (1.21) на участке (—р, —аг) с точностью до величин порядка 0(e). При этом сами приближения (1.23) мы определим как функции, удовлетворяющие системе (1.20) «с точностью до е2». Функции UH1) и Tjid1) мы уже вычислили [см. (1.19)]. Проведем вычисление функций Щ11) и rtf^1). Подставляя (1.23) в правую и левую части уравнения rfg1 '" ФЧб06. nP) l ' ) и приравнивая свободные члены (в разложении по степеням е), найдем ,, 4"(E't £?'(£*), to) (1.25) где 6,1)1 = -д|Иф1(&1. ird1), л8(£1))Н?' + i^s-we1, s?m Mg^n-iif. (i-26)
104 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Следовательно, бФ^-^Ч^1, ЕПБ1). Чб(^)). (1.27) Далее, подставляя в уравнения ^ = вТ/<^"? , / = 2 /, (1.28) выражения (1.23) и приравнивая затем свободные члены и коэффициенты при е, после небольших вычислений получим Ы-.ЛЯЫЗфШ, (1.29, ^'=ч^г1>-[№-Ы)'™']- <|-30) Здесь через б2Фх мы обозначили коэффициенты при е2 в разложении по степеням е функции Фх(£\ £а'*2, rf'2). Этот коэффициент легко вычислить. Действительно, так как MY + e fnV - Y'ft1'S?'.i|g) + eOT»+... то 6ЧГ1 = (т]1)/б8Ф1+вФ1(т11)/| откуда w=^ -/5-аф1. (1.3D Ы Подставляя это выражение в (1.30), после небольших преобразований получим (Л0' = ^[(л1)'в^/-(Ы)'6^] + М1^).', / = 2, ...,/. (1.32) Совершенно аналогично из уравнений ji=o4|^l i = 2 k (133) ^ Ф1 (|а, т|Э) V ' найдем (ЙГ-W". (1-34) откуда, принимая во внимание (1.27), получаем 0ф1 ЛгЪ/ \1Г1 ftl £<*' v.§\ ^•^+^Л? = (Ш'^#^, -2 ft. (1.35) д&' Ъ1 ^ 3r,P 4l ~ v*°' (itf)
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 105 Кроме того, соотношение (1.27) в развернутом виде выглядит так: Принимая во внимание конкретный вид функции Ф1, соотношение (1.36) можно записать более определенно: (H-5>(l1))tli = ^7-|^e + ^(^)r. (1-37) причем В1(0) = АЪ(0) = 0. Объединяя (1.35), (1.37) и (1.32), получаем следующую систему дифференциальных уравнений для £{, 1 = 2, ..., k, и ц{, /=1, ...,/: d + ^(P))4i—^ПГ + ^.(Р)Е?- + ^г, \ (,.38) (Л()' = трг [(4i)' «^-(trf)' 64"] + Шыр1У- Разберемся в этой системе. Выражая из первых k—1 соотношений функции £?' через T)f и подставляя полученные выражения tr = G«'(t*)rti+D«'tt*) (1.39) в правые части последних (/—1) уравнений (1.38), после небольших вычислений получим НУ = NJ (£') + Ц &) Л? + Ы™Р' , (1.40) причем W (0) = N^ (0) = 0. С другой стороны, подставляя (1.39) во второе из выписанных соотношений (1.38), без труда убедимся, что Н[-$+л*да)]*+в(«+ж}-1Т1прг- (М1) причем Лэ.(0) = Я(0) = 0. Систему уравнений (1.40) и (1.41) можно решить. Дифференцируя (1.41) и подставляя полученное выражение в (1.40), получим после вычислений (ЛО^Я^^ + ^^^ЧСЙ^^Т, / = 2, ...,/, (1.42) причем функция PJ (I1) имеет в нуле полюс первого порядка и ее главный член будет ос>/2, а W£,(0)==Q^(0)==0. Решение системы
106 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ (1.42) будем искать в форме П5 = /С> (с») In | ё1| - и£% (1-43) где К' (Е1)—функции, непрерывно дифференцируемые при —р^ ^1Х^0. Подставляя (1.43) в (1.42), получаем (*>)' in I ем -г -f- + (U)'=р> т -: n^w in 111 и Кр + A^L"' H- %. [(КП' In 114 + -^г- + (Lp')' (1.44) Приравнивая коэффициенты при In | S11* получаем систему дифференциальных уравнений для определения KJ (I1): (K'y = Ni.K*- + QbW. (1-45) Решая ее при начальных значениях /С'(0) = а{/2, однозначно определим функции Ю'С^1). После этого из системы обыкновенных дифференциальных уравнений (/y)' = P/(^)-^P- + Q^ + A/^' + Q^' (1.46) можно определить и функции U. Они не имеют особенностей. Итак, л( = -у-1п|Б1|+0(1), / = 2, ..., /. (1.47) Далее, из (1.41) следует Наконец, из первых k—1 соотношений (1.38) получаем K = -^+/i'ln|£1|-L0(l)> ' = 2, ..., *, (1.49) где /л', п1' — константы (их явные выражения мы не выписываем). Таким образом, мы вычислили суммы ^1(S1) = Si(S1) + eK(S1), * = 2, ..., л. Вычисление функций Н-1 (g1), i = 2, ..., k, ti£ (S1). /=1, ...,/, более громоздко. Однако для целей настоящей работы нам достаточно знать лишь главные члены функций Uil1) и ^((Б1). Проведя необходимые выкладки, найдем лИ£1) =-871IJ5 +в1 (Е1). л'* (£') = «'(&'). / = 2 /, (1.49')
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 107 где Q' — числовые коэффициенты, явные выражения которых мы не выписываем, а функции б7'^1), /=1, ..., /, и у/(?1), i = = 2, . . ., k, таковы, что величины е26' (S1) и г2у'(£*) суть величины порядка о(е) на всем участке —р^?1^—о1. Как уже отмечалось выше, можно доказать, что на участке — р^Н1^—ах решение (1.21) представимо в виде т)у = Л'0 (I1) -! *% (I1) + е2л( (S1) -i S/. 2 (Н\ е), g'- = ^(^)-i-egi(g1)-l e2Ef2(>)-{ #'. 2(Н\ 8), где функции S'' 2 (£\ е) и /?'• 2 (£\ е) имеют на всем этом участке величину порядка не более 0(e). Следовательно, для решения (1.21) на участке —р^^1^ — ai мы получили асимптотические формулы: / 2 Л1 = - (S1)1 + ( ^< Ц. -г cl-dl-eiW (&У Ч"2|г-тРХ1п|^1)+в 8 (б1)4 J +S1(£1,e), V = —fai(S1)3+ ...+e(-f lnl^N + S7^, e), / = 2, ..., /, \ (1.50) m/ £<- = e'(£»)•+Ш (ST + ...+e^ + n'ln|^|j + + e,(^! + ^(5l, e). J В этих формулах многоточием заменены члены порядка (g1)4 и выше, а функции S' (£\ е), /?' (I1, е) имеют на участке —р ^ ^ ^ <—ог величину порядка 0(e). § 2. Вычисление решений на переходном участке В настоящем параграфе решение (1.21) будет продолжено на участок —ох ^ g1 ^a2. Мы увидим, что здесь решение (1.21) значительно сильнее отклоняется от соответствующего решения вырожденной системы, а именно на величины порядка е2/3 и elne. Замена переменных 11 = ут\ ll' = \i2ul\ r\l = \i2vly V = jiV, t = \iH, (i3 = e (2.1) приводит систему (1.5) к следующему виду: «i = (Mi)2j yiH ^(й^иР' + ф^-! d}^1)3-; г^и1*/"')-!- .. ^ul' = a^ua,+b[vl+cfi(u1)2-\-\i(b^n diiu1)* -; ф^Ч- ч-4,м1ма')+ .... | (2.2) у1 = 1 + \ia\u1 -г . . •, ^-a|wl-|- • • • (здесь точкой мы обозначаем дифференцирование по т).
108 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Более коротко систему (2.2) запишем так: (2.2') Примем и1 за независимое переменное и вместо системы (2.2') будем изучать систему du1' _<p' (иа, ир, ц) Р ~Ш ~~ ф1 („а уЗ, ц) ' <fo/ _ "ф/ (гга, рр, ц) du1 ~ф1(^, i/P, |i)' При |i = 0 система (2.3) вырождается: a) aia,ua, + b{v1 + ci(u1)2 = 0i Ъ) Л, /. (2.3) с) du1 dvf {u^ + v1 у7 /Л cto1 (и^ + и1 " (2.4) Эта вырожденная система имеет много решений. Для нас особую роль будет играть одно определенное частное решение, которое мы сейчас укажем. Уравнение б) в системе (2.4) есть уравнение Рикатти. Его решения определены при —оо < и1 < + оо. Мы возьмем частное решение этого уравнения v\(u}), которое при отрицательных значениях и1 представляется в виде —(и1)2-^ z0 (и1), где z0(ul)— добавок, стремящийся к нулю при и1 —* — оо. Для ^(w1) сразу же получаем дифференциальное уравнение -2и1 + г'0(и1)-- z0 (ui) (2.5) и асимптотическое представление при больших отрицательных значениях и1: z0(u1)' 1 1 2U1 8 (и1)4 О Таким образом, 1>о(иТ = —(и1)2 1 ЧиУ 8 (и1)4 (и О w- («i)' (2.6) (2.7) Без труда можно получить асимптотическое представление функции yj(ul) и при больших положительных значениях и1: yJ("1) = S2-i + 0 (и1)3 (2.8)
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 109 где Q = const = vl(oo). (Разложения (2.7) и (2.8) можно получить, если воспользоваться асимптотическими свойствами функций Бесселя, так как решение уравнения Рикатти выражается через функции Бесселя. Однако их проще получить непосредственно из самого дифференциального уравнения Рикатти.) Исходя из вычисленного решения vlfa1), мы можем найти функции v[{u})% / = 2, ..., /: *.=^f(*)41«wd"1- (2-9) Видим, что v[ определяются с точностью до констант. Выберем вполне определенные uj, а именно1) ^(ц1) = ^1(«У+Уи + -7-1п'и (2Л0) о Непосредственно проверяется, что при больших отрицательных значениях и1 получаются следующие асимптотические разложения: t;/0(^)-=-4a((^)3 + 4-lnl"1l+4-ln^+--- (2Л1> а при больших положительных значениях и1 i/0(M1)+=a{ln|M1| + -jailnli+ ••• (2Л2> (в формулах (2.11) и (2.12) многоточием заменены члены, ограниченные при и1 —»— оо, соответственно, при и1—->-}-оо). Теперь из первых k—1 уравнений системы (2.4) можно однозначно определить и функции и(0(и1). Проведя небольшие вычисления, получаем для них следующие асимптотические разложения при больших отрицательных и при больших положительных значениях и1: «J(«r = e/W + ^+^ + o(^), х) Заметим, что если положить и1 0 где CJ — произвольная, но не зависящая от \х константа, то, как это будет видно, функции v^(ul), и* (и1), вычисляемые дальше, изменятся также лишь на некоторые константы, не зависящие от \х.
по 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Итак, найдено вполне определенное частное решение вырожденной системы уравнений (2.4): и1 = ици})% 1 = 2, ..., k. { V Заметим, что это решение определено при —оо < и1 < -- оо. Систему функций (2.14) мы будем называть «нулевым приближением» истинного решения невырожденной системы уравнений (2.3), имеющего соответствующие начальные значения. Исходя из (2.14), построим далее формально «первое приближение»1): v1 = vl(u1)-]-\ivl(u1)i \ и Wo (и1), / = 2, ..., /, | (2.15) где функции vKu1), u\(ul) определяются следующим образом. Подставляем функции (2.15) в правую и левую части уравнения dv1 у1 (и*, vfi, ii) ((? lfiv и затем приравниваем коэффициенты при \х\ получаем дифференциальное уравнение ^щщ^н'^-^ьМщ'- (217) где ЪЪЪ*' + c\uh\ + d\(u*)*-\ eWuT +*W[(u*)* + vb] П1(и)= ■ F 7TZ (Z. 1о) -«' «'Г uldul здесь ug =аЦ 1 0 Функцию v\(ul) мы определим как частное решение этого линейного уравнения: и1 yJ=GRj ^//.(«Wu^-l&X'lnf*. (2-19) — X где с(",,=Ч|п^М' <22о> 1) Первое приближение функции v1 нас не интересует
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Ш Из формулы (2.19), учитывая асимптотические разложения функций vl, ug', и%', полученные выше [см. формулы (2.7), (2.8), (2.11), (2.12), (2.13)], найдем асимптотические разложения функции v\(ul) при больших отрицательных и при больших положительных значениях и1. Выпишем эти разложения: —g-W in|a4—g-W ln^-L • ■ •• (2-21) v\ (wJ)+ = {a\—d\—ela,B«') Inu1— 1 &*<*?' In Щ- . . . (2.22) В этих формулах многоточием заменены члены, остающиеся.ограниченными при неограниченно возрастающем модуле и1. Функции u[(ul), i' = 2, ..., k, определяются проще. Именно: подставляя выражения (2.15) в первые k—1 уравнений (2.3) и приравнивая затем коэффициенты при \х, для и[ (и1) получаем линейные алгебраические уравнения. Из них, пользуясь уже известными асимптотическими разложениями функций и[, и£, v\, легко находим асимптотические разложения для и[(и1). Не проводя здесь подробно этих совершенно элементарных, хотя и довольно громоздких выкладок, сразу выпишем окончательный результат: и[ (и1)- = П< (и1)* -f- п1' In | и11 + nf In \i 4 О (1),,. —ж, (2.21') м{(М1)+ = 0((м1)3) + 0(1п|г) +0(1)и.^+». (2.22') Подчеркнем только, что числовые коэффициенты П', п1\ фигурирующие в формуле (2.21'), суть те же самые, что и одноименные коэффициенты в формулах (1.50). Таким образом, мы вычислили «первое приближение» (2.15). При этом сами функции (2.15) определены нами как удовлетворяющие с той или иной степенью точности невырожденной системе уравнений (2.3). Вопрос же о том, насколько эти функции приближают истинное решение уравнения (2.3), пока не обсуждался. В действительности оказывается, что на участке —(Oj ^ w1 ^со2, где (о/ = —L{i= 1, 2), со,- —> оо при е —*• 0, система функций (2.15) М- приближает с вполне определенной точностью всякое истинное решение уравнения (2.3), начальные значения которого в точке и1 =—о)! совпадают с соответствующей точностью с начальными значениями функций (2.15). Более подробно: всякое решение vJ = v'f(u1, |i), и' = и'(и\ ц) (2.23)
112 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ уравнения (2.3), удовлетворяющее начальным условиям V1 (— С0Х) - [VI ( — Щ) + (Ш} (- Щ)] = О (|i) , t,/(_(Oi)_t;/(_(Oi) = 0, "'" (—©i)—W (—%) + |ш{ (—соО] = о (|х), (2.24) можно представить на участке функции —^ ^. и1 ^.ы2 в следующем виде: v1 = vl(u1) + \Lv\(a1) + r1(u19 |i), \ vJ = v[{ul) + rf{u\ |i), I (2.25) ^^^(^-f [ш((гЛ v)\ sf(u\ (i), J причем на всем этом участке функции г1 (и1, |i), s1'(и1, \i) имеют величину порядка 0(|i), а функции г]'(их, \\), /^2, имеют величину порядка 0(1). Доказательство этого факта требует проведения некоторых дальнейших вычислений и также будет опубликовано отдельно. Возвратимся теперь к старым переменным £', г)Л Участок — (ог ^ и1 ^ (о2, перейдет в участок —а^Б1^^ а функции (2.15) в этих переменных запишутся следующим образом: Б' * = 2, (2.26) Пользуясь асимптотическими разложениями функций ^(и1), иНи1), v^iu1), u^(ul), u[(ul) при больших отрицательных значениях и1 [см. формулы (2.11), (2.21), (2.13), (2.2Г)], легко вычислить значения функций (2.26) в точке Б1==— orle Проведем это вычисление. Для этого подставим в (2.15) асимптотические разложения функций Vq, v{, vf0, ul0t u[ при больших отрицательных значениях и1. Получим 1 °1-(-Bl),-55T-ff^i + 0((^)+I»{(4«?'*i. + ^- | —dl-ela№) (ui)3_^^,aP'ln|«4-y^,aP' 1пц+ .. .}, v'=[—j(ul)*+^ln(u*) + ^\nVL+...]a[, / = 2, ••"/' + И'[П''(«1)3+Л''1П|И1| + П''1ПЦ+ . . .]. ;' \ (2.27)
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ ИЗ Переходя опять к переменным |\ т|', получим выражения )ункций (2.26) для значений I1, близких к —ст^ —1 48[-2F~^'a?ln||1|]+82Wa'0(8),l l' = -| a{ (61)» + e -i a( In | g» | + 0 (e), (2.28) )тсюда, в частности, можно получить и значения функций (2.26) точке £* =— а1. Сравним теперь формулы (2.28) и (1.50). Мы увидим, что при ' = —<г, 4(1.50) = »!(,.„,+ О И- Ь(1.бО) = 1(2.28)+ О (б). (2.29) Следовательно, вычисленные нами функции (2.28) являются, с соот- етствующей точностью, продолжением решения (1.50) на участок -(Ti^^^a,. А так как—что уже отмечалось — они приближают на этом участке истинное решение системы уравнений (1.20), о задача о продолжении решения (1.50) на участок —ax ^ Si1^^ решена: это продолжение дается следующими формулами: (2.30) де функции НЦЪ,1, ц.) и G'(£\ ц) имеют порядок О(е). Если учесть асимптотические разложения (2.8), (2.12) и (2.22), о отсюда можно получить, в частности, значения функций г\* точке i1 = a.,: Til(a2) = e^Q—±8lne-(ai—dj—eb'B?' + y&X') + + elna2.(ai—di-4,5?')—1- + 0(8), U2 Tj^(a2) = 8a( lna2 — -£-a(elne+ O(e), >ти значения нам сейчас понадобятся. / = 2, ..., /. (2.31)
114 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ § 3. «Вектор смещения» и его вычисление Пусть (3.1) л/ = л/(11. 8). 5'= £'(£'. е), /=1, • / = 2, . . .-, /, ... *, — точное продолжение решения (2.30) на участок о2^1г ^р, где р уже не зависит от е. Прежде всего можно доказать, что т]/(£\е) = ое_о(1), п9) Е'(Е\ e) = BJ(E1)« -h ... +ое_о(1) { } (здесь многоточием заменены члены более высокой степени по Е1). Действительно, функции (3.1) суть решения системы уравнений (1.20). Можно доказать, что они непрерывно зависят от параметра е (это доказательство будет опубликовано позже). Но при 8 = 0 система (1.20) перейдет в систему dV Ф'(Еа.т|Р) dV ФЧЕа.т|РГ ,_ ^_n ( ] dE1 ' которая имеет своим решением с нулевыми начальными значениями функции т,/ = 0, t^BUl1)2* ... (3.4) В самом деле, записывая такое решение в виде Еа' = /?а'Е1 + + ?а'(Е1)2+• • • с неопределенными коэффициентами /?а' и qa\ получаем алгебраические линейные уравнения откуда ра' = 0, qa' = B^'. Вычислим значения функций г]у'(Е\ е), /=1, ..., /, в произвольной точке Е1 отрезка (сг2,/?). Принимая во внимание формулы (3.2), можем написать: v(^e)=v(cT,e)+eey/^gf;(|1)2'0 °!^+0(в). (3.5) 1 КЪ * ' I I 2. / ' J ф1 (gl, B«' (gl)2f 0 0) W V Но, как легко подсчитать, ^ *?;«'>'■ ° °!=-7gu+jI(«i-rfi-4.B?')+0(1)^0,(3.6) фЧЕ1. #о (Е1)2^, ...,о) (Е1)2 'Г 1 * а 0/ v n v W^Bf;^1)2-° Oi = ^ + O(l)^o, / = 2 /. (3.7) Ф1 (i1. в? (I1)2. о о) £
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 115 Поэтому £ (3.8) ^(g1,e) = V(a2,e) + ej^dS1-bO(e), / = 2, ...,/. Значения iy'(<7.., e) были вычислены в предыдущем параграфе [см. (2.31)]. Подставляя их в (3.8) и производя интегрирование, получим выражения для функций т)у (I1, е) в произвольной точке отрезка (а2, р): + е [- 1 + (a\-d\-ela.B?) In £*] + О (е), [ (3.9) Л7^1. e) = elne[— ^ а{]+га{ In g1+0 (е). Обозначим через Ах = (А}, . . ., Д{) вектор с координатами AJ = e*/»Q+elnef-i(al-di-^fln + 4^a5']' (3.10) A{ = elne[ — -g-a{] , / = 2, ...,/. Вектор Ах мы назовем вектором смещения, соответствующим точке срыва s(xx, уг). Как показывают формулы (3.9), вектор Ах есть (с точностью до величин порядка О (е)) вектор отклонения представляющей точки системы уравнений (1.5) от подпространства 20 (состоящего из точек (|, 0)) при небольших конечных значениях I1. Система уравнений (1.5) получается из системы (1) линейным преобразованием координат в окрестности точки срыва s(x1,yl). Сейчас мы осуществим это преобразование. Мы увидим, что оно не перемешивает «быстрых» и «медленных» переменных, т. е, переводит подпространство Х^ в подпространство 20, а подпространство Ylx—в подпространство Н& (состоящее из точек (0, т))). Таким образом, вектор смещения Аг есть вектор уклонения вычисленного решения системы (1) от подпространства Xkyx, содержащего «быстрый» участок той траектории вырожденной системы (3), которая проходит через точку срыва s(xx, уг). Вектор АХ=:(А}, . .., А{), естественно, не зависит от выбора системы координат в окрестности точки срыва s(xl, уг) и допускает инвариантное выражение. Сейчас мы найдем это инвариантное выражение вектора А1# Для этого приведем систему (1) в окрестности точки срыва s(xu yx) к виду (1.5).
116 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Разложим функции f (ху у) и gf {х, у) в окрестности точки s(*?> уЪ по формулам Тейлора (выписывая только нужные нам члены): /'" (х, у)=А'а (*«-*?) + Bl W-y?) Л А}# (х*-х?) (*р-*?) + \ + А**, (х«-х?) (jfi-4) (хУ-хГ) + • • ., (3.11) gJ(x,y) = g/ + CJa(x«-x?)... J Согласно предположению о характере точки срыва, матрица \\АЦ (3.12) имеет одно нулевое собственное значение кратности один; принадлежащий ему собственный вектор обозначим через т^(т\ т\ ..., т*). (3.13) Собственный вектор с нулевым собственным значением транспонированной матрицы обозначим через n = (nltn2, ...,nk). (3.14) Таким образом, Л£та = 0, Afna = 0. (3.15) Дополнительно введем нормирующее соотношение тапа^1. (3.16) Возьмем теперь систему векторов е1% е2У ..., ек (*,= (**, ..., в?)), (3.17) где e1 = m, а другие е{ таковы, что (егп) = 0 (в остальном произвольные), и примем ее за новый базис пространства X. Возьмем, далее, систему векторов hl9 A,, ..., ht (hj = (h), ...,Л})), (3.18) где h1 = g = (g1, ..., gl), а остальные hj произвольные, и примем ее за новый базис пространства Y. Введем в окрестности точки срыва s(x1,y1) новые координаты £', V по формулам X л j = £ с [у y—yi=~4\'hj. (3.19), Непосредственно проверяется, что в координатах |\ r\J система (1) запишется так: йг = Р (Г1)2 + Щ1 + Ц $' + % (Г1)3 + <?! Г1 • Г + • et = а<Д«' + 4 (g1)2 + ..., »= 2, .... Л, Tf/ = a{|i+..., / = 2 /, (3.20)
9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ 117 где р = п6Л«ртатР, ? = ЛвВ{1<Д (3.21) b) = n6B^hf, d\ = n6A^ymam^my, ela,^2n6A^maei,. Заметим, что а? суть коэффициенты разложения вектора Н(Н\ ...,Н') = \\СЦт (3.22) по базису hu h2, ..., ht. Очевидно, что Н1 = С'ата. Будем считать, что точка срыва s(x1,y1) удовлетворяет еще дополнительно следующему условию невырожденности: р=т^0, <7=т^0. Дальнейшей заменой: ./: = V. Г ■2, = 2, i)1 = p-u*q-'43r\1, Л система (3.20) приводится к виду (1.5) el1 = (I1)* + ц1 + bl.rf + d\ (V-У + eU1^' + (3.23) (3.24) Г]* = 1 -h CXJg1 + 4' = a& (здесь точкой обозначено дифференцирование по t), где -b)p4*q-*i\ / = 2, ...,/, Ь): d\ = d\p-6l3q1'3, а} = а}р-2/3<71/3, а{ = а{>-\ /==2 /, 4- 4 = = 4,/>~1/3<Г1/3> =~ala,p--4*q--4\ :ф-б/з?1/з( i = 2, 1-2, Л, Л. (3 25) Возвратимся к вектору смещения Дх = (А}, ,, Д{). Очевидно, что (3.26) где Д1 = /Г »«7"»ДЬ Д?' = ДГ, В' = 2, ...,/. (3.27) Учитывая (3.25) и (3.27), из (3.10) получим, употребляя символ Кронекера 6<j, следующие выражения для координат Д?, Р=1, ... • • , /, вектора смещения Дх: (3.28)
118 9. АСИМПТОТИЧЕСКОЕ ПОВЕДЕНИЕ РЕШЕНИЙ Подставляя эти выражения в формулу (3.26), получим инвариантное выражение для вектора смещения: /з . Q -£-; 81П8{-^ + *(" 6pq ' Зр2 ' 3yp2Q2jl J7=)\-№ ^ = *2 v- Для входящих в эту формулу векторов g и Я, а также для чисел /?, q, s = d\ мы уже указали их инвариантные выражения. Остается найти r = a\bl и k = e\,B^. Очевидно, что г = пьВ%С1т*. (3.30) Остается найти k = ela,B%' (напомним, что В?' определяются из системы уравнений a£,5J'-!-cj = 0, г = 2, ...,£). Матрицу \\Ala\\ можно привести к виду ^0 0 ... 0) |о laa- КО (3.31) Обозначим через Л' матрицу (о, о Ua< (3.32) Пусть в исходной системе координат пространства X линейное преобразование Л' осуществляется матрицей Kf. (З.зз) Легко видеть, что эта матрица единственным образом определяется матрицей ||Л^||.) Тогда, как легко можно подсчитать, * = уГГ~т ' (-2M&mad^uim^). • (3.34) ЛИТЕРАТУРА [1] Тихонов А. Н., Системы дифференциальных уравнений, содержащие ма лые параметры при производных, Матем. сборн., 31 (73):3 (1952), 574—586 [2] Васильева А. Б., О дифференциальных уравнениях, содержащих малы* параметры, Матем. сборн., 31(73): 3 (1952), 587—644. [3] Мищенко Е. Ф., Понтрягин Л. С, Периодические решения систе» дифференциальных уравнений, близкие к разрывным, Доклады Ак. нау* СССР, т. 102, № 5 (1955), 889—891.
10 СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМИ ПАРАМЕТРАМИ ПРИ ВЫСШИХ ПРОИЗВОДНЫХ*) К числу важных применений теории обыкновенных дифференциальных уравнений относится радиотехника. Система уравнений, описывающая работу любого радиотехнического прибора, всегда составляется на основе некоторой идеализации прибора. Радиотехнический прибор собирается из ряда деталей: электронных ламп, конденсаторов, индуктивностей и т. п. Физические величины, характеризующие эти детали, как-то: числовая величина емкости конденсатора, числовая величина индуктивности и т. п., называются параметрами прибора. Кроме деталей, предусмотренных конструкцией прибора, в него, как правило, входят паразитные детали; им соответствуют паразитные, обычно малые параметры. Таковы внутриламповые емкости, индуктивности коротких соединяющих проводов и т. п. При идеализации естественно пренебречь малыми паразитными параметрами. Обнаружилось, однако, что такое пренебрежение в ряде случаев дает не только неточное, но даже качественно неправильное описание работы прибора. Если составить систему дифференциальных уравнений с учетом малых паразитных параметров, то может случиться, что они входят коэффициентами при высших производных, так что, считая эти параметры равными нулю, мы получаем систему уравнений более низкого порядка, притом зачастую неразрешимую относительно оставшихся высших производных. Именно при этих обстоятельствах пренебрежение малыми паразитными параметрами может привести к неадекватному описанию физического явления. Ниже рассматривается довольно общая система дифференциальных уравнений с малым параметром при высших производных — система, которая в ряде случаев дала правильное объяснение работы соответствующего прибора, невозможное при пренебрежении малым параметром. Пусть х=(х\ ..., **), (1) У = (у\ • •-, У1) (2) *) В кн.: Труды III Всесоюзного математического съезда. Москва, июнь- июль 1956 г. Том 3. Обзор докладов.—М.: 1958.—С. 570—577.
120 Ю. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ — неизвестные функции времени / и exl' = f1' (х1, ..., хк, у\ ...,*/')> 1 = 1, ..., k, \ (3) — система уравнений, управляющая их изменением, где 8—малый положительный параметр. Систему уравнений (3) в векторной форме запишем в виде zx = f(x,y), y = g(x,y). (4) Говоря, что параметр е мал, мы имеем в виду приближенное изучение решений системы уравнений (3) с отбрасыванием величин той или иной степени малости относительно е. Пусть * = ф(/, е), y = ty(t,s) (5) — некоторое решение системы (4). Можно поставить вопрос: стремится ли решение (5) к некоторому пределу при е —> 0, т. е. может ли оно быть записано в виде ^^ф1(/) + А1ф(/, 8), */ = Ы0 + ДЖ',е), (6) где функции АхФ(/, е) и А1г|)(/, е) стремятся к нулю при е -* 0. Возможно, что это происходит лишь на некотором интервале изменения времени /; не исключено также, что это имеет место лишь для одной из функций ф(/, е) или ty(t, е). Если хотя бы одна из функций Агц> (t, е) или Atty (t, е) стремится к нулю при е —► 0, то можно выяснить порядок величины этой функции относительно е, например может оказаться, что Ai<P(*. е) = е2/3ф2(0 + д2ф(*>е), где А2ф(/, е) стремится к нулю уже быстрее, чем е2/3, например, как е In е, и тогда функция ф (/, е) записывается в виде Ф (/, е) = фх (/) + е2/3ф2 (0 + 8 In 8ф3 (/) + А3ф (t, e), где функция А3ф(/, е) стремится к нулю уже быстрее, чем 8 In 8. Таким образом, речь будем идти об асимптотическом разложении решения (5) в ряд и о вычислении нескольких членов' этого ряда. Может случиться, что на отдельных участках изменения времени / имеют место различные разложения. Особенный интерес может представлять доказательство существования периодического решения системы (4) и изучение его асимптотического разложения, в частности асимптотического разложения его периода. Тогда запись функции ф(/, е) в виде (6), где ^(t) уже не зависит от 8, невозможна, но можно ее записать в виде ф(<,в) = ф1(<|е) + А1ф(/|е), где функция A^(/, e) стремится к нулю вместе с 8, а функция Фх (/, е) хотя и зависит от е, но может быть вычислена. В этом
10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ 121 случае порядок стремления к нулю функции At(p(t,E) также представляет интерес и, так же как в случае функции Фх(/), не зависящей от е, можно поставить вопрос о выделении главной части функции Агф(/, е). Такова, в общих чертах, имеющаяся здесь постановка вопроса. Переменные (1) и (2) в системе уравнений (4) неравноправны: вектор v фазовой скорости в пространстве переменных (1), (2) распадается на два вектора: v=^[jf(x9y)t g(xty)}9 причем второй из них, т. е. g(x,y), не зависит от е, а первый — f(x,y), стремится к бесконечности при е-^-0, если только !(х,у)Ф0. На основании этого переменные (1) можно назвать быстро меняющимися, а переменные (2)—медленно меняющимися. Основной подход к системе (4) заключается в том, что сперва изучается поведение быстро меняющихся переменных при постоянных значениях медленно меняющихся переменных. Таким образом, первоначально рассматривается система уравнений ex=f(x,y), (7) в которой вектор у есть постоянный параметр. Мы будем предполагать, что каждое решение системы (7) при t—-оо стремится к некоторому стационарному решению, и будем рассматривать лишь те случаи, когда этими стационарными решениями являются либо предельные циклы, либо положения равновесия. Естественно думать, что время, необходимое для того, чтобы решение системы (7) достаточно приблизилось к стационарному решению, стремится к нулю вместе с е, и потому в качестве приближенных решений системы (7) следует рассматривать стационарные решения. Если перейти к изучению решения системы (4), то естественно ожидать, что за время приближения решения системы (7) к стационарному решению переменные у успеют измениться мало, и потому нам нужно изучить поведение решений системы У = ё(х,у), (8) в то время как переменные х в ней описывают стационарное решение системы (7). Таковы интуитивные соображения, указывающие путь отыскания приближенных решений системы (4). Уточним их. Пусть x = q>(t, у, е) (9) — некоторое стационарное решение системы (7), которое мы будем считать экспоненциально устойчивым. Решение это зависит от векторного параметра уг и в некоторой области Г изменения па-
122 10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ раметра у оно сохраняет свою экспоненциальную устойчивость. В силу сделанного предположения решение (9) есть либо положение равновесия, либо периодическое движение. Подставляя решение (9) в систему (8), мы получаем для переменных у систему У = г(ф('. У.е), у). (10) Последняя уже не содержит неизвестных функций х и нужно найти ее решение, хотя бы приближенное, отличающееся от точного на величину, которая стремится к нулю вместе с е (см. ниже). Пусть У = Ф(0 (П) — такое решение системы (10). Подставляя величину у из фор* мулы (11) в правую часть решения (9), мы получаем * = Ф(*. я|)(0, е) (12) и можно ожидать, что совокупность формул (12) и (11) даст нам приближенное решение системы (4). Вся описанная операция осуществима до тех пор, пока решение (11) при изменении достается внутри области Г. При приближении точки \p(t) к границе области Г стационарное решение (9) перестает существовать или во всяком случае теряет свою экспоненциальную устойчивость. Наступает переходный процесс, требующий особого, более тщательного, изучения; в результате этого переходного процесса вновь возникает решение типа (12), (11), в основе которого лежит уже другое стационарное решение типа (9). В случае когда исходное стационарное решение (9) есть положение равновесия, мы приходим на описанном пути к известным результатам А. Н. Тихонова [1]. В самом деле, в этом случае решение (9) не зависит от t и е, * = Ф(#). (13) и функция (13) определяется из уравнения f(x, y) = 0. (14) Требование экспоненциальной устойчивости означает, что все собственные значения матрицы |^г|. i, a=l, ...,*, (15) имеют в соответствующих точках отрицательные действительные части. Система (10) получается при подстановке в систему (8) вместо вектора х его выражения через у по формуле (13), так что для у будет иметь место уравнение y = g(4>(y)> у)- (16)
10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ 123 Так как система (16) уже не зависит от е, то всякое ее приближенное решение совпадает с точным, так что в данном случае (11) есть точное решение системы (16). Итак, приближенным решением системы (4) является (точное) решение вырожденной системы /(*. 0) = О, ) • i ^ (17) при условии, что вдоль него все собственные значения матрицы (15) имеют отрицательные действительные части. Тот факт, что полученное на этом пути решение есть действительно приближенное решение системы (4), требует доказательства, которое и содержится в работе А. Н. Тихонова. Можно доказать, что полученное таким образом приближенное решение отличается от точного на величину порядка е. Это следует, впрочем, также и из некоторых дальнейших результатов А. Н. Тихонова. До тех пор, пока решение (11) остается в области Г, легко можно найти асимптотическое разложение решения системы (4) в ряд по целым степеням е. Переходный процесс при приближении точки (11) к границе области Г исследован в моей совместной с Е. Ф. Мищенко работе [2] в случае, когда положение равновесия (13) исчезает из-за слияния его с другим, уже неустойчивым положением равновесия и когда возникающее вследствие переходного процесса стационарное решение есть вновь положение равновесия. На этих результатах я остановлюсь позже. Перейдем теперь к рассмотрению того случая, когда стационарное решение (9) является периодическим. Введем в уравнении (7) новое независимое переменное т, положив t = ет; тогда уравнение (7) перепишется в виде % = f{*>y) (18) и уже не будет содержать параметра е; его стационарное решение, соответствующее решению (9), имеет вид х=у\тт'у)' (19) где ф — периодическая функция первого аргумента с периодом 1. Период решения (19) равен гТ(у). Решение (19) определено при у£Г. Следует отметить, что запись решения (19) не определена однозначно: в самом деле, точка ф(0, у), лежащая на периодическом решении (19), представляет собой начало отсчета на соответствующем предельном цикле; эта точка отсчета может быть смещена по-разному для разных у. Таким образом, наряду со
124 10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ стационарным решением (19) уравнение (18) имеет стационарное решение вполне равноправное с решением (19). Уравнение (10) перепишется теперь в виде у=г(^(в"4)' у)'у)- (21> Правая часть этого уравнения периодически зависит от / с периодом гТ(у). Метод приближенного решения этого уравнения, в случае когда период гТ (у) не зависит от у, дан в книге Н. Н. Боголюбова и Ю. А. Митропольского [3J. Доказывается, что в данном случае тот же метод пригоден и при переменном периоде гТ(у). Метод этот заключается в следующем: правая часть уравнения (21) осредняется по периоду, именно строится функция 1 GM = Wu)Ufi{*m' У)' y)dt=^(4>('c,y),y)dx, о о уже не зависящая от е и /, и рассматривается вспомогательная автономная система y = G(y). (22) Оказывается, что точное решение 0 = Ф(9 (23) этого уравнения является приближенным решением (11) уравнения (21), причем приближение имеет место с точностью до величины порядка е. Далее, оказывается, что приближенное решени- с точностью до величин порядка е системы (4) может быть записано в виде * = 4^F$WTH И°' *(V [ (24) где w(t) — некоторая функция. Таким образом, подбирая должным образом функцию v (у) в решении (20), мы можем записать приближенное решение системы (4) и в виде (12), (11), исходя из стационарного решения (20). В случае если система (22) имеет экспоненциально устойчивое положение равновесия у — у0, оказывается, что система (4) имеет экспоненциально устойчивое периодическое решение, которое с точ-
10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ 125 ностью до величин порядка е может быть записано в виде х='(атй' у*)>\ (25) Период этого решения отличается от гТ (у0) на величину порядка е2. Эти результаты, относящиеся к случаю, когда стационарное решение (9) является периодическим, получены мной совместно с Л. В. Родыгиным и еще не опубликованы. Непосредственно примыкает к изложенным результатам вопрос о том, каковы будут решения системы (4), в случае если система (22) имеет экспоненциально устойчивое периодическое решение У = ♦('). (26) Можно ожидать, что тогда система (4) имеет квазипериодическое решение с двумя независимыми периодами и решение это расположено на поверхности тора, уравнения которого приближенно с точностью до величин порядка е) имеют вид *=<P(s. ФИ). I /97\ 0- + И. / ( ' где s и а—циклические координаты на торе. Изучение переходных процессов, в случае когда стационарное решение (9) периодическое, а решение (23) приближается к границе области Г, до сих пор не проведено. Когда стационарное решение (9) есть положение равновесия, а решение (11) при неограниченном возрастании времени t остается в компактной части области Г, переходного процесса не возникает и теорема А. Н. Тихонова остается верной: решение (12), (11) оказывается приближенным решением системы (4) с точностью до величин порядка е на всем протяжении неограниченного возрастания времени /. Здесь особый интерес представляет тот случай, когда решение (11) — периодическое экспоненциально устойчивое; тогда приближенное решение (12), (11) также периодично. Следует ожидать, что при этом существует точное периодическое экспоненциально устойчивое решение системы (4), отличающееся от приближенного периодического на величины порядка е. Это естественное предположение доказано пока лишь в очень частных случаях [4]. Перейдем теперь к описанию переходного процесса, в случае когда стационарное решение (9) есть положение равновесия (13). Предположим, что на интервале—а</<0 решение (И) определено и стационарное решение (13) экспоненциально устойчиво, а при t = 0 экспоненциальная устойчивость решения (13) теряется, и у матрицы (15) появляется одно нулевое собственное значение
126 10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ кратности один, в то время как остальные собственные значения сохраняют отрицательные действительные части. Таким образом, на полуинтервале —а < ^^0 определено решение * = <М0. y = Vo(t) = W) (28) вырожденной системы (17). Для более геометрического описания явления введем в рассмотрение фазовое пространство Rk+l системы (4). Поскольку все координаты пространства Rk + l распадаются на две подсистемы (1) и (2), само пространство Rk^l распадается в прямую сумму своих подпространств Хк и У7, так что каждая точка его записывается в виде пары (а:, у). Пространство всех пар (ху у) с фиксированным вектором у обозначим через Хк. Оно является фазовым пространством системы (7). При изменении времени t вдоль интервала —а</<0 положение равновесия (13) меняется и при / = 0в пространстве Хщ0) возникает вырожденное положение равновесия (д:0, у0). Из того, что все собственные значения матрицы (15) в точке (х0, у0) имеют отрицательные действительные части, за исключением одного, которое равно нулю, следует, что у системы (7) при у = у0 имеется (при некоторых дополнительных предположениях общего характера) лишь одна траектория, входящая в положение равновесия х0 при t —> — оо. Мы предполагаем, что при движении по этой траектории при t —+ -\- оо точка попадает в экспоненциально устойчивое положение равновесия хх системы (7). Решение вырожденной системы (17) с начальными значениями / = 0, х = хг, у = у0 пусть будет * = <М0, 0 = ЫО- (29) Оно определено на некотором полуинтервале 0 ^ / < (3. Будем считать, что решения (28), (29) составляют разрывное решение вырожденной системы (17), определенное на интервале —а < t < (3. При ^ = 0 это разрывное решение претерпеваег скачок, при котором переменное у меняется непрерывно, а скачку подвергается лишь переменное х. Здесь скачкообразный характер решения вырожденной системы (17) и вид скачка выводятся из рассмотрения невырожденной системы (4). Такой подход к построению разрывного решения вырожденной системы впервые был дан Железцовым и Родыгиным [5] при изучении работы мультивибратора. Подчеркиваю, что характерным для этого подхода является рассмотрение системы (17), как получающейся в результате вырождения системы (4). Если при составлении уравнений мультивибратора не учитывать малых паразитных параметров, то мы не получим системы (4), а сразу придем к системе (17). Для того чтобы выявить наличие и характер скачка, приходится, помимо рассмотрения системы (17), привлечь дополнительные физические соображения. Идея этого физического подхода к построению раз- разрывного решения была реализована при изучении мультивибратора А. А. Андроновым и А. А. Виттом [6].
10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ 127 В моей работе с Е. Ф. Мищенко [2] мы изучили точное решение системы (4), переходящее при е-^Ов описанное выше разрывное решение системы (17), именно мы дали асимптотическое разложение этого точного решения с учетом величин порядка е-3 и е In e и с пренебрежением величинами порядка е. В случае k=l, 1=1 Е. Ф. Мищенко провел вычисления дальше и нашел члены порядка е. В частном случае уравнения Ван дер Поля, для которого k=l, такое же исследование еще значительно раньше было проделано А. А. Дородницыным [7J. Рассмотренный выше кусок разрывного решения, определенный на интервале —а < t < (3, содержит лишь один разрыв при Рис. 7 Рис. 8 Рис. 9 / = 0; возможно, что, продолжая это разрывное решение дальше за значение t = fi, мы столкнемся с новыми разрывами того же типа, что и в точке / = 0. Таким образом, разрывное решение может содержать ряд скачков. В частности, оно может оказаться периодическим экспоненциально устойчивым. Если вырожденная система (17) имеет разрывное периодическое экспоненциально устойчивое решение, то оказывается, что невырожденная система (4) также имеет периодическое решение, для которого разрывное периодическое решение служит приближенным. В моей совместной с Е. Ф. Мищенко работе [2] дано асимптотическое разложение периодического решения системы (4) с точностью до членов порядка е2:} и г In е с пренебрежением членами порядка е; с той же точностью рассчитан и период Т этого решения. Для случая k^-l, I =--\ вычисления продолжены Е. Ф. Мищенко до членов порядка е с отбрасыванием членов порядка е4:}. Та же работа была еще раньше проделана А. А. Дородницыным [7] для уравнения Ван дер Поля. Для иллюстрации опишем картину появления разрывного решения на примере мультивибратора. Для него & = 2, / = 2, и, таким образом, фазовое пространство Х\ быстрых движений есть плоскость. В зависимости от различных значений у в фазовой плоскости Х2У имеются либо три положения равновесия—два устойчивых узла и седло (рис. 7), либо только одно положение равновесия— устойчивый узел (рис. 8), либо два положения равно-
128 10. СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ весия, из которых одно есть устойчивый узел, а второе — вырож денное положение равновесия, так называемый седлоузел (рис. 9) Стационарным решением (13) всегда является один из устойчивы; узлов. Пусть при некотором у имеются два устойчивых узла с и с и седло b (рис. 1), и пусть стационарное решение (13) ест] х = а. При соответствующем этому стационарному решению изме нении y = ty(t) (см. (11)) фазовая картина плоскости Х\ меняета так, что устойчивый узел а сближается с седлом Ъ и, когда точ ка г|) (t) попадает на границу области Г, узел а сливается с сед лом &, образуя седлоузел (рис. 9). В этот момент происходи скачок вдоль решения, выходящего из седлоузла в узел с, Tai что стационарное решение перескакивает в узел с. После этоп перескока при соответствующем изменении у седлоузел расщеп ляется в седло и узел, так что вновь имеет место картина 1, н< стационарное решение находится уже в узле с (см. рис. 7). Пр] дальнейшем изменении у, соответствующем этому стационарном; решению, происходит сближение узла с с седлом Ь вплоть до и. слияния в седлоузел. Этот процесс повторяется неограниченно число раз, так что получается разрывное решение с бесконечны) числом скачков. Таких решений имеется бесконечное множестве и среди них есть одно периодическое, которое экспоненциальн устойчиво и к которому асимптотически приближаются все выше описанные разрывные решения. Если некоторому значению у cooi ветствует картина, изображенная на рис. 8, то стационарное реик ние (13) есть единственный устойчивый узел фазовой плоскости X и при соответствующем изменении у обязательно возникает фазе вая картина, изображенная на рис. 9, а затем изображенная н рис. 7. Таким образом, все разрывные решения вырожденной систе мы (17) асимптотически приближаются к ее единственному перис дическому разрывному решению. ЛИТЕРАТУРА [1] Тихонов А. Н., Мат., сб., 22(64): 2(1948), 193—204. [2] Мищенко Е. Ф., Понтрягин Л. С, ДАН СССР. 102, № 2(1955 889—891. [3] Боголюбов Н. Н., Митропольский Ю. А., Асимптотаческ! методы в теории нелинейных колебаний. Гостехиздат, М., 1955. [4] Wasow W., Ann. of Math, studies, № 20, Princeton Univ. press. (195C 313-350. [5] Железцов Н. А., Родыгин Л. В., ДАН СССР, 81, № 3 (1951),39 [6] Андронов А. А., Витт А. А., ДАН СССР, А, № 8 (1930), 189—19 [7J Дородницын А. А., ПММ, XI, № 3 (1947), 313.
1! ДОКАЗАТЕЛЬСТВО НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ФОРМУЛ ДЛЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМ ПАРАМЕТРОМ*) Совместно с Е. Ф. Мищенко В работе [1] вычислены формальные асимптотические разложения решений системы дифференциальных уравнений с малым параметром ех! = р'(х\ .... **, у\ ..., у% У =г'(*\ .... **, у\ ..-, у% (1) i =1, .... Л, /=1, ..., /, в окрестности «точки срыва», т. е. точки, где det||d/V5A^|| = 0. Эти разложения (см. формулы (1.50), (2.30) и (3.5) работы [1]) были затем существенно использованы как в самой работе [1], так и в работе [2]. Однако доказательств того, что вычисленные формальные разложения действительно приближают истинные решения системы (1) с указанной точностью, в работе [1] не приведено. Здесь мы приводим схему этих доказательств, используя обозначения работы [1]. Линейным преобразованием координат система (1) в окрестности точки срыва приводится к виду (см. § 3 работы [1]) 41 - (I1)2 + Л1 + W + clVrf + d\ (I1)3 + &&¥ + ... sees Ф' (I, г)), zil'^aUa' + b№ + cUt1)2 + diaiy + eU4a'+ ...=Ф'(£, т|), (2) Ч' = 6{ + а№+...=4'(1, т|), i = 2, ..., k, /-1, ..., /, причем все собственные значения матрицы \а1а, || имеют отрицательные действительные части. При —р^^^р (р — малое, но не зависящее от е число) величину I1 можно принять за независимую переменную и вместо системы (2) рассматривать систему dV Ф{ (Е, л) dx\J У/ (6, Л) /ох dV ""ФМ6. л)' «Ч1 Ч"(6, л)' ^ ; f = 2, .... Л, /=1, ..., /. Доказательства того, что формальные разложения решений системы (3), найденные в работе [1], представляют с вполне определенной точностью истинные решения этой системы, проводятся по-разному на каждом из трех участков изменения переменного I1: _/?<£!<—alf —a^l1^^, a2<^</7, a1==e2/7, *) Докл. АН СССР.—1958.—Т. 120, № 5.—С. 967—969.
130 П. ДОКАЗАТЕЛЬСТВО НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ФОРМУЛ <т2 = е2/9. Однако основная идея этих доказательств одна и та же для всех трех участков. Эта идея состоит в построении «трубы». Формальное приближение окружается узкой замкнутой окрестностью £/, которую мы называем трубой; диаметр трубы зависит от е и при е —► 0 стремится к нулю как некоторая положительная степень е. Доказывается, что если начальную точку решения системы (3) взять в трубе U, то на всем протяжении соответствующего участка это решение не выйдет из трубы. С этой целью граница трубы U конструируется так, чтобы некоторые из ее «стенок» были функциями Ляпунова для системы уравнений (2), т. е. пересекались бы траекториями системы (2) при возрастании / в определенном направлении, именно «снаружи внутрь» трубы. При построении трубы мы используем на всех участках положительно определенную квадратичную форму W (z2, .. ., гк) — функцию Ляпунова для линейной системы z' = aUa#. / = 2, .... fe, (4) удовлетворяющую неравенству W[A)(z\ ..., z*)<-pW(z\ ..., z*), (5) р>0 (см. [3]). 1. Участок —p^l1^—cr1# Здесь вводятся новые координаты по формулам: |1 = |1; ср'=Ф'(£, т)), /=1, ..., k\ т/ = т/, / = 2, ..., /. В этих координатах система (2) записывается так: е£1==гф\ i\f = G'(l1, ф, Л» 8)> 8ф1 = 261ф1 + ^1(61, Ф, Л, е), еф'=а£,фа' + /С'(6\ Ф, т|, е). (6) Неавтономную систему, получающуюся из системы (6), если в последней принять за независимую переменную величину g1, обозначим (6'). Построим формально суммы: а) ф'»2 = еф{ (g1) -f + £2ФН£1); б) ti7 =.т|* (I1) ->- eTl{ (61). i=U .... k\ / = 2, ..., /, где функции ф}, фа, rji, т){ определяются из соотношений, получающихся в результате подстановки сумм а) и б) в систему (6') и последующего приравнивания коэффициентов при одинаковых степенях е. Назовем трубой Ux совокупность всех точек пространства (I1, ф1, ..., ф*, т)2, .. ., т)'), координаты которых удовлетворяют неравенствам: | ф1 — ф1'2 (I1) К гМх\ W (ф2— ф2'2 (е1)... ф*—ф*. 2 (I1) < <e2W2, |т)у—V'M^K^i, / = 2, ..., /, где Ml9 Nl9 Рг—положительные константы, не зависящие от е. Совокупность точек трубы Uu выделяемых уравнением |фх — ф1,я (Е1) | =^еЛ11, назовем Ф*-с т е н к о й и обозначим через Ufi\ совокупность точек трубы £/х, выделяемых уравнением W (ф2 — ф2'2^1), • . ., Ф*—Ф*'2(l1)) = eW2, назовем ^-стенкой и обозначим через Uf. Лемма 1. На участке — р ^ I1 ^—аг стенки U®1 и Uf трубы Ux при достаточно больших Мг и Nu являются поверх-
11. ДОКАЗАТЕЛЬСТВО НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ФОРМУЛ 131 ностями без контакта для системы уравнений (6), и все траектории системы (6), начинающиеся на стенках U^ и Uf, при возрастании t входят в трубу иг. Для доказательства леммы 1 вычисляется производная в силу системы (6) на стенках U^ и Uf\ она оказывается отрицательной. С помощью леммы 1 методом последовательных приближений доказывается, что если начальная точка некоторого решения системы (6') при I1 = — р взята в трубе Uly то на всем протяжении участка —p^l1^—о1 это решение не выходит из трубы Ut. 2. Участок —CTi^l1^^. Здесь систему (2) запишем в новых переменных I1 = [ш1; £' = \i2ul\ i = 2, . . ., k\ т)1 = \x2vx\ г\? = (iV, / = 2, . . ., /; t = \i2r\ е = (i3: d1 = (и1)2 + v1 + \xF\ \xu1' = а&,иа' + ft^1 + 4 (u1)2 + |iF', i1= 1 + (iaj/г1 + |i2P, i/ = ai^1 + |dV, (7) i = 2, ..., ft, / = 2, ..., / (точкой обозначено дифференцирование по т). Неавтономную систему, получающуюся из системы (7), если в последней принять за независимую переменную величину и1, обозначим (7'). Как и в работе [1], выписываем формальные приближения: и*>1 = и[ (и1) -Ь \ли[ (и1), vu г = vl (и1) + \iv\ (и1), Ф ° = v[ (и1), i = 2, ..., ft, / = 2, ..., I. Назовем трубой U2 совокупность всех точек пространства (и1, и2, ..., uk, v1, ..., vl), координаты которых удовлетворяют неравенствам W (и2 — и2'1 (и1), ..., uk— w*»1^1))^ \iMl, {v1 — -ti^MKiiAf,, \v*—^°|<Plf / = 2, ..., /, где M2, A/2, P2 — положительные константы, не зависящие от е. Совокупность точек трубы £/2, выделяемых уравнением №(w2—u2^(ul)...uk — uk>2{u1)) = \iMl назовем W-c т е н к о й и обозначим через Uw. Лемма 2. На участке —oJ\i ^ и1 ^ а2/р, стенка Uf трубы U2 при достаточно большом М2 является поверхностью без контакта для системы уравнений (7), и все траектории системы (7), начинающиеся на стенке Ufy при возрастании х входят в трубу U2. С помощью леммы 2 методом последовательных приближений доказывается, что, если начальная точка некоторого решения системы (7') при иг = — oJix взята в трубе £/2, то на всем протяжении участка —oJii^iu1 <a2/|i это решение не выходит из трубы U2. 3. Участок o^^?1^/7- Пусть |'=й(11) — решение системы уравнений *£' ф,'(£'°> ;_2 ft Г8) определенное при I1 > 0 и стремящееся к нулю при I1 —► 0.
132 11. ДОКАЗАТЕЛЬСТВО НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ФОРМУЛ Назовем т р уб о й U3 совокупность всех точек пространства (Б1. • •-,£*, Л1» •• •> лО» координаты которых удовлетворяют неравенствам W(t*—SG1), ..., £* —Й(61)) = [/?е*/»]«, |r)/|<L82/«\ где R и L—положительные константы. Множество точек трубы £/3, выделяемых уравнением W (I2—^(l1), . ... 6*—Й(61)) = [/?е4/»]1, назовем HP-стенкой и обозначим через Uf. Лемма 3. На участке Oj^l1^/? стенка Uf трубы U3 при достаточно большом R является поверхностью без контакта для системы уравнений (2), и все траектории системы (2), начинающиеся на стенке Uf, при возрастании t входят в трубу U3. С помощью леммы 3 методом последовательных приближений доказывается, что если начальная точка некоторого решения системы (3) при %1 = о2 взята в трубе £/3, то на всем протяжении участка сг2 <; I1 <; р это решение не выходит из трубы U3. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, Изв. АН СССР, сер. матем., 21, 605 (1957). [2] Е. Ф. Мищенко, Изв. АН СССР, сер. матем., 21, 627 (1957). [3] Л. С. Понтрягин, Лекции по обыкновенным дифференциальным уравнениям, М., 1955.
12 ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК ДЛЯ РЕШЕНИЙ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМ ПАРАМЕТРОМ ПРИ ПРОИЗВОДНЫХ*) Совместно с Е. Ф. Мищенко В работе доказываются асимптотические формулы для решений систем дифференциальных уравнений с малым параметром при производных в окрестности «точек срыва». В работе [1J вычислены формальные асимптотические разложения решений системы дифференциальных уравнений с малым параметром (;=!,...,£, /=1, ...,/) (1) ех1' = р'(х\ ..., хк, у\ ..., у1), yJ = gJ{*\ ■-.,**, У\ -.., У1) в окрестности «точки срыва», т. е. точки, где II ъ* II Эти разложения (см. формулы (1.50), (2.30), (3.5) работы [1]) были затем существенно использованы как в самой работе [1], так и в работе [2]. Однако доказательств того, что вычисленные формальные разложения действительно приближают истинные решения системы (1) с указанной точностью, в работе [1] не приведено. Здесь мы приводим эти доказательства. При этом мы всюду пользуемся терминологией и обозначениями работы [1]. Линейным преобразованием координат система (1) в окрестности точки срыва может быть приведена к виду 41 = (I1)2 + Л1 + ftfc,Tip' + 46 V + d\ (I1)3 + + eU16a'+... = <I>1(6, -Л), е|' - aUa* + *ЙР + со (б1)2 + d[ (I1)3 + + «5а' + ... = Ф'(*. Л). V = 6{ + a{|1+ ... = ф>(£, т|) (;=2,...,£, /=1,...,/),) причем все собственные числа матрицы \\а1а,\\ имеют отрицательные действительные части. При —Р^&^р (р—малое, не зависящее от е положительное число) величину I1 можно принять [ (2) *) Изв. АН СССР. Сер. мат.— 1959.— Т. 23, № 5.— С. 643—660.
134 12- ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК за независимую переменную и вместо системы (2) рассматривать систему Доказательства того, что формальные разложения решений системы (3), найденные в работе [1], представляют с вполне определенной точностью истинные решения этой системы, проводятся по-разному на каждом из трех участков изменения переменного ll: — p<ll<—<*i, -ai^l1^, Ot^t^P, a^e»/', а, = е«/«. Однако основная идея этих доказательств одна и та же для всех трех участков. Эта идея состоит в построении «трубы». Формальное приближение окружается узкой замкнутой окрестностью £/, которую мы называем трубой; диаметр трубы зависит от е и при е-^0 стремится к нулю как некоторая положительная степень е. Мы доказываем, что если начальную точку решения системы (3) взять в трубе £/,то на всем протяжении соответствующего участка это решение не выйдет из трубы. С этой целью граница трубы U конструируется так, чтобы некоторые из ее «стенок» были функциями Ляпунова для системы уравнений (2), т. е. пересекались бы траекториями системы (2) при возрастании t в определенном направлении, именно снаружи внутрь трубы. При построении трубы мы используем на всех участках положительно определенную квадратичную форму W(z2, ..., zk)—функцию Ляпунова для линейной системы zl' = a^\ i = 2, ..., 6, (4) удовлетворяющую неравенству WU> (г2, ..., zk) <-PW(z\ ..., z*), p > 0 (5) (см. работу [3]). § 1. Доказательство справедливости асимптотических разложений решений системы (1) на участке —p^l1^—аг На участке изменения независимого переменного — р < I1 < —аг введем новые криволинейные координаты по формулам 61 = 61. Ф'* = Ф*а Л). i=U ••-,*, т|/ = т|/, / = 2, ...,/. (1.1) В этих координатах система уравнений (2) запишется так: е|1 = ф1, eq>1 = 2l14>1 + K1(l1, Фа> Лэ. е). \ еф' = а^фа/ + Ki(l1, Фа, т)Р, е), i\J = GJ(t\ фа, т|Р, е) [ (1.2) (1 = 2,...,Л, / = 2, ...,/), J причем функции /('(I1, Фа, ^ е)> * = 1, • ••, k, не содержат членов, линейных относительно ф1, ..., ф*; члены, линейные отно-
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК 135 сительно величин |\ г]2, ..., у\е, в функции К( входят с коэффициентом е; функция К1 содержит слагаемое 1 -е. Систему уравнений (1.2) коротко перепишем так: 8|1 = ф1, 8ф/ = Я (£1, ф«, ЛР, 8), Т]/ = G/ (£\ фа, тД 8) , (i=l, ...f ft, / = 2, ...,/). ^' Наряду с системой (1.2) рассмотрим следующую неавтономную систему дифференциальных уравнений: F* (б1, Фа, лр> в) dr\f ф1 Gy (61, Фа, Лр, в) (1.3) (1.3') (1.4) dE1 ~ ф1 которую для удобства перепишем так: <р1.<р'' = F'{1\ фа, г]р, е), Ф1 • т|'" = eG'(£\ Фа, г)р> е)- Построим теперь формально следующие суммы: ф/,1 = еф1(£1)+-е"ф£(£1), /= 1. .. т/,1 = п4(Е1) + ел{(61), / = 2, .. где функции ф}, ф^, г)£, г]{ определяются из соотношений, которые получаются, если суммы (1.4) подставить в правую и левую части уравнений (1.3') и приравнять затем коэффициенты при одинаковых степенях е. Непосредственно проведя выкладки, без труда убедимся, что полученные таким образом соотношения действительно дают возможность определить последовательно функции ф!» Ф-2» 'Hi» ц1- При этом выяснится, что ц)\ имеет в нуле полюс первого порядка: г)£ имеет в нуле нуль третьего порядка: л4 = &/(21)*+--.; Ф?' имеет в нуле нуль первого порядка: ф«' = raV -I- .. .; ф! имеет в нуле полюс четвертого порядка: [ 1_ R1 1 Фз-"(Р)Г+-... Ф?' имеет в нуле полюс первого порядка: Da' Фа' ^ i_ 2 - ц -,..., ч\{ имеет в нуле особенность типа In 1I11: т1{ = ^(|1)1п|Е1|. Ру(0)¥=0. (1.4')
136 12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК Отметим тут же некоторые тождества, которыми мы неоднократно воспользуемся в дальнейшем и которые сразу же следуют из определения функций ф{, <р|, т]£, т\[ и из формул (1.4'): Ф^.ф^'^р-^ фа.2) ^.i, e) + A'(6S e), (1.4й) Б3 причем Д1^1, е) имеет величину порядка т^ , a A'd1, е) для i = 2, ..., k имеет величину порядка трг^. Теорема 1. Всякое решение системы уравнений (1.3) Ф/ = Ф'(Е1. е)> Л/ = ЛУ(Е1. е)> (1.5) удовлетворяющее начальным условиям Ф'(-Р, е)-ФЬ2(-Р, е) = 0(е), V(— p, e) — r)/jl(—/7, е) = 0(е) U ' на участке —p^g1^—а1? может быть представлено в виде ф/ = фМ(|1э е) + М'(£\ е), , Л'^'Ч*1. e) + iV/(6lf e), tl,D; где функции M'd1, е), Wd1, e) яа всел* этол* участке имеют ее- личину порядка е (или более высокого порядка). Доказательству этой теоремы предпошлем некоторые определения. Назовем трубой Ux совокупность точек пространства (I1, Ф1, ..., ф*, г]2, ..., т)'), координаты которых удовлетворяют неравенствам |<pi-q>b»KeMlf h'-^Ke/Y / = 2, ...,/, И7(ф"-Ф«.«(£1), ..., ф*-ф*>"(£i))<etflf где УИ^ Л?х, Рх — положительные константы, не зависящие от е. Совокупность точек трубы Ul9 выделяемых уравнением 1Ф1 —Ф1'2| = еМ1, назовем фх — стенкой и обозначим через U^\ совокупность точек трубы Ul9 выделяемых уравнением назовем оу-стенкой и обозначим через U*?. Лемма 1. На участке —р ^ I1 < — аг стенки 6Лр» и Uf трубы Ut при достаточно больших Мг и Nx являются поверхностями без контакта для системы уравнений (1.2) и все траектории системы (1.2), начинающиеся на стенках 0^ и Uf, при возрастании t входят в трубу 0^ Доказательство. Вычислим производную в силу системы уравнений (1.2) в произвольной точке стенки £/?» при —р ^ l1^—аг. Пусть эта точка лежит, например, на поверхности ф1_фЫ(£1)=йелг1. (1.7)
12. ёывод Некоторых асимптотических оценок i 37 Производная в силу системы (1.2) на поверхности (1.7) равна (с точностью до множителя 1/е) Я (б1, ф^Ч-еМ^ фа''2+еа/е#1э rjP'' I + e^ePj) — Ф1,2' (ф1'2 + «Af х). (1.8) Разность (1.8) можно переписать так: FX{1\ ф1'2, Фа'*2, if'-1) —ф^.ф^' + ДЧЕ1, £)> (1-9) или, принимая во внимание тождество (1.4), так: -Л1 (б1, еНЛЧб1, 8). (1.10) Как уже отмечалось раньше, слагаемое Д1^1, е) имеет на указанном участке изменения переменного ^величину порядка е3/(|1)6; в члене же А1 (I1, е) доминирует, как легко подсчитать, слагаемое 2|1-УИ1-е. Таким образом, при достаточно большом Мг вычисляемая производная отрицательна: стенка £/?» пересекается траекториями системы (1.2) снаружи внутрь трубы Ux. Положим, для краткости, Дф' = Ф'>«—Ф<\ / = 2, ...,&. (1.11) Очевидно, имеем ^-=-^-[(ф|"-фО]-гф1-т[ч'|-,'-^]ф1- Следовательно, 8(Дф') = ф1.ф^2'_-Р(|1, ф1, ф«', T,P'f 8)f или, иначе, е(Дф') = ф1»я-ф^ 2' —F'd1, ф1, фа', т|Р', е) + ф1'2/(ф1—ф1,г). Но по определению функции ф''2 е(Дф/)=:Я(|1э <pi>it фа',2> чэмэ е)_ —/"(Б1, Ф1, Фа', т)р/, eJ + A'a1, е)гФ1'2'(ф1,2-ф1), (1.12) где A'd1, е) имеет величину порядка е3/^1)4. Принимая во внимание, что /"(Е1. Ф1, Фа', Лэ#. е) = а^фа' + /С/(Е1. Ф1. Фа'> Л15', е), отсюда получаем 8(Дф0=а;,Дфа'+[/(Ч^ Ф1'2, Фа''2, Л3''1, е) — —tf'G1. Ф1* Фа'> Лр', еИ + ДЧЕ1, е) + ф'-«'(ф1'«-ф1). (1.13) Обозначая сумму членов, заключенных в фигурные скобки, через R*, перепишем систему (1.13) более коротко: е(Дф') = <4'Лфа' + Я'- (1.14)
138 12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК Таким образом, изменение переменных Е\ <р\ Дфа', if' управ» ляется следующей системой дифференциальных уравнений: 8ф1 = Я(е1, ф1, фа'-2 — Афа', т]Р', е), V = G/(I1. Ф1. Фа''2 — Афа', ЧВ') I (1 = 2, ..., /г, / = 2, .... I). ) (1.15) Вычислим теперь производную в силу системы уравнений (1.15) в произвольной точке стенки Щ. Если учтем неравенство (6), то получим Г'(1.16)(АФ% ...,Аф*)<-ре^1 + 1|^7||^'|. (1.16) Но 6W дД<р( -|<^-^1, (1.17) где L — положительная константа. Далее, нетрудно убедиться, что при —p^l1^— ог \Ra,\<R'N^\^\-e (1.18) (R — положительная константа). Таким образом, при достаточно большом Nx Г('1Л5)(ДФ*, ..., ЛФ*)<0. (1.19) Лемма 1 доказана. Переходим к оценкам для функций rj'd1, е) на участке (—pl9 — ах). Пусть т,/(£\ E) = if4(li9 е)+Дг)Л / = 2, ..., /. (1.20) Очевидно, функции Дт/ удовлетворяют следующей системе дифференциальных уравнений: *,•-.'*<«••*?"+*'>-[*■]'• (I 20 Легко убедиться, что в трубе Ux при —p^l1^—ог спра ведлива следующая оценка: Ф1 <l^- + e(S1)2-S, (1.22) (1Г где А и В— константы, А не зависит от М1У Nt и Рг. Из этой оценки и из леммы 1 без труда выводится справедливость асимптотических разложений (1.6).
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК 139 § 2. Доказательство справедливости разложений решений системы (1) на участке —Oi^l1^^ (2.1) Здесь систему уравнений (2) запишем в новых переменных: I1 = \ш\ % = |iV, i = 2, ..., k, rj1 = V^v1, 1\' = \iV, / = 2, . . . , /, t = |Л2Т, 8 = |Я3. Получим J^ = (и1)2 + v1 + |i (b\.vt' + с\их + d\ {и1)3 -h e^u'iP') H [л2/71, ^ = a'a.u*' + b[vl + d (u1)2 + ц (fytfl'-dl (и1)3 -f + ф1^1 + e^.uW) + \x2F1' (f = 2f ..., *, / = 2, . или, более коротко, ....о. Ы1 = ф1(«а, УВ, Ц), "J ЦИ' = ф'(ыа, УЭ, Ц), j Ы = ^(иа, а", ц) J t (2.2) (2-2') (всюду в этом параграфе точкой мы обозначаем дифференцирование по т). На участке —oJ\i ^ и1 ^ о2/\х (в который перейдет участок (—а19 а2) при замене %1 = \iu1) наряду с системой уравнений (2.2) мы будем рассматривать систему V du1 фЧ^Л Ли) * dp/ _ яр/(ца, Л ц) rf"1 ~~ ф1 (иа, lA |i) ' (2.3) В работе [1] была формально сконструирована система функций vhl = vl(u1) + \iv\{u1), v^° = vi(ul)y \ (2.4) °тносительно которой мы докажем следующее предложение. Теорема 2. Всякое решение uj = vj'(u}, (i), и1 = и* (и1, \i), (2.5)
140 12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК системы уравнений (2.3), удовлетворяющее начальным условиям vl(-f>» Ol 7".l4 = 0(|i), (2.6) на участке виде: ■о1/ц,^.и1^.о2/ц,, можно представить в следующем v1 = v1,1 + r1(u1, ц), vJ' = vJf'°+rJ(u1, ц), и* = и1'1 + 8Г(и1, ц), ) причем на всем этом участке \г1(и\ ц)|<ЛГц, \з<(и\ ii)\<MV]x, \rf(u\ ц)|<Р, (2.7) />2. (2.8) Перейдем еще раз к новым переменным, полагая v' = vS, /=1,...,/, и1 = и1, \ixl' = u1'—иЦи1), i = 2,. ., k. (2.9) получаем (2.10) и затем Относительно переменных и1, v1i ..., vl, х2, ..., xk следующую систему дифференциальных уравнений: и1 = (и1)2 + v1 + \i (Ь\.&' + ф¥ + d\ (a1)3 + + ek.(u*' + VLxP')u1) + v*.F1, \i (\ис*) = а£, (|ха«* + а?') + б^1 + ci (ы1)2 + |i (4'уР' + ^w4;1 + + d( (а1)3 + e^u1 hix*' + а?')—ui' ((и1)2 + у1)) + ^2Я у1 = 1 + (кф1 + ^Ф1, vf = а7"1 + ^Фу (1 = 2, ...,£, / = 2, ...,/). Преобразуя правые части &—1 уравнений \i (\ixl) = ... сокращая на (i, получим и1 = Ф1(и1| a^' + iiA^', уР, |i), |ii' = Л' (**', a1) +1 &{(vi—vl-^vl) + Ц, (»Э'—eg') + + cfc1 (a1—yj) — u*o ^—vl) + ULeLuW + ..., yi= 1 + jiajw1 + (12Ф1, ^' = a{a14-|iO/. Здесь мы положим 4' (я06', a1) = о^,*06' + b[vx + Ь$.х% + фЧй + + d((u1)3+^1"a'-[("1)2+^]"i'J * = 2, ..., k. (2.12) (2.11)
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК 141 Сразу же отметим, что из самого определения функций и?'(и1) следует, что ^(ttf'^.a^O. (2.13) Систему уравнений (2.11) окончательно перепишем в следующем виде: U1 = ф1 (и1, Ua' + \кХ?\ Ур, (l), ^ \хх( = А* (*<*', и1) + В* {и1, х*\ ур, |i) + С1 {и1, **', хР, |i), v1 = 1 + \xa\u1 + ^Ф1, у/ = а{а1Ч-(1Ф/. J 1(2.14) Входящие сюда функции В1 (и1, х?\ ир', \i) определяются формулами В' (а1, **', Ы>, ]х) = 1 &{ (fli—oj—^i) + &', (Ы>'—if) 4- + c[u1(v1—vl) + ul0'(v1—vl), i = 2, ..., k. (2.15) Введем вспомогательную систему линейных дифференциальных уравнений \ixi = Ai{x^\u1), i = 2, ...,£. (2.16) Положение равновесия системы (2.16), как это видно из формулы (2.12), зависит от переменного а1, которое мы будем пока считать параметром. Разрешая уравнения А{ (х?\ их) = Ь относительно х\ найдем это положение равновесия: xi==u[(ui)j i = 2, ...,k. (2.17) Непосредственно видно, что ^{(и1) при больших положительных и при больших отрицательных значениях и1 имеют порядок О ((а1)3). Так как все собственные значения матрицы |а£,|| имеют отрицательные действительные части, то для линейной системы дифференциальных уравнений (2.16) можно построить положительно определенную квадратичную форму—функцию Ляпунова W(x2—иЦи1), ...,**—иЦи1)) с коэффициентами, не зависящими от и1, удовлетворяющую следующему неравенству: ^;2.16><-P-Jr-^ P>0. (2.18) Назовем трубой U2 совокупность точек (и1, ..., uk, v1, ..., vl) пространства R, координаты которых удовлетворяют следующим
142 12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК неравенствам: a) W(u2—и^-Чи1), ..., uk—а*-»(/ОХ и М* b) l^-u^HKfci^ } (2.19) c) \vJ—^•°("1)K^2. />2, где УИ2, W2, Р2—константы. Множество точек трубы £/2, выделяемых уравнением W(u2—а**1 (и1). •••. "*—^'1("1)) = ^2, (2.20) назовем оу-стенкой и обозначим через б/?. Множество точек трубы £/2, выделяемых уравнением \v1—v*>l(u1)\ = \iN2, (2.20') назовем ^-стенкой и обозначим через (/£». Лемма 2. #а участке —ajp < а1^ а2/(я стенка U% трубы U2 при достаточно большом М2 является поверхностью без контакта для системы уравнений (2.2) и все траектории системы (2.2), начинающиеся на этой стенке, при возрастании х входят в трубу U2. Доказательство. Прежде всего обратим внимание на то, что в силу (2.9) уравнение (2.20) можно переписать так: W(jfl-ul(u% ..., x*-o*(a1)) = lMJ. (2.21) Для доказательства леммы 2 достаточно поэтому убедиться, что производная в силу системы уравнений (2.14) в произвольной точке поверхности (2.21) при v1, ...,vl, удовлетворяющих неравенствам Ь) и с) (2.19), и при —aJix ^ иХ а2/\х отрицательна. Вычислим эту производную. Имеем г;2.14)=г;2.16)+^.фЧ-^[^ч-с«']. Следовательно, в силу (2.18) ^<^.а4) < — ^Р^ + | §^ | • IФ11 + ^ | ^ | {I ^' I + I С«'.|}. (2.22) Оценим величины g-j, -=^,, ф1, \Ва |-f |Са |, входящие в правую часть неравенства (2.22) на стенке U% и при —^/КиЧ^- Прежде всего, очевидно, что \<р.М-^, p = const. (2.23) Далее, легко видеть, что ISH^Kf-M-H-»", ? = const. (2.24)
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК ИЗ Наконец, | О' | + | Ва' | < г• \i~*/», г = const. (2.25) Принимая во внимание неравенства (2.23), (2.24) и (2.25), из (2.22) получим К.*.><~.рМ1 + яМ,ф; + ±.^Мш.р.г^. (2.26) Таким образом, при достаточно большом М2 W'„.w < О, что и доказывает лемму 2. Чтобы получить оценки для функций vJ(и1, \i), /=1, ..., /, разобьем участок (—с^/р,, cr2/(i) точкой or^/fji = (л~1/4 на две части: (— oJ\i, в2/\х) и (o'2/\i, о2/\х). Лемма 3. На участке —oJii^и1 <!e'2/\i стенка Щ1 трубы U2 при достаточно большом N2 является поверхностью без контакта для системы уравнений (2.2) и все траектории системы (2.2), начинающиеся на этой стенке, при возрастании х входят в трубу U2. Для доказательства этой леммы покажем, что производная в силу системы уравнений (2.2) на части стенки f/gi, выделяемой уравнением i;i = i;i.i-|- цЛГ2, (2.27) отрицательна, а на части стенки £/£>, выделяемой уравнением v1 = v1'1—\iN2f (2.28) положительна. Вычислим, например, производную в произвольной точке части стенки i/Js выделяемой уравнением (2.27). С точностью до положительного множителя эта производная равна ^1 (Ц1, иа: 1 + еа- \Г^ М2, pb 1 + ^„ ^° + 8Р'Р2, |i) г у. ^ (2 2gf) ф1 (и\ и*'' 1 + 6а' ^fi M2, ub i + ^2, оР''° + вЭ'Яя. Н-) ' —1<е«', Эр#<1. Разность (2.28) перепишем развернуто: ф! (и1, w«'« i, иь 1, »&'• °, ц) — L^1, Ч + + tj)i(f^ff«Mt0i. 1,0Р'^Ц)1 (9 29) ф'(^, мам, уы, t,P'.Qf Ц) J #
144 12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК Но по самому определению функции v1, х в разложении разности ^(^^^I^;;;rt_[oi,>]' (2.30) по степеням |х коэффициенты при \л° и \i' исчезнут. Доминирующим членом на участке —oJ\i ^ и1 ^ о'21\л будет коэффициент при ц2, который имеет вид причем я1(^1) = 0((^)7)^-оо, ,™ я1(^) = о((а1)4ь1_+00. (Z-0Z) Далее, производя разложение разности, заключенной в квадратные скобки в соотношении (2.29), убедимся, что на указанном участке доминирующим членом в этой разности при достаточно большом N2 (зависящем лишь от Р2 и не зависящем от М2) будет слагаемое Таким образом, при достаточно большом N2 производная в силу системы уравнений (2.2) в произвольной точке части стенки f/Js выделяемой уравнением (2.27) на участке —cVii^^^ai/p,, отрицательна. Лемма 3 доказана. Положим теперь Au/ = 0/_0/.of / = 2, ...,/. (2.34) Система дифференциальных уравнений, управляющая изменением функции AvJ\ такова: До/' = У?'*''**:'***: й-* •'. (2.35) Лемма 4. На участке —aj\i < и1 < сг^/ц ярн иа', у1, #дов- летворяющих неравенствам а) и Ь) (2.19), функции АЫ ограничены некоторой константой, не зависящей от М2 и N2, если начальные значения этих функций AvJ' (— — ) ограничены константой, не зависящей от М2 и N2. Доказательство. Заменим уравнение (2.35) интегральным уравнением \ V-)^ J ф'(«1.и«'.о1.ор,Ч-Аор.(») (2.36
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК 145 Положим \vJ' (— G1/\i) = Aj и 'р IV С"1» !/«', У1, РР'' ° + А?' ,, М,) . 1 -(Ji/Ц (2.37) Оценим разность Д{ — Ау0 при иа', и1, и1, удовлетворяющих неравенствам, упомянутым в формулировке леммы 4. Очевидно, имеем |A{-Ai|< Г ^(ц1,цам4-9аТ pAlg, Р^ + еуУг, ^>0 + Ао) J ф1^1, ^ам + еа'КцМг, цЫ + вУ^, pP''°+AJ}') tp/fo1, «дм, ры, Ы^ °, [i)dul I фЧ"1, и»''1, у1'1, £>3'' °, ц) И" I Г [^.^i.^i.yt.rt>^Ц (2.з8) Учитывая, что в разности, стоящей под знаком интеграла во втором слагаемом (2.38), при разложении по степеням \i свободный член пропадет, а коэффициент ГУ (и1) при \i имеет асимптотику Г/(^) = 0(1)ы^+оо, ,9ЗД. Г'(и1) = О ((*)•)*->-., l ; легко оценить второе слагаемое, стоящее в правой части неравенства (2.39). Первое слагаемое оценивается элементарно. Не проводя подробно всех вычислений, сразу выпишем окончательный результат: | д/_д/1 < А, А = const, (2.40) причем А не зависит от М2, N2. Предполагая, что неравенство |A£-AU|<^-i, (2.41) гдей<1—некоторая положительная константа, уже доказано, без труда докажем, что \AL+1-A{\<Ad*. (2.42) Таким образом, последовательность М,А[, .... Д{, ... (2.43) сходится и ее предел ограничен. Лемма 4 доказана. Лемма 5. На участке o2/\i^ и1 <ог2/р, при иа\ а'= 2, ...,/г, удовлетворяющих неравенству а) (2.19), функции v1 (и1, \i), v$' (и1, \ь)
146 12- ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК с начальными условиями *(£,,i)_*.t(i)=0Gi). \ М- / \ J* / (2 44) ^(|),)_yP'.o(^) = 0(l) удовлетворяют соотношениям \v4u\li)-v^(u4\<N2lit Wiu^ti—tfi'-'WKPt, ( ' "' где N2, Р2—положительные константы, не зависящие от М2. Доказательство. Положим опять ДоР' = оЭ'_оЭ'. о, рг = 2 /. (2*46) Функции Да1, ..., Ди* удовлетворяют следующей системе интегральных уравнений: Д* = Д}+ f Г Ч*К **. *" +А* «*; ' +А«^, ц) _vU ,ЛйигЛ2А1) а2/ц Г4. Г [У* О*1, *«', **+А* ^ ° + А*Р'. |i)_^t о Л duK J ф1 (и1, и*', оЫ + Ао1, аР'' ° +ДуЭ', И<) Пользуясь асимптотическими свойствами и определением функций и1»1, ..., vl* ° без труда обнаружим, что при иа\ удовлетворяющих ограничениям, упомянутым в формулировке леммы, справедливы неравенства \M-M\<D», |Д(-Д/|<г<1; />2, ( -™> где D—некоторая константа, не зависящая от М2. Строя затем последовательные приближения, как и при доказательстве леммы 4, и производя соответствующие оценки, найдем, что \A{-Al.l\<(D\i)k-1, откуда сразу следует справедливость леммы 5. Совокупность лемм 2, 3, 4, 5 гарантирует справедливость теоремы 2. § 3. Доказательство справедливости асимптотических разложений решений системы (3) на участке (а2, р) В этом параграфе будет доказана справедливость формул vasew^eHe^^ (3.D <52I\L ДуЭ' = ДР Ot
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК 147 на участке (<т2, р). Пусть £<• = №), i = 2, ...,£, — решение системы уравнений d.%1 Фх(|, 0)' ' ' ' •' ' ^-z> определенное при |х > 0 и стремящееся к нулю при 51 —>■ 0. Легко видеть, что Ы(11) = ВЦ11У+..., (3.3) где многоточием заменены члены более высокого порядка относительно I1, а числа Bj находятся из системы алгебраических линейных уравнений 4-£?' + ci = 0, i = 2,...,k. Положим tel = V—U(ll), * = 2, ...,k. (3.4) Изменение переменных Iх, Д52 Д5* управляется следующей системой дифференциальных уравнений: е|х = Фх(|<\ 5?+Д5а, т^), (А6)"1фЧр.6?+а6-.ч») фх(|х,??,о)Г W'^+Ae ,л), (3.5) Для наших целей правые части уравнений е (Д|'') = ... удобно привести к некоторому специальному виду. Проведем нужные преобразования и оценки. Прежде всего, очевидно, что e(Ag') = [Ф' (5х, Ш + А5а, лэ)-Ф' (I1, S?, 0)] Ь + Ф' (I1, 5?, 0) -Фх (5х, I? + А|а, if) х Х L Ф1 (б1, 1"+Д1а. ч") ~ФХ (Iх, I?. 0) J ' (3>6) Но Ф' (б1, I? + Д5а, if)—Ф' (Iх, 5?, 0) = = а£,ДГ + G< (Iх, Д1а, if), t = 2, .... k, (3.7) где G' (6\ А5а, if) = Ф' (б1, 5? + Д|а, г]р)-Ф' (5х, 5?, 0)-4,Д|«\ (3.8) Второе слагаемое в правой части системы (3.6) обозначим для краткости через И1 (5х, А|а, if). Тогда система (3.5) перепишется
148 12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК в виде е^Ф^МаЧА^, т|Р), ) 8 (А|0 = &.№' + G< (б1, Д|а, лр) + Я' (б1, Д£\ г]р), I (3 д) л' = ф'(61.8ь + Д£а,т|Р) | (i = 2, ...,£, /=1, ...,/). J Возьмем вспомогательную систему линейных дифференциальных уравнений с постоянными коэффициентами 8(А|0 = ^А^', i = 2 Л. (3.10) Возьмем, далее, функцию Ляпунова для системы (3.10) — W (Д£2,... ..., А%к) — положительно определенную квадратичную форму переменных Д£2, ..., Д£*, удовлетворяющую неравенству WUl0)<-±pW, (3.11) где р—некоторая положительная константа. Назовем трубой U3 множество точек пространства (I1, Д£2, ..., Д£*, ..., if), координаты которых удовлетворяют неравенствам W{M\ .... A£*)<[/?.e*/»]"f |г]Л<£е2/3, (3.12) где R и L—положительные константы. Множество точек трубы U3, выделяемых уравнением W(M\ ..., Д|*) = [#.е*/а]*, (3.13) назовем оу-стенкой и обозначим это множество через Uf. Лемма 6. На участке о2^1х^р стенка 11% трубы U3 при достаточно большом R является поверхностью без контакта для системы уравнений (3.9) и все траектории системы (3.9), начинающиеся на этой стенке, при возрастании t входят в трубу U3. При доказательств этой леммы будут использованы оценки сверху для функций G'(£\ Д£а, rf) и Я' (£\ Д£а, т)р), при о^Ъ^р, в трубе U3. Выведем эти оценки. Очевидно, имеем \&(1\А&,г1*)\<р.&.гЧ: i = 2, ...,*; (3.14) где р>0—константа (зависит от R). Далее, | Я' (1\ Д£а, ЧР) |< | Ф' (1\ £?, 0) | • | Ф1 (1\ Ц + Д£\ г)Р) | х 1 1 X (3.15) Нетрудно подсчитать, что в трубе £/3 |//'(Е1. Д5а, л3)<?-^-е4/9, (3.16) где q > 0—константа.
12. ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК 149 Доказательство леммы 6. Производная в силу системы уравнения (3.9) в произвольной точке стенки Uf равна г;з.о)=г(/з.1о)+|-^(с«'+я«'). Учитывая неравенства (3.11), (3.14), (3.16), отсюда сразу же получаем ^з.9)<-|р[«е4/9]2+|«84/9г.|1.б^, где г—константа; следовательно, при достаточно большом R имеем Г;3.9)(Д|2, ..., Д6*)<0, что и доказывает лемму. Докажем теперь, что при W{M\ ..., Д£*)<[Яе*/Ч» функции V(£x» e) удовлетворяют неравенствам IV (б1, e)|<Le*/3. Система дифференциальных уравнений, управляющая изменением функции цЩ1, e), такова: V^1, Eff+Afi06, лэ)' Л' /=1, ..., /. (3.17) Решение системы (3.17) будем строить методом последовательных приближений / // ^ r^(6S &+*&.$) м а.Ф1^1, &о°ЧД!а,Т)*) отправляясь от tli(E», e) = V(orlt e) = 0(e«/'). Прежде всего, без большого труда получаем (3.18) (3.19) hi—л£|<е 15» <М-е dl1 Ф1(|1, £? + Д£а, л8) < <ММ$ Till J (I1)2 <2MN —. a2 (3.20) (3.21) Таким образом, hi—т|£|<2Л1М57/». Положив 2MN = d, предположим, что доказаны неравенства hi-ri(-i|<(<fei/8)*+1, (3.22)
150 12- ВЫВОД НЕКОТОРЫХ АСИМПТОТИЧЕСКИХ ОЦЕНОК и оценим т)£+1—т)£. Имеем I Ла+ 1 — V*I<е•тахIч'к—Чк-i\M- г ф < < e2MW (del/3)*+14- = (dei/3)*+2. (3.23) а-2 Таким образом, последовательные приближения 4JG1, е). ЛК61, е) tiid1, е), . .., /= 1, ..., /, сходятся и их предел имеет порядок е2'9. Теперь уже сразу устанавливается справедливость асимптотической формулы где Q'«e. Действительно, 8 . Г [ VU1, 6? + ДЕа, лР) У(^> & 0 0)1 Л1 'J L Ф1(Б1, Е?+Аба, лр) ФЧб1. Е?. о, ..., о)J 5 ' Но при Д£а « е4/9, т)р « е2/3 последнее слагаемое, как легко видеть, имеет порядок 0(e). ЛИТЕРАТУРА [1] Понтрягин Л. С, Асимптотическое поведение решений системы дифференциальных уравнений с малым параметром при высших производных, Известия Ак. наук СССР, серия матем., 21 (1957), 605—626. [2] Мищенко Е. Ф., Асимптотическое вычисление периодических решений систем дифференциальных уравнений, содержащих малые параметры при производных, Известия Ак. наук СССР, серия матем., 21 (1957), 627—654. [3] Понтрягин Л. С, Лекции по обыкновенным дифференциальным уравнениям, Изд. МГУ, 1956.
13 ОДНА СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ *) Совместно с Е. Ф. Мищенко 1. Точку z назовем управляемой, если ее движение в я-мерном1) фазовом пространстве R описывается системой обыкновенных дифференциальных уравнений *'' = /'(z1, .... z", и), *=1. -.., л, (1) где и—управляющий параметр, который может меняться в пределах некоторой заданной области, например в пределах фиксированного замкнутого множества г-мерного векторного пространства (и1, ..., иг). Функции /'(z, и) мы будем считать непрерывно зависящими от пары переменных (z, и) и непрерывно дифференцируемыми по г1, ..., zn. Точку Q назовем случайной, если распределение вероятностей ее возможных положений подчиняется первому дифференциальному уравнению А. Н. Колмогорова [1]. Более полно: пусть р(х, <т, уу т) — плотность вероятности точки Q, находящейся в момент а в положении х, быть в момент т в положении у\ точку Q мы называем случайной, если р(х, <т, у, т) как функция переменных х и а удовлетворяет первому дифференциальному уравнению Колмогорова &+ «*><*, о)-^- + Ь'(х,о)£ = 0. (2) до дх1 dxJ дх1 Мы предполагаем, что: а) коэффициенты aij'(х, а) и Ъ'1 (х, а) определены при всех значениях аргументов; б) все собственные значения матрицы \\aij'\\ ограничены сверху и снизу положительными константами; в) коэффициенты Ь* (х, а) при возрастании |л:| возрастают не быстрее, чем e'*i. Пусть 2г—некоторая окрестность управляемой точки z, движущаяся вместе с z. Если задан закон управления точкой z, т. е. параметр и задан как функция времени u = u(t) (u(t) мы будем считать принадлежащей к классу кусочно-непрерывных функций), то система (1) однозначно определяет непрерывное движение точки z в пространстве R. Следовательно, если заданы начальные положения точек z и Q, то однозначно определяются вероятности встречи точки Q с окрестностью 2Z на отрезке времени t0 < / < tx *) Докл. АН СССР.—1959.—Т. 128, № 5.—С. 890—892. г) В дальнейшем мы считаем п > 2.
152 13. Статистическая задача оптимального управления или на бесконечном отрезке времени 0</<ооит.п. Эти вероятности являются, таким образом, функционалами управления u(t). Естественно возникает задача о таком выборе управления u(t) точкой z, при которых эти функционалы достигают экстремальных значений. Чтобы включить перечисленные частные случаи в одну общую постановку задачи, введем в рассмотрение неотрицательную функцию h(t)y определенную при 0^/<оо и не превосходящую единицы. Обозначим далее через tyu(xy сг, т) вероятность того, что случайная точка Q, находящаяся в момент а в положении х, на отрезке времени а^/^т встретится с окрестностью 2г управляемой точки z. Ставится следующая задача: выбрать управление u(t) точкой z так, чтобы функционал §hW£to.(x,o,i))dx (3) О достигал экстремального значения. Функция ft (т) определяет здесь постановку оптимальной задачи. Управление u(t) и соответствующую ему траекторию z(t) системы (1), обеспечивающие экстремум функционалу (3), будем называть оптимальными. Решение задачи, следовательно, сводится к принципу максимума [2] (в несколько измененной формулировке), как только известен функционал (3). Пусть 2г — шар радиуса е с центром в точке z (или даже произвольная окрестность малого «радиуса» е точки z, ограниченная кусочно-гладкой поверхностью, кусочно-гладко меняющейся вместе с z). Основной результат работы состоит в том, что в этом случае главный член функционала tyu{xy <т, т) имеет вид г»~*Уа(х> <*, т) (4) и нами вычислен. 2. К вычислению вероятности ty(x, <т, т) можно подойти следующим образом. Обозначим через q (х, <т, у, т) плотность вероятности случайной точки Q, находящейся в момент а в положении х, быть в момент т в положении у, не встречаясь при этом по пути на протяжении времени сг^^^т с движущимся шаром 2Z. Функция q(х, а, у, т) как функция переменныххи а в области R—22(а) удовлетворяет уравнению (2) и граничному условию q(x, а, у, т)|,€Гр.22(а) = 0 и при а=гт имеет то же начальное условие, что и функция [3] р(х, <т, уу т). Нетрудно понять, что ф(л;, а, т)=1 —J ... [q(x, а, у, x)dy (5)
13. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 153 (где интеграл взят по области R—22(а)) есть решение уравнения (2), удовлетворяющее условиям i|)(*, <т, т)—►О, у(х9 а, т),€Гр.2 =1. (6) 3. Не приводя здесь окончательных формул и не останавливаясь на доказательствах, опишем схему вычисления главного члена (4). При этом для простоты формулировок мы ограничимся лишь тем случаем, когда коэффициенты aij в уравнении (2) постоянны, а окрестность 2г есть шар радиуса е с центром в точке z. Введем в пространстве (z, t) новые координаты по формулам z = |+ z(t), сг< /<т, так что х=% + z(o), # = t) + z(s), и положим Ф(5, <т, Т)=ф(6 + г(а), а, т). (7) Функция ф удовлетворяет, очевидно, уравнению и условиям ф(5. <*, т)—►О, ф(Е, a, x)||ev =0, (9) где 2е—сфера £12-Ь ... + |"2 = е2. Рассмотрим вспомогательную систему уравнений ^ + а//_*!> 0. 0 да dVd\J V ' От координат (|\ ..., \п) перейдем линейным преобразованием к координатам (g1, ..., £и), в которых уравнение (10) записывается в виде £+До = 0, (11) и пусть 2е—эллипсоид, являющийся образом сферы 2е при переходе от координат \ к координатам £. Обозначим через и(£) стационарное решение уравнения (11), равное единице на эллипсоиде 2е. Это решение имеет вид где г(|) — расстояние от точки £ до начала координат, где а — положительная константа, не зависящая от е и однозначно определяемая собственными значениями матрицы ||а'у||, а я(|, е) потенциал двойного слоя, имеющий при ]||>б (б—произвольное положительное число, не зависящее от е) величину порядка е""1. Обозначим через G(£, <т, т), т) функцию Грина уравнения (11): G(I, а, ц, т) = !—-т-ехрГ —Й~^'а1. (13) v " ' (2л(т-а))п/2 FL 4(x-a)J v ;
154 13. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Положим, далее, Ф.(¥. о, т)_в—[-^-J ... jO(I, а, ч. ^7^%^] <"> (здесь интеграл взят по всему пространству). Функция ф0(£, сг, т) удовлетворяет, очевидно, уравнению (11). Переходя от переменных | вновь к координатам £, из функции ф0(|, сг, т) получим функцию ф0(5, сг, т), удовлетворяющую уравнению (10). Обозначим через Ф(£, а, т) решение уравнения (8) вида Фо(Б. а> *) + <Pi(£, а> т)> где фх (£, а, т) на сфере 2е имеет значение 1 и при а —» т стремится к нулю. Непосредственно видно, что функция фх может быть найдена из неоднородного дифференциального уравнения. Для того чтобы записать срх в явном виде, введем в рассмотрение функцию Грина уравнения (8) Г (£, а, т), s). Эта функция связана с функцией Грина Г уравнения Колмогорова (2) простым соотношением: Г (£, а, Л, s) = r(g + z(a)f t| + z(s), s). (15) Тогда т ф1(Е, a, x) = jdsj ... Jf (g, а, г), s)[^(t,+ z(S))-z«'(s)]^-0^. Р (16) Оказывается, что Ф(£, а, т) и есть главный член функционала фя(*, а, т). В том случае, когда коэффициенты alJ' уравнений (2) зависят от | и а, рецепт получения главного члена функционала (3) несколько сложнее, но в основных чертах повторяет изложенный здесь. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] А. N. Kolmogoroff, Math. Ann., 104, 415(1931). [2] Л. С. Понтрягин, Усп. матем. наук, 14, в. 1(85), 3(1959). [3] R. Forte t, J. de math, pure et appl., Paris, 177(1943).
14 ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ*) В этом докладе я излагаю результаты, полученные моими учениками В. Г. Болтянским и Р. В. Гамкрелидзе и мною [1, 2, 3]. 1. Постановка задачи Пусть Q — некоторое топологическое пространство. Будем говорить, что задан управляемый процесс, если имеется система обыкновенных дифференциальных уравнений dxl — "3f = /'(^. ....*"; м) = /'(*; а) (1=1, .... п), (1) или в векторной форме #=7(*; «). (2) где х1, ..., хп—действительные функции времени t, x = = (хг, ...,хп) — вектор я-мерного векторного пространства R, u£Q, a /'' (*; и) (i=l,..., /г) — функции, заданные и непрерывные для всех значений пары (х, u)£RxQ. Предполагается также, что частные производные также определены и непрерывны на всем пространстве RxQ. Для того чтобы найти решение уравнения (2), определенное на отрезке t0^t^tly достаточно указать функцию u(t) управления на отрезке t0 ^ t ^ tx и начальное значение х0 решения при t=t0. В соответствии с этим мы будем говорить, что задано управление U = (u(t), t0, tlt x0) (3) *) Proceedings of the International Congrees of Mathematicians, 14—21 Ang. 1958.— Cambr. U. P.—1960.—P. 182—202.
156 И. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ уравнения (2), если задана функция u(t), отрезок /0^^^*i ee определения и начальное значение х0 решения x(t). В дальнейшем будут рассматриваться кусочно непрерывные функции управления u(f)y допускающие разрывы первого рода, и непрерывные решения уравнения (2). При этом управления u(t) будут предполагаться непрерывными в начальной точке t0 и полунепрерывными слева, т. е. удовлетворяющими условию и (t—0) = u(t)> t > t0. Мы будем говорить, что управление (3) переводит точку х0 в точку х19 если соответствующее решение x(t) уравнения (2), удовлетворяющее начальному условию x(t0)=^ x0, удовлетворяет еще конечному условию: x(t1) = x1. Пусть теперь ^(х1, ..., хп\ u) = f°(x, и)—функция, определенная и непрерывная вместе со своими частными производными df*ldxt (/=1, ..., /г), на всем пространстве RxQ. Каждому управлению (3) соответствует тогда число и L(t/) = j/•(*(*), u(t))dt. to Таким образом, L есть функционал управления (3). Управление U будем называть оптимальным, если, каково бы ни было управление U* = (u*(t), «, *;, *о), переводящее точку х0 в точку хи имеет место неравенство I(t/)<L (!/•). Замечание 1. Если (3)—оптимальное управление уравнения (2), x(t)—соответствующее ему решение уравнения (2), а t2<U—Аве точки отрезка t0^t^tly то U' = (u(t)y t2, t3, x(t2)) есть также оптимальное управление. Замечание 2. Если (3) — оптимальное управление уравнения (2), переводящее точку х0 в точку х1У а т—произвольное число, то U* = (u(t—%), t0 + x, tt + x, x0) — также оптимальное управление, переводящее точку х0 в хг. Важным частным случаем является тот, когда функция f°(x; и) определяется равенством Р(х9 и) = 1. (4) В этом случае имеем
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 157 и оптимальность управления U означает минимальность времени перехода из положения х0 в положение хх. В применениях важен случай, когда Q является замкнутой областью некоторого г-мерного евклидова пространства Е\ тогда и = (и1, ..., иг), и один управляющий параметр и превращается в систему числовых параметров и1, ..., W. В случае, когда Q представляет собой открытое множество пространства £, сформулированная здесь вариационная задача является частным случаем задачи Лагранжа ([4], с. 225), и основной результат, приводимый ниже (принцип максимума), совпадает с известным критерием Вейерштрасса. Для приложений важен, однако, случай, когда управляющие параметры удовлетворяют неравенствам, включающим равенства, например |и'|<1 (1=1, ..., г). В этом случае критерий Вейерштрасса, очевидно, неверен, и приводимый ниже результат является новым. 2. Необходимые условия оптимальности (принцип максимума) Для формулировки необходимого условия оптимальности введем в рассмотрение вектор х=(х°, х1, ..., хп) (п+ 1)-мерного евклидова пространства S и рассмотрим управляемый процесс *£. = р'(х\ ..., х\ u) = f*(x, и) = /'(*, и) (t = 0, 1, ..., п), (5) или в векторной форме -# = /(Я«), (6) где f°(xy и) есть функция, которая определяет функционал L. Для того чтобы, зная управление (3) уравнения (2), получить управление уравнения (6), достаточно, исходя из начального значения Х0 = \Х0, . . . , #о), задать начальное значение х0 уравнения (6). Мы определим вектор х, положив •^о == (*Л %о> • • • > •*<?)• Этим способом управление (3) уравнения (2) однозначно определяет управление уравнения (6). и мы просто будем считать, что (3)
158 14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ есть управление уравнения (6). Если теперь управление (3) переводит начальное значение х0 уравнения (6) в конечное значение Ху = (Х0у Х1у ..♦, Х\)у то мы имеем L (£/) = *! и этим определяется связь уравнения (6) с сформулированной ранее вариационной задачей. Наряду с контравариантным Вектором х пространства S рассмотрим вспомогательный ковариантный вектор Ф = (ф0, •••> Ф„) этого пространства и составим функцию /С(ф, х, а) = (Ф. /(*, и)) (справа стоит скалярное произведение векторов "ф и /). При фиксированных значениях \j> и х функция К становится функцией параметра и\ верхнюю грань значений этой функции обозначим через N ("ф, x). Составим, далее, гамильтонову систему уравнений Чг-% С-о.-.»>. (Ч ?--£ <'-• "»• <8> Непосредственно видно, что система (7) совпадает с системой (5), система же (8) есть ЧГ = °> ^"fab-aj (/==1' •'- я)" (9) Теорема 1. Пусть (3) — оптимальное управление уравнения (2) а л:(^)—соответствующее ему решение уравнения (2). Дополним вектор x(t) до вектора x(t), положив t *°(o=S/°(*(o. м(о)л. Существует тогда такая ненулевая непрерывная вектор-функция ф(0» что *(+(«. £('•). "(«)== 0 (*e(«<0)f (Ю) а функции
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 159 составляют решение гамильтоновой системы (7), (8), причем *(+(0. ~x(t), u(t)) = N(^(t), x(t)); (11) при этом оказывается, что функция К (ty (t), x(t), и (t)) постоянна, так что Kti(t),x(t), u(t))=0. (12) Для формулировки необходимого условия, в случае когда речь идет о минимализации времени (см. (4)), составим гамиль- тонову функцию #(tj>, х, w) = 0F. J(x, и)). При фиксированных значениях фи* функция #(г|э, х, и) становится функцией параметра и. Верхнюю грань значений этой функции обозначим через М (г|), я). Составим, далее, гамильто- нову систему ЧГ = Щ] 0 = 1, ...,п), (13) ■W—bJ (/=!. •••."). (14) Очевидно, что система (13) совпадает с системой (1), а система (14) есть T—t**^ (1-1 ">• 05) Теорема 2. Пусть (3) — оптимальное для функционала (4) управление уравнения (2) и x(t)—соответствующее этому управлению решение уравнения (2). Существует тогда такая ненулевая непрерывная вектор-функция ty(t) = (ty1(t), ..., tyn(t)), что #(Ф('о). *('о). и('о))>0, а функции Ф(0. *(0. "(0 удовлетворяют гамильтоновой системе уравнений (13), (14), /i/ш- чем Я(ф(/), 1(0, и(9)=л*(Ф(0.1(0). (16) Оказывается, кроме того, что функция H(ty(t), x(t), u(t)) постоянна, так что H(${t),~x{t), a(0)>0. (17)
160 14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ Теорема 2 непосредственно вытекает из теоремы 1. Главным содержанием теорем 1 и 2 являются равенства (11) и (16). Поэтому теорема 2, первоначально опубликованная в качестве гипотезы в заметке [1], названа принципом максимума. В этом же смысле и теореме 1 естественно присвоить наименование принципа максимума. 3. Доказательство принципа максимума (теорем 1 и 2) Докажем теорему 1. В доказательстве использованы некоторые конструкции Макшейна [5]. Пусть (3) — некоторое управление уравнения (6) и x(t) — соответствующее ему решение уравнения (6). Система уравнений в вариациях для системы (5) вблизи решения x(t) записывается, как известно, в виде Записывая решение системы (18) в векторной форме, получаем вектор «/(0 = («/°(0, .... y"(t)). В дальнейшем будут рассматриваться только непрерывные решения y(t). Систему уравнений в вариациях, как известно, можно истолковать следующим образом. Пусть у0 — произвольный вектор пространства S. Зададимся начальным значением1) *о + et/o + еО (е) для решения уравнения (6). Тогда само решение уравнения (6) с этим начальным значением записывается в форме *('М е#(0 + еО(е), где y(t) есть решение системы (18), взятое с начальным значением у0. Мы будем говорить, что решение y(t) системы (18) является перенесением вектора у0, заданного в начальной точке х0 траектории x(t), вдоль всей траектории. В том же смысле можно сказать, что решение y(t) является перенесением вектора #(т), заданного в точке х(%) траектории x(t), вдоль всей траектории. Наряду с контравариантным вектором y(t), являющимся решением системы (18), рассмотрим ковариантный вектор ty(t), являю- г) В дальнейшем символ О (е) используется как типическое обозначение для величин, стремящихся к нулю вместе с е,
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 161 щийся решением системы (8). Непосредственно проверяется, что ^•(♦(0. £(*)) = о, так что (Ф(0. у (0) = const. (19) Если истолковывать ковариантный вектор ty (t) как плоскость, проведенную через точку x(t)y то можно сказать, что плоскость ty (t) является перенесением плоскости 'ф(т), заданной в точке х(х) траектории x(t)y вдоль всей траектории. Вариацией управления (3) будем называть управление £/* = £/*(е, а) = (£*•(*), t0, Ъ + аг,*), зависящее от параметра е и действительного числа а, определенное для всех достаточно малых положительных значений параметра е и удовлетворяющее следующему условию: Решение x*(t) уравнения (6), соответствующее управлению (/*, в точке t — t^ea может быть записано в виде х(^) + еЪ(и*)+еО(г), где 8(U*) не зависит от е. Семейство А вариаций одного и того же управления (3) будем называть допустимым, если наряду с каждыми двумя вариациями ^i(8> ai) и ^И8» a2) B нем найдется при любых неотрицательных Yi» Y2 третья вариация U* (е, Yiai + Y2a2)» удовлетворяющая условию e(l/*) = Yi5(t/I)+Y.e(t/;). (20) Сконструируем теперь специальную вариацию U* (г, a) = V(e, а, т, а, и*), (21) зависящую от точки т полуинтервала f0<*^*i (причем при a < 0 должно быть т < tt), неотрицательного числа а и точки и* пространства й. Вариацию V (е, а, т, а, а*) определим, задав функцию и* (t) соотношениями и* (0 = 1 (и(0 при /0^*^т—есг> и* при т—еа</^т, и(^) при х <t^tlt I a (^) при tx < / ^ tx + ea если (a > 0). J (22) Легко построить допустимое семейство А, содержащее все вариации типа (21). Это семейство А и будет положено в основу дальнейших построений.
162 14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ Каждой вариации U* допустимого семейства А соответствует вектор 6 (£/*), выходящий из точки хх. Совокупность всех этих векторов заполняет выпуклый конус (см. (20)) П с вершиной в точке хх. Пусть и = (-1, 0, ..., 0) — вектор, выходящий из точки хг и идущий в направлении отрицательной оси х° в пространстве S. Если конус П содержит конец вектора и в качестве внутренней точки,' то управление U не является оптимальным. Пусть, в самом деле, £/*£ А—та вариация управления U', для которой б ({/•) = и. Обозначая через х\ точку, в которую переходит точка х0 при управлении [/*, получаем х*г=хг + ео + еО(е). Расщепляя это равенство на скалярное для нулевой координаты и векторное для остальных координат, получаем L (U*) = x°1* = х\—е + еО (е) = L (U)—e + eO (e), #*=*! +еО(е). Таким образом, функционал уменьшен на величину порядка е, а конец траектории отличается от желательного на величину еО(е). Уточнение этого построения приводит нас к такой вариации U* € А, для которой конец х? траектории х# удовлетворяет точному равенству х?=хх—ео, а это противоречит предположению об оптимальности управления V'. Итак, предполагая, что управление U оптимально, мы будем считать в дальнейшем, что вектор и не является внутренним для конуса П. Так как конус П выпуклый, то для него существует такая опорная плоскость Г, что сам конус лежит в одном полупространстве (замкнутом), определяемом этой плоскостью, а вектор и — в другом. Обозначая через i^ ковариантный вектор, соответствующий плоскости Г, выбранный с надлежащим знаком, мы получаем (*i. в (*/*))< 0 (t/*€A), (23) (+i. «)><>. (24) Из неравенства (24) сразу следует неравенство Фо1 < 0. (25) Обозначим через ty(t) ковариантный вектор, получающийся перенесением вектора xj^, заданного в точке х1У вдоль всей траек-
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 163 тории x(t). Покажем, что вектор-функция ty(t) и есть та, существование которой утверждается в теореме 1. Пусть V (е, 0, т, сг, и*) — произвольная специальная вариация (см. (22)) семейства А и x*(t)—соответствующее ей решение уравнения (6). Простые вычисления дают . ~х* (т) = х(т) + 8 [f(x(т), u*) — f(x(т), и (т))] + еО (е). Обозначим через y(t) вектор, получающийся из вектора у(т) = /(}(т), u*)-J(x(x)y и(х))у заданного в точке ^(т), путем переноса вдоль траектории x(t). Тогда мы имеем х* Vi) =**i+ Щ/ (Ъ) + еО (е). Так как вектор y{t^) принадлежит конусу П, то в силу неравен- тва (23) получаем (и. y(ti))<o. В силу (19) отсюда получаем (*(т), }(х(х), u*)-f(x(x), и(т)))<0. Переписывая последнее неравенство в обозначениях функции К, получаем неравенство /С(ф(т), *(т), а(т))>/С(ф(т), *(т), и% эквивалентное равенству (11). Пусть теперь U* = V(ey а, т, 0, и*). Решение уравнения (6), соответствующее этому управлению (/*, обозначим через x*(t). Мы имеем, очевидно, х* (tt + ае) = Хг + еб (£/*) + еО (е), где «([/•) = af(ilf и (*0). Так как вектор 8(£/*) принадлежит конусу П, то, в силу неравенства (23), получаем a(+i. f(xl9 a('i)))<0. Ввиду того что а есть произвольное действительное число, последнее неравенство можно лишь при условии (и. А*. "(Ш = о, т. е. при /С^(/х), х(^)9 u(tx))^0. (26)
164 U. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ Докажем, наконец, что функция К (t) = K(ty(t), x(t), u(t)) переменного t постоянна. Пусть /0^^< *з'^*1» причем на полуинтервале t2< t^t3 функция и (t) непрерывна. Покажем, что на этом полуинтервале функция К (t) постоянна. Возьмем две произвольные точки т0 и хг полуинтервала t2 < /^ t3. В силу (11) имеем ^(ФЫ, ~х(х0), и(т0)) —/С(ф(т0), х(т0), ыО^^О, —*M>(*i). *(Ti)> "(*i)) + *(l>(*i). *(*i). м(то))<0. Прибавляя к обеим частям этих неравенств разность К (хг) — — К (т0), получим неравенства — * (Ф(Т0), *(То)> "(*o))+* W>(*i). xfa), «(ToK^(Tj- /C(T0)< <*(+(*i).i(*i). Иу-^ЙЫ, i(x0), иСгО). (27) Наряду с системой (7), (8) рассмотрим аналогичную систему уравнений. Для того чтобы выявить более четко разницу между двумя этими системами, запишем систему (7), (8) в более развернутом виде: ^■=-4г/С(*(0''^'"^ (28) ^Г=-|:Я(Ч>(0. *(<), U(t)). (29) Наряду с этой системой рассмотрим систему "1Г = 4 * (**(0, *т» (0' "(То))' (30) -^ = —£Г*<*т,(0. МО. «К)) (31) (индексы т0 в уравнениях (30), (31) указывают на то, что соответствующие функции суть решение системы (7), (8) при фиксированном и = и(х0)). Наряду с векторами х, ty введем векторы x(t) = (40(t), x\.(t), ..., *?.(/)). + (0 = (+в§(0. +!•('). ■■•■ +?.(<)). Мы будем рассматривать функцию /С (ф(/), *(0» м(то))- Из системы (30), (31) следует непосредственно, что 4*(+('>. i(0.tt(Te)) = 0. Легко показать, что функции /С(\|)(/), х(/)» и(то)) и /С(ф(0> #(/), и(т0)) мало отличаются друг от друга, именно: имеет место
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 165 неравенство |*(Ф(0. *(<). "(*«))—*(*(')• *('). м(т0))|<|/—t0|y. (32) где lim y = 0- |/-То|->0 Так как функция и(/) непрерывна на рассматриваемом полуинтервале, то решения систем (28), (29) и (30), (31) мало отличаются друг от друга, именно: имеют место неравенства И*)—i(0KM—tjYi, (33) IU(0-*(0KU-*olY.. (34) где lim Yi= l*m Y2 = 0- И-т0|->0 |/-т0|->0 Из неравенств (33), (34) следует неравенство (32). Теперь, пользуясь неравенством (32), мы усилим неравенство (27) следующим образом: К—т0) Y < К Ы—К (т0) < (х1—т0) Y- Деля это неравенство на тх—т0 и переходя к пределу при (хг—т0) —> 0, получаем окончательный результат: Таким образом, на полуинтервале t2<t^.t3 функция K(t) постоянна. Докажем теперь, что функция N(\j), x) непрерывна по паре аргументов -ф, х. Если это неверно, то существуют такие близкие между собой пары (грх, хх) и (-ф0, x0), что при сколь угодно малом расстоянии между ними имеет место неравенство Nfai, Xi)—N(%> *о)>с>0. Пусть иг и и0—такие значения управления и, что М(%> ^) —# ОФо. ^о. "о). Так как и0 дает максимум, то имеет место неравенство #0*1. *i, Ui) — #0Фо, *о, "i)>£, что противоречит непрерывности К по первым двум аргументам. Отсюда следует непрерывность функции K(ty(t), x(t)9 u(t)) и в точке разрыва функции u(t).
166 14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ Из доказанного вытекает (см. (26)) справедливость равенства (12) на всем отрезке /0^^^i» чем, в частности, доказано первое из соотношений (10). Второе из соотношений (10) следует из неравенства (25) в силу первого уравнения (9). Итак, теорема 1 полностью доказана. Замечание к теореме 1. Теорема 1 остается справедливой и в случае, если в качестве допустимых управляющих функций и (t) рассматривать измеримые ограниченные функции; при этом равенство (11) для оптимального управления выполняется почти всюду. 4. Оптимальные в смысле быстродействия линейные управления Важным для приложений и хорошо иллюстрирующим общие результаты примером является линейная управляемая система п г / = i k=\ где и = (и1, ..., иг) есть точка выпуклого замкнутого ограниченного многогранника Q, расположенного в линейном пространстве Е с координатами и1, ..., иг. В векторном виде эта система может быть записана так: £- = Ах+Вй9 (35) где А — линейный оператор в пространстве R переменных х1, ..., хп, а В—линейный оператор из пространства Е в пространство R. Мы будем рассматривать здесь только задачу о минимализации функционала } dt, т. е. задачу минимализации времени перехода. Для получения некоторых результатов характера единственности мы будем налагать на управляемое уравнение (35) нижеследующие условия (А), (В), роль которых выяснится в дальнейшем. (A) Пусть w—некоторый вектор, имеющий направление какого- либо из ребер многогранника Q; тогда вектор Bw не принадлежит никакому истинному подпространству пространства R, инвариантному относительно оператора Л; таким образом, векторы Bw, ABw, ..., An~xBw (36) линейно независимы в пространстве R всякий раз, когда w есть вектор, имеющий направление одного из ребер многогранника Q. (B) Начало координат пространства Е является внутренней точкой многогранника Q.
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 167 Функция #(г|), х, и) в нашем случае имеет вид # = (Ф. Лх) + (ф, Вй), (37) а система (15) записывается в виде 1 = 1 или, в векторной форме, # = -ЛЧ- (38) Очевидно, что функция Я, рассматриваемая как функция переменного и 6 Q достигает максимума одновременно с функцией (Ф, Яй). В соответствии с этим обозначим через Р (ф) максимум функции (г|), Ви), рассматриваемой как функция переменного u£Q. Из теоремы 2 следует, таким образом, что если </ = И0. 'е. *i, *>) есть оптимальное управление уравнения (35), то существует такое решение ty(t) уравнения (38), что (Ф(0, дй(0)=я (♦(<))• (39) Так как уравнение (38) не содержит неизвестных функций x(t) и u(t), то все решения уравнения (38) легко могут быть найдены, и тем самым по условию (39) легко могут быть найдены и все оптимальные управления u(t) уравнения (35). Вопрос о том, насколько однозначно условие (39) определяет управление u(t) через функцию г|э(/), решается нижеследующей теоремой: Теорема 3. Если выполнено условие (А), то при заданном нетривиальном решении ty(t) уравнения (38) соотношение (39) однозначно определяет управляющую функцию u(t)\ при этом оказывается, что функция u(t) кусочно постоянна и ее значениями являются лишь вершины многогранника Q. Доказательство. Так как функция ОКО. в»), (40) ассматриваемая как функция вектора и, линейна, то она либо Рпостоянна, либо достигает своего максимума на границе многогранника Q. Это же соображение применимо и к каждой грани многогранника Q. Таким образом, либо функция (40) достигает своего максимума лишь в одной вершине многогранника Q, либо
168 14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ же достигает его на целой грани многогранника Q. Покажем, что в силу условия (А) последнее возможно лишь для конечного числа значений t. Допустим, что функция (40) достигает своего максимума (и, следовательно, постоянна) на некоторой грани Г многогранника Q. Пусть w—вектор, имеющий направление некоторого ребра грани Г. В силу постоянства функции (40) на грани Г имеем (ф(0, Яш) = 0. Если бы это соотношение имело место для бесконечного множества значений переменного t, то оно выполнялось бы тождественно по t и, дифференцируя его последовательно по t, мы получили бы (4*ф(0, Дш) = (ф(0, ABw) = 0, | (Л«ф(0, Дш) = (ф(0, Л2ВЙу) = 0, f (41) (Л*»-1^*), Bw) = (ty(t), An~1Bw) = 0, ) а так как в силу условия (А) векторы (36) образуют базис пространства R, то из соотношений (41) следовало бы ty(t) = 0, что противоречит предположению о нетривиальности решения ^(t). 5. Теоремы единственности для линейных управлений Решим уравнение (35) как неоднородное методом вариации постоянных. Для этого обозначим через МО <Ы0 (42) фундаментальную систему решений однородного уравнения удовлетворяющую начальным условиям ф}-(/0) = 6/, а через ♦МО. .-., +"(0 — фундаментальную систему решений однородного уравнения (38), удовлетворяющую начальным ty{(t0) = 6{. Будем искать общее решение уравнения (35) в виде 1(0= 2 */ (0 с (t). i = 1 Подставляя это решение в уравнение (35), получим 1=1 at
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 169 Умножая последнее соотношение скалярно на tyJ' и учитывая, что Wit), $.(t)) = 6{, получаем ^ = (?(0, Bu{t)). (43) Таким образом, решение уравнения (35) при произвольном управлении U = (u(t), t0, tl9 х0) записывается в виде п _ t *(0=2*/(0*i+J(l>'(0. Bu(t))dt). (44) 1=1 / Теорема 4. Допустим, что уравнение (35) удовлетворяет условию (А), и пусть U1 = (u1(t)9 t0, t19 х0), U2 = (u2(t), t0, t2, ~x0) — два оптимальных управления уравнения (35), переводящие точку х0 в одну и ту же точку хг\ тогда эти управления совпадают t1 = t2, u^^ — u^it). Доказательство. Так как оба управления £/х и U2 оптимальны, то tx = t2, ибо если бы было, например, tt < /2, то управление U2 не было бы оптимальным. Мы имеем, таким образом, равенство *i = 2 ЬЩ 4+ { (+'(0. BZ.it)) dt) = = 2 МО\4+ S(+'(0. BZ2it))dt\ Так как векторы Ф1(^1), ..., Ф"(^) линейно независимы, то из последнего равенства следует $(ф'(0. ^(0)^ = 5(^(0. Bu2it))dt («=1 л). (45) /о 'о Оптимальному управлению L^ в силу теоремы 3 соответствует вектор-функция i|>(0> являющаяся решением уравнения (38). Начальное значение этой функции при / = /0 обозначим через ^o = M>io, •••> Ф«о); тогда решение i|>(/) можно записать в виде *(')«2*,о*'(0. (46) 1 = 1
270 '4 оптимальные процессы регулирования Умножая соотношение (37) на г|)/0 и суммируя по i, получаем S (+('). *M0)d' = S(+(0. Bu2(t))dt. (47) В силу теоремы 3 функция их (/) удовлетворяет условию (*(*), ДМ/)) = я (+(*)) и определяется этим условием однозначно. Если бы функция u2{t) не совпадала с функцией ^(t), то она не удовлетворяла бы условию _ _ _ (+(0, Bu2(t))^P(^(t)), и потому функция (ty(t), Bu2(t)), нигде не превосходя функции (ty(t), 5^(/)), на некотором интервале была бы меньше ее. Таким образом, если на отрезке /<><*< *i не имеет места тождество то равенство (47) невозможно. Итак, теорема 4 доказана. Будем называть управление U = (u(t), t0, t19 Хо) экстремальным у если оно удовлетворяет условию (39), где ty(t) — некоторое нетривиальное решение уравнения (38). Для нахождения всех оптимальных управлений, переводящих точку х0 в точку хи можно найти сперва все экстремальные управления, переводящие точку х0 в точку хи а затем выбрать из их числа то единственное, которое осуществляет этот переход в кратчайшее время. Возникает вопрос, может ли существовать несколько экстремальных управлений, переводящих точку jc0 в точку *!? Вообще говоря, их может существовать несколько. Нижеследующая теорема указывает важный случай единственности. Теорема 5. Допустим, что уравнение (35) удовлетворяет условиям (А) и (В), и пусть f/i = (a1(0, t0, tlt х0), U2 = (u2(t), t0, t2, Xo) — два экстремальных управления, переводящих точку Xq в начало координат xt = 0 пространства R; тогда управления Ux и U2 совпадают ti = t2, ^(О^М/).
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 171 Доказательство. По предположению, мы имеем равенства (48) п — Г г - - \ 2Ф|(<1)(4+ИФ'(«. Bu1(t))dt) = 0, п — ( *с — - \ 2Ф/(У14+ (*'(<). Bu2(t))dt) = 0. 1 = 1 \ /о ' Так как векторы (42) линейно независимы при любом /, то из равенств (48) следует равенство и _ _ и _ _ —4 = S (Ф'" (0> Виг (0) Л = S (ф' (0, Вщ (0) Л. (49) и t0 Допустим для определенности, что tx > /2, и пусть ф(/)—то решение уравнения (38), для которого имеет место тождество (♦(О, вйг(*)) = Р№)), определяющее функцию МО- Как и при доказательстве теоремы 4, функцию ф(/) запишем в виде (46). Умножим соотношение (49) на ф,0 и просуммируем по i. Мы получим $(Ф(0, ЯМ0)^=$(Ф(0, Bu2(t))dt. to to Заметим теперь, что из условия (В) следует ^(Ф(0)>0- (50) В самом деле, так как нуль является внутренней точкой выпуклого тела Q, то функция (ф(0> £н), как функция переменного а, либо тождественно равна нулю, либо может принимать как отрицательные, так и положительные значения. В силу (50) мы имеем неравенство и _ и \ (ф (о, Виг (0) л < S (Ф (0, £ы2 (0) Л- Отсюда, так же как и при доказательстве теоремы 4, получаем МО —МО ПРИ *о<'<*2- Далее, так как равенство Р(ф(/)) = 0 может иметь место только для отдельных значений t, то должно быть tx = /2. Итак, теорема 5 доказана.
172 М. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ Р. Существование оптимальных управлений для линейных систем Теорема 6. Если существует хотя бы одно управление у рае' нения (35), переводящее точку х0 в точку хи то существует и оптимальное управление уравнения (35), переводящее точку х0 в точку хг. Доказательство. Совокупность всех управлений вида £/ = (и(0,.0, *, *о), (51) переводящих точку х0 в точку хи обозначим через Д- -. Каждому управлению (51) соответствует время перехода t. Нижнюю грань всех таких времен при U g Д- - обозначим через /• и докажем, что существует управление U* = (u*(t), О, /*, х0), переводящее точку х0 в точку хг. Выберем из множества Д^ - бесконечную последовательность управлений Uk = Cuk(t), 0, tk,~Xo) (£=1,2,...), для которой имеет место равенство lim tk=t*. Очевидно, имеет место равенство lim 2 Ф{(П[4+ \ (ф'(/), BUbifydt)^. (52) Рассмотрим гильбертово пространство L2 всех измеримых функций с интегрируемым квадратом, заданным на отрезке 0 <:/</*. Управление uk(t) есть вектор-функция; i-ю координату этой функции обозначим через ulk(t). Функция ulk(t), рассматриваемая на отрезке 0^ /^ /*, принадлежит пространству L2. Совокупность всех функций и[У), &=1, 2, ..., очевидно, принадлежит некоторому шару пространства L2, и потому из нее можно выбрать слабо сходящуюся подпоследовательность. Мы будем просто считать, что сама последовательность u[(t), ul(t), ..., ui(t),... (53) слабо сходится к некоторой функции ul(t)y i=l, ..., г. Докажем, что вектор-функция и*(9 = (и1 С). ..-. "г(0) почти для всех значений t удовлетворяет условию й* (t) € Q.
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 173 Пусть __ г i=i — уравнение гиперплоскости, несущей одну из (г—1)-мерных граней, многогранника Q, причем многогранник Q расположен в полупространстве b(u)^b. Пусть т—множество всех значений t отрезка [0, t*], для которых b(u*(t))> b, и v(t) — характеристическая функция множества т. Мы имеем тогда t* lim J »(t)[b(u*(t))—b(uk(t))]dt = 0 в силу слабой сходимости последовательностей (53), и так как b(u*(t))—b(uk(t))> 0 на множестве m, to mes(m) = 0. Таким образом, изменяя вектор-функцию и* (t) на множестве меры нуль, мы получим новую функцию, которую снова обозначим через u*(t), удовлетворяющую условию u*(t)£Q, O^t^t*. Из соотношения (52) в силу слабой сходимости последовательностей (53) следует Таким образом, U* — (u*(t), 0, /*, *0) является измеримым оптимальным управлением, переводящим точку х0 в точку хх. В силу замечания к теореме 1, изменяя управление u*(t) на множестве меры нуль, мы можем превратить его в управление, удовлетворяющее принципу максимума, т. е. в нашем случае — условию (*(0, Bu*(t)) = P($(t)). Из этого условия, очевидно, вытекает кусочная непрерывность функции u*(t). Итак, теорема 6 доказана. Теорема 7. Если уравнение (35) удовлетворяет условиям (А) и (В) и оператор А устойчив, т. е. все его собственные значения имеют отрицательные действительные части, то для каждой точки x0£R существует оптимальное управлениеf переводящее эту точку в начало координат 0£R.
174 Н. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ Доказательство. Докажем прежде всего, что существует окрестность V точки 0 в /?, каждая точка х0 которой может быть при помощи некоторого управления переведена в 0. Выберем в Q такой вектор и, чтобы вектор —и принадлежал Q и чтобы вектор не принадлежал ни к какому истинному подпространству пространства /?, инвариантному относительно оператора А. В силу условий (А) и (В) такой вектор и существует. При достаточно малом положительном е операторы А и е~гА имеют совпадающие инвариантные подпространства, и потому векторы е~гАЬ, е~2еАЬ, ...,e~mAb линейно независимы. Пусть %(t) — произвольная действительная функция, определенная на некотором отрезке 0^ t^tx и не превосходящая по модулю единицы; тогда £/ = (»Х(0, 0, tl9 х0) есть управление уравнения (35) и управление это переводит точку х0 в точку (см. (44)) Xl = et>A(x0+\e-iAbx(t)dtJ. (54) Выберем теперь функцию %(t) зависящей от параметров £\ ..., %п таким образом, чтобы точка (54) — обозначим ее через х1(х0\ S1, ..., |п)—удовлетворяла следующим условиям: хх(0\ 0, ..., 0) = 0, а функциональный определитель а(4 •••> *?)| отличен от нуля. Построив такую функцию %(/), мы докажем, что уравнение хг (х0; |\ .. ., £") — 0 разрешимо относительно |\ ..., \п для всех значений х0, принадлежащих некоторой окрестности V начала 0. Определим прежде всего функцию а(/, т, |) переменного t> 0</</]., где 0<T<flf а |—параметр. Функция o(t, т, £), как функция переменного ty равна нулю всюду вне интервала [т, т+5], а на этом интервале она равна sign |. Положим теперь
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 175 Простые вычисления показывают, что точка хг(х0; I1, ..., |") при этом выборе функции %(t) удовлетворяет высказанным условиям. Пусть теперь х0 — произвольная точка пространства R. Пусть она сперва двигается при управлении u(t) = 0. Так как все собственные значения оператора Л имеют отрицательные действительные части, то по истечении некоторого времени точка придет в окрестность К, после чего ее, по доказанному, можно перевести в начало координат. Отсюда, в силу теоремы 6, вытекает существование оптимального управления, переводящего точку х0 в начало. Итак, теорема 7 доказана. 7. Синтез линейного оптимального управления Задача синтезирования оптимального управления имеет смысл для произвольной управляемой системы (1), однако здесь я буду трактовать ее только для линейной управляемой системы (35), удовлетворяющей условиям (А) и (В), с устойчивым оператором Л. Для такой системы имеют место теоремы существования и единственности (теоремы 7 и 5), благодаря чему задача синтеза является в принципе решенной. Приводимые здесь соображения дают конструктивный метод решения задачи. Осуществление этого метода в каждом конкретном случае требует, однако, ряда построений. Синтезирование оптимального управления линейной системы (35) совершенно другим методом было осуществлено до сих пор лишь для случая одного управляющего параметра (т. е. при г=1) Фельдбаумом [6] при действительных корнях оператора А и Бушоу [7] для случая, когда п = 2, а собственные значения оператора А комплексны. Будем считать, что уравнение (35) удовлетворяет условиям (А) и (В) и имеет устойчивый оператор Л. Тогда для каждой точки хо € R существует (и притом только одно) оптимальное управление ^0=(«\(о,«.. *.,*). (55) переводящее точку х0 в начало координат 0£/?. Единственность имеет место конечно с точностью до сдвига времени (см. замечание 2 к постановке задачи). Величина u~o(t0) зависит, таким образом, только от точки хОУ а не от случайно выбранного начала отсчета времени t0, и потому можно положить Й*о)=й-о(д. Пусть x(t) — решение уравнения (27)^ соответствующее управлению (55); тогда U-{x) = (u-Q(t), т, tly x{x)) (см. замечание 1 к
176 14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ постановке задачи), и потому Таким образом, и мы видим, что решение уравнения -^ = Лх+Ви(*) (56) с произвольным начальным условием x(t0)=x0 дает закон оптимального движения точки х0 в начало координат. В этом смысле функция и(х) синтезирует оптимальное управление, переводящее любую точку х0 в начало. Дадим теперь метод построения функции и (л:). Пусть г|)(/) — то решение уравнения (38), которое в силу теоремы 2 соответствует управлению (55), так что ^--^4(0. (57) а функция u—(t) определяется из уравнения (+(/). ДЙ-(о)=Р(+(0). (58) Пусть, далее, л:(/) — решение уравнения (35), удовлетворяющее начальному условию x(t0) = x0 (59) и конечному условию *(*х) = О, (60) так что Jip- = Ax(t) + Bu-(t). (61) Тогда функция и(х) удовлетворяет условию (+(*e), BU(l(t0))) = P^(t0)). (62) Из теорем существования и единственности следует, что существует, и притом только одна (с точностью до сдвига времени), пара функций и- (t), x(t), заданных на отрезке t0^:t^t1 и удовлетворяющих условиям (57)—(61). Ввиду возможности сдвига времени, числа t0 и tx этими условиями не определены однозначно, а число tx—10 определено. Совершенно не ясно, как искать функции u~o(t), x(l), удовлетворяющие всем условиям (57)—(61), но легко найти всефунк-
14. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ РЕГУЛИРОВАНИЯ 177 ции и- (/), x(t), удовлетворяющие лишь условиям (57), (58), (60), (61). Для этого поступим следующим образом: ввиду возможности произвольного сдвига времени, зафиксируем число tt, положив t1 = 0. Пусть теперь %—произвольный ковариантный вектор, отличный от нуля, и ty(t, x) — решение уравнения (57), удовлетворяющее начальному условию и определенное при t^O. Определим, далее, функцию u(tt %) из условия (ф(*. х). B1l(U X)) = Pfa(t, X)) ('<<>), и функцию x(t, x) из уравнения Согласно сказанному выше функция и(х) определится соотношением (ф(/, х), Eto(x(t, х))) = />(+('. X)). (63) Из теоремы существования (теорема 7) следует, что точка x(t, %) описывает все пространство /?, когда / пробегает отрицательные значения, а вектор % меняется произвольно. Таким образом, соотношение (63) определяет значение функции и (х) для произвольной точки х пространства R. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Болтянский В. Г., Гамкрелидзе Р. В. и Понтрягин Л. С. К теории оптимальных процессов. ДАН, ПО, № 1, 7—10 (1956). [2] Гамкрелидзе Р. В. К теории оптимальных процессов в линейных системах. ДАН, 116, № 1, 9—11 (1957). [3] Болтянский В. Г. Принцип максимума в теории оптимальных процессов. ДАН, 119, № 6 (1958). [4] Б лисе Г. А. Лекции по вариационному исчислению. ИЛ, М., 1950. [5] Мс Shane E. J. On multiplipliers for Lagrange problems. Amer. J. Math. 61, 809—819 (1939). [6] Фельдбаум А. А. Автомат, и Телемех. 16, № 2, 129 (1955). [7] В u s h a w D. W. Experimental towing tank. Stevens Institute of Technology, Report 469. Hoboken, N. Y., 1953.
15 ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ. I ПРИНЦИП МАКСИМУМА*) Совместно с В. Г. Болтянским и Р. В. Гамкрелидзе В работе дается подробное изложение результатов, ранее кратко изложенных авторами в ряде заметок (см. [1]—[5] и [9]). Многие технические задачи связаны с рассмотрением так называемых оптимальных процессов, характеризуемых тем, что процесс управления некоторым техническим объектом должен быть в каком-то определенном смысле наилучшим («оптимальным»), например время или работа, затраченные для достижения определенного состояния, должны быть наименьшими. Мы даем в настоящей работе весьма общие необходимые условия оптимальности, кратко опубликованные ранее в заметках [1], [2], [3]. Эти условия изложены здесь в форме принципа максимума (см. [3]) и применимы к рассматриваемому ниже общему случаю системы вида (1). Вопрос о связи принципа максимума с классическими результатами вариационного исчисления обсуждается ниже (п. 8). В частном случае линейных систем и оптимальности, понимаемой в смысле «быстродействия», имеются некоторые дальнейшие результаты [4], [5]: существование оптимальных управлений, синтез оптимальных управлений и др. Эти вопросы подробно рассмотрены во второй половине статьи [6]. 1. Допустимые управления. Мы будем рассматривать поведение объекта, состояние которого в каждый момент времени характеризуется п переменными х1, х2, ..., хп (например, координатами и скоростями). Векторное пространство X векторной переменной х=*{х\ х2, ..., хп} является фазовым пространством рассматриваемого объекта. Поведение (движение) объекта заключается (с математической точки зрения) в том, что переменные х1, х2, ..., хп меняются с течением времени. Предполагается, что движением объекта можно управлять, т. е. что объект снабжен некоторыми «рулями», от положения которых зависит движение объекта. Положения «рулей» характеризуются точкой и некоторой области управления О, которая может быть любым топологическим хаусдорфовым пространством. В приложениях важен случай, когда U является замкнутой область некоторого г-мерного эвклидова пространства Е\ в этом случае задание точки и=(иг, и2, .. ., ur)£U равносильно заданию системы числовых параметров и1, и2, ..., иг. *) Изв. АН СССР. Сер. мат. —I960. —Т. 24, № 1. —С. 3—42.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 179 Каждую функцию u = u(t), определенную на некотором отрезке t0 ^ t ^ tx времени t и принимающую значения в пространстве Uу мы будем называть управлением. В дальнейшем предполагается, что выбран некоторый класс D управлений; управления, принадлежащие этому классу, будут называться допустимыми. От класса D допустимых управлений требуется только, чтобы он удовлетворял следующим трем условиям. 1) Все управления u = u(t)y принадлежащие классу D (т. е. допустимые), должны быть измеримыми и ограниченными. Управление и = и (/), t0 ^ t ^ tl9 называется измеримым, если для любого открытого множества OaU множество тех значений /, для которых u(t)£0> измеримо на отрезке /0^^^^i- Управление ограниченно, если множество всех точек u(t)> *0^*^*1> имеет в пространстве U компактное замыкание. (Если, в часгности, U есть замкнутое подмножество векторного пространства переменной и = (и1, и2, ..., W), то измеримость и ограниченность имеют обычный смысл.) 2) Если u(t), t0^t^tu—допустимое управление и если v — произвольная точка пространства /У, a t\ t"—такие числа, что t0^t' ^f ^:tly то управление иг{{), t0^t^tly определяемое формулой f v при *'<«**. lK } \ u(t) при t<t' или t> Г, также является допустимым. 3) Если отрезок /0^*^*i можно разбить точками деления на конечное число частичных отрезков, на кажком из которых управление u(t) допустимо, то это управление допустимо и на всем отрезке t^^t^t^ Допустимое управление, рассматриваемое на частичном отрезке, также является допустимым. Управление, получающееся из допустимого управления u(t), t0^t^tly сдвигом времени (т. е. управление u1(t) = u(t—a), t0 + a^t^t1Jr а), также является допустимым. В качестве класса допустимых управлений можно взять, например, класс всех измеримых ограниченных управлений. Другим примером может служить множество всех к у с о ч н о-н е п р е р ы в- ных управлений (т. е. таких управлений u = u(t), каждое из которых непрерывно для всех рассматриваемых /, за исключением лишь конечного числа моментов времени, где функция и (t) может терпеть разрывы первого рода). Этот класс допустимых управлений, по-видимому, наиболее интересен для технических применений развиваемой здесь теории; такие управления соответствуют предположению о «безынерционности» рулей. Можно также рассматривать класс всех кусочно-постоянных управлений, класс кусочно-линейных управлений и т. п. В дальнейшем класс D допустимых управлений предполагается раз навсегда фиксированным.
180 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 2. Постановка задачи. Мы будем предполагать, что закон движения объекта (и закон воздействия «рулей» на это движение) записывается в виде системы дифференциальных уравнений: ^- = №* *\ ••., *n; u) = f'(x, u)> i=U 2, ..., л, (1) или, в векторной форме, # = /(*. «). (2) где /(л*, и)— вектор с координатами fx(x, и), f2(x, и), ..., /" (ху и). Функции /' определены для любых значений векторной переменной х£Х и для значений и, принадлежащих области управления U. Они предполагаются непрерывными по совокупности переменных л:1, х2у ..., хп, и и непрерывно дифференцируемыми по л:1, л:2, ..., хп. Иначе говоря, функции г/ / 1 9 \ df* (х1, х2, ..., хп\ и) /< (л:1, л:2, . . ., хп\ и) и -J-L-:—'—-i—'—• , dxJ /, /= 1, 2, ..., л, определены и непрерывны на прямом произведении XxU. Заметим, что система (1) автономна, т. е. правые ее части не зависят от времени t. Случай, когда правые части зависят от /, мы рассмотрим в конце работы (п. 19). Если задан закон управления, т. е. выбрано некоторое допустимое управление u = u(t), то уравнение (2) принимает вид £ = /(*,«(*)), (3) откуда (при любых начальных условиях x(t0) = x0) однозначно определяется закон движения объекта x = x(t)> т. е. решение уравнения (3), определенное на некотором отрезке времени. Это решение является абсолютно непрерывной вектор-функцией, почти всюду (на отрезке своего определения) удовлетворяющей соотношению (3) (см. [7]). Мы будем говорить, что допустимое управление u(t) переводит точку х0 в точку х1У если решение x(t) уравнения (3), удовлетворяющее начальному условию x(t0) = x0l проходит в некоторый момент tt через точку х1У т. е. удовлетворяет также конечному условию х (t1) = хг. Предположим теперь, что задана функция ^(х1, х2, . .., хп\ и)= =f°(x, и), определенная и непрерывная вместе со своими частными df° производными -JP*, *=1, 2, ..., л, на всем пространстве XxU. Тогда основная задача (отыскание оптимальных управлений) может быть сформулирована следующим образом: В фазовом пространстве X даны две точки х0 и хг. Среди всех допустимых управлений u = u(t), переводящих точки х0
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 181 в точку хх {если такие управления существуют), найти такое, для которого функционал J= lf(x(t), u{t))dt (4) принимает наименьшее возможное значение', здесь x(t) — решение уравнения (3) с начальным условием x(t0) = x0, a tx—момент прохождения этого решения через точку хг. Отметим, что (при фиксированных t0, х01 хг) верхний предел tt в интеграле (4) не является фиксированным числом, а зависит от выбора управления u(t), переводящего точку х0 в точку хг (этот верхний предел определяется из соотношения x(t1) = x1). О решении задачи для случая закрепленного верхнего предела мы будем говорить в конце работы (п. 20). Управление u(t), дающее решение поставленной выше задачи, называется оптимальным управлением, соответствующим переходу из точки х0 в точку х19 а соответствующая траектория x(t) — оптимальной траекторией. Таким образом, основная задача заключается в отыскании оптимальных управлений (и соответствующих оптимальных траекторий). Важным частным случаем поставленной выше оптимальной задачи является случай, когда f°(x, и)=1. В этом случае функционал (4) принимает вид J = t1-t0 (5) и оптимальность управления и (t) означает минимальность времени перехода из точки х0 в точку хг. Задачу отыскания оптимальных управлений (и траекторий) в этом случае мы будем называть задачей об оптимальном быстродействии. 3. Эквивалентная формулировка задачи. Для формулировки и доказательства необходимого условия оптимальности нам будет удобно переформулировать поставленную выше задачу следующим образом. Добавим к фазовым координатам хх, х2, ..., хп, меняющимся по закону (1), еще одну координату л:0, закон изменения которой имеет вид ^ = №, х\ ..., х»; и), где /°—функция, участвующая в определении функционала J [см. (4)]. Иначе говоря, будем рассматривать систему дифференциальных уравнений **=//(*!, х\ ..., х»; а) = /'(*. и), i = 0f 1, 2, ..., п, (6) правые части которой не зависят от переменного х°. Введя в рассмотрение вектор х = {х°, х1, ..., хп] = {х°, х1}
182 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ (п+ 1)-мерного векторного пространства X, мы сможем систему (6) переписать в векторной форме: £='(*. ")> (7) где f(x, и) — вектор пространства X, имеющий координаты /° (л:, и), ..., fn(x, и). Заметим, что вектор f(x, и) не зависит от координаты х° вектора х. Пусть теперь u(t) — некоторое допустимое управление, переводящее х0 в х1У a x = x(t) — решение уравнения (3) с начальным условием x(t0) = x0. Обозначим через х0 точку (0, л:0), т.е. точку пространства X, имеющую координаты 0, xj, ..., #2, где 4, • • •, *о— координаты точки х0 в пространстве X. Тогда ясно, что решение уравнения (7) с начальным условием х(^0) = х0 имеет вид х° = \f*(x(t), u(t))dt, to x = x(t). В частности, при t = t± мы получим и Х*=^р(хЦ;)9 ицу dt=*J, Х = Х1У to т. е. решение х(^) уравнения (7) с начальным условием х(/0) = х0 проходит при t = tt через точку x1==(J, xt). Иначе говоря, обозначив через П прямую линию, проходящую в пространстве X через точку х = (0, xt) параллельно оси х0 (эта прямая образована всеми точками (£, хг), где число £ произвольно), мы можем сказать, что решение х(^) проходит в момент t=tt через точку, лежащую на прямой П и имеющую координату x° = J. Обратно, если u(t)—такое допустимое управление, что решение уравнения (7) с начальным условием х(/о) = х0 = (0, лг0) проходит в некоторый момент tx через точку х^Пс координатой x° = J, то управление u(t) переводит (в пространстве X) точку х9 в точку х1У причем функционал (4) принимает значение J. Таким образом, мы можем сформулировать поставленную выше оптимальную задачу в следующем эквивалентном виде. В (п + \)-мерном фазовом пространстве X даны точка х0 = (0, х0) и прямая П, параллельная оси х° и проходящая через точку (0, х±). Среди всех допустимых управлений u = u(t), обладающих тем свойствому что решение x(t) уравнения (7) с начальным условием х(£0) = х0 пересекает прямую П, найти такое, для которого точка пересечения с прямой П имеет наименьшую координату л:0. Эту задачу мы и будем решать. Термины «оптимальное управление» и «оптимальная траектория» мы сохраним и для задачи в этой новой формулировке.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 183 4. Перенос вектора вдоль траектории. Мы переходим к решению поставленной оптимальной задачи. В этом и следующем пунктах вводится система уравнений (13), связанная с системой (6), и выясняется ее геометрический смысл. При желании читатель может временно пропустить эти два пункта, рассматривая (13) как вспомогательную систему, формально присоединяемую к системе (6), и перейти к п. 6, в котором формулируется необходимое условие оптимальности. В приводимых ниже доказательствах часто будет встречаться положительный параметр е, который мы будем считать величиной первого порядка малости. Величины, имеющие более высокий порядок малости (по е), мы будем отбрасывать и заменять многоточием. Условимся далее, что если в некотором одночлене (как, например, в правой части написанного ниже уравнения (9)) дважды встречается один и тот же индекс, один раз в качестве верхнего, а другой раз в качестве нижнего, то по этому индексу предполагается произведенным суммированием, распространенное на все допустимые значения этого индекса. Например, в уравнении (9) подразумевается суммирование от v=l до v = n. Во избежание недоразумений мы условимся обозначать индекс суммирования через а или р, когда суммирование производится в пределах от О до п, и через \i или v, когда суммирование производится от 1 до п. Пусть u(t) — произвольное допустимое управление, заданное на некотором отрезке с левым концом в точке t = t0, a х(0 = (*°(0> *Ч0. •••. **(0) = (*°(0> *(0) — соответствующее этому управлению решение уравнения (7) с начальным условием х(/0) = х0. Обозначим через у(/) решение, соответствующее тому же управлению u(t) и исходящее (в тот же момент /0) из близкой к х0 точки y0 = x0+el0+ ..., где §о—постоянный (т. е. не зависящий от е) вектор пространства X. Как известно, решение у(/) имеет вид у(/) = х(0 + е6х(/)+..., (8) где 8x(t) = {8x°(t), бх1^), ...,8xn(t)}— не зависящий от е вектор, определяемый следующими уравнениями в вариациях: Iga^cyfflax», /=о. 1 п. (9) при начальном условии бх(/0) = 10. Уравнения (9) позволяют каждому вектору |0 = бх(/0) поставить в соответствие семейство векторов (|< = бх(/)} (для t, больших
184 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ чем t0). Мы условимся считать %t = 8x(t) связанным вектором, исходящим из точки х(^). Таким образом, каждый вектор |0> заданный в точке х0, определяет векторное поле {%t}y заданное вдоль траектории х(^). Будем говорить, что векторы этого поля получаются из начального вектора |0 переносом вдоль траектории х(/). Обозначим через Xt векторное пространство, получающееся из X переносом начала в точку х(£), т. е. пространство связанных векторов, исходящих из точки х(^). Вектор %t = 8x(t) является элементом этого пространства Xt. Обозначим, далее, через Л/0, / преобразование пространства Х/0 в пространство Xt, переводящее каждый вектор |0 пространства Х/0 в вектор |/, получающийся из |0 переносом вдоль траектории х(^). Так как система (9) линейна и однородна, то преобразование Л/0, / линейно и невырожденно. Кроме того, оно, очевидно, однородно, т. е. переводит начало координат пространства Х/0 в начало координат пространства Х(. Рассмотрев вместо t0 и t любые другие моменты времени /', t" (взятые на отрезке, на котором определены и управление u(t) и решение х(/)), мы аналогично определим линейное невырожденное однородное преобразование Av% r пространства X/' на пространство Xt". Очевидно, что эти линейные преобразования обладают следующими свойствами (Е—тождественное преобразование): Аг.г = Е, Ar.r-At.9r = Ar.t.'.. (10) По определению преобразований Л/>, *">, векторы Л/0, / (|0) образуют семейство векторов, получающихся из |0 переносом вдоль траектории х(/), и потому удовлетворяют уравнению (9): ±{АиЛШ =dHxf/{t)){Au,t№, / = 0, 1 п. Решение (8) переписывается очевидно, следующим образом: y(t)-x(t) = eAtoti(l0)+ •.•=Atott[y(t0)-x(t0)]+ ... (П) 5. Сопряженная система уравнений. Пусть L0 — некоторая гиперплоскость пространства X, проходящая через точку х0 (т. е. л-мерное подпространство пространства Х*о). Линейное преобразование Atoit переводит гиперплоскость Ь0 в некоторую гиперплоскость Lt (проходящую через точку x(t)). Таким образом, мы получаем семейство гиперплоскостей {Lt}, получающихся, как мы будем говорить, переносом гиперплоскости Ь0 вдоль траектории х(^). Найдем дифференциальное уравнение таких семейств гиперплоскостей. Мы можем записать уравнение гиперплоскости Lt в виде 4>a(t)X« = 0, (12)
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 185 где х?, а = 0, 1, ..., /г,— текущие координаты, взятые в пространстве Х(, a tya(t) — коэффициенты уравнения этой гиперплоскости (свободный член отсутствует, так как гиперплоскость Lt проходит через начало координат пространства Х(). Мы хотим узнать, каковы должны быть функции tya(t), чтобы уравнение (12) определяло при различных значениях параметра t семейство гиперплоскостей, перенесенных вдоль траектории х(/). Оказывается, что такие функции ifa (t) можно находить из системы дифференциальных уравнений: *^ = -^0£М.^(о, ,=о,1,..., п. (13) В самом деле, рассмотрим скалярное произведение (+(0. ^/../(Ь)) = +а(0-[^/../(Ь)Г векторов ,ф(0 = {,Фо(0. *Ы0. •••» *»(0} И ^/../(So). где фД/), i = 0, 1, . .., п,— некоторое (абсолютно непрерывное) решение системы (13). Мы имеем (почти всюду на рассматриваемом отрезке) = ^г-1А'.-<«•)]«+ ♦« (0 • 4г №.. t «.)]«= = -df&(x^u(t))b(tHAu,(lo)r + + *,(0-3£1Ф^-[^...(Ь)Г-о (заметим, что -ут = 0» так как функции /Р не зависят от *°J; следовательно, в силу абсолютной непрерывности рассматриваемого скалярного произведения, оно постоянно. Таким образом, справедлива следующая Лемма 1. Если ty(t) = {%(t), ..., tyn(t)}—решение системы уравнений (13), рассматриваемое на некотором отрезке времени /, я So—произвольный вектор, заданный в точке x(t0), где t0 — начальная точка отрезка /, то на всем отрезке I выполнено соотношение (Ф(0. Аил (So)) = const. Если функции \р; (/), * = 0, 1, .. ., п, удовлетворяют системе (13) и если вектор So лежит в гиперплоскости t|)a(fo);ea = 0 (т. е. скалярное произведение (*ф (/<>)> So) обращается в нуль), то и при любом t скалярное произведение (ф(0. ^/0.f (So)) обращается в нуль, т. е. каждый вектор |, = Л/0, / (|0), получающийся из So переносом вдоль траектории х(^), лежит в соответствующей гиперплоскости (12). Так как это справедливо для любого вектора Sot лежащего в гиперплоскости tya(t0)xa = 0, то мы и получаем, что если
186 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ функции ty;(t)y / = 0, 1, ..., п, удовлетворяют системе (13), то гиперплоскости (12) получаются друг из друга переносом вдоль траектории x(t). 6. Принцип максимума. Запишем теперь системы уравнений (6) и (13) (i = 0, 1, ..., л), в более удобном виде. Для этого рассмотрим следующую функцию Н переменных х\ ..., хп\ ф0, ф,, ..., i(v> и: Н(ф, х, и) = (ф, f(x, u)) = qafa(x> и). Непосредственно проверяется, что написанные выше уравнения могут быть с помощью этой функции Н записаны в виде следующей гамильтоновой системы: dx* _ дН dt ~ <% ' i = 0, 1, ...,л, (14) *—■S-- '-»•■ «■ <|5> При фиксированных значениях г|) и х функция Н становится функцией параметра и\ верхнюю грань значений этой функции обозначим через М (-ф, х): М(г|), x) = supH(i|), х, и). иеи Если верхняя грань значений непрерывной функции Н достигается на Uy то М(г|), х) есть максимум значений функции Н при фиксированных г|э и х. Поэтому нижеследующую теорему 1 (необходимое условие оптимальности), главным содержанием которой является равенство (16), мы называем принципом максимума. Теорема 1. Пусть и (t)—такое допустимое управление, что соответствующая ему траектория \(t) системы (6),- исходящая в момент t0 из точки х0, проходит в момент tx > t0 через некоторую точку прямой П. Для оптимальности управления u(t) и соответствующей ему траектории х(^), t0^t^tu необходимо существование такого ненулевого абсолютно непрерывного вектора г|э (t)= = М>о(0. ФЛО. •••> ФЛОЬ что: 1) величины x(t)> ty(t)> u(t) удовлетворяют гамильтоновой системе (14), (15); 2) почти для всех t, t0^t^tl9 функция H(ty(t), x(t), и) переменного u£U достигает в точке u = u(t) максимума (знак (=) обозначает равенство, справедливое почти всюду): Н (*(/), х(0, и(0)(=)М(ф(0, х(/)); (16)
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 187 3) в начальный момент t0 выполнены соотношения Ы'о)<0, M(i|>(/0)f х(/0)) = 0. (17) Если величины ty(t), х(/), u(t) удовлетворяют условиям (1) и (2), то функции ф0(0 и М(г|э(£), X(0) переменного t являются постоянными, так что проверку соотношений (17) можно проводить не обязательно в момент t0, а в любой момент t, t0 ^ t ^ tx. В следующих двух пунктах мы дадим обсуждение этой теоремы, а затем, в пунктах 9—17, проведем ее доказательство. Выведем из теоремы 1 аналогичное необходимое условие для оптимальности по быстродействию. Для этого в теореме 1 следует положить /° (х, и) = 1. Функция Н принимает в этом случае вид (суммирование по v от I до п). Вводя я-мерный вектор г|) = = {Фх, я|>а, •.., фи} и функцию Я(ф, л:, а) = tyvfv (x, и), мы сможем записать уравнения (1) и (13) (кроме уравнения (13) для * = 0, которое теперь не нужно) в виде гамильтоновой системы -£ = !£. '=1.2 *. О*) #—S- ^1.2....... 09) При фиксированных значениях ф и jc функция Я становится функцией параметра и; верхнюю грань значений этой функции мы обозначим через M(ty, x): M(ty, x) = sup H (ty, x, и). ие и В силу соотношения Н(г|>, х, ы) = Н(г|), х, и) — % мы получаем М{$, х) = М('ф> х)—ф0> и поэтому условие (16) принимает вид Я(Ф(0, *(*). "(0)(=)М(Ф(0, х(0) = -Фо>0. Таким образом, мы получаем следующую теорему. Теорема 2. Пусть и(t)—допустимое управление, переводящее точку х0 в точку хи a x(t)—соответствующая траектория, так что x(t0) = x0, x(ti) = x1. Для оптимальности по быстродействию управления u(t) и траектории x(t) необходимо существование такого ненулевого абсолютно непрерывного вектора t|)(f)={t|)1 (t), ♦i(0. •••• ФЛОЬ что:
188 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 1) величины i|)(0» *(0» w(0 удовлетворяют гамильтоновой системе (18), (19); 2) почти для всех t, t0^t^tly функция H(ty, (/), x(t), и) переменного u£U достигает в точке u = u(t) максимума: Я (+('). x(t), w(0)(=)M(^(0, x(t)); (20) 3) в начальный момент t0 выполнено соотношение М(Ф('о), *(*0))>0. (21) Если величины ty(t), *(0» а(0 удовлетворяют условиям 1) и 2), то функция M(ty(t), x(t)) переменного t постоянна, так что проверку соотношения (21) можно проводить не обязательно в момент t0, а в любой момент t, t0^t^t1. 7. Обсуждение принципа максимума. Теорема 1 позволяет из всех траекторий, начинающихся в точке х0 и кончающихся в некоторой точке прямой П, и соответствующих им управлений выделить лишь отдельные, вообще говоря, изолированные траектории и управления, удовлетворяющие всем сформулированным условиям. Действительно, мы имеем 2п + 3 соотношений (14), (15), (16) между 2п+3 переменными1) ха, -фа> и, т. е. имеем «полную систему соотношений» для определения всех этих переменных. Так как, далее, соотношение (16) конечно (не дифференциально), а число дифференциальных уравнений равно 2п + 2 соотношения (14) и (15)), то решения системы уравнений (14), (15), (16) зависят, вообще говоря, от 2я+2 параметров (начальных условий). Однако один из этих параметров является несущественным, так как функции tya(t) определены лишь с точностью до общего множителя (ибо функция Н однородна относительно г|эа). Кроме того, один из параметров связан условием, что в начальный момент величина Nl(ty(t)y \(t)) обращается в нуль. Итак, имеется 2п параметров, от которых зависит все многообразие решений системы (14), (15), (16). Этими 2п параметрами следует распорядиться так, чтобы траектория х(/) проходила при заданном t = t0 через точку х0, а при к а к о м-н и б у д ь tt> t0— через точку на прямой П. Число tx —10 также являетря параметром, так что всего у нас имеется 2п+ 1 существенных параметров. Условие прохождения через точку х0 и прямую П дает 2л+1 соотношений. Следовательно, можно ожидать, что имеются лишь отдельные, изолированные траектории, соединяющие точку х0 с прямой П и удовлетворяющие условиям, указанным в теореме 1. Лишь эти отдельные, изолированные траектории и могут оказаться оптимальными (ибо указанные в теореме 1 условия необходимы для оптимальности). х) Напомним, что одна переменная и может распадаться на несколько отдельных переменных, например может быть точкой г-мерного векторного про-, странства; в этом случае условие максимума (16) также можно считать содержащим г отдельных соотношений.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 189 Если, в частности, условиям теоремы 1 удовлетворяет лишь одна траектория, соединяющая точку х0 с точкой прямой П, а из технических соображений, приведших к постановке оптимальной задачи, ясно, что оптимальная траектория должна существовать, то можно надеяться, что найденная траектория как раз и является оптимальной. Следует, однако, отметить, что математически вопрос о существовании оптимальной траектории представляется очень важным и трудным. В частном случае оптимальности по быстродействию для линейных систем (1) он решается в статье [6]. 8. Сравнение с классическими результатами. В этом пункте мы покажем прежде всего, что, в случае если U есть открытое множество векторного пространства переменной и = (и1, ..., W), принцип максимума, сформулированный выше, эквивалентен классическому условию Вейерштрасса для вариационной задачи Лагранжа (см. [8], с. 264—265, а также [9]). Далее, мы дадим в этом пункте обсуждение соотношения между принципом максимума и условием Вейерштрасса. Из этого обсуждения выясняется, что, уже в случае если U есть замкнутое ограниченное множество векторного пространства, условие Вейерштрасса перестает действовать, т. е. теорема о том, что для достижения минимума функционала необходимо выполнение условия Вейерштрасса, становится неверной. В то же время доказываемый нами принцип максимума справедлив для любого топологического пространства U. Расширение класса допустимых пространств U по сравнению с классическим случаем открытых множеств весьма существенно с точки зрения возможности технических применений теории. Можно считать, что именно случай замкнутого множества U (расположенного в некотором векторном пространстве или многообразии) наиболее интересен в прикладных задачах оптимального управления. Переходим к обсуждению условия Вейерштрасса. Введем обозначения: У! = х* (i= 1, ..., л), *U±JL = uf (/=1,..., г), *,• = — /,- (i = 0, 1, ..., /г), dxi dt Ф, = /'(*. и)—%- (*=1, ...,/i), / = /o, и, кроме того, будем обозначать независимое переменное через л:, а не через t. Тогда оптимальная задача, сформулированная в п. 2, сведется к вариационной задаче Лагранжа в той форме, в какой она сформулирована в книге [8J (с. 224—225). Функция F (см. [81,
190 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ с. 236) примет вид = — Н(г|>, х, ") + i|V-^-. _Далее, если ty(t), x(t) и u(t) — некоторые функции, а и£ U и хч (i=U •••, п)—величины, связанные между собой в некоторый момент t соотношением x'l' = fl'(x(t), и), то функция Вейерштрасса (см. [8], с. 264) принимает вид £ = [-Н(♦(*)■ х(0, ") + ^(0И*(0, *)]- -[-Н (+('). х(0, u(t)) + *v(t)r(x(t), u(t))] + + (а-аО М№(УВ ('» -(И*(0, и)-Г НО, «<0))+v<0 = aw' = Н(»(0,х(о,и(0)-Н(э|>(о,х(о,и)ч-(^-иОан(*(0,'(0'"(<))- (22) Так как для всякой внутренней точки области U производные ан(Ц)(0, х (0,11(0) обращаются в нуль (это вытекает и из принципа максимума и из классических результатов (см. [8], с. 249, теорема 76.1), то необходимое условие Вейерштрасса (Е^О во внутренних точках) сводится к соотношению Н(ф(*), х(0, и(0)>Н(ф(0, x(0, a) (a€t/). Это дает (для случая кусочно-линейных управлений, только и рассматривавших в [8] и [9] соотношение (16). Остальные соотношения, указанные в теореме 1, столь же легко вытекают из условия Вейерштрасса. Таким образом, для случая открытого множества U теорема 1 вытекает из классических теорем вариационного исчисления. Обратно, необходимое условие Вейерштрасса вытекает из нашей теоремы 1. Полагая и — и (t) + Aw и считая Аи бесконечно малой, мы можем, на основании формулы Тейлора, записать соотношение (22) (с точностью до бесконечно малых более высокого порядка) в виде 1 дЩ Ды'ДыЛ (23) 2 dufduf Зто делает совершенно естественным условие Вейерштрасса Е ^ 0 во внутренних точках (ибо функция Н, по теореме 1, должна достигать максимума). Однако в граничных точках, где, вообще
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 191 говоря, перестают обращаться в нуль производные -г-т , т. е. в разложении функции Н(г|)(/), х(^), u(t) + Au) имеются члены первого порядка малости относительно Да, неотрицательность величины Е (имеющей второй порядок малости) перестает быть необходимым условием максимальности функции Н. Иначе говоря, условие Вейерштрасса Е ^ 0, вообще говоря, перестает быть справедливым в граничных точках множества U. Простой пример подтверждает сказанное. Рассмотрим движение точки по закону £ = и» (|а|<1), где и и х—скалярные переменные. Очевидно, что движение по закону и= 1, x(t) = x0-\-1 является оптимальным по быстродействию (между любыми двумя точками), так как скорость движения точки ху равная и2, не может превосходить единицу. Здесь /°= 1, f1 = u2; так как /° и f1 не зависят от ху то уравнения (13) дают г|)0 = const, я|?х = const. Функция Н принимает вид Вдоль рассматриваемой оптимальной траектории и=1, т. е. Н = фо+ф1, и потому [см. (17)] г|)0 < 0, tyx > 0. Выражение (23) для функции Вейерштрасса дает нам теперь Так как коэффициент —tyx отрицателен, то условие Вейерштрасса £]>0 не выполняется. Произошло это потому, что точка и=\ является граничной точкой отрезка U (т.е. отрезка — 1 < и< 1). 9. Вариации управлений. В этом и следующих пунктах мы излагаем некоторые конструкции, необходимые для доказательства принципа максимума. Пусть u(t) — некоторое допустимое управление, определенное на отрезке t0^t^ti. Точку 6 интервала t0<t<t1 мы будем называть правильной для управления u(t)y если выполнено следующее условие: какова бы ни была непрерывная по совокупности своих аргументов функция g(t, и) и каковы бы ни были вещественные числа а и Ь, имеет место соотношение е + бе J g (t, (и (t)) dt = б (b—a) g (6, и (6)) + .. . (24) 0 + ае
192 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Для кусочно-непрерывной функции правильными являются все точки ее непрерывности, для измеримой функции правильной является любая точка Лебега (см. [7]). В любом случае множество всех правильных точек имеет на интервале t0 < t < tt полную меру, т. е. почти все тонки интервала /0 < t < tx являются правильными. Выберем некоторые моменты времени х19 т2, ..., т5, т, удовлетворяющие неравенствам t0 < тх ^ т2 <... < т5 < т < tx и являющиеся правильными точками для управления u(t). Выберем, далее, произвольные неотрицательные числа б^, ..., 8ts, произвольное (не обязательно неотрицательное) действительное число 8t и произвольные (необязательно различные) точки vu v2, ..., vs области управления U. Определим теперь зависящие от е полуинтервалы 11У /2, ..., Is следующим образом. Положим (8t—(б^+ ... + &ts), если т/ = т, — (б/,+ ... +6ts)y если т^т^т, — (6*,.+ ... +6tj), если т/ = т/+1= ... и обозначим через I( полуинтервал T/ + eZ/</<T/+e(ZH-e^) Таким образом, если т/ = т/+1= ... =ту-, то полуинтервалы /,, Л-+1э • • •» h следуют, примыкая друг к другу, слева направо; если же к полуинтервалу Ik не примыкает справа следующий полуинтервал (т.е. если т/г<т^+1 или & = s),to правым концом полуинтервала Ik является точка ik при %k < т и точка т-н еб^ при т/г = т. Длина полуинтервала I{ равна еб^. В случае 6^ = 0 соответствующий полуинтервал 11 является «пустым», т. е. отсутствует. При достаточно малом е полуинтервалы Ilf . . ., Is попарно не пересекаются и располагаются все на основном отрезке t0^t ^tly причем левее точки т + еб^. Считая, что е удовлетворяет этим условиям, мы определим управление и* (t) на отрезке t0 ^ t ^ т+еб^, положив (u(t), если t не принадлежит ни одному из множеств viy если t£l",-. Будем говорить, что управление и* (t) получается варьированием управления u(t). 10. Вариация траектории. Обозначим через х(^) траекторию, соответствующую управлению u(t) и исходящую из точки х0, а через х*(/)—траекторию, соответствующую проварьи- рованному управлению u*(t) и исходящую из той же точки х0. При достаточно малом г траектория х*(/) определена на всем отрезке /0^/^т геб^, на котором рассматривается управление u*(t) (теорема о непрерывной зависимости решения от параметров (*/< Vn (/'<«).
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 193 [см. (7)]). Нашей ближайшей целью является вычисление положения точки х*(т-Ье6/). Именно: мы покажем, что справедлива следующая формула: х*(т-Ье6/) = х(т) + еДх+ ..., (25) где Ах—не зависящий от е вектор, определяемый формулой Ax = f(x(T), и(т))6*+2; Ах.,т[\(х(т(), »,)_f (х(т,), и(т,))]6*,. (26) Доказательство формул (25), (26) мы проведем индукцией по s. Прежде всего, применяя соотношение (24) к векторной функции g(ty u) = i(x(t), и) (очевидно, непрерывной по совокупности своих аргументов) и полагая 6 = т, а = 0, b = 8t, мы получим х+еб/ J i(x(t),u(t))dt = e8ti(x(%), и(т))+..., X или, так как х(/) есть решение уравнения (7), х (т + еб/) = х (т) + ef (х (т), и (т)) 8t + ... (27) Далее, если xs < т, то при достаточно малом е отрезок между точками т и т-Ьеб/ расположен правее точки xs, так что на этом отрезке управление u*(t) совпадает с u(t) и потому х + еб/ х*(т-Ье6/)—х*(т)= J f(x*(0, u*(t))dt = х х + еб/ = J f(x»(0, и(0)Л. (28) X Кроме того, как легко видеть (используя теорему о непрерывной зависимости от начальных значений), решение x*(t) равномерно (на всем отрезке /0^/<т+еб/) стремится к х(/) при 8—+ 0. Поэтому f(x*(0, u(t)) = t(x(t), a(f))+Si(0. где li (t) равномерно стремится к нулю при е —> 0. Отсюда получаем Х + Еб* J !(х*(0, и(0)Л = т х+еб* = J f(x(0, u(t))dt+ ...=гЦх(х), и(т))6* + ... X
194 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ [см. (27)]. Сопоставляя это соотношение с (28), находим х* (т + ев*) = х* (т) + ef (х (т), и (т)) Ы + ... (29) при т5<т. Наконец, найдем приращение функции х*(/) на полуинтервале /;. Так как на этом полуинтервале f(x*(f), w(0)-»(x(0.»/) + 6.W. где l2(t) равномерно стремится к нулю при е —* 0, то для приращения X* (т, + 8 (/,. + в*,)) -X* (Т, + в/,) = X* |,. функции х*(/) на полуинтервале 1{ мы находим следующее значение: x*|,.= 5f(x*(0, u*(t))dt = '* = J f (x (0, Vf) dt + ... = ef (x (т,.), v() 6t{ + ... (30) ч (напомним, что длина полуинтервала /, равна &8ti9 причем при е—^0 это полуинтервал стягивается к точке т,). Переходим к индуктивной проверке соотношений (25), (26). При s = 0 мы имеем u*(t) = u(t), х*(/) = х(0, и формулы (25), (26) сводятся к соотношению (27), справедливость которого была установлена выше. Предположим теперь, что формулы (25), (26) уже доказаны для случая, когда число полуинтервалов 11У /2, ... меньше чем s, и докажем справедливость этих формул при наличии s полуинтервалов 1и /2, .. ., Is. Обозначим через k такое целое число, что ^+1 = ^+2= •••=^ и х(<%9 при *<£ (случай k = 0 не исключается). Заменяя точку т точкой т5, число 8t — числом 1к+1У а число s—меньшим числом ky мы в силу индуктивного предположения получим из (25), (26) x*Ob+e/fe+1) = x(T5) + ef(x(T5), и(х8))-1к+1 + и + е 2 A,., Tj[f (х (т,), 0|.)_f (х (т,), и (т,))] 8t, + ... (31) Это есть значение функции х*(^) в левом конце полуинтервала /л+1. Далее, так как полуинтервалы Ik+1, . .., /s примыкают один к другому, то, суммируя соотношения (30) для i = k+l, ..., s, мы получим приращение функции х*(^) от левого конца полу-
16. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 195 интервала Ik+1 до правого конца полуинтервала /9, т. е. до точки т,+ е (/,-(-6*,): x*(t,+ 8(U6g)-x*K+e/ft+1) = 8 2 f(x(x|.)fi;/)e//+... i = k+ 1 Складывая это соотношение с соотношением (31), найдем s = х (т.) + ef (х (т,), и (т,)) • /*+, -г е 2 f (х (т,), у,) Ы( + t = *+l + 8 2 Ах.. Xs [f (х (т,), t»,)-f (х (т,.), ы (т,))] Ы, + ... = = x(x,)+ef(x(T,), (и(т,))(/*+1+б<*+1+...Ч-6<,) г е 2 [i(x(t,)1o,-)-f(x(t,),«(t1))]e<( + + eS^l-.T,Lf(x(T|.), t»I.)-f(x(TI.)f м(т,))]8<,.+ i=i Учитывая, что ЛТ/, т =Е при 1 = 6+1 s (см. (10)), можно последнее соотношение переписать в виде х'(т, |-е(/, + б<,)) = = x(T,) + ef(x(T,)t и(т,))(^+1Ч-6/А+1+ ... +бу+ + е 2 Ч т, [f (х(т,.), v,)-t (х (т,), и (т,))] 8*,. + • • • (32) 1=1 l S Если хл+1 = т5 = т, то, в силу определения чисел lh мы имеем ls+8ts = 8t, lk+1 + 6tk+1 + ...+&ts = 6t, так что соотношение (32) совпадает в этом случае с (25), (26). Если же Ту < т, то /, + 6/, = 0, Zft + 1 + S/fc+1-|-...-1-6^ = 0 и соотношение (32) принимает вид *•(*,) = х(т,) + е 2 i4VTj[f(x(T|.)fu/)-f(x(T|.)fa(T/))]a</ + ... (33) i= i Так как в этом случае на отрезке т5</^т управление u*(t) совпадает с u(t), то (см. п. 4) с точностью до малых более высокого порядка, чем е, векторы х*(/)—х(/) при т5^/^т получаются друг из друга переносом вдоль траектории х(/)(см. (11)): x*(t)-x(t) = AXs,t(x*(xs)-x(xs))+... <*>т,).
196 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Поэтому, применяя к формуле (33) преобразование AXSt T, мы получаем [см. второе из соотношений (10)] х* (т)-х(т)= в 2 Ах т [f (х(т,.), Vi)-f (х(г,-), и (т,))] 6/,. + ... i- 1 Наконец, складывая последнее соотношение с соотношением (29), мы и в этом случае (т. е. при xs < т) получаем соотношения (25), (26), что и завершает индукцию. 11. Линейные комбинации вариаций. Если какое- либо из чисел Ы( равно нулю, то его можно отбросить при определении проварьированного управления u*(t) вместе с соответствующими точками х( и V;—от этого управление u*(t) не изменится. Обратно, добавление новых точек xh vh для которых 6^=0, не изменяет управления u*(t). Пользуясь этим, мы можем, если речь идет о конечном числе управлений u\(t)y ..., u*p(t)> получающихся варьированием одного и того же управления u(t) при одном и том же т, считать, что все точки т,-, v( одинаковы и взяты в одинаковом числе при определении управлений ul(t), . .. ..., wj(/), а все различие между этими управлениями заключается в том, что у них не одинаковы числа б^. и б/. Этой возможностью— считать все точки х{у v( одинаковыми (при рассмотрении конечного числа различным образом проварьированных управлений) — мы будем пользоваться в дальнейшем, не указывая этого каждый раз. Вектор Ах (см. (26)) не зависит от е, но существенно зависит, конечно, от выбора точек xif vif х и чисел 8t и б/,. (i= 1, 2, .. ., s). Обозначим совокупность величин xh vh т, 8th 8t через а: a = {xh vi9 т, б/., 8t} и будем вектор (26) обозначать далее через Дхп, подчеркивая тем самым его зависимость от этих величин. В этом и двух следующих пунктах мы будем предполагать, что правильная точка т управления u(t) зафиксирована и что все рассматривающиеся вариации удовлетворяют условию Если имеется конечное число величин а: a' = {T/f vif т, 6t'h б/'}, a"={xiy vi9 т, б/;:, 6Г}, то их линейную комбинацию Va' -\- Х"а" -г . .. с неотрицательными коэффициентами V, X", ... мы определим формулой к'а'+ЪГаГ+ ...= = {T/f vi9 т, Wbt\ + Г6f: + ..., К'бГ + ГбГ + ... .
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 197 (Неотрицательность коэффициентов к', к", ... существенна потому, что в противном случае величины к'Ы\ гкпЫ] f ... могли бы оказаться отрицательными, что недопустимо.) 12. Конусы достижимости. Будем теперь, имея некоторое управление u(t), t0^t^tly и соответствующую траекторию х(^), рассматривать векторы Дх = Дхл для различных символов а (т фиксировано). Легко видеть, что имеет место следующая Лемма 2. Если а = 1'а" + Х"а" + ... (где А/>0, V>0, . ..)• то соответствующие векторы Ах связаны такой же линейной зависимостью: Дхл = Л/Дхй' + ГДхл- + . . . . Это непосредственно вытекает из того, что в формулу (26) все числа 6/j, ..., 8ts1 8t входят линейно. Мы будем считать Лх связанным вектором, исходящим из точки х(т), т. е. будем считать этот вектор элементом пространства Хт(см. п. 4). Если мы будем брать всевозможные символы а, описанные в п. 11 (т фиксировано), то векторы Дх = ДхЛ заполнят некоторое множество Кт в пространстве Хт. Докажем, что множество Кт является выпуклым конусом1) векторного пространства Хт. В самом деле, если а' и а"—две точки пространства Хт, принадлежащие множеству Кт, т. е. если существуют такие символы а', а", что а' = Дхй', а" = ДхЛ-, то для любых неотрицательных V, Xя мы имеем в силу леммы 2 Х'а' + К'а" = А/Дха* + Г ДхЛ» = Ax(V«'+vo, т. е. точка Х'а' + Х"а" также принадлежит множеству Кт. Это и означает, что Кт есть выпуклый конус пространства Хт (или, что то же самое, выпуклый конус пространства X с вершиной в точке х(т)). *) Множество М, лежащее в некотором векторном пространстве, называется выпуклым конусом с вершиной в точке о, если 1) оно является конусом^ т.е. вместе с каждой отличной от о точкой а содержит и весь луч оа; 2) оно выпукло, т. е. вместе с каждыми двумя точками содержит целиком соединяющий их отрезок. Заметим, что если выпуклый конус М не заполняет всего векторного пространства X, в котором он расположен, то в пространстве X существует такая гиперплоскость, проходящая через вершину конуса М, что весь конус М расположен целиком в каком-либо одном (замкнутом) полупространстве, определяемом этой гиперплоскостью. Если имеются два выпуклых конуса с общей вершиной, внутренность каждого из которых не пересекается с другим конусом, то существует разделяющая их гиперплоскость, т. е. такая гиперплоскость, что один конус расположен целиком в одном (замкнутом) полупространстве, определяемом этой гиперплоскостью, а другой конус —в другом полупространстве.
198 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Мы будем называть множество Кт конусом достижимости (с точностью до малых более высокого порядка, чем е, Кт есть геометрическое место точек х*(т+е6/), т.е. тех точек фазового пространства X, которые могут быть достигнуты движущейся точкой в момент времени, близкий к т, с помощью варьирования управления u(t)). 13. Основные леммы. В этом пункте мы докажем две леммы, служащие основой для применения вышеизложенных конструкций к изучению оптимальных процессов. Лемма 3. Пусть х (t0 < т < tx)—правильная точка управ- ления u(t)y x(t)—траектория, соответствующая управлению u(t) и исходящая из точки х0, а Л—некоторая линия, исходящая из точки х(т) и имеющая в этой точке касательный луч L. Если луч L принадлежит внутренности конуса Кт {т. е. все точки луча L, кроме его конца, являются внутренними точками множества Кх), то существует такое управление u*(t), что соответствующая ему траектория х% (t)y исходящая из той же точки х0, проходит через некоторую (отличную от х(т)) точки точку линии Л. Доказательство. Выберем на луче L какую-либо точку А и проведем из нее п векторов е1У ..., еп равной длины г, перпендикулярных к лучу L и взаимно перпендикулярных между собой. Положим, далее, /,= — eh i=l, ..., я, причем векторы /,. также будем считать исходящими из точки А. Общую длину г векторов ^i» • • •> еп> /i» • • •» fn будем считать настолько малой, чтобы концы всех этих векторов принадлежали конусу Кт (это возможно, так как А есть внутренняя точка конуса). Наконец, через с обозначим вектор с началом в точке х(т) и концом в точке А. Так как векторы с, с + е1У с + е2У ..., с+епУ c+fly c + f2,...,c+fa (исходящие из точки х(т)) принадлежат конусу Кт, то существуют такие символы а0, а1У ..., апУ а'1у ..., а„, что Дх«0 = с, АхЛ1 = с+е1У ..., АхЛп=с-\-епУ Ax^ = c + f1} ...yAx^=c + fn. Определим две (очевидно, непрерывные и неотрицательные) функции h+ (I) и h~ (£) действительного переменного Е, положив л+(5)={ при £>0, О при I < 0; I 0 при 1>0, h ®-{_6 при |<0.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 199 При (51)2 + (52)2 + ... + (£»)« < 1 формула а=о(5» 5») = (l —-^21.16ч)в.+ п п 1 V . ^ ,+„ . 1 определяет зависящий от п действительных чисел i1, ..., £я символ а (Б1, ..., Iя). (Действительно, у нас имеется конечное число символов а0, а,-, aj, причем все коэффициенты А+(|')» Л"(|') и 1 — -г-^ | £' |» как легко видеть, неотрицательны.) Вектор Ах, t=i соответствующий символу ctssad1, ..., Iя), имеет, в силу леммы 2 (и в силу соотношений /\== — */, А+(|) +A~ (|) = |||, А+(|) — — А~(5) = |), следующий вид: a^ = (i-|LU'|V+|Za+(IO(^^) + \ 1=1 / 1=1 +r2A'(50(c+/,)-[i+4-S(-ISM + A+(£0 + /i-(50)Jc + + 7 £ №+ (50 - Л" (50] «,-e+i-t 6'*,. 1=1 t=l Следовательно, если точка (I1, ..., Iя) пробегает в я-мерном числовом пространстве единичный шар (?)"+...+(5я)1 <1, (34) то вектор Ах0 (точнее, конец этого вектора) также пробегает v 1 л-мерныи шар в пространстве Хт, а именно шар радиуса —г с центром в точке Л, ортогональный лучу L. При тех же условиях конец вектора еДх0 (все векторы исходят из точки х(т)), т. е. из начала координат пространства Хт) пробегает я-мерный шар Ее радиуса е—, ортогональный лучу L; центр шара Ег расположен в точке Аг луча L, находящейся на расстоянии ed от точки х(т), где d—длина вектора с (рис. 10). Так как в нашем рассуждении рассматриваются лишь такие символы а, которые являются линейными комбинациями (с некоторыми коэффициентами) конечного числа символов cto, a,-, а*, то точки т,., vi9 входящие в определение символа a = a(|1, ..., Iя),
200 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ мы считаем одинаковыми для всех этих символов, т. е. не зависящими от I1, ..., £"; точка т также фиксирована. Числа же 8tu ..., 8ts и б/ (определяющие проварьированное управление и* (t)) зависят от I1, . .., Ъп. Поэтому мы будем писать и* (t) и б/а, чтобы подчеркнуть зависимость величин и* (t) и 8t от I1, ..., %п. Траекторию х* (/), исходящую из точки х0 и соответствующую управлению u*(t), будем обозначать через х*(/), так что соотношение (25) даст нам х* (т + е6/а) = х (т) + еДхл + . . . (35) Отметим, что траектория х*(^) непрерывно зависит от параметров i1, ...,|rt; точно так же число б^л непрерывно зависит от I1, .. ., |и. Поэтому и точка х* (т-Ье6/л) непрерывно зависит от I1, ..., %п. Следовательно, когда точка (I1, . .., 1п) L Рис. 10 Рис. 11 описывает шар (34), точка (35) пробегает (при любом фиксированном е) некоторый «диск» Fe (т. е. непрерывный образ шара (34); этот диск может иметь самопересечения и т. п.). С точностью до малых более высокого порядка, чем е, диск /^«совпадает» с шаром Ее (см. (35)); точнее говоря, точки диска Fe* отстоят от соответствующих точек шара Ее на величину более высокого порядка малости, чем е. Точка же пересечения этого шара с линией Л (существующая при достаточно малых е) отстоит от точки х(т) и от границы шара Ее на величину порядка е. Следовательно, при достаточно малом е диск Fe пересекает линию Л в некоторой точке1) (рис. 11). Выберем такое е. Так как весь диск Fe (по доказанному пересекающийся с линией Л) состоит из точек вида (35), х) Факт существования такой точки пересечения представляется наглядно «очевидным»; строгое доказательство легко проводится элементарными средствами топологии (с помощью понятия индекса пересечения).
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 201 то существуют такие |\ ..., £п (удовлетворяющие условию (34)), что х;(т+е6*л)еЛ. Иначе говоря, обозначив величины w*(0> х*(^), соответствующие выбранным значениям I1, ..., £", через и# (0, х* (t) и полагая т-f е6/а = т', мы получим х*('о) = х0, х*(0€Л> и лемма 3 доказана. Лемма 4. Если управление u(t) и соответствующая ему траектория х(0, t0^.t^.tlt оптимальны, то для любой правильной точки т (t0 < т < tx) луч LT, исходящий из точки х (т) и идущий в направлении отрицательной полуоси х°, не принадлежит внутренности конуса Кт {т. е. проходит либо вне этого конуса, либо по его границе). Доказательство. Допустим, что при некотором т луч LT принадлежит внутренности конуса Кт. Применим лемму 3, принимая за линию Л (и за луч L) луч LT. Тогда мы получим, что существует такое управление МО» для которого соответствующая траектория х<:(/) (исходящая из той же точки х0) проходит в некоторый момент т' > tQ через точку, лежащую на луче LT. Иначе говоря xi (т') = х1 (т), i = 1,2, ..., п, х°0 (г') <х° (т). Определим управление u^(t) на отрезке /0^^^^i + (T' — т)> положив I МО ПРИ ^о<^<т', "**(/)==\ и(/—(т'—т)) при т'</</1+(т'—т). Траектория x**(t), соответствующая управлению u^(t) и исходящая из точки Хо, на отрезке /0^^т' совпадает, очевидно, с траекторией x*(t), так что, в частности, **.. (О = *'(*), *=1,2,..., л, *t.CO<*°W- Далее, на отрезке т'< /< tx + (т'—т) траектория х„(0 имеет вид х„(0 = х('-С*'-*))+Р. (37> где р—постоянный вектор: р ==КЛО-*°М>0, 0, ...,0}.
202 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ (Это получается непосредственной подстановкой решения (37) в уравнения (6) с учетом того факта, что правые части системы (6) не зависят от t и х°, вектор р определяется тем условием, что в точке т'—точке стыка двух кусков траектории х**^)—эта траектория должна быть непрерывна.) При t = t1 + (xf—т) получаем х„ (*! + (*'—T)) = x(/t)+p. Иначе говоря, точка х*,(tt+ (т'—т)) лежит на прямой П, определенной в п. 3 (ибо вектор р параллелен оси л:0), и, кроме того, A.(tx + (т'—т)) = х° {tj + А* (%')—х° (т)< х° (tt) (см. (36)). Но это противоречит оптимальности траектории х (t) и управления u(t). Таким образом, предположение, сделанное в начале доказательства, приводит к противоречию, и лемма 4 полностью доказана. 14. Опорные гиперплоскости. В этом пункте мы будем предполагать, что х (/), t0 ^ / ^ tl9— оптимальная траектория (соединяющая точку х0 с некоторой точкой прямой П, см. п. 3), a u(t)—соответствующее оптимальное управление. Пусть т—некоторая правильная точка управления u(t). Согласно лемме 3 луч LT не принадлежит внутренности конуса Кт, так что этот конус не заполняет всего пространства X. Поэтому существует опорная гиперплоскость к конусу Кт в его вершине, т. е. такая гиперплоскость Г, что весь конус Кт лежит в одном из двух замкнутых полупространств, определяемых гиперплоскостью Г. (Гиперплоскость Г, обладающая этим свойством, может быть не единственной; последующие рассуждения этого пункта справедливы для любой такой гиперплоскости.) Уравнение гиперплоскости Г (в пространстве Хт) можно записать в виде ааха = 0, где х°, л;1,... ...,хп—текущие координаты. Так как умножение всех коэффициентов аа на одно и то же отличное от нуля число не меняет гиперплоскости Г, то мы можем считать (изменив, если нужно, знаки всех чисел аа на обратные), что конус Кт лежит в отрицательном полупространстве (ОаЛ^^О). Иначе говоря, для любого вектора Ах, определяемого формулой (26), выполнено неравенство (а, Лх)<0, (ДхбКО, (38) где через а обозначен вектор {а0У а1У ...,а„} (ибо совокупность векторов (26) и есть конус Кт). Полагая в формуле (26) мы получим Ax = f(x(T),a(T))6/ и, в силу (38), (a, f(x(x), а(т))6/)<0.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 203 Так как это неравенство справедливо при любых 8t (как положительных, так и отрицательных), то (aff(x(T)fa(T))) = 0f или, в силу определения функции Н, Н(а, х(т),ы(т)) = 0 (39) (это соотношение выполняется, если вектор а удовлетворяет условию (38)). Обозначим через г|)(/,а) = {г|)0(/,а), Ы'.а), ..-,!>„(', а)} решение системы уравнений (13) (для изучаемых оптимальных u(t) и x(t)) с начальным условием ■ф(т, а) = а. (40) Решение г|?(/, а) определено на всем отрезке /0^^*i> так как система (13) линейна. Лемма 5. Если вектор а удовлетворяет условию (38), то во всякой правильной точке управления u(t), лежащей на полуинтервале t0 < t ^ т, выполнено соотношение H(*(<fa)f x(0, a(0) = M(*(<fa)fx(0). Пусть хг — правильная точка управления u(t), расположенная на полуинтервале /0<^^т> а vx—произвольная точка пространства U. Рассмотрим символ а (см. п. 11) с единственной точкой хх (т. е. s=l) и с числами 8tl9 б/, соответственно равными единице и нулю: u = {Tlf vlt т, 1, 0}. Тогда вектор Дх (см. (26)), соответствующий этому символу, а, будет иметь значение Ax = AXuX[i(х(тх), vt)—f (х(тх), а(тх))]. В силу соотношений (38) и (40) отсюда получаем (ф(т,а), ^.xpfxfa), ©О —f(x(T1),a(T1))])<0, и потому, согласно лемме 1 и соотношению ATuXl=*E (см. (10)), (ф (xlf a), f (х (тх), vt)—t (х К), а (тх))) < 0. Последнее соотношение переписывается (в силу определения функции Н) в виде Н (ур (т*, а), х (тх), vj—H (t|? (xlf а), х (тх), a (xj) ^ 0,
204 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ а так как это неравенство справедливо для любой точки тх, то получаем Н(ф(т, а), х(тх), и(х1))= max H(\|?(Tlf a), х(т1),о1) = М(ф(т1>а), х(тх)), и лемма 5 доказана. Соотношение, указанное в лемме 5, справедливо при t = % (ибо т — правильная точка): Н(ф(т,а), х(т), и(т)) = М(ф(т, а), х(т)). Поэтрму, в силу (39) и (40), мы получаем следующее утверждение. Лемма 6. Если вектор а удовлетворяет условию (38), то М(ф(т,а), х(т)) = 0. 15. Постоянство функции М. Лемма 7. Если абсолютно непрерывная функция ty(t) почти всюду на некотором отрезке I удовлетворяет уравнениям (13) и соотношению Hto(t),x(t).u(t)) = Mto(t),x(t)), (41) то функция PA(ty(t), \(t)) постоянна на всем отрезке I. Заметим прежде всего, что функция М(г|э(/), х(/)) полунепрерывна снизу на отрезке /. Действительно, пусть V — произвольная точка этого отрезка, а е—положительное число. В силу определения верхней грани, существует такая точка u'^U, что Н(ф(0, х(0, м')>М(ф(0, х(Г))-г/2. Далее, в силу непрерывности функции Н (г|э (t), x (/), и) по t при фиксированном и, существует такое б > 0, что при \t — V | < б имеем |Н(ф(*), х(0, а') —Н(ф(0.^(0>"'1<е/2. Таким образом, при |/ — Г | < б справедливо неравенство М(ф(0, x(/)) = supH(*(0, х(/), и)> >Н(ф(/), х(0, а/)>М(ф(0/х(0)-е, показывающее, что функция M(i|>(f), х(/)) полунепрерывна снизу. Далее, так как управление «(/) допустимо, то образ отрезка / при отображении и обладает в пространстве U компактным замыканием (см. п. 1), т. е. в пространстве U существует такое (замкнутое) компактное множество Р, что u(t)£P при /£/. Положим m (г|), х) = max H (г|), х, и). usP Очевидно, имеет место неравенство М(ф,х)>т(ф,х). (42)
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 205 справедливое при любых х и ф. Соотношение (41) означает, что почти всюду на отрезке I имеет место равенство ш(*(о, х(0) = М(*(0, х(0) (ибо u(t)£P). Итак, М(ф(/)« х(0) есть полунепрерывная снизу функция, почти всюду на отрезке / совпадающая с функцией т(ф(/), х(/)) и связанная с ней формулой (42). Из этого следует, что если функция т(ф(/), x(/)) непрерывна, то функция М(ф(/), х(/)) всюду на отрезке I совпадает с ней (и потому также непрерывна). Мы сейчас покажем, что функция т(ф(/), х (/)), а значит, в силу сказанного, и М(ф(/), x(t)),— абсолютно непрерывна на отрезке /. Так как отрезок / компактен, то в пространстве переменных Фо> ^i» •••» Фи» х°> х1, •••» хп существует такое выпуклое ограниченное множество Q, что точка (ф(/), х(/)) принадлежит множеству Q при t£l. Таким образом, тройка (ф(/), х(/), w(f)) принадлежит множеству QxP при / g/. Далее, так как производные функции Н (ф, х, «) по переменным фа, х? непрерывны по совокупности переменных ф, х, и (см. условия, наложенные на функции fl в п. 2), то на компактном множестве QxP все эти производные ограничены. Отсюда следует существование такой (не зависящей от и) константы К > 0, что для любых (ф, x)gQ, (ф', x')gQ, и£Р выполнено соотношение Н (ф, х, а) - Н (ф', х', а) | < Kd, (43) где d—наибольшее из чисел |ф—ф'|, |х — х'|. Пусть (ф, х) и (ф', х')— две точки множества Q, a и и и' — такие точки множества Р, что m (ф, х) = Н (ф, х, и), т(ф', х') = = Н(ф', х', и'). Тогда, очевидно, выполнены неравенства Н (ф, х, а') < Н (ф, х, и), Н (ф', х', и)< Н (ф\ *', и'), и потому (учитывая соотношение (43)) мы получаем — /М<Н(ф, х, и') — Н(ф', х', и')<Н(ф, х, и)— — Н(ф', х', и')<Н(ф,х, и)— Н(ф',х', u)^Kd. Иначе говоря, |т(ф, х) —т(ф', x')|</Cd, где d—наибольшее из чисел |ф — ф'|, |х—х'|. В частности, отсюда получаем |т(ф(0, х(0) —т(ф(Г), x(0)l</Cd, /, f g/, где. d — наибольшее из чисел |Ф(0_ФЮ1» |х(0—х(01- Из этого неравенства, в силу абсолютной непрерывности функций ф(/) и х(/), без труда заключаем, что функция т(ф(/), x(t)) абсолютно непрерывна.
9ПЛ 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Покажем, наконец, что функция m(yp(t), x(t)) почти всюду имеет производную, равную нулю. В силу абсолютной непрерывности функции m(i|)(/), х(/)) и определения функций х(^) и ф(0, почти всюду на отрезке / имеют место следующие обстоятельства: функция т(г|)(/), х(^)) имеет производную, а для функций х(/) и yp(t) выполнены соотношения (6) и (13), или, что то же самое, (14) и (15). Пусть t—какая-либо точка, в которой эти обстоятельства имеют место, /' — произвольная, отличная от / точка отрезка /, а и—такая точка множества Р, для которой т(ф(0, х(0) = Н(ф(0, х(/),и). Тогда m(i|>(0, х(Г)) > Н (г|)(Г), x(f), и), и потому m(*(O.x(O)-tn(*(0.x(0)> >Н(ф(0,х(0. и) —H(t|>(0. х(0, и). Будем теперь считать, что /' приближается к t, оставаясь больше /, так что разность /' — / положительна. Тогда деление на V — t не меняет направления знака неравенства в последнем соотношении: m(t|)(O>x(O)-m(t|)(Q>x(0) ^ H (г|) (/'), х (/'), ц)-Н (ф (/), x(Q, и) t' — t ^ t' — t Переходя к пределу при t'—> t (/'>/), получаем отсюда -т(+(0.х(0)>>(Ф(0.х(0.«) = ^-^+ё-^=о (здесь производные вычисляются в точке t, а и фиксировано). Аналогично при /'—►/, V < / получаем обратное неравенство: |m(a|)(0, х(0)<0. Итак, функция m(ty(t)y x(t)) (а также и совпадающая с ней функция М(ф(/), х(^)) есть абсолютно непрерывная функция, имеющая почти всюду производную, равную нулю. Следовательно, эта функция постоянна на отрезке /. 16. Предельный кону с. Докажем следующее важное свойство конусов Кт. Лемма 8. Если т и %'—правильные точки управления u(t)y причем %' < т, то Аг, т(КТ')сКт, где Ах>%х—отображение пространства Хт, на Хт,, определенное в п. А. В самом деле, конус КТ' образован векторами, каждый из которых, в силу (26), можно представить в виде суммы двух векторов: Д1х = !(х(т'), и(т'))6/, Д,х = 2 Ах., г [f (х (т,), of-)-f (х (т,), \u (т,-))] «,.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 207 Поэтому нам достаточно показать, что имеют место включения Av% х (Д,х) € Кт, Лт,< х (А2х) 6 Кт. (44) Мы имеем в силу (10) Ar. x(A2x) = S 4tP(xW, ^-/(x^.), u(%i))]6ti9 и потому второе из включений (44) имеет место (ибо т^.. .^т5< <т'<т). Докажем первое из этих включений. Допустим, что (при некотором 8t) вектор АХ',х(&{х) не принадлежит конусу Кт- Тогда существует гиперплоскость, разделяющая их, т. е. существуют такие числа а0, ах, ..., ап, что конус Кт расположен в отрицательном полупространстве аал^^0, а вектор Ах\ x(Ai*)— в открытом положительном полупространстве, т. е. (а,Лх',х(Л1х))>0, (45) где а—вектор {а0, а19 ..., ап]. Обозначим через г|)(/, а) решение системы (13) с начальным условием г|)(т, а) = а. Это решение мы будем рассматривать на отрезке t0 ^ t ^ т. Так как конус Кт расположен в отрицательном пространстве, т. е. выполнено условие (38), то из лемм 5, 7 и 6 вытекает, что М(г|>(*,а), х(0) = 0 при /0^^т- Так как, далее, т'— правильная точка (лежащая на отрезке t0 < /^т), то, согласно лемме 5, Н (ф (т', а), х (т'), и (%')) = М (ф (т\ а), х (т')) = 0, №(т',а), f(x(T'), " (*'))) = 0. Отсюда, согласно лемме 1, мы получаем соотношение (ф(т,а), ^,T(f(x(T'),"(T/))) = 0, противоречащее неравенству (45). Полученное противоречие и доказывает лемму 8. Пусть теперь т—произвольная правильная точка управления u(t), лежащая на интервале /0 < /< /х. Положим к£)==Лх,/, (Кт)- Так как Ax,tx есть линейное отображение, то К*? есть выпуклый конус пространства Xti. Конусы Ki? образуют возрастающую последовательность: еслиг'<т—правильные точки, то в силу леммы 8 имеем (см. (10)) КГ = ^аКг) = ^х,/1(^,х(КхО)с:Лх,/1(Кх)-К(.:). Поэтому объединение (по всем правильным точкам т интервала U < t < tx) всех конусов К/? снова есть выпуклый конус (воз«
208 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ можно, не замкнутый) пространства Xti (с вершиной в начале). Этот конус мы обозначим через К*, и назовем предельным конусом. Лемма 9. Если управление u(t) и соответствующая траектория х(/), /0^*^*i> оптимальны, то луч Lt, исходящий из точки x(ti) в направлении отрицательной оси х°, не принадлежит внутренности конуса К*г В самом деле, пусть луч Lti принадлежит внутренности конуса К*,. Выберем выпуклый многогранник М, целиком лежащий в К/ и содержащий какую-либо точку l£Lfi внутри себя. Каждая вершина многогранника М принадлежит конусу К^, т. е. принадлежит некоторому конусу К^\ а так как конусы /С£} образуют возрастающую последовательность, то найдется такая правильная точка т, что все вершины многогранника М принадлежат конусу К*?. Следовательно, конус К/? содержит весь многогранник М, так что точка / является внутренней точкой конуса К/? или, что то же самое, луч Lti принадлежит внутренности конуса К^т). Но тогда луч Aj}ti(Lfi) принадлежит внутренности конуса ^,-.1<1(кЯ)) = кт (ибо A^}tx есть линейное невырожденное, следовательно, гомео- морфное, отображение). Луч же L~}ti(Lti) совпадает с лучом Lx, исходящим из точки х(т) в направлении отрицательной оси х°. Это вытекает из того, что уравнения в вариациях (9) не содержат в своих правых частях переменного а:0, и потому равные между собой векторы {—1,0,0, ...,0}, исходящие из точек кривой х(/), получаются друг из друга переносом вдоль траектории х(/). Итак, луч LT принадлежит внутренности конуса Кт, а это противоречит оптимальности управления u(t) (см. лемму 4). 17. Доказательство принципа максимума. Переходим к завершению доказательства теоремы 1. Пусть u(t), t0^t^:t1— оптимальное управление, а х(/)— соответствующая ему оптимальная траектория. Тогда луч Lfi не принадлежит внутренности предельного конуса K/t (лемма 9), и потому существует разделяющая их гиперплоскость, т. е. существуют такие числа с0у с.1у ..., сп, что весь конус К^ лежит в полупространстве сах?^0, а луч Lt — в полупространстве сах?^0. Иначе говоря, вектор {—1,0,0, .. ., 0}, имеющий направление луча Lt, лежит в полупространстве сах?^0, т. е. с0<0. Обозначим через г|) (t) = {ty0 (t), г^ (t), ..., г|э„ (t)} решение системы (13) с начальным условием ty(t1) = c, где с—вектор {с0у си ...,сп}. Так как система (13) линейна, то решение ^(^определено на всем отрезке t0^t^:t1. Покажем, что вектор ty(t) и является тем вектором, существование которого утверждается в теореме 1. Прежде всего, х(/) и ty(t) удовлетворяют уравнениям (6) и (13), или, что то же самое, (14) и (15) Докажем, что соотноше-
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 209 ние (16) имеет место во всякой правильной точке интервала t0<t< tx. Пусть т — правильная точка, лежащая на этом интервале. Так как весь конус К*,, а следовательно, и конус ATt tl (KT), лежит в отрицательном полупространстве ita^i)*0^ 0, то (совершая перенос вдоль траектории х(/) из точки х(/х) в точку х(т)) мы получаем, что весь конус ^хЛ1Их./1(Кх)) = Кт лежит в полупространстве ^«М-^^О (см- п- 5). Иначе говоря, вектор а = г|)(т) удовлетворяет условию (38). Отсюда вытекает, что для решения ф(/, а) уравнения (13) с начальным условием г|э(т, а)= = г|)(т) — а это решение, очевидно, совпадает с ty(t)— справедливо утверждение леммы 5. В частности (в силу того, что т—правильная точка), Н (г|> (т), х (т), и (т)) = М (ф (т), х (т)) = 0 (см. лемму 6). Итак, условия 1) и 2), указанные в теореме 1, выполняются. Кроме того, есть точки, в которых функция Nl(ty(t), \(t)) обращается в нуль (это будет во всякой правильной точке т), и, далее, г|)0(^) = £0 ^0. Поэтому для проверки условия 3) теоремы 1 достаточно доказать последнее утверждение теоремы 1 о постоянстве функций М(г|)(/), х(/)) и г|)0(0> если выполнены условия 1) и 2). Это непосредственно вытекает из леммы 7 и того факта, что функции /а не зависят от х°, так что первое из уравнений (13) имеет вид dt "u# Таким образом, теорема 1 (и теорема 2) полностью доказана. 18. Условия трансверсальности. В этом пункте мы рассматриваем оптимальные задачи с подвижными концами. Пусть S0 и St — гладкие непересекающиеся многообразия (произвольных размерностей rlf г2, каждая из которых не превосходит п—1), расположенные в пространстве X. Поставим задачу найти такое допустимое управление u(t), которое некоторую (заранее\не за- данную) точку х0 £ S0 переводит в некоторую точку хх £ S/ и при этом придает функционалу (4) минимальное значение. Эту задачу мы и будем называть оптимальной задачей с подвижными концами. Если оба многообразия S0, S* вырождаются в точки, то задача с подвижными концами обращается в прежнюю, уже решенную нами задачу (задачу с закрепленными концами). Ясно, что если бы точки х0, хх были известны, то мы имели бы задачу с закрепленными концами. Отсюда следует, что управление и (/), оптимальное в смысле задачи с подвижными концами, оптимально и в прежнем смысле, т. е. принцип максимума (теоремы 1, 2) остается в силе и для задачи со свободными концами.
210 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Однако в этом случае нужно иметь еще соотношения, из которых можно было бы определить положение точек х0У хх на многообразиях S0, Sj. Такими соотношениями и являются выводимые в этом пункте условия трансверсальности. Пусть x0£S0, XigSi — некоторые точки, а Т0 и 7\ — касательные плоскости многообразий S0 и S1; проведенные в этих точках. Плоскости Т0 и 7\ расположены в пространстве Ху а следовательно, и в пространстве X (мы считаем, что ХсХ, отождествляя точку (х1, х2, ..., хп) £ X с точкой (0, х1, х2У ..., хп) g X). Пусть, далее, u(t), x(t)y /0^*^*i> — решение оптимальной задачи с закрепленными концами х0 и хг. Обозначим через Т0 и Т1 плоскости, параллельные Т0 и 7\ и проходящие через точки х(/0) и \{tx) соответственно. Наконец, пусть ty(t)—вектор, существование которого утверждается в теореме 1. Мы будем говорить, что вектор ф(/) удовлетворяет условию трансверсальности в правом конце траектории х(/) (т.е. в точке х(/х)), если плоскость Тх целиком содержится в гиперплоскости tya(t1)rta==Q (напомним, что эта гиперплоскость предполагается проходящей через точку х(/х), через которую также проходит и плоскость Тх). Иначе говоря, условие трансверсальности означает, что для любого вектора 6={0, б1, б2, ..., 6"}, принадлежащего (или параллельного) плоскости 7\, выполнено соотношение Оф^), 6) = 0. Аналогичный смысл имеет условие трансверсальности в левом конце траектории х(^) (нужно лишь заменить tly 7\ и 1г на t0, T0 и Т0 соответственно). Пользуясь условиями трансверсальности, можно сформулировать решение задачи с подвижными концами. Теорема 3. Пусть и(t), t0 < t < tx — допустимое управление, переводящее некоторую фиксированную точку х0 в точку *i €«SX, a x(t)—соответствующая траектория (исходящая из точки х0 = (0, *0)). Для того чтобы u(t) и x(t) давали решение оптимальной задачи с подвижным правым концом, необходимо, чтобы существовал вектор ty(t), удовлетворяющий условиям, указанным в теореме 1, и, кроме того, условию трансверсальности1) в точке Х(*х). Разумеется, если многообразие Sx вырождается в точку, то условие трансверсальности заменяется условием прохождения траектории х(/) через эту точку. Докажем теорему 3. Проведем через каждую точку плоскости 1г луч, идущий в направлении отрицательной полуоси х°, и обозначим множество точек, заполняемое всеми этими лучами, через Qx. Множество Qx представляет собой полуплоскость; ее граничными точками являются точки плоскости Т\. х) Можно доказать, что если оба конца подвижны (x0£S0, *i€«$i), то для оптимальности необходимо существование вектора г|э(£)> удовлетворяющего условию трансверсальности в обоих концах траектории х (t).
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 2!1 Лемма 10. Если некоторый луч L, исходящий из точки \{tx) и принадлежащий полуплоскости Qly является внутренним лучом предельного конуса К^, то управление u(t) и траектория x(t) не являются оптимальными. В самом деле, допустим, что в полуплоскости Qx существует луч L*, являющийся внутренним лучом конуса K/t. Так как всякий луч, достаточно близкий к L*, также является внутренним лучом конуса К^, то мы можем без ограничения общности считать, что луч L* проходит внутри полуплоскости Qly т. е. имеет с Тх лишь одну общую точку х(^). Возьмем вектор /, имеющий направление луча L*, и представим его в виде суммы двух векторов /0 и s, где /0 параллелен оси a:0, a s параллелен подпространству Хс:Х. Тогда вектор /0 идет в направлении отрицательной полуоси х°, а вектор s параллелен плоскости Тг (и плоскости Тх). Поэтому на многообразии St существует дифференцируемая кривая, исходящая из точки х1 и касающаяся вектора s. Пусть I (8) = (I1 (8), |2 (8), ...,£" (8)), 0 < 8 < 80, — параметрическая запись этой кривой. Без ограничения общности мы можем считать параметр е выбранным на кривой так, что '«fill =5. de |e=0 Обозначим через 1(e) точку с координатами (*°(*i)— е-1 /01, 14е)» £2(£)> • ••> 1п(г))- Кривая |(е), 0<е<ео, исходит из точки х (i^i), а ее касательный вектор в точке х(^), как легко видеть, равен /0-f s = /, т. е. луч, касающийся кривой £(е) в точке х(/х), совпадает с L*. Далее мы можем написать £(е) = х(*1) + /е+... . (46) Так как луч L* является внутренним для конуса К/х, то найдется такая правильная точка т управления u(t), что луч L* является внутренним для конуса Ах, t, (Кх) (ср. п. 16). Выберем такую точку т. Обозначим через у(/, е) решение уравнения (7) с тем же управлением u(t) и начальным условием у(/х, е) = |(е). Мы будем рассматривать это решение на отрезке т<^<^, где т — выбранная правильная точка управления u(t). В силу теоремы о дифференцируемости решений по параметрам, функция у(/, е) дифференцируема по е, причем имеет место соотношение (см. п. 4 и формулу (46)) dy (т, е) | de г 0 = а;\(1). Иначе говоря, луч LXi касательный к кривой у(т, е), 0^е^е0, совпадает с лучом АХ,\(Ь*), т. е. AXt tl(Lx) = L*.
212 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Таким образом, луч Лт, tl (Ц) является внутренним для конуса ^т, /ЛКт), и потому луч Ц является внутренним для конуса Кт. Из этого (так как кривая у(/, е), 0^е^е0, касается луча Ц), в силу леммы 3, можно заключить, что существует такое управление u*(t), для которого соответствующая траектория х<:(/), исходящая из точки х0, проходит через некоторую (отличную от х(т)) точку линии у(т, е), 0<е<е0. Иначе говоря, существуют такие V > t0 и е' > 0, что х.(0 = У(*. в'). (47) Определим управление u*m(f) на отрезке ^0^*^^i+(*'—т)> положив ( МО ПРИ *о<*<<', u**W-\ u(t—(t' — x)) при t' </</1 + (Г —т). Траектория x^(t), соответствующая управлению и** (О И исходящая из точки х0, имеет, очевидно, следующий вид (ср. (47)): ( x,(0 при *0<*<*', X**W \y{t_{f_x) ^ при t><t<ti + {t>_xy В частности, x»(ti + (f-%)) = y(tl9 г') = Цг'). Но так как точка I (е') имеет координату х°, равную х° (tt) — е' | /01, т. е. меньшую чем *°(/i), то управление «**(/) переводит точку х0 в точку S(e')6Sx и для него функционал (4) принимает меньшее значение, чем для управления u(t). Таким образом, управление u(t) и траектория х(/) не оптимальны, и лемма 10 доказана. Теперь уже нетрудно закончить доказательство теоремы 3. Предельный конус К^ и полуплоскость Qt являются выпуклыми конусами пространства X с общей вершиной в точке х(/х). В силу леммы 10, внутренность конуса Ktl не пересекается с конусом Qx; конус же Qx совсем не содержит внутренних точек, так как размерность многообразия St меньше я, и, следовательно, размерность полуплоскости Qx меньше /г+1, т. е. меньше размерности пространства X. Итак, каждый из конусов Ktt, Qt не пересекается с внутренностью другого, и потому существует разделяющая их гиперплоскость, т. е. существуют такие числа с0, с1у ..., сп, что весь конус К^ лежит в полупространстве сал^^0 (где л:0, л:1, ... ...,#"—координаты в пространстве Х^), а конус Qt—в полупространстве сах^^0. В частности, луч Lti (лежащий в полупространстве Qx) расположен в полупространстве сал^^0. Таким образом, числа с0, с19 ..., сп совпадают всеми свойствами, указанными в п. 17, и потому решение tK0= ГФо(0> ^i(0» •••» ^«(0) системы (13) с начальным условием я|)(/1) = с (где с—вектор {с0У с1у . ..,сл}) удовлетворяет условиям, указанным в теореме 1.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 213 Далее, плоскость Тх (содержащаяся в Qt) расположена целиком в полупространстве сал^^0, a следовательно, в гиперплоскости саха=Оу или, что то же самое, в гиперплоскости tya(t1)xa=§. Таким образом, вектор я|)(/) удовлетворяет условию трансверсальности в правом конце траектории х(^). 19. Принцип максимума для неавтономных систем. В этом и следующих пунктах мы рассмотрим некоторые оптимальные задачи, решение которых получается либо в качестве следствия из предыдущих результатов, либо при помощи незначительных видоизменений проведенных выше рассуждений. Прежде всего рассмотрим оптимальную задачу такого же вида, как и (1), (4), но в случае, когда функции /а явно зависят от времени (пространство U предполагается независящим от времени). Таким образом, закон движения объекта и функционал, минимум которого ищется, принимают в рассматриваемом случае вид ■^ = /'(*, и, t), /=1,2 л, (48) и '=S/°(*(0. "(*), t)dt. (49) to Введя, как и прежде, новую координату t *°=$/°(*(0. "(0. 0Л. to мы сформулируем рассматриваемую задачу в следующей форме (ср. п. 3): В (п+ 1)-мерном фазовом пространстве X даны точка х0= = (0, х0) и прямая П, параллельная оси х° и 'проходящая через точку (0, хг). Среди всех допустимых управлений u = u(t), обладающих тем свойством, что решение х (t) системы ^- = fl'(x, и, t), i = 0, 1, ..., л, (50) с начальным условием x(t0) = xQ пересекает прямую П, найти такое, для которого точка пересечения с прямой П имеет наименьшую координату х°. Для решения этой задачи введем одно еще вспомогательное неизвестное хп + 1, изменяющееся по закону Очевидно, чтол;"+1 = t. С помощью неизвестного хп + 1 система (50) может быть записана в виде следующей автономной системы (т. е.
214 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ системы, у которой правые части не зависят от t): £ = Г'(х, и,х»+Ч, 1 = 0, 1, .... л, dt dxn + 1 dt 1. При этом мы должны найти оптимальную траекторию, соединяющую точку (х1, х20, ..., #o, tQ) с некоторой точкой прямой Sl9 проходящей через точку (х\, х[, ..., я?, 0) параллельно оси хп + 1 (ибс конечное значение переменного 'хп+1, т. е. момент времени, когда движущаяся точка приходит в положение, не является заранее заданным). Таким образом, мы получаем обычную оптимальную задачу с закрепленным левым и подвижным правым концом. Напишем принцип максимума и условие трансверсальности для полученной задачи. Сопряженная система уравнений имеет вид (суммирование по а от 0 до п) ^ = -&г+-' '=0- '• •••'"' (51] Согласно теоремам 1 и 3, для решения рассматриваемой задачи нужно составить функцию ф0/°(х, и, x^ + ^iH*. ". хп + 1) + ..- +фя/в(^м,^в+1) + фй+1-1- Эту функцию мы обозначим через Н* (а не через Н, как в теореме 1), сохранив обозначение Н для функции Н(ф, х, и, *) = Фо/°(*. и, 0 + W1^. ". ')+■••+*«/"(*. ". 0- Точно так же максимум по а функции Н* при фиксированных х1\ г|),. мы обозначим через М*(ф, х, xrt+1) (а не через М, как в теореме 1), сохранив обозначение М(г|), х, t) для максимума (по и) функции Н(г|э, х, и, t) при фиксированных г|э, х, t. Таким образом, учитывая соотношение xn + 1=t, мы можем написать Н*=Н+я|)„+1, М* = М+г|>„+1, и потому соотношение М*(=)М* = 0, выполняющееся вдоль оптимальной траектории (см. теорему 1), принимает вид Н(г|)(0, х(0, "(0. 0(=)М(г|)(0, х(0, 0— *B+i(0- (53) Наконец, условие трансверсальности в правом конце траектории показывает, что прямая Sx (параллельная оси хп+1) содержится в плоскости %(t1)xf} = 0 (суммирование по р от 0 до п+ 1). Иначе говоря, +„+i('i) = 0.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 215 Вместе с соотношениями (53), (52) это дает M(t(Q,x(Q,Q = j^^<V(0'°t,(0^ h Итак, мы получаем следующую теорему (принцип максимума для неавтономных систем). Теорема 4. Пусть и(t)—такое допустимое управление, что соответствующая ему траектория \(t) системы (50), исходящая в момент t0 из точки х0, проходит в момент tx > t0 через некоторую точку прямой П. Для оптимальности управления u(t) и соответствующей ему траектории x(t), t0^t^tly необходимо существование такого ненулевого абсолютно непрерывного вектора Ф(0s*{*>('). ЫО. •••. ФЛОЬ что: 1) величины x(t), ty(t), u(t) удовлетворяют гамильтоновой системе dx* дН Ab,- дН .. л , ч = > —21 = (1 = 0, 1, ...,Л), dt dty dt дх* V ' ' h или, что то же самое, системе (50), (51); 2) почти для всех t, t0^t^tly функция Н(г|)(/), х(/), и, t) переменного u£U достигает в точке u = u(t) максимума: H(t(o, x(o, u(t), о(=)М(г|р(о, х(о, 0; 3) выполнены соотношения i|50(0 = const<0, ^ £Ъш величины г|э(/), х(/), и(/) удовлетворяют условиям 1) и 2), то функция tyo(t) переменного t постоянна, а функция fA(yp(t), x(t), t) может лишь на константу отличаться от интеграла, указанного в соотношениях (54), так что проверку соотношений (54) достаточно произвести лишь в какой-либо один момент времени U tQ^it^i tx\ например, вместо (54) достаточно проверить соотношения ♦•('i)<0f M(iM'i), х(*0. /0 = 0. (55) Если теперь предположить, что точка хи в которую точка х0 должна переводиться с помощью управления u(t), не неподвижна, а перемещается, т. е. хг — xt(t), то формулировка теоремы 4 несколько меняется. Именно пусть u(t)—такое допустимое управление, которое точку х0 в некоторый момент времени tt переводит в точку x1(t1)9 и пусть '^L-fo1. *■.....*•}
21fi 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ — касательный вектор к кривой xx(t) в момент tx. Тогда, после введения вспомогательного переменного xn+1 — t, мы получим, что многообразие Sx будет уже не прямой, параллельной оси хп+1, а линией (x\(Q), *i(e)> •••. *i(e)> е)> где 8—параметр. Касательная прямая к этой линии в точке 6=^ определяется вектором {q1, q2, ..., qn, 1}, и потому условие трансверсальности принимает вид ^i)<7v+^IWi('i)-l=0. Отсюда, учитывая соотношение (53), находим M(i|)('i), х(Л), t1) = -^n + 1(t1) = ^v(t1)q\ Так как, согласно (53) и (52), функция М(г|)(/), х(/), t) является к „ dfa(x(t), u(t), t) , ,4. первообразной для dt—- L^a(0» то мы получаем М(+(0, х(0, 0-tv(<i)^v + f а/а(х(а;<<(0,0Ф«(0^ (56) Это и есть соотношение, которым заменяется равенство (54) в формулировке теоремы 4; в связи с этим соотношение (55) принимает вид *0 ft) < О, М (* (*0, х (/,), 0 = ^v (*i) <7V. (57) В остальном формулировка теоремы 4 сохраняется. Наконец, рассмотрим неавтономную оптимальную задачу с подвижными концами. Ограничимся случаем подвижного правого конца. Пусть St(t) — перемещающееся многообразие, дифференцируемым образом зависящее от / и внутренних координат на этом многообразии. Задача заключается в отыскании такого допустимого управления u(t), что точка, движущаяся по закону (48) с начальным условием x(t0) = x0, попадает в некоторый момент tt на многообразие 5(^), причем осуществляется минимум функционала (49) при этих условиях. Обозначим через Тг касательную плоскость многообразия S(tx) в точке x(tx), а через .Тх — параллельную ей плоскость, проходящую через точку х(/х). Далее, обозначим через Si множество всех точек (п + 1)-мерного пространства (х1, х2, ..., хп, t), для которых точка (л:1, х2, . .., хп) принадлежит многообразию S(t). Ясно, что S{ является (гх+ 1)- мерным многообразием (где гг — размерность многообразия S(t)). Так как множество всех векторов, касательных к многообразию S\ в точке (x(*i), ti) и имеющих вид {q1, q2, .. ., qn, 0}, имеет размерность rlf а многообразие S[ имеет размерность > ги то существуют такие числа q1, q2, . . ., qn, что вектор [q1, q2, . .., qn, 1} касается многообразия S\ (в точке (x(*i), /J). Эти числа q1, q2, . .., qn дадут нам возможность написать соотношения (56), (57), которым должен удовлетворять вектор t|?(Q. Наконец, как
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 217 и в п. 18, будем говорить, что вектор ty(t) = {ty0(t), ^i (0» • • •» tyn (0} удовлетворяет условию трансверсальности в точке tx, если плоскость Т\ расположена целиком в гиперплоскости tya(ti) л^=0. При этих условиях имеет место следующее предложение (обобщение теоремы 3 на неавтономный случай): Для того чтобы u(t) и x(t) давали решение оптимальной неавтономной задачи с подвижным правым концом, необходимо, чтобы существовал вектор г|э(/), удовлетворяющий условиям, указанным в теореме 4, с заменой соотношений (54), (55) соотношениями (56), (57) и, кроме того, условию трансверсальности в точке tx. Это утверждение легко вытекает из теоремы 3 после введения новой переменной xn+1 = t (ср. доказательство теоремы 4). Отметим, что если многообразие St неподвижно, то соотношение (56), (57) совпадают с (54), (55), так как в этом случае вектор {0, 0, ..., 0, 1} касается многообразия S[. 20. Задача с закрепленным временем. Предположим теперь, что рассматривается такая же оптимальная задача, что и в п. 2 (или в п. 19, т. е. с зависимостью функции fa от времени), но с условием, что время t0 начала движения точки (из положения х0) и время tx ее попадания в точку хг заданы заранее, так что время tx —10 закреплено. Решение этой задачи мы легко получим из предыдущих рассмотрений. Именно: мы условимся рассматривать лишь такие символы а={т, v{, х, 6/,., 6*}, для которых 6/ = 0. Тогда все рассуждения предыдущих пунктов, приведшие нас к доказательству принципа максимума, сохраняются и даже несколько упрощаются. Например, доказательство соотношения АТ>, Т(А1\)^ Кт (см. (44)) становится просто излишним, так как в рассматриваемом случае Ахх = f (х (т'), и (т')) 8t = 0. Единственной формулой, которая перестает быть справедливой, является формула (39), при доказательстве которой существенно предполагалось, что 6^ может принимать как положительные, так и отрицательные значения. В соответствии с этим мы уже не можем утверждать, что Nl(ty(t), x (t)) = 0, хотя по-прежнему М(г|)(/), x(t)) = const. Все же остальные положения теоремы 1 полностью сохраняются, так что мы получаем следующее предложение. Пусть u(t), /0^^^^i»—допустимое управление, для которого соответствующая траектория x(t), исходящая в момент времени t0 из точки х0, удовлетворяет условию x(t1)=x1. Для того чтобы u(t) давало решение поставленной оптимальной задачи с закрепленным временем, необходимо, чтобы существовал такой абсолютно непрерывный вектор г|>(<) = {^0(0> ^МО» ••• .... фя(0Ь что:
218 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 1) величины x(t), ty(t)> и(/) удовлетворяют гамильтоновой системе dt <% ' dt дх* {l u' lj • "' n'* или, что то же самое, системе £-/'<*.«. о. -$-—■£*» (1'=0,'• •••'п); 2) почти для всех t, t0^.t'^tlf функция Н(г|)(/), x(t)9 и) переменного u£U достигает в точке u = u(t) максимума: нона х(0, м(/))(=)М(*(0, х(0); 3) функция г|)0(<) положительна (что достаточно проверить лишь в какой-либо одной точке отрезка ^0^^^^i> ^як как, на основании условия 1), -ф0 = const). Отметим, что эта теорема в такой же степени решает задачу с закрепленным временем, в какой теорема 1 решает задачу с незакрепленным временем. Уменьшение числа условий на одно (а именно отсутствие, по сравнению с теоремой 1, условия М(г|)(/1), x(^i)) = 0) компенсируется здесь тем, что и число неизвестных уменьшается на единицу, так как время tx прохождения траектории через точку хх теперь задано. 21. Случай функционала, заданного несобственным интегралом. Рассмотрим теперь следующий вариант оптимальной задачи, сводящийся к рассмотрению бесконечного интервала интегрирования в функционале (4): В фазовом пространстве X дана точка х0. Среди всех допустимых1) управлений u = u(t), t0^t <-\- оо, для которых соответствующая траектория x(t) системы (1), исходящая из точки х0, удовлетворяет при t —> оо некоторым (заданным заранее) предельным условиям, найти такое, для которого интеграл со /= $/• (*(*), u(t))dt (58) сходится и принимает наименьшее возможное значение. Покажем, что решение этой оптимальной задачи дается той же теоремой 1 (с очевидной заменой отрезка t0 ^ t < tt бесконечным промежутком t0 ^ / < + оо и с заменой условия прохождения траектории через некоторую точку прямой П предельными условиями на бесконечности). В самом деле, пусть u(t)—допустимое управление, для которого траектория x(t), исходящая из точки х0, х) Ограниченность управления u(t), входящая в требование допустимости (см. с. 179), следует понимать в том смысле, что множество всех точек u(t), где t пробегает любой конечный отрезок, лежащий в промежутке t0-^t < -J- oof имеет компактное замыкание.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 219 удовлетворяет наложенным предельным условиям на бесконечности, и интеграл (58) сходится. Как и прежде, будем рассматривать систему уравнений (6). Тогда все рассмотрения пп. 4, 5, 9—15 и лемма 8 (см. п. 16) остаются в силе (с отмеченными выше очевидными изменениями). Однако построение предельного конуса уже не проходит, так как точки t1 (правого конца отрезка времени) уже не существует. Тем не менее легко видоизменить конструкцию предельного конуса таким образом, чтобы ее можно было применить и в рассматриваемом случае. В самом деле, обозначим через К/? выпуклый конус Л/"0)1Т(КТ). Эти конусы образуют возрастающую последовательность: К}Г <= К£} при т' < т. Поэтому объединение (по всем правильным точкам т) всех конусов K^J снова есть выпуклый конус (возможно незамкнутый) пространства Х/0. Назовем его начальным конусом и обозначим через К/0. Легко видеть, что (для ранее рассматривавшейся оптимальной задачи (4)) имеет место соотношение ^/о. и (К/в) = К/1. Поэтому начальный конус совершенно эквивалентен предельному, и можно было бы завершение доказательства принципа максимума (пп. 16—17) провести с помощью начального конуса К/0. При этом лемма 9, как и ее доказательство, остается в силе (с очевидной заменой луча Ltl и конуса Ktl соответственно на Lto и К/0). После этого без труда проводятся и рассуждения п. 17, чем доказательство теоремы 1, проводимое с помощью начального конуса (вместо предельного), и завершается. Но такое доказательство дословно (с заменой отрезка t0 < t < tx промежутком t0 < / < -f oo) переносится и на случай рассматриваемой оптимальной задачи (58). Тем самым наше утверждение доказано. Заметим в заключение, что конусы Кт можно было «сносить» не в точку х(^) или в точку х(^0), а в любую точку x(t) рассматриваемой траектории. Поэтому изложенное доказательство применимо и к случаю, когда промежутком интегрирования является вся прямая —oo < t < + оо. 22. Опти ма л ьные процессы с параметрами. Рассмотрим следующую оптимальную задачу. Функции /°, f1, ..., fn зависят от трех переменных х£Х, u£U, w£ W, где X и 0 имеют прежний смысл, a W — векторное пространство размерности s. Функции /°, /\ ...,/" и их частные производные по переменным я1, л:2, . .., хп, w1, .. ., ws предполагаются определенными и непрерывными на всем пространстве XxUxW. Закон движения объекта задается уравнениями 4jr = fl(x, и, w), t = 1, 2, ..., п.
220 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ В пространстве X заданы две точки х0 и хг. Требуется выбрать такую постоянную точку w0£W (т. е. до начала движения подобрать значение параметра w, остающееся постоянным в течение всего движения) и такое допустимое управление u(t), чтобы соответствующая траектория х (t), исходящая в момент t0 из точки хОУ проходила в некоторый момент tx через точку хх и чтобы при этом интеграл t, J = $/°(x(f), u(t), w0)dt to принимал наименьшее возможное значение. При решении этой задачи мы будем предполагать, что все допустимые функции кусочно-непрерывны, т. е. что класс D допустимых управлений либо совпадает с множеством всех кусочно- непрерывных функций (заданных на £/), либо является его подмножеством, удовлетворяющим условиям 1), 2), 3) п. 1. В этих условиях имеет место следующая теорема (см. [10]), аналогичная теореме 1 (функция Н определяется, как и прежде, Н=г|)а/а). Теорема 5. Пусть u(t), t0^.t^tl9—такое допустимое управление, а ш0 = (а;1, ..., ws) — такое значение параметра w, что соответствующая траектория х(0 = (*°(0. *Ч0. •••. xa(t)) = (x°(t), x(t)) удовлетворяет условиям х (t0)=x0y x° (t0)= 0, х (t1)=x1. Для того чтобы величины и (t), w0, x (t) давали решение поставленной оптимальной задачи, необходимо существование такого ненулевого непрерывного кусочно-дифференцируемого вектора ty (t)= {г|>0 (/), г|)х (t), . . ., г|?;| (t)}, что: 1) величины х(/), ty(t), u(t), w0 удовлетворяют гамильтоновой системе dxi _dH(yj>(t), x(Q, u(t), wo) <% _ dHQHQ, x(Q, u(t), wo) (* = 0, 1, . .., л); dt ~~ dxi 2) всюду, кроме, может быть, точек разрыва1) функции u(t), функция Н (г|) (/), х (/), и, w0) переменного u£U достигает в точке u(t) максимума-, 3) в начальной точке tQ выполнены соотношения iMfoXO, М(ф(/0), х(*0), w0) = 0; х) Так как изменение значений функции и (/) в конечном числе точек не влияет на оптимальность управления «(/), то, полагая в каждой точке разрыва u(t) = u(t — 0) или u(t) — u(t-\-0)y мы добьемся того, что функция Н будет всюду на отрезке t0^t^ti достигать максимума: Н (ф (t), х (/), и (/), w0) = М (г|) (t), х (/), wo), t0 < / < /i.
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 221 4) имеют место равенства ^ЫЦ^^ГС'^Л-О, р=1, 2, .... я. Если величины г|)(/), х(^), w0% u(t) удовлетворяет условиям 1) и 2), то функции ф0 (/) и М (ур (t), x (t), w0) переменного t являются постоянными, так что проверку условия 3) можно проводить не обязательно в момент t0, а в любой момент t, t0^t^t1. Эта теорема отличается от теоремы 1 наличием условия 4), которое дает s дополнительных соотношений, что и определяет возможность решения задачи, так как в эту задачу введены дополнительно s неизвестных w1, w2, . .., ws (координаты точки w0 в пространстве W). Отметим некоторую специфику рассматриваемой задачи, заставляющую ограничиваться лишь кусочно-непрерывными (а не произвольными измеримыми) управлениями. В то время как в оптимальной задаче, сформулированной в п. 2, каждый кусочек оптимальной траектории снова является оптимальной траекторией (ибо «улучшение» куска траектории ведет к «улучшению» всей траектории, ср. доказательство леммы 4), здесь в рассматриваемой задаче с параметрами, это будет уже не так. Ведь если мы знаем значение параметра до0, то мы имеем рассматривавшуюся ранее оптимальную задачу, решаемую теоремой 1. Поэтому если u(t)% w0 дают решение поставленной в этом пункте оптимальной задачи, причем управление u(t) определено на отрезке t0^t^.tlt то на меньшем отрезке за счет изменения параметра w0 возможно удастся «улучшить» управление u(t). Из сказанного следует, что рассуждения, проведенные при доказательстве леммы 4, неприменимы к рассматриваемой оптимальной задаче. Рассуждения, доказывающие теорему 1, можно, однако, применить и здесь, считая в лемме 3 точку т совпадающей с концевой точкой tx (что делает излишним лемму 4). Но для этого приходится считать точку tx правильной точкой управления u(t), т. е. в качестве класса допустимых управлений приходится брать управления, правильные в правом конце отрезка. При этих условиях наиболее естественным классом допустимых управлений является класс кусочно-непрерывных управлений (или какой-либо его подкласс). Укажем, какие изменения нужно произвести в доказательстве теоремы 1, чтобы получить доказательство теоремы 5. Конструкции пп. 4 и 5 сохраняются полностью; надо только помнить, что они проводятся не только при фиксированном управлении u(t), но и при фиксированном значении параметра w0 (меняются только начальные условия, определяющие решения (8)). Обратимся, далее, к п. 9. Правильными точками управления u(t) являются все его точки непрерывности, т. е. все точки отрезка t0^.t^tl9 за исключением конечного числа точек
222 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ разрыва. Мы продолжим управление u(t) несколько дальше, за правый конец отрезка t0^t^tly полагая u(t) = u(t1 — 0) при /> tx. Продолженное таким образом управление u(t) непрерывно в точке tlf так что t1 является правильной точкой. Далее, точку т, входящую в определение проварьированного управления (с. 192), мы теперь будем считать совпадающей с tl9 т. е. положим Основные изменения произойдут в п. 10. Помимо варьирования управления u(t) мы будем также варьировать параметр w0. Именно: мы выберем некоторый вектор 8w пространства W и через х* (t) будем обозначать (при достаточно малом е) решение системы -^-= /'(*, u*(t), w0 + e8w), г = 0, 1, . ..,л, т. е. траекторию, соответствующую проварьированному управлению u*(t) и смещенному значению w = wQ-\- e8w параметра w. Мы имеем, очевидно (по р предполагается суммирование от 1 до s), Л + еб/ х*(/1 + 8б/) = х0'+ ] f(x*(0, u*(t)9 w0 + e8w)dt = to = xu + J [ff (x*(t), u*(t), w.) -]- e* (x*®£<*>■"»> (toP + .. . ]dt= = x0+ J i(x*(t), u*(t), w0)dt-\ e 5 f(x*(0, W(0. u>o)dt + ctop Л fee/ =x0+ J кхмо.ичо.^д+'К^у^д /о Но так как tx • F6t 8ufi + x0+ J f(x*(0, "*(0> о/„)Л есть точка на траектории, соответствующей измененному управлению u*(t), но не измененному значению параметра w0, то к ней применимы формулы (25), (26), так что мы в нашем случае получаем х* (tt + еб/) = х (tt) + еДх + . ..,
15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 223 где S Ax = f(x(/1). и(*0, w0)6t+ 2 Ах tl[t(x(T,), vlt a»,)— i = i ' -!(х(т,.), «(т,). ».)] «, + в»Р J«fi^k-fik-J ^ (59) Такой вид принимают формулы (25), (26) в рассматриваемом случае. Обратимся теперь к п. 11. Мы включим вектор бес; в символ а, т. е. будем теперь полагать а = {т/, vi9 8th 8t, 8w} (мы опустили обозначение точки т, так как теперь x=t1 есть фиксированная точка). Линейная комбинация символов а определяется так же, как и раньше, только с учетом последнего аргумента: Г {..., 8w'} + Г {..., 8w"} ч- ...={..., Убгю' + V8wn +...}. После этого рассуждения п. 12 и доказательство леммы 3 (при x=t1) проходят без изменения, а лемма 4 становится просто ненужной (ибо x=t1). В результате мы получаем конус достижимости К*,, для которого справедлива лемма 3. Рассуждения пп. 14, 15 также сохраняются (с заменой т на /х), а предельный конус (п. 16) становится ненужным, так как у нас имеется лишь один конус К*,, построенный как раз в конце х(/х) траектории х(/) (в силу этого лемма 9 не нужна — она просто сводится к лемме 3). Наконец, рассуждения п. 17 доказывают выполнение условий 1), 2), 3) и заключительную часть теоремы 5. Остается показать, что для выбранного таким образом вектора ty(t) выполняется условие 4). Положим в формуле (59) 8t = 8t1 = 8t2=...=8t8 = 0. Мы получим J dwp to Согласно сказанному выше (ср. (38), (40)) имеем фа (fOA*06^ 0 Для любого вектора (59), и потому
224 15. ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Так как эти соотношения справедливы при любых действительных значениях параметров 8wQ, то Ы^^'У'^^О. Р-1.2 s, to и теорема 5 полностью доказана. ЛИТЕРАТУРА [1] Болтянский В. Г., Гамкрелидзе Р. В., Понтрягин Л. С, К теории оптимальных процессов, Доклады Ак. наук СССР, ПО, № 1 (1956), 7—10. [2] Болтянский В. Г., Принцип максимума в теории оптимальных процессов, Доклады Ак. наук СССР, 119, № 6 (1958), 1070—1073. [3] Гамкрелидзе Р. В., К общей теории оптимальных процессов. Доклады Ак. наук СССР, 123, № 2 (1958), 223—226. [4] Гамкрелидзе Р. В., К теории оптимальных процессов в линейных системах, Доклады Ак. наук СССР, 116, № 1 (1957), 9—11. [5] Гамкрелидзе Р. В., Теория оптимальных по быстродействию процессов в линейных системах, Известия Ак. наук СССР, серия мат., 22 (1958), 449—474. [6] Понтрягин Л. С, Оптимальные процессы регулирования, Успехи мат. наук, 14, № 1 (1959), 3—20. [7] С а г a t h eo d о г у С, Vorlesungen fiber reelle Funktionen, Leipzig, 1927. [8] Б лисе Г. А., Лекции по вариационному исчислению, ИЛ, М., 1950. [9] Мс Shane, On Multipliers of Lagrange Problems, Amer. J. Math., 61 (1939),. 809—819. [10] Болтянский В. Г., Оптимальные процессы с параметрами, Доклады Ак. наук УзбССР, 10 (1959), 9-13.
16 ПРИБЛИЖЕННОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМ ПАРАМЕТРОМ ПРИ ПРОИЗВОДНЫХ*)1) Совместно с Л. В. Родыгиным 1. Мы будем изучать поведение на конечном интервале времени решений системы дифференциальных уравнений е15Г = /(*. У). -%f = g(x> У)* 0) где х = (хи ..., хк), у = (уи ..., ух) — векторы, е > 0—малый параметр. Функции /(*, y) = (f1(x, y)y ..., fk(x, y))y g(xt y) = = (gu •••» gi) предполагаются дважды непрерывно дифференцируемыми в некоторой (открытой) области Г пространства переменных (х, у), вид которой уточняется ниже. Проекция области Г на пространство переменных у обозначается через G. Предполагается, что при любом у £ G система быстрых движений д = /(*« У) (У = const — параметр) (2) имеет в рассматриваемой области ровно один грубый устойчивый предельный цикл х*(%, у). Это значит, что х* (т, у) есть периодическое решение системы (2), период которого мы обозначим через Т(у), и что мультипликаторы системы уравнений в вариациях §t=£dfi[x7x'y)',J]^ с»». •-.*) о) / = 1 J по модулю меньше единицы, кроме одного; эти мультипликаторы мы обозначим через Xlf ..., 'Kk_x. Отсюда следует, что х*(%, у) i меет область притяжения F (у); любое решение системы (2) с начальным значением из F(y) стремится при /->оок предельному циклу х*. Как легко видеть, (J F(y)xy есть область yeG в пространстве (х, у), которую мы отождествим с нашей исходной областью Г. Мы будем считать, что имеются Г,, Т2, для которых О < 7\ ^ Т (у) ^ Т2. Вообще же говоря, при приближении у к границе области G Т (у) могло бы стремиться к 0 или к оо, но для дальнейших наших целей всегда возможно от G перейти *) Докл. АН СССР. —I960. —Т. 131, № 5.-С. 255—258. *) Основные результаты настоящей работы были доложены на Всесоюзном математическом съезде [1].
226 !*? ПРИБЛИЖЕННОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ к некоторой компактной подобласти DaG. При сделанных предположениях Т (у) оказывается гладкой функцией у. Введем в рассмотрение «осредненную систему» т (у) 1 ™' о о где положено1) X (ф, у) = х*(Т (у)Ф, у). Обозначим через {x(t, е), y(ty е)} решение системы (1) с начальным значением (#0, у0)€Г, Хо€Р(Уо)' через #(т)— решение системы (2) с начальным значением х(0) = х0 и с параметром у = у0, а через y(t) — решение системы (4) с начальным значением у(0) = уо. Предполагается, что y(t)£G при 0^/^L<oo. Через D обозначается компактная подобласть области G, содержащая у (/) (0 ^ / ^ L) строго внутри себя. Везде в дальнейшем предполагается y£D. 2. Перейдем в системе (1) к «быстрому времени» т=//е: и сравним (5) с (2). Из теоремы о непрерывной зависимости решений от параметра непосредственно вытекает, что на любом отрезке времени 0^^^е/х длины порядка е \x(t, е)—x(t/e)\, \y(t, e) — у0\ можно сделать сколь угодно малыми, если только е достаточно мало. Таким образом, за промежуток времени порядка е решение системы (1) попадает в малую окрестность замкнутой кривой С = СУо, где Су обозначает {х = Х(<р, у), 0^ф^1}ху. 3. Проследим дальнейшее поведение {x{t, e), y(t, e)}. Естественно ожидать, что y(t, e) будет близко к осредненному решению y(t), a #(/, е) будет оставаться вблизи циклов С-(/), совершая при этом быстрые колебания вдоль них с периодом, близким к &T(y(t)). Точная формулировка такова: Теорема. Существует гладко зависящая от t функция <p(ty г) («фаза») такая, что если б > 0, то при б ^ t ^ L е-^ i—| = 0(е), (6а) dt T(y(t))\_ w' v ' \x(t, e)-X(<p(*Le)f y(t))\ = 0(E), (66) \y(t, e)-y(OI = 0(e) (6b) равномерно по t. x) В качестве начального значения X (О, у) может быть взята любая точка периодического решения системы (2), лишь бы зависимость от у была гладкой.
16. ПРИБЛИЖЕННОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ ^27 4. Для изучения системы (1) вблизи Су воспользуемся невырожденным преобразованием вида 1-^и0+А Т(у) * У и (и0 — скаляр, и — вектор с k—1 компонентами, А (ф, у) — матрица с k строками и k—1 столбцами, имеющая по ф период 1). При помощи такого преобразования система (3) может быть приведена к виду т?-о-#-"Ы*-<'Ь (7> где Я(ф, у) = Н (ф+ 1, у) — квадратная матрица (k—1)-го порядка, причем мультипликаторы системы и = Ни—это наши Х1? .. ., Хкшт1. Отсюда следует существование функции Ляпунова W ( у-г— , и, у)— квадратичной функции по и с периодом 1 по первому аргументу, полная производная которой по т в силу системы (7) [^L<—w (a>°>- (8) При этом можно добиться того, чтобы коэффициенты W были гладкими функциями своих аргументов, так что | dW » dW I <IW, dW dui <p2Ku/, ^Vw<\u\<^Vw (p,>0), (9) и (3,, как и а в (8), можно выбрать одними и теми же для всех y£D. Заменой переменных л: = Х(ф, у) -}- А (ф, у) и система (1) приводится к виду ew=TW + 0(8+l"l>' du е —= Я(Ф, у)и+0(е + |u2|), *% = g[X(<P, У), у] + 0(г+\и\). (10) Вычислив полную производную функции W (ф, и, у) по ty в силу системы (10), можно показать, что имеются ех, Си С2 > 0 такие, что при е < ех, C±e2^W <С2 e[^J(1o,<-a^ ^>°>- Отсюда следует, что поверхности U/= С(С1е2 ^С ^ С2) суть поверхности без контакта для системы (10) и что если решение этой системы попадает в момент t = tl£ на поверхность W = С2, то,
228 16. ПРИБЛИЖЕННОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ пока оно лежит в области Схе2 ^ W ^ С2, справедливо неравенство W(<f(t, 8), U(t, 8), y(t, 8))< <^(<P('ie, S), и(*1в, 8), */(/le, 8))^ai(/"/l8) = C2^a(/"/le), так что через время f2e = 0(elne) № обратится в Схг2. Решение, таким образом, попадет внутрь поверхности W = Сгг2 и уже не сможет выйти изнутри этой поверхности, пока y(t, e)£D. Если решение системы (2) попадает за время tx внутрь поверхности W = 1/2С2, то при достаточно малых е решение системы (5) заведомо попадет внутрь поверхности W = C2 за время tl9 так что ^le < e^i- Используя (9), получаем теперь, что при г\г ^ / ^ t2e будет \u\<C9exp(—a1(t — etl)/2E)<CAe-vt''*(y>0), а при t> tiB будет jw|<C5e, пока y(t, е) не выйдет из области D. у(0, г) лежит строго внутри D и скорость изменения у (t, е) конечна, так что y(t, е) может выйти из D лишь за время te = 0(l) (не исключено, конечно, что ^8 = оо). Положим ^==min(^e, L). При е^ ^ ^ t < t*z имеем, по сказанному, \u(t, е)|<С4<г*/' + С6е. (11) Мы докажем позднее, что при достаточно малых е t*e = L. 5. Нам надо оценить при et1^t^t*e \y(t,z)—y(t)\. Удобнее оценивать в промежутке [е/х, t*e) величину т)(^, &) = y(t) г) — -y(t)-I(t, 8), где Ф (/. е) Ht,E) = ET(y(t,E)) S {g[X(B9y(t))9y(t)]-i[y(t)]}dB. О Мы хотим доказать, что при stt^t < t*e выполняется неравенство (6в); для чего достаточно показать, что при указанных значениях t \r)(ty е)| = 0(е), I(t. е) = 0(е) равномерно по t. Второе из этих соотношений очевидно, поскольку g[X(Q, y(t)), y(t)] — периодическая функция 6 с периодом 1 и средним значением g[y(t)]> так что интеграл, входящий в выражение для /(/, е), есть 0(1). Докажем теперь, что |т)(^, е)| = 0(е). Имеем Л С е)=£[Х(Ф(/, 8), y(t, e))f y(t, г)] + 0(\ и\ + е)-_ -g\!/(t)]-*T(y(t9 в))Ф(/, 8) {g[X(<p(t, e),y(t)), y(t)]- ф(/, 6) с? (/. 6) -g[y(t)]}-*T S {g-g}dB-BT(y(t, г)) $ {g-g}dQ. 0 0 Два последних члена, очевидно, 0(e). Далее, произведение *T(y(t9 е))ф(*, е)=1 + 0(е+[и|)
16. ПРИБЛИЖЕННОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ 229 и, следовательно, i\(t, *)=g[X(<P(t, в), y(t, e)), y(t, *)]-_ -g[X(<p(t, в), y(t)),y(t)] + 0(E+\u\). Поскольку g[X(q>, у), у] гладко зависит от у и, как было доказано, y(t, г)—y(t) = v\(l, е)тО(е), то при е/х ^/</* имеем |ij(/, е)| < B\i\(t, е)| + 0(е-; | и|), или, используя (И), |ri(f, е)|<В|т|(/, 8)| + Cerv'/4C7e. (12) При этом, очевидно, т)(е^, е) = 0(е). Легко показать, что из (12) вытекает оценка | г)(/, е)| <! £(/, e) при /6[^i. Q, где ^B?+C^-v^-|-C78, £(8^, е) = т|(е/1> е). Вычислив отсюда £, получим, что £(/, е) = 0(е) при t^[et1. t*B). 6. Неравенства (6а), (66), очевидно, следуют при t£[Etu tl) из доказанных неравенств (6в), (11) и из системы (10). Осталось показать, что tl = L. Но это очевидно: если при /g[0, L] y(t) отстоит от границы области D не менее чем на d(d>0) и если бы было /g=/e<L, то для достаточно малых е было бы \y(t, е) — y(t)\<d/2 при t£[etu te)y и мы получили бы, что y(te, г) лежит в D и отстоит от границы D не менее чем на d/2, а следовательно, y(t9 г) еще не выходит из D за время /е. Тем самым теорема полностью доказана. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1J Л. С. Понтрягин, Тр. III Всесоюзн. мат. съезда, 2, М , 1956, с. 93; 3, М., 1958, с. 570.
17 ПЕРИОДИЧЕСКОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМ ПАРАМЕТРОМ ПРИ ПРОИЗВОДНЫХ*)1) Совместно с Л. В. Родыгиным 1. Мы будем рассматривать систему дифференциальных уравнений edx/dt = f(x, y)y dy/dt = g(x, у), (1) где х = (х1У ...,хк)§ у = (у!> • ••,#/)— векторы е>0 — малый параметр; векторные функции f(x, y) = (fu ..., fk), g(x, y) = = (Si* • • • у Si) предполагаются трижды непрерывно дифференцируемыми в рассматриваемой области. Относительно системы быстрых движений dx/dx = f(x, у) (у = const — параметр) (2) предполагается, что при любом у она имеет ровно одно невырожденное периодическое решение х*(т, у) с периодом Т(у). Иными словами, мультипликаторы системы уравнений в вариациях2) £ = /„(*' У)\х=х*{х.У)1 (3) отличны от единицы, кроме одного; эти мультипликаторы мы обозначим через Х19 ..., Яй-1. Естественно ввести «осредненную систему» Т(у) 1 о о где положено Х(ф, у) = х* (Т (у)у, у). Относительно осредненной системы (4) мы предположим, что она имеет невырожденное положение равновесия у0; иными словами, g(yo) = 0 и- собственные значения \il9 . . ., \х{ матрицы g,j(y0) все отличны от нуля. Нашей целью является следующая Теорема. Если г достаточно мало, то при сделанных предположениях система (1) имеет вблизи цикла {а:*(т, у0), у0} единственное периодическое решение {x(t, е), y(t, г)} со следующими свойствами: его период равен гТ (у0) -f О (е2), a\y(t, е)— у0\ = О(г). *) Докл. АН СССР.—I960.—Т. 132, № 3.—С. 537 — 540. г) Основные результаты настоящей работы были доложены на III Всесоюзном математическом съезде [1]. 2) Здесь fy (x, у) есть матрица || d/, (x, y)/dt/j ||. Аналогичные обозначения применяются и в дальнейшем.
17. ПЕРИОДИЧЕСКОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ 231 При этом существует гладко зависящая от t функция ф(/, е) («фаза») такая, что \Ed<p/dt-l/T(y0) | = 0(8), \x(t, e)-X(<p(t, 8), у0)| = 0(е), (5) а отличные от единицы мультипликаторы уравнения в вариациях для этого периодического решения суть1) V/ = X/+C0(8) (£=1, ..., fe-1); V/ + M=l + 8|iyrboH 0(8) (/=1. ..., /). W 2. Невырожденным преобразованием вида 1 = 11Ги° + А{тШ'У)и (н0— скаляр, м — вектор с k—1 компонентами, А (ф, у)—трижды непрерывно дифференцируемая матрица с k строками и k—1 столбцами, имеющая по ф период 1) систему (3) можно привести к форме du0/dx=0, du/dx = H(x/T(y), у) и, (7) где Я(ф, у) = Н(<р+ 1, у)—дважды непрерывно дифференцируемая квадратная матрица (k—1)-го порядка, причем мультипликаторы системы и = Ни — это наши Х19 ..., kk_lt Система (1) заменой переменных * = Х(<р, #) + Л(ф, у) и приводится к виду edq>/dt=\/T(y) + P(e, ф, и, у), edu/dt = H(<p, y)u + eb(q>, y) + Q(e, cp, и, у), (8) Ж/АИ = £[Х(ф, у), у] + #(Ф, м, у), где Р, Q, /?, &—гладкие функции своих аргументов, причем R (ф, и, у) и /?„ = О (| и |), Q (е, ф, и, у) = Q (е2 Ч и2), Р (8, Ф, и, */), Qa и QLI = 0(el |к|) равномерно по ср, у. Примем ф за независимое переменное. Система (8) перейдет в du/dy = T(y)H((p, y)u-\ еТ(у)Ь(ц, у) Q(e, <p, и, у), dy/d<p = eh(q), у)-- eR (е, ср, и, у), где А(ф, y) = T(y)g[X(q>, у), t/J,aQ, # —гладкие функции своих аргументов, причем Q(e, ф, и, #) = 0(е2-|-a2), QM, Q,;, /? и /? . = = 0(г-\-\и\) равномерно по ф, у. Забегая вперед, введем еще 1 h{y) = T(y)g(y) = }h(qJ y)dy. Как непосредственно вытекает из о первого из уравнений (8), лежащее вблизи {#*(т, у0), у0) периодическое решение системы (8), период которого близок к гТ(у0), 1) со (е) означает величину, стремящуюся к 0 при е —► 0. Внимательное рассмотрение доказательства показывает, что если X/ или \ij— не кратный корень, то со (е), соответственно о(е), можно заменить на 0(e), соответственно 0(е2).
232 17- ПЕРИОДИЧЕСКОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ при переходе от (8) к (9) превращается в решение системы (9) с периодом 1 по ср. Решение системы (9) с начальным значением " = ^н» У = Ун ПРИ Ф = 0 обозначим через {и(ин, ун, ф, е), У(ин> Уну Ф» £)}- Оно будет периодическим по ф с единичным периодом при выполнении условий и*("н. У^ г) = и(ия, у„, 1, е) — ин = 0, У ("и* Уну *) = У(ину Уну 1» в) — Ун = 0. 1 Так как у = 8 j Г(у (ф))^*(л;(ф), у(ф))я!ф, то естественно вместо о (10) ввести систему и*(ин. Ун, е) = 0, У* = тУ(иНУ у„, е) = 0. (11) Проверим, что система (11) удовлетворяется при 8 = 0, ин = 0, Ун = Уо и что якобиан J = D(u*y y*)/D(uHy ун) |e=0i ын=0, ун=УоФ0- При 8 = 0 имеем у = const и du/d<p = T(y)H(<p, y)u-\-Q(0, ф, и, у), (12) где Q(0, ф, и, у)=-0(и2), Qa(0, ф, и, £/) = О (| £/1). Поэтому при любом ун и = 0 служит решением (12). Отсюда, далее, следует D (и*) -...-.. D(yH) = 0, так что J = п, : п ; 8=о, и=о. y=ye D(uH) D(yH) 8=0, «„=0, t/ =*/0 Так как у* (0, у„, 0) = ^ /г (ф, yH)dq) = T (yH) g(yH), то у*(0, у0, 0)=0, о _ a D(w*)/D(uH)|e=0, */=</ есть определитель матрицы Т (ун) g*(у„) + + Тч(ун) g(yu). Но при ун = у0 второй член здесь обращается в нуль, и D(y*)/D(y„)|e=o,«H=o,i/H=r/0 = det[r(y0)g-,/(y0)]^0. Наконец, якобиан D(u*)lD(uH)\e=0t у =0, у =УоФ0, И^° он представляет собой определитель разности между матрицей- монодромии для системы du/dq> = T (y0) H (ф, у0)и и единичной матрицей. Следовательно, при достаточно малых 8 система (11) определяет функции ин(г) и ун (е), имеющие в точке 8 = 0 ограниченные производные по 8. Нетрудно убедиться, что периодическое решение системы (8) с начальным значением ин(е), ун(е) обладает требуемыми свойствами; только (6) требует отдельного доказательства. 3. Чтобы вычислить мультипликаторы v/(/=l, ..., l-\-k—1) уравнений в вариациях для найденного нами периодического решения, мы рассмотрим уравнения в вариациях для периодического решения {Мф)> Уе(ф)} = {МФ + 1), Уе(ф+1)} системы (9). Поскольку уе(ф) = Уи+ 0(e), ut(q>) = 0(e), то эти уравнения в вариа-
17. ПЕРИОДИЧЕСКОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ 233 циях имеют вид ^йи = [ТШШ<р9 у0)-\ 0(г)]6и+ 0(г)6у, (13) A by = гВ (Ф, е) 8и + е [h(J (Ф, у0) + О (в)] Ьу (14) (Б(ф, е) = В(<р-\ 1, е) — непрерывная матричная функция). Конечно, нужно еще показать, что мультипликаторы не меняются при переходе от (8) к (9). Проще всего в этом убедиться, используя следующие обстоятельства. Нетрудно проверить, что для периодического решения {x(t)} любой системы x = f(x) (х=(хг, ..., хт)) мультипликаторы (за исключением мультипликатора 1, которому отвечает решение f(x(t)) уравнений в вариациях) могут быть определены так: возьмем какую-нибудь (т—1)- мерную гиперплоскость П, пересекающую {#(/)} в некоторой точке x0i причем f(x0) не параллельно П, и рассмотрим ее отображение последования F, сопоставляющее точке х £П первую во времени точку пересечения выходящей из л: полутраектории t^O системы x = f(x) с П; F определено в некоторой окрестности точки х0 на П, и мультипликаторы {x(t)} совпадают с собственными значениями дифференциала отображения F в точке х0. А отображение F зависит только от геометрического расположения траекторий и направления движения по ним, но не от скорости этого движения. Теперь удобно ввести новую переменную г = {Е-е 5 [hu (9, Уо)-h(J (y0)] dQ| 6у (Е — единичная матрица). Система (13) — (14) примет следующий вид: уравнение (13) сохранится с заменой 0(г)8у на О (г) z, а вместо (14) мы получим dz/Жр = 8£(ф, г)8и+г[Ни(у0) + 0(г)]г. (15) Матрицант системы dl/d<P = Т Ы Н (Ф, у0) I dlldsf = * [В (Ф, е) I + \ (у0) £] имеет вид Ф№) Ua(q>) Ф.(ф)> причем матрицы Фх(1) и Ф3(1) имеют собственные значения М* = 1, • • •, k— 1) и eeiLJT {Уо) (/ = 1, . .., /) соответственно, а Ф2(1) = 0(8). Ищем матрицант системы (13), (15) в виде хР(ф) = = Ф(ф)[£+ А(ф)]. Нетрудно убедиться, что А(ф) удовлетворяет
234 17. ПЕРИОДИЧЕСКОЕ РЕШЕНИЕ ОДНОЙ СИСТЕМЫ уравнению вида dA__/0(е) 0(e) \(Е_1_Ау д/0> = 0 dtp ""ДО (8*) 0(82)J^ ' ^' ^^ U» л /1Ч / 0(8) 0(8) \ . откуда следует, что д(1)=^о(е2) o(e*)j и> таким образом, w/n-f ф1^ + 0(е) 0(е) М '~\,Ф2(1Н-0(е2) Ф8(1) + 0(е*) Теперь сразу видно, что 4(1) имеет k—1 собственных значений V/ = Xi + со (е) (f = 1, ..., k— 1). Сложнее обстоит дело с остальными собственными значениями. Непосредственно очевидно только, что v/+k_1= 1 Н ю(е) (/=!» •••> 0- Вычтем из W(1) единичную матрицу (&+/—1)-го порядка; мы получим матрицу вида V[{F\-(A + Fto в^ ^\ь) — \ с (8) eD + G(e) где F, В и С = 0(е), G(e) = 0(e2), Л и D—невырожденные матрицы с собственными значениями А,2—1, ...,Xk_1—1 и T(y0)\il9... ..., ^(f/o)!^ соответственно. Нам надо доказать, что, помимо очевидных собственных значений v,- — Х{— 1 + со (е) (/ = 1, ... ..., k—1), 31(e) имеет еще собственные значения Ъ+ъ-г = *Т(уъ)ъ + о{г) (/ = 1, ...,/). (16) Пусть К — произвольная матрица с k—1 строками и I столбцами; положим С (К, e) = C(e)—KB(z)K—zDK — G(e)K. При любых /С, К' норма |С(/С, г)—С{К\ е) |< 0(e) (1 + \К | + \К'\)Х х\К—/С'|, и легко доказать, что при малых е уравнение К = — С(К, e)(A + F(b))~* имеет решение /((е) = 0(е); (16) теперь следует из Е °\$Up\( e ^Yl^( A + F-BK В /С (е) Е)^уч\К{г) Е) \K{A + F)+C{K,t) eD + G + KB Л + 0(Е) 0(8) О 8D + 0(82) ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, Тр. III Всесоюзн. матем. съезда, 2, М., 1956, стр. 93; 3, М., 1958, с. 570.
18 ОБ ОДНОЙ СТАТИСТИЧЕСКОЙ ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ *) Совместно с Е. Ф. Мищенко В работе рассматривается вопрос об оптимальном движении управляемой точкой малой окрестности другой, стохастически движущейся точки. В связи с этим решается задача с малым параметром для параболического дифференциального уравнения с частными производными. § 1. Постановка задачи Точку z фазового пространства R переменных г1, . .., zn назовем управляемой, если ее движение в пространстве R описывается системой обыкновенных дифференциальных уравнений У = }1(г\ . .., г", и\ ..., и% t=l, .... л, (1) где и = (и1, ..., иг) — управляющий параметр. Точку Q фазового пространства R назовем случайной, если процесс ее движения есть марковский процесс. Как известно (см. [1]), вероятностную характеристику этого процесса дает функция р (а, х, т, у), равная плотности вероятности того, что случайная точка Q, находящаяся в момент а в положении х, в момент т будет находиться в положении у. Функция р (а, х, т, у), как функция первой пары переменных а и х, удовлетворяет параболическому дифференциальному уравнению второго порядка—первому дифференциальному уравнению А. Н. Колмогорова и является фундаментальным решением этого уравнения. Таким образом, решение уравнения (2) F(o, x), имеющее наперед заданное начальное значение F1(x): F(o, x) —* /^(х), а—>т, (3) дается формулой F (а, х) = ^ Р (о, х, т, у) Fx (у) dy. (4) (В этой формуле, как и всюду в дальнейшем, если специально не указана область интегрирования, интегрирование ведется по всему пространству R.) *) Изв. АН СССР. Сер. мат.—1961.—Т. 25, № 4.—С. 477—498.
236 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Отметим еще одно важное свойство функции /?(а, х, т, у). Пусть требуется решить неоднородное параболическое уравнение, соответствующее уравнению (2): ди , /// , дЮ , ,., ч ди п/ ч /сч ^+a/(ff' х)-^^г+ь ((Т- -Г)"Р(<7' х> (5) при нулевом начальном условии. Тогда искомое решение дается формулой т и (а, х, т) = — j ds J /? (а, х, s, f/) P (s, #) d#. (6) a В настоящей работе мы будем предполагать, что правые части системы уравнений (1), описывающей движение управляемой точки z, непрерывно зависят от всех переменных и непрерывно дифференцируемы по г1, ..., г". Относительно же коэффициентов уравнения (2), описывающего движение случайной точки Q, мы сделаем следующие предположения: а) коэффициенты a/V(a, х), 6'(cr, х), i, /=1, ..., я, определены и непрерывны при а>0 и при любых xg£f; б) все собственные значения матрицы \\al'J'(e, x)\\ при этих значениях аргументов ограничены сверху и снизу положительными константами; в) коэффициенты bl'(ot x) при возрастании \х\ возрастают не быстрее, чем d*\. Итак, пусть в пространстве R движутся управляемая точка z и случайная точка Q. Пусть вместе с управляемой точкой z движется некоторая ее окрестность 2г, например шар или, вообще, область, ограниченная произвольной кусочно гладкой поверхностью, кусочно гладко меняющейся вместе с z. Если задан закон управления точкой z, т. е. если параметр и задан как кусочно-непрерывная функция времени u = u(t), то система дифференциальных уравнений (1) однозначно определяет непрерывное движение точки z в пространстве R. Следовательно, если заданы начальные положения управляемой точки z и случайной точки Q, то однозначно определяется вероятность встречи точки Q с окрестностью 22 на отрезке времени a^/^т или на бесконечном отрезке времени 0^/<оо, или вероятность встречи с тем или иным весом. Эти вероятности являются, таким образом, функционалами управления u(t), и естественно возникает задача о таком выборе управлений u(t) точкой z, при которых эти функционалы достигают экстремальных значений. Чтобы точно формулировать задачу, введем в рассмотрение неотрицательную и не превосходящую единицы функцию h (t)> определенную на всей оси t. Обозначим через i|)M(a, x, ^вероятность того, что случайная точка Q, находящаяся в момент времени о
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 237 в положении х, на отрезке времени а^/^т встретится с окрестностью 22 управляемой точки z (при этом предполагается, что начальное положение точки z, равное г (а), задано). Ставится следующая задача: выбрать управление u(t) точкой г таким образом, чтобы функционал со I=^h(s)-^[^a(o,x,s)]ds (7) О достигал максимума. Управление u(t) и соответствующую ему траекторию z(t) системы (1), обеспечивающие максимум функционала (7), будем называть оптимальными. Таким образом, решение задачи сводится к принципу максимума (см. [2]), если только функционал (7) известен как функционал от u(t), z(t). Само собой разумеется, что функционал (7) зависит также от размеров и формы окрестности 2Z управляемой точки z. Как мы увидим ниже, для его вычисления нам потребуется решать граничную задачу для уравнения (2). При этом нас будет интересовать эффективная, хотя бы и приближенная, формула для этого решения. Оказывается, что такую формулу можно получить, если размер окрестности 2Z считать малым. Но задача «накрыть» малой управляемой окрестностью случайную точку Q как раз и является естественной. Итак, в настоящей работе окрестность 2Z мы будем считать малой. Для простоты мы будем предполагать, что 22 есть n-мерный шар радиуса е с центром в точке z. Однако внимательный читатель сможет увидеть, что все наши рассуждения и сам результат почти не изменяется, если под 2Z понимать произвольную область малого «радиуса», ограниченную произвольной кусочно гладкой поверхностью, кусочно гладко меняющейся вместе с z. § 2. Сведение вычисления функционала / к решению граничной задачи для уравнения Колмогорова Прежде чем указать подход к вычислению функционала (7), сделаем несколько замечаний, относящихся к произвольному марковскому процессу. Выделим в пространстве R фиксированную область Г, ограниченную (п—1)-мерной кусочно-гладкой поверхностью S. Обозначим через q (а, х, т, у) плотность вероятности точки Q, находящейся в момент а в положении х, быть в момент т в положении у, не заходя при этом на протяжении времени а^/^т в область Г. Очевидно, что q{a, х, т, */)</?(а, х, т, у)у lim \q(o, х, т, y)dy=\in \p(cr, х, т, y)dy=\. ^
238 18 СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Далее, известно, что функция q(o, x, т, у) вне области Г является фундаментальным решением уравнения (2), а при приближении точки х к границе области Г справедливо соотношение ^ q (а, х, т, y)dy-^0 при x-^x0£S. (9) д-г Пусть теперь область Г не фиксирована, а движется вместе с /, т. е. имеется однопараметрическое семейств областей Г\. Обозначим через q(o, x, т, у) плотность вероятности случайной точки Q, находящейся в момент времени а в положении х, быть в момент т в положении у, не встречаясь на протяжении времени а^/^т с движущейся областью Г\. Тогда, очевидно, функция ^ q(o, х, т, y)dy (10) является решением уравнения (2) и удовлетворяет следующему граничному значению: \q (а, х, т, #) Л/ -> 0 при x-+Sa. (И) Теперь мы можем указать подход к вычислению функционала (7). Пусть движущаяся область Tt есть шар радиуса е с центром в управляемой точке z(t). В соответствии с § 1 будем обозначать его через 2гШ. Положим •ф(а, хч т)= 1 — \ q(a, х, т, y)dy. (12) Непосредственно из определения следует, что функция if> (a, x, т) есть вероятность того, что случайная точка Q, находящаяся в момент а в положении х, на отрезке времени a^/^т будет «накрыта» окрестностью S2(t) управляемой точки г. Следовательно, функция if>(a, х, т), определенная формулой (12), есть та же самая функция, которая фигурирует в функционале (7). Таким образом, для вычисления функционала (7) мы должны решить уравнение 5a v ' dxi dxi ■ ' dxl ' при условиях г|з(а, х, т) —0, (14) я|)(а, х, т)—»1 при x-+Sa. (15) Мы покажем, что решение задачи (13), (14), (15) представляется в виде •ф(ог, х, т) = 8п~2Чг(а, х, T)-j-o(en"2), (16) и получим эффективную форму для Чт(а, л:, т), представляющую главную часть вероятности ф(а, х, т),
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 239 § 3. Некоторые предварительные оценки В настоящем параграфе мы докажем ряд вспомогательных неравенств, связанных с фундаментальным решением уравнения (2). Кроме того, мы решим внешнюю задачу Дирихле для многомерного уравнения Лапласа вне эллипсоида S8 ^F+.-.+^f^e2 (17) с единичным граничным значением. Результаты этого параграфа элементарны, однако мы выделяем их в специальный параграф, чтобы в последующем можно было на них ссылаться не прерывая основных доказательств. Обозначим через g" (or, £, t, rj) фундаментальное решение уравнения теплопроводности (18) (19) r(E)=VV+...4-inI (20) и введем следующие обозначения: (лк(о, I, x) = ^g(a, l, ц, x)-^dr\, (21) Qk(o,l,t) = §ds§g(a, t, s, T1)^А|. (22) О Чтобы интегралы, стоящие в правых частях формул (21) и (22), имели смысл, мы, конечно, должны считать, что k < я. Нам понадобятся следующие три неравенства, оценивающие функции (ok(a, £, т) и Qk(a, £, т) при г(Ъ) = г: G)fe(a, l, T)|r(6) = e<-^L при т—сг>8, (23) Ma> 6, *)|г(6)=е<-§- ПРИ % — а<8> (24) 0*(°. Б.т)|г(6)=в<5Й. (25) Здесь С — константа, не зависящая от е, а 8(e)—>0 при е—>0. Как Поле известно, оно g(<*> >жим, далее, ди , 55 + имеет > S, т, д2^ вид п\ — г1/ — f • [2л .. 4 1 (т- д2и _ р п С а)]2 = 0. 1 л- 4(Т- "61 -а)
240 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Вывод неравенств (23), (24). Легко видеть, что <Мст, Р, ..-, 1\ т) = со^(а, r(g), 0, ..., 0, т) = « r (r\l-r(t))* + i\*2+...i\n2 ■хК 4(т"с) *т4)^' (26) [2я(т-а)]2 Положим if' = r (?)*<, т—<x = r»(6)f. Тогда из (26) получим М*. Е, ^) = 7ПВ"К(0, (27) где (*!-l)2 +-...+ *"2 (2я/) 2 Очевидно, что V(0—^1 при / — 0. (29) Для дальнейшего отметим, что V(t) при больших значениях t имеет следующую асимптотику: V(t) = 0(l/tk'2). (30) Действительно, положив в формуле (28) 2У1у' = х!, (31) получим v(o-4J«u w "rmdy <32> (К—константа), откуда и следует (29). Итак, имеем «м*. ^т)<т4гу(^)- (33) Но легко видеть, что К(1^2)<6(е) при т-0>8, (34) К(1?)<С при т-ст<6- (35) откуда и вытекают неравенства (23), (24).
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 241 Вывод неравенства (25). Мы имеем Qk(o, l\ ..., Ъ\ т) = Й,(а, /•(£), 0, ..., О, т) = , (т)*-г ($))*+т)*2+...+ т)*2 -w- [2л (s— а)] — в 4(s-a) i Алл Отсюда, полагая г\{ = г(1)х1\ s—o = r2(%)t, получим a>. ы-тт* i V{t)dt' (36) о где V(t)—функция, определенная формулой (28). В частности, х-о 0*(°. 5.т)|г(8)-|в = -рт J ^(<)Л. (37) О Если теперь учесть асимптотику функции V (t) при больших значениях t (см. формулу (30)), то сразу найдем т- a С K(f)d/<Clne при fe= 2, о т- a 8* J V(t)dt<C при fc>2, о откуда и следует неравенство (25). Одновременно мы установили, что ак(о,1,1)<-р^. (38) Замечание к неравенствам (23), (24), (25). Пусть Р(а> £> т» Л)—фундаментальное решение общего уравнения Колмогорова £+«»*'. »£?+"<•.»£-«. (39) Исходя из этого фундаментального решения определим функции ^Л0"» 5i T) и ^ft(a» 5, т) соответственно по формулам (21), (22), подставив в них вместо q(at £, т, т)) функцию /?(а, £, т, т)). Оказывается, что для так определенных функций coft (a, 5, т) и Q^ (a, 5, т) справедливы те же неравенства (23), (24), (25). Действительно, в теории параболических уравнений доказывается, что при тех ограничениях на коэффициенты уравнения (39), которые мы предположили выполненными в § 1, фундаментальное решение урав-
242 18- СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ нения (39) мажорируется фундаментальным решением некоторого уравнения теплопроводности, т. е. для него имеет место неравенство 1л-£1 Р— Y (т-а)"/2 р(0, £, Т, Г])<- ^Г^-т-а , где у— константа. Эта оценка обеспечивает возможность буквального повторения вычислений, проведенных при выводе неравенств (23), (24), (25). Для дальнейшего нам потребуется также решить внешнюю задачу Дирихле для уравнения Лапласа ^+...+^. = 0 (40) при единичном граничном значении на эллипсоиде Se (17). Мы докажем следующее предложение: Лемма. Исчезающее в бесконечности решение внешней задачи Дирихле для уравнения (40) с граничным условием »(I)|r.s.-l. (41) где Se—эллипсоид (17), имеет вид 5(1)=е»-»-^ + й(|", е), (42) где а—положительная константа, однозначно определяемая размерами эллипсоида (42), а г(%) = К £}2 -\- ... + 1п*. При этом функция я (£, е) при г (I) < 1 удовлетворяет следующим неравенствам: \*&*\<м-£^- <43> alien-1 < М ?-= (44) (М —константа). Доказательство. Будем искать решение задачи (40), (41) в виде у(С)=еп-з_^+л(Г, е), (45) где а—пока не определенная константа^ а я(£, е)—потенциал двойного слоя, создаваемый эллипсоидом Se в точке £, с не известной пока плотностью |х(т)) (через г] мы обозначаем координаты точек, лежащих на эллипсоиде Se). Так как я(£, е)— решение уравнения (40), то оба слагаемых в правой части формулы (45) при любом значении константы а являются решениями уравнения (40). Таким образом, функция v(l), представляемая форму-
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОЮ УПРАВЛЕНИЯ 243 лой (45), является решением уравнения (40). В силу хорошо известного свойства потенциала двойного слоя, граничное условие (41) дает — — gn -2 Мл. в)=1— * „_,.-, (46) гп 2(П) для любого r]gS8? где-через лв(т), е) обозначен предел_функции л(1, е) при стремлении точки £ к точке г\ поверхности Se извне. Но так как МЛ. £) = — 2яц (л) + я0 (rj, е), (47) где я0(г], е) — значение я(£, е) в точке г] поверхности Se, то из (46) получаем _2я^(л)+я0(л)=1-а-^^. (48) Г""2(Т]) Известно, что я0 (Л. е) = U Ы /°-Ф , dSe. (49) где ф — угол, составленный направлением нормали в точке г^ с радиусом-вектором р(г], г^), проведенным из точки % в точку т|. Введем обозначения «&Ъ-кг5*Ъ- фй)=^(«^%-') («» Тогда из условия (48) мы получаем неоднородное интегральное уравнение для неизвестной плотности |я(л)« ^(Л) = j *(л, Л1)1*(Л1)^в + Ф(л)- (51) SB Уравнение (51) есть уравнение Фредгольма второго рода. Согласно известной теореме Фредгольма, для его разрешимости необходимо и достаточно, чтобы свободный член был ортогонален ко всем собственным функциям сопряженного однородного интегрального Уравнения *(Л)= I *(Л1, лЫЛ1)<«е. (52) Известно также (см. [3]), что если ядро К (л» Л1) дается формулой (50), то уравнение (52) имеет только одну собственную Функцию. Обозначим эту функцию через v0 (г)) и будем считать ее известной.
244 18- СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Условие ортогональности дает возможность определить константу а. Запишем его: 2л J L гп~2(х\) v0(r])dSe = 0. (53) Отсюда следует ^ v0(r])dSe 50 Б""2 \ — ^-dSe So !(Л) В полученной формуле константа а зависит от е, но зависимость эта лишь кажущаяся. В самом деле, обозначим через S эллипсоид Кч19+... + КФ=и (54) ш труда обнаружим, что получающийся из эллипсоида Se увеличением всех осей — раз. Без ^ v0 (л) dS s v°^ dS (55) '(л) Таким образом, а не зависит от е и полностью определяется размерами эллипсоида (54). Итак, функция и(|), даваемая формулой (45), при а, определяемой по формуле (55), является решением задачи (40), (41). Остается лишь проверить выполнение неравенств (43), (44). Но они непосредственно следуют из определения потенциала двойного слоя я(|, е): (6. л) § 4. Вычисление функционала / в случае, когда уравнение Колмогорова имеет постоянные коэффициенты В этом параграфе вероятность -ф (or, x, т), а следовательно, функционал (7) будут вычислены для одного важного частногс случая, когда уравнение (2) имеет постоянные коэффициенты. Мы будем предполагать, что размерность фазового пространства 1<: больше двух: п > 2.
IS. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 245 Итак, мы будем решать уравнение до dxldxJ дх' ' где aiJ\ Ь1 — постоянные коэффициенты, при начальных и граничных условиях (14), (15), которые в дальнейшем будем записывать в виде ф(т, х, т) = 0, (57) *(<*• *> ХЬг{й)=1' (58) где 22(а) — сфера радиуса е с центром в точке г (а). Прежде всего перейдем от этой задачи к задаче с граничным условием на сфере радиуса е с центром в начале координат. Для этой цели в пространстве (г, t) введем новые координаты по формулам z = £+z(t), o^t^s, (59) так что x = t+z(o), y = r) + z(s). (60) При таком преобразовании координат сфера 2г(а) перейдет в сферу Se: £l2-b ... +£"1 = е2. (61) Положим ср(а, £, т)^*(а, £ + z(a), т). (62) Тогда для функции ср (а, |, т) мы получаем дифференциальное уравнение дЛ + fltf_*SL + (6«-_^ (a)) *L = 0 (63) и условия Ф(т, I, т) = 0, (64) Ф(а, 6, т)|5в= (65) Чтобы решить уравнение (63) при условиях (64), (65), нам потребуются вспомогательные построения. Нашим первым шагом будет конструкция некоторого специального решения уравнения *Z> + ai/J*S!L = 0a (66) Для того чтобы получить это специальное решение, перейдем с помощью линейного_преобразования от координат g1, ..., ln к координатам I1, ..., I", в которых уравнение (66) приведется к виду ^•+АФо = 0, (67)
246 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ где А—оператор Лапласа. При таком преобразовании координат сфера Se перейдет, очевидно, в эллипсоид Se Ul2+...+^F = e2, (68) где Х19 ..., %п суть собственные значения матрицы |а/у||. Обозначим через g(a, f, т, г\) фундаментальное решение уравнения (67): g(o,\ т, ч) = ^-—ГеХр{~Н^)[- <69> [2л (т—a)] 2 Положим ФоК £ Т) = 8П"2 й ?,* + "& 8) — -j^a, 1, т, ^^е-^^-^ + я^, e)]*j. (70) где a—константа, определенная формулой (55), а я(£, е)— потенциал двойного слоя, создаваемый эллипсоидом Se в точке £. Перепишем формулу (70) в несколько ином виде: ФоК I, т)==ф0(а, I, т) + бф0(а, I, т), (71) где ФоК I, т) = 8—Т-^|Г- fg(a, I, т, л)4^<Я (72) Г" 2(g) J Г""2(Т]) Очевидно, функция ф0 (а, |, т) является решением уравнения (67) и удовлетворяет начальному условию Фо(т, £, т) = 0. (73) Перейдем теперь от координат g1, . .., £п вновь к координатам g1, . .., 1п и пусть при этом функции ФоК I, т), ФоК I, т), 6qp0(a, I, т), g(a, Ъ, т, rj) перейдут соответственно в функции ФоК £. *). Ф0(а, £, т), бф0(сг, g, т), g(o, g, т, г]). Нам впоследствии понадобится явное выражение для функции Фо(а» £> т). Чтобы выписать его, надо знать, как запишутся в координатах g1, ..., ln функции г(£) и g(a, £", т, г]). Это легко выяснить. В самом деле, обозначим через аи элементы матрицы, обратной матрице ||а/у'||, так что а!'а'* = &к. (74)
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 247 Тогда легко можно убедиться, что г <£) = [<*,fiW> (75) h-il = K(V-^')(V-iy)],/2- Учитывая еще, что d4 = VK^TndT\% (76) мы получим для функции cp0(tf, I, т) следующее явное выражение: ФоК 5, т)= = 8" л-2 -^(о,6,т.л)8""-а-У^-Х-А|, (77) [auVin 2 [a,jr\W\ 2 где ^(ff> *• т, Л)=[2л(т_а)]п/2 ехР) 477=^) Г (78> Итак, доказана следующая Лемма 1. Функция Фо(<*. S, т) = ф0(а, £, т) + бф0(а, g, т), где Ф0(о\ £, т) определена формулой (77), является решением уравнения (66) и удовлетворяет нулевому начальному условию ФоК £, т) = 0. (79) Следует отметить, что функция ф0(о", £, т) не равна единице на сфере Se. Однако, как будет выяснено дальше, ее граничное значение в некотором смысле лишь несущественно отличается от единицы. Теперь уже все подготовлено, чтобы решать уравнение (63) при условиях (64), (65). Сначала мы найдем некоторое специальное решение уравнения (63), удовлетворяющее лишь нулевому начальному условию (64). Оценив затем граничное значение этого специального решения, мы увидим, что оно лишь несущественно отличается от единицы. Отсюда мы выведем, что и само это специальное решение лишь несущественно, с точностью до величин более высокого порядка малости по е, отличается от точного решения задачи (63), (64), (65). После этого полученное специальное решение будет упрощено путем отбрасывания некоторых членов и, таким образом, мы получим приближенное решение задачи (63), (64), (65). Перейдем к осуществлению этой программы. Будем искать специальное решение уравнения (63), удовлетворяющее условию (64), в виде Ф(<г, £, т) = ф0(а, |, т) + ф1(^ S, *)> (80)
248 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ где Фо(а, £, т)—только что построенное специальное решение уравнения (63), удовлетворяющее условию (64), а <рг (а, £, т) — пока не известная функция. Непосредственно проверяется, что <Pi(ff, £, т) должна удовлетворять неоднородному параболическому уравнению Й1 + а//_$Ц+ [Ы-г*'(о)]& = -[Ь'-г''(о)] *Ма. Е.т) (81) и начальному условию Ф^т, I, т) = 0. (82) Решение задачи (81), (82) во всем пространстве R с помощью формулы, аналогичной формуле (6) § 1, очевидно, невозможно, так как правая часть уравнения (81) при £ = 0 имеет полюс порядка п, получающийся при дифференцировании функции я(£, е). Однако эту трудность можно обойти, так как нас интересует решение фх(а, £, т) лишь вне шара, ограниченного сферой Se. Для этого рассмотрим функцию q(o, x, s, у), введенную в начале § 2 и равную плотности вероятности того, что случайная точка Q, находящаяся в момент времени а в положении х, в момент т находится в положении у, не встречаясь при этом на протяжении времени a^^^s с шаром, ограниченным сферой 22(/) радиуса е с центром в управляемой точке z(t). Очевидно, функция q(o, Ъ, s, г]) е= б/ (a, l + z(a), s, г]Н z(s)) = q(o, x, s, у) (83) (см. формулы (59), (60)) является вне сферы S8 фундаментальным решением уравнения (63), удовлетворяет граничному условию \q(at g, s, т|)*1кб5е=0, (84) и решением задачи (81), (82) будет функция т Ф1(*. Б. T)=jds [?(a, £, s, г])[Ы-^(8)] ^o(s,^T)dr]> (g5) где i?e обозначает дополнение в R к шару, ограниченному сферой Se. Очевидно, что q>i(*. 5, f)bse=o. Таким образом, нами получена следующая Лемма 2. Функция Ф(сг, |, т) = ф0(а, g, Tj + qp^a, 5, т), (86) где ф0(о", Б, ^) определена формулой (70), а фх(а, g, т)—формулой (85), является решением уравнения (63), удовлетворяет нуле-
18 Г.ТАТИС.ТИЧРГ-КАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 249 вому начальному условию Ф (т, £, т) = 0 и имеет те же граничные значения на сфере Se, что и функция <р0(о, 5, т). Теперь мы докажем, что функция Ф(а, £, т) вне сферы радиуса rQ (r0—любое конечное, не зависящее от е число) аппроксимирует решение задачи (63), (64), (65). Доказательство этого факта базируется на одной лемме об оценке решений параболического уравнения. Сформулируем эту лемму. Лемма 3 (об оценке решений параболического уравнения). Пусть и (о, I, т)—решение параболического уравнения dJL = _ au (a, I) J*-V (а, I) *L ^ L (И), (87) удовлетворяющее условиям и{%, £, т) = 0, (88) и (о, £, T)|S6Se = U7(af т), (89) где I С при т—а ^е, W(o, т)= А/ ч ^ (90) 7 ( 8(e) л/ш т—а>е v ' (С—константа, б (е) —^ 0 при е —► 0). Тогда для решения и (а, 5, т) справедлива следующая оценка: \и(о, £, т)|< А(Е, е) + 6(е)х(ст, I, т), (91) где Д(£, е)—положительная функция, имеющая при |5|>г0 порядок о(еп~2), а х(а> I. т)—решение уравнения (87), имеющее при а = х нулевые начальные значения и принимающее на сфере Se единичное значение. Доказательство. Положим a;(a, т) = a^ (а, т)4^2(а, т), (92) где функции wl{a, т), w2(o, т) определены следующим образом: J С при т—а<е, \ 0 при т—а> е, | 0 при т—аО, ^ (а, т) = п . (93) v ; (0 при т—а> 8, v ' ' \ о(е) при т—а > 8. (94) Решения уравнения (87), имеющие нулевые начальные значения и краевые значения, равные w(o, т), wx (or, т), w2(o, т), обозначим соответственно через и(а, |, т), иг (a, E, т), и2 (a, |, т). Очевидно, й(ст, |, т) = й1(а, 1, т)Ч Ма, I, т). (95)
250 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ На основании теоремы о максимальном значении для решений параболических уравнений, решение и(а% £, т) задачи (87), (88), (89) оценивается следующим образом: и (а, Ъ, т) <й(а, £, т). (96) Оценим отдельно функции иг (а, £, т) и Ма> Е, т). Для и2(о, Е, т) оценка получается из той же теоремы о максимальном значении решения параболического уравнения: Мог, 5, т)<6(е)х(а, Е, т). (97) Для получения оценки функции Ма> 5, т) потребуются более тонкие рассуждения. Прежде всего оценим и2(о, £, т) при т—а^ е. Положим 7(5) = *^^, (98) где К—константа, К > С. Будем теперь искать решение уравнения (87) с начальным значением, равным у(Ъ), и с граничным значением на сфере Se, равным /С, в виде lifer, 5, t) = y(E) + M*. 5, т). (99) Тогда для функции v0(e, Е, т) получается неоднородное уравнение £+""<"• *>Ш+Ь,(в' *>W-L[y®]' (100) которое мы должны решить при нулевых начальных и нулевых граничных условиях. Такое решение, как мы знаем, вне сферы Se дается формулой т Мег, 5, т) = —Jrfs 5 q(a9 Е, s, t|)L[y(t|)] A|. (Ю1) а Яе Итак, т и (а, 5, T) = v(S)-$ds J </(а, 5, s, ч) Z. [т(т|)]Л|. (Ю2) а Яе Очевидно, М*. Е, т)<о(а, |, т). (103) Нам остается, таким образом, оценить лишь функцию v(a, 5, т) при |£|>г0 и т—а^е. Заметив, что i^[vm]i<e»-f^Ij+7^], (io4) где Ах, А2—достаточно большие константы, и принимая во внимание неравенство q(o, £, т, г]Хр(а, £, т, г]), (105)
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 251 из формулы (102) получаем х И*, 6, T)|<v(E)+jrfs jp(cr, Е, s, Л) ^nr^J) ^Л + т -I \ds \р(а, I, s, Л)^-2^- (Ю6) Интегралы, стоящие в правой части неравенства (106), обозначим соответственно через /1? /2 и оценим отдельно их величины. Мы имеем X a Яе x = ^1-8"-2-v5ds.co„_v(a, 5, s) + o(8»-2), (107) a где 0<v< 1. Отсюда, принимая во внимание неравенство Q con_v(a, £, s)<r„_v(|), находим т /i^^^e»—^ds + o(e»-«). (108) a Следовательно, при т—а^е и |£|>г0 /1«о(8""2). (109) Аналогично получим, что при т—а^е и |£|>г0 /2«о(8«-2). (110) Таким образом, функция v (a, 5, t), мажорирующая на границе сферы Se решение Wi(a, 5, т), при |£|>г0 и т—а^е имеет порядок о(е"~2). Отсюда следует, что и само решение и1(оу £, т) при |5|>г0 и т—а^е имеет порядок о(е"~2). Несколько изменяя предыдущее построение, можно убедиться, что такая же оценка для и1(ау |, т) имеет место и при т—a > е. Лемма доказана. Теперь мы можем доказать, что функция Ф(а, £, т), фигурирующая в формулировке леммы 2, вне сферы любого конечного радиуса с точностью до величин порядка о(е"~2) аппроксимирует решение задачи (63), (64), (65). Иными словами, справедлива следующая Лемма 4. Пусть ф(а, £, т) — решение уравнения (63), удовлетворяющее начальным и граничным условиям (64), (65), а
252 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Ф (а, |, т)—решение уравнения (63), определенное в лемме 2. Тогда для любого г0, не зависящего от е при |£| > г0, решение Ф(а, £, т) с точностью до величин порядка о (е" ~2) аппроксимирует решение Ф(<7, £, т): Ф(а, |, т)-Ф(а, g, т)^о(е""2). (111) Доказательство. Обозначим через и (а, 5, т) разность функции ф и Ф: и (о, I, т) = ф(а, g, т)-Ф(а, g, т). (112) Функция и (о, £, т) является решением уравнения (63) и удовлетворяет нулевым начальным условиям. Далее, из формулы (85) видно, что граничные значения функции и (а, I, т) на сфере Se совпадают с граничными значениями функции Ф0 (а, Е, т) — — Ф0(а, £, т). Оценим эти последние. Для этого запишем разность ф—ф0 в следующем виде: ф(<7, S, т)—ф0(а, £, т) = = {<р(а. 6. T)-[e-»^+S(ffe)]|- -j^Kl, т, ^)^в«-2-;;-^- + я(л, e)Jd4. (ИЗ) Граничные значения слагаемого, заключенного в фигурную скобку в правой части формулы (113), равны нулю (см. § 3). Остается, таким образом, оценить лишь граничные значения второго слагаемого на сфере Se (в координатах £\ ..., ln на эллипсоиде Se). Так как для потенциала двойного слоя jt(£, e) справедлива оценка (43), то, очевидно, имеем jg>, I", т, л) ["в""2 гпа2 +я(ть e)ldrj|< <Л1.8«"2.Ч/_2(а, I т) -4 Л.е'-^со^Ла, £ т), (114) где Лх и Л2 — константы, а со„_2(а, f, т) и («>„_! (а, ?, т)—*функ- ции, определенные формулой (21) соответственно при & = я—2, & = /г—1. Используя теперь неравенства (23), (24), получаем, что граничные значения второго слагаемого в формуле (113), а следовательно, и граничные значения w(o, т) функции и (а, £, т) удовлетворяют условиям леммы 3. Следовательно, на основании леммы 3, мы можем заключить, что соотношение (111) справедливо. Лемма 4, таким образом, доказана. Упростим полученное приближенное решение Ф(а, £, т), отбросив в нем величины, имеющие при |£|>г0 порядок о(еп~2). Чтобы сделать это. выпишем решение Ф(а, |, т) в явном виде..
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 253 Вспоминая формулы (70), (71), (80), (85), мы можем написать Ф(ст, I, т) = ф0(а, £, т) + бф0(а, I, т) + + а Яо Я (<*, *, s, Л)[^'—2l"(s)]—т[ф0(а, £, т) + бф0(а, S, T)]dt|. (115) Прежде всего, ясно, что при 11 | > г0 6ф0«о(е"-2). (116) Поэтому второе слагаемое в правой части формулы (115) можно отбросить. Несколько сложнее упрощается интеграл, стоящий в правой части формулы (115). Во-первых, можно отбросить член /l = jdsP(a' Ef Sy 4H6'_z'#^-5b"[6*b(s,f,,T)ldT|' (117) a Re В самом деле, т 1/xKJds p(af I, s, r|)|6'-z"(s)| a *p dr\J dx\. Но так как (см. формулы (70), (71), (43), (44)) I ^у бфо (s, л, т)|<е»-1Я(т|), (118) I ^л I где R (г|) в нуле имеет полюс порядка не выше я, то т /i<8*-i-v^s J ~((Г> gf Sf т|)|6'—2''(s)||/?i(4)|d4. (119) a Яе где /?! (rj) имеет теперь в нуле уже полюс порядка не выше п—v (0О< 1). Таким образом, /1«о(8»-2). (120) Нам остается упростить член /.= jdsp(a> 6, s, r])[b'-z'(s)]-~[^(s, Л. *)}dr\. (121) a KP Покажем, что при 111 > г0 х Л = Jds f p(a, E, s, П)[6'—z''(s)]-^_-[q\,(s, n, T)]dtj + o(e»-2). (122)
254 18. Статистическая задача оптимального управления Мы имеем X /,= j'dspfa, l, s, T,)[&'_z''(s)]-*_[<p0(s, х], т)] + а X + frfsj*[p(a, l,s,i\) — q(o, l,s,i\)][bl—zt'(s)]Yj[%(s,r\,r)]dt\ + X + [rfs j* p(a, 5, s, Л) [*'■-«" (s)]-^j [9o(s.4.T)]d4. (123) Последнее слагаемое в правой части формулы (123) имеет, очевидно, порядок о(гп~2). Обозначим через и (о, I, т) второе слагаемое. Функция и (о, Ё, т) при а = т имеет нулевое начальное значение и является в области /?е решением уравнения (63). Так как уу[фо(5, т|. т)]| < в""2/? (Л), (124) где R(r\) имеет полюс порядка не выше п—1, то граничные значения функции и (о, I, т) оцениваются следующим образом: Иа, 5, T)||€Sg<M.e«-*Q„-iK 5, T)||€Se. (125) Отсюда, на основании неравенства (25), заключаем, что Ист, t t)bse<6(6), (126) где 8(e)—*0 при е —+ 0. Следовательно, всюду в области Re \и(а, 5, т) |< 6 (е) а (а, 5, т). (127) Лемма 4 и неравенства (120), (127), а также формула (123) доказывают следующее предложение. Лемма 5. Функция Ф(а, I, т) = X = ФоК 5, *)+ [<fcp(a, I, s, r))[6'-2'-4s)]^2^bJ)dT,, (128) a где ф0(а, 5, т) определена формулой (77) /г/ш |£| > /"о (>*о—произвольное, не зависящее от е положительное число), с точностью до величин порядка о(гп~2) аппроксимирует решение <р(а, £, т) уравнения (63), удовлетворяющее условиям (64), (65). Чтобы подвести итог всем рассмотрениям настоящего параграфа, нам остается вновь возвратиться к старым координатам х и у согласно формулам (59), (60). Проведя соответствующие замены, на основании леммы 5 мы можем сформулировать следующее предложение.
18 СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 255 Теорема 1. Пусть движение управляемой точки z, имеющей в начальный момент времени а положение 2 (а), описывается системой дифференциальных уравнений zi = fi(z1, ..., zn, и1, ..., ur), *=1, ..., п, где (и1, ..., иг)—управляющие параметры. Пусть в пространстве R переменных z\ ..., zn движется еще случайная точка Q, плотность перехода которой р (а, х, т, у) удовлетворяет уравнению Колмогорова с постоянными коэффициентами to d#dxJ дх1 Обозначим через 2Z шар радиуса г с центром в управляемой точке z, движущейся вместе с z. Обозначим, далее, через г|?(а, x, т) вероятность того, что случайная точка Q, находящаяся в момент а в положении х, на отрезке времени а ^ / ^ т будет «накрыта» шаром 2Z. Тогда вероятность г|)(а, х, т), являющаяся функционалом управления и (/), представляется при | х—z (а) | > г0, где г0 — произвольное положительное, не зависящее от г число, в следующем виде: я|?(а, х, х) = г»-*[ц0(о, х, х)-[ -ф^а, х, т)] + о(е""2). Чтобы выписать явные выражения для функции *ф0 (сгэ х, т) и ^((7, х, т), введем следующие обозначения: а) Х1? ..., Х„— собственные значения матрицы |]а'7||; б) ||а.-/|| — матрица, обратная матрице ||а'7||; в) G(o, х, т, y))=g(o, x—z(o), т, т|) = 1 / au (rf - # + * (а)) (л ' - х' + ^ (а)) \ ~ [2я(т-а)]"/2 6ХР I 4(т-о) /; г) а — константа, не зависящая от уравнении, описывающих движение точек z и Q, и определяемая формулой (55) § 3. Тогда iMff, х, т): А2— 2 2 [о,7 (x'-z' (а)) (х/-г/(а))] 1а,ут|1т|у Ы*. х, T)=fdsfp(a, х, s, у)[Ы-г*'{8)]*Ь{8:?-х)(1у. J J Ф' а Таким образом, теорема 1 дает явное выражение для главного члена вероятности г|)(ог, х, т) и, следовательно, для главного члена Функционала (7).
256 18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ § 5. Вычисление функционала (7) в общем случае В настоящем параграфе вероятность if>(cr, x, т), а следовательно, и функционал (7) будут вычислены для случая, когда коэффициенты уравнения Колмогорова зависят от а и х. Мы предполагаем, что эти коэффициенты удовлетворяют условиям а), б), в), сформулированным в § 2. Схема вычисления в значительной степени воспроизводит схему, которой мы следовали в предыдущем параграфе, поэтому подробно мы будем проводить лишь существенно новые построения. Итак, нам нужно решить уравнение ^+a'v>'*^+6'(ff-*)=0 (129) при условиях я|)(т, х, т) = 0, (130) я|)(а, х% т)2а= 1. (131) Как и в § 4, с помощью формул (51), (60) приведем эту задачу к задаче решения уравнения |Е+а</(|+2(а), а)^ + [Ь'а + г(а), (,)_*'(<,)] Ц. = О (132) при условиях Ф(т, I, т) = 0, (133) <р(а, I, x)|se=l. (134) Перепишем уравнение (132) в несколько иной форме: 4£ + atf(z(a), a)-^L.+ [aV(S + z(a), о)—а" (г (о), cr)]4^L + + [У(|+г(а), a)-z'»]^ = 0. (135) Нашим первым шагом будет конструкция некоторого специального решения Ф?(а, 5, т) уравнения *£± + au(z(Q\ Q)J^ = o. (136) Для того чтобы получить это специальное решение, перейдем с помощью линейного преобразования от координат J;1, ..., £rt к координатам I1, ..., £", в которых уравнение (136) запишется в виде -^ + ДФ, = 0. (137)
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 257 Такое преобразование координат теперь уже зависит от параметра 6. Сфера Se перейдет, очевидно, в эллипсоид ^(e)ll2+...+^(9)In2 = e2, (138) где ?ч(9), • •, М9) СУТЬ собственные значения матрицы||a'>'(z(0), 0)||. Так же как и в предыдущем параграфе, мы можем сконструировать функцию Фое = Фое(а, £, т)+бф0(а, I, т), (139) где *<«• f- ') = г'-^-р(о, Г, т.«s^rff. (но, которая является решением уравнения (137) и удовлетворяет нулевому начальному условию. Перейдем теперь от координат 1\ .. ., f" вновь к координатам 1\ ..., 1п и пусть при этом функции Фо, Фо, бфо0, gQ перейдут соответственно в функции Фо, Фо0, бфо0, gQ. Мы можем выписать функцию ф? (а, £, т) в явном виде. Для этого, как и раньше, обозначим через a/7(z(0), 0) элементы матрицы, обратной матрице |a'7(z(0), 0)||, так что a<V(z(0), в)ал(г(в), 6) = 6£. (141) Тогда ФоеК gf т) = е«-« а(8)" „_, - [а/у(г(в), 6)] ■I' [a,7(z(0), e)V'Vl -\geKg.x^)£""2-a(9)-^'(9)--h(e). (142) где а. £. т. rrt = [2л(т-а)] гв(а, 6, т, т|) = гя >in/gx Хехр{ 4^3^ }. (143) Рассмотрим теперь функцию фо(<?, 5, т), т. е. построенную нами функцию при значении параметра 0, равном а. Функция (f'o(a, £, т) уже не удовлетворяет уравнению (136), в коэффициентах которого вместо 0 подставлено о. Однако очевидна следующая
258 18- СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Лемма Г. Функция фоК 5, т) = ф?(а, £, т)+6<р?, где ф? определена формулой (142), является решением дифференциального уравнения %•+<*'W, ^)Ц7-^[фое]е=с = 0 (144) и имеет нулевые начальные значения при а = т. Теперь, как и в предыдущем параграфе, мы можем искать специальное решение уравнения (132), имеющее нулевые начальные значения, в следующем виде: Ф(<т, 5, т) = <(а, 6, т) + фх(а, 5, т), (145) где фо(а, 5, т)—только что построенное решение уравнения (144), а фх(а, £, т) — пока не известная функция. Подставляя Ф(а, £, т) в уравнение (132) и учитывая лемму Г для фх(а, 5, т), мы получим неоднородное параболическое уравнение %- + а'Щ + г(а), о)^. + [Ы(t+z(o), 0)-«*<<t)]-|l = [ д2Ф?(а, £, т) = -|[а"(6+г(а), а)-а'/(г(а), а)] ^..J Ч + [6'(| + г(а), (7)-г''(а)]а<(аУ'Т)+|[Фое(а, 5, т)]0=о} (146) и начальное условие <Pi(T,Ef т) = 0. (147) Так как правая часть уравнения (145) имеет при £ = 0 полюс порядка п (а не (п+ 1)!), то мы можем почти буквально повторить все рассуждения предыдущего параграфа и доказать лемму, аналогичную лемме 5. Лемма 5'. Функция Ф(сг, Е, т) = ф?(сг, 5, т) + + $&$/? (а, 5+ г(а), s, л+z(s))-< [а'/(т| +z(s), s)—a'V(z(s), s)]x а dVoOs Л» т) dq>jj(s, л» х) + |[Фо9(5, Л, т)]вв.}*|. (148)
18. СТАТИСТИЧЕСКАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 259 где ф? (а, Е, т) определена формулой (142), яри |}£| > г0 (г0—произвольное положительное число, не зависящее от г) с точностью до величин порядка о(е"~2) аппроксимирует решение ф(сг, £, т) уравнения (132), удовлетворяющее начальным и граничным условиям (165) —(169). Чтобы сформулировать теперь окончательный результат, мы вновь должны перейти к координатам х и у по формулам (51), (60). Тогда из леммы 5 последует теорема, аналогичная теореме 1 предыдущего параграфа. Мы не будем здесь выписывать окончательных формул, так как при желании читатель легко это сделает сам. ЛИТЕРАТУРА [1] Kolmogoroff A. N., Uber die analytischen Methoden in der Wahrschein- lichkeitsrechnung, Math. Ann., 104(1931), 415—458. [2] Соболев С. Л., Уравнения математической физики, Физматгиз, М., 1954. [3] Болтянский В. Г., Гамкрелидзе Р. В., Понтрягин Л. С, Теория оптимальных процессов. I, Известия Ак. наук СССР, серия матем., 24 (1960), 3—42. [4] Мищенко Е. Ф., По н т р я г и н Л. С, Одна статистическая задача оптимального управления, Доклады Ак. наук СССР, 128, № 5 (1959), 390—392.
19 ОБ ОДНОЙ ВЕРОЯТНОСТНОЙ ЗАДАЧЕ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ*) Совместно с А. Н. Колмогоровым и Е. Ф. Мищенко Пусть р (а, хч т, у) — плотность вероятности марковского процесса в я-мерном эвклидовом пространстве Rn(n^3), подчиненного уравнению Колмогорова [1] Пусть вторая точка z движется в том же пространстве Rn детерминированно по закону z = z(t). Вместе с z двигается ее окрестность, ограниченная замкнутой поверхностью 2, = z(/)+e2, подобной с малым коэффициентом подобия е неподвижной поверхности 2 (в дальнейшем для простоты будем считать 2 сферой единичного радиуса). Требуется определить вероятность г|)(а, х, т) того, что случайная точка, плотность перехода которой подчиняется уравнению (1), в промежутке времени а^/^т пересечет поверхность 2,. Эта задача была решена Е. Ф. Мищенко и Л. С. Понтрягиным в работе [2] в связи с нуждами оптимального управления. Однако приближенная формула для вероятности г|), полученная в этой работе, оказалась громоздкой и малопригодной для дальнейшего употребления. А. Н. Колмогоров, ознакомившись с работой [2], из вероятностных соображений предложил другое, значительно более простое выражение для приближения Е. Ф. Мищенко и Л. С. Понт- рягина. Однако он не дал доказательства. В настоящей заметке приводится формула Колмогорова и ее доказательство, предложенное Е. Ф. Мищенко и Л. С. Понтрягиным. Это доказательство базируется на построениях, приведенных в работе [2]. Известно (ср. [2]), что искомая вероятность г|?(а, х, т) является решением уравнения (1) и удовлетворяет условиям я|>(т, х% т) = 0, г|?(а, х, т)|2о= 1. (2) *) Докл. АН СССР.—1962.—Т. 145, № 5.—С. 993—995.
19. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 26! А. Н. Колмогоровым для главной части К (or, х, т, в) вероятности \р предложена следующая формула: т К (а, х, т, е) = е"-2 $ p (a, х, s, г (s)) p (s) ds, (3) а где P(s)= $ -^^-dS; (4) Л5 —линейное преобразование £ = ЛД, приводящее дифференци- п VT1 • • д2 \^ д2 альную форму 2и alJ (s, z (s)) _ _ к виду 2^ —т;, a w (s, g) — гармоническая функция, удовлетворяющая условиям w(s,l)=l при ££Л52; w(s,l)—+0 при | g | —^ со. Непосредственно проверяется, что функция /С (а, х, т, е), определенная формулой (3), удовлетворяет уравнению (1) вне точки г (or). Мы докажем, что на некотором специально подобранном малом эллипсоиде с центром в точке г (а) функция /С (а, х, т, е) и функция ¥(ог, х, т, е), построенная в работе [2] и являющаяся главной частью вероятности г|)(а, х, т), отличаются «несущественно», т.е. совпадают с точностью до о (г) при т—а^е и отличаются лишь на 0(1) при т—а < е. Отсюда, в силу леммы 3 работы [2], вытекает, что К (а, дс, т, е) = Чг(а, х, т, е). Для доказательства введем в пространстве (г, t) новые координаты по формулам z = £ + z(f), o^/<s, так что х = % + г(а), У = Ц rz(s). Положим далее 1 = А01. При этой замене координат функция К (а, х, т, е) перейдет в функцию Q(o, £, т, е), а функция 4я (а, х, т, е) — в функцию Ф(а, £, т, е). Очевидно, т Q (а, I, т, е) = е"-2 J </(а, g, s, 0) р (s) ds, (5) а где <7(а, |, s, г)) = р(о, Л-^Ч-г(а), s, Л^г] + z(s)). (6) Функция д(а, х, т, г]) является фундаментальным решением параболического уравнения, получающегося из уравнения (1) при переходе к координатам £. В работе [2] показано, что функция Ф(а, £, т, е) при |£| = е лишь «несущественно» отличается от величины а (а), которая возникает следующим образом. Будем решать задачу Дирихле для
262 19. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ уравнения Ддо = 0 при условиях w(a, £)|//a = l, w(a,l)->0 при |£|--*оо. Здесь Яа—эллипсоид, полученный из сферы е2 преобразованием Ла. Как известно, функция w (а, I) может быть представлена в виде w(a,l) = ^§- + U(a,l,E), (7) где П(а, £, е)—потенциал двойного слоя, создаваемый эллипсоидом HG в точке |. Нетрудно установить связь между а (а) и Р(сг), фигурирующей в формуле (4). Действительно, если учесть, что интеграл от нормальной производной по поверхности Н0 от потенциала двойного слоя П(а, |, е) равен нулю, то, продифференцировав правую и левую части соотношения (7) по нормали к Яа и взяв затем интеграл по Яа, убедимся, что РМ = тда=тга<а>» (8) где Г — гамма-функция. Покажем, что функция Колмогорова Q(o, £, т, е), определенная формулой (5), также лишь «несущественно» отличается от а (а) при |£| = е. Пользуясь соображениями и оценками работы [2], прежде всего можно показать, что I т I Q(o, £, т, в) =б-^7(а, l,s9 0) где v(a» £, s» Л)—функция Грина теплового уравнения: Y(q'^S^)=[4n(s-a)^g~'S',1'V4(S"g)- (Ю) Вычислим величину интеграла гп~2)у(оу £, s, 0)Р (s)ds при a £| =е. Имеем т e»-^Y(a, i, s, 0)||g|=ep(s)ds = a x = e»-»$Y(*. i. s,0)||{|=e[P(a)p(s)-P(a)]ds= a вР(о)в—Г I g_eV4(s_0)rf (4я)"/2 J (s-а)"/2 ^ T + e«-2$Y(*> 5, s,0)|1|1=Jp(s)-3(a)]ds. (11) P(s)ds+o(l), (9) 111 = 8
19. ВЕРОЯТНОСТНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 263 Положим s—о = гЧ. Тогда Т со ^Щ— f L_ e-e»/4 (.-a) ds = -Щ-- f -JL- e-1/*' Л + со (е, а, т), (4я)л/2 J (s-a)a/2 (4л)п'2 J *п'2 -r v , , ;, где со(8, a, т) ограничена при т—a^e и имеем величину порядка о(1) при т—а>8. Сделав замену х= 1/4/, получим ^^г«""'*~ёИт-о-<,'>- "2» v ' о Далее, легко убедимся, что X e"-»Sv(*. 6. s.O)||6|=e[P(s)-P(a)]ds=o(l). (13) ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] А. N. Kolmogoroff, Math. Ann. 104, 415(1931). [2] Е. Ф. Мищенко, Л. С. По нт р я г и н, Изв. АН СССР. Сер. мат., 25, 477 (1961).
20 МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ*) Совместно с В. Г. Болтянским, Р. В. Гамкрелидзе и Е. Ф. Мищенко Физические процессы, имеющие место в технике, как правило, управляемы, т. е. могут осуществляться различными способами в зависимости от воли человека. В связи с этим возникает вопрос о нахождении наилучшего в том или другом смысле или, как говорят, оптимального управления процессом. Речь может идти, например, об оптимальности в смысле быстродействия, т. е. о достижении цели процесса в кратчайшее время, или о достижении этой цели с минимальной затратой энергии и т. п. Математически формулированные, эти вопросы являются задачами вариационного исчисления, которое и обязано им своим возникновением. В классическом вариационном исчислении нет, однако, решения целого ряда вариационных задач, важных для современной техники. Докладчикам принадлежит излагаемое здесь решение значительного числа таких вариационных задач неклассического типа. Решение это в существенных чертах объединяется одним общим математическим приемом, который мы называем принципом максимума. Следует заметить, что все основные необходимые условия классического вариационного исчисления с обыкновенными производными следуют из принципа максимума. Мы рассматриваем такие управляемые процессы, каждый из которых может быть описан системой обыкновенных дифференциальных уравнений *£-=.? (х\ ..., хп\ и\ ..., и% *=1, ..., п. (1) Здесь х1, . . ., хп — величины, характеризующие процесс, т. е. фазовые координаты управляемого объекта, определяющие его состояние в каждый момент времени /; и\ ..., иг—параметры управления, определяющие ход процесса, и /—время. Для того чтобы ход управляемого процесса (1) был определен на некотором отрезке времени /0^^^^i> достаточно, чтобы на этом отрезке времени были заданы (как функции времени) параметры управления и1, ..., иг\ W- W(t), /---=1, . .., г. (2) *) Труды IV Всесоюзного математического съезда, Ленинград, 3—12 июля 1961. Т. 1. Пленарные доклады.—Л., 1963.—С. 214—218.
20. МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 265 Тогда при заданных начальных значениях x'(t0) - 4, i-- 1, ..., n, (3) решение системы (1) определяется однозначно. Подлежащая решению вариационная задача, связанная с управляемым процессом (1), заключается в следующем. Рассматривается интегральный функционал и I=\f*(x\ ..., х\ и\ ..., u')dt, (4) to где /°(ха, .. ., хч, и1, . . ., иг) — заданная функция. Для каждого управления (2), заданного на некотором отрезке t0^t^t1, однозначно определяется ход управляемого процесса, и интеграл (4) принимает определенное значение. Допустим, что существует управление (2), переводящее управляемый объект из заданного начального фазового состояния (3) в предписанное конечное фазовое состояние xi(t1) = x{, i=l, ..., л. (5) Требуется отыскать такое управление uJ(t), /=1,...,/-, (6) которое осуществляет переход управляемого объекта из состояния (3) в состояние (5) таким образом, чтобы функционал (4) имел минимальное значение. При этом моменты времени t0 и /а в рассматриваемой постановке задачи не фиксируются, а требуется только, чтобы в начальный момент времени объект находился в состоянии (3), а в конечный момент—в состоянии (5) и чтобы функционал (4) достигал минимума. (Случай, когда моменты времени /0, t1 фиксированы, также представляет интерес; он легко сводится к задачам, упоминаемым в этих тезисах.) В частном случае, когда функция /°(х\ . . ., хп, и1, . . ., иг), определяющая функционал (4), берется равной единице, функционал (4) имеет величину tx —10 и наша вариационная задача превращается в оптимальную задачу быстродействия. В технических задачах, где параметры управления и1, ..., иг определяют, например, положение рулей машины, эти параметры не могут принимать произвольных значений, а удовлетворяют некоторым неравенствам. По самому устройству описываемого системой (1) механизма параметр и1 может, скажем, принимать лишь значения, удовлетворяющие условию М<1. (7) Или, например, если параметры и1, и2 характеризуют векторную величину на плоскости, модуль которой не превосходит единицы,
266 20. МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ а направление произвольно, то эти параметры подчинены условию (и*)* + (и*)*^1. (8) Вообще, следует считать, что точка (и2, ..., иг) должна принадлежать некоторому множеству U пространства с координатами и1, ..., иг, причем выбор этого множества U отражает специфику объекта (1). Множество U («область управления») в математической постановке задачи считается произвольным, но для технических задач особенно важен и характерен случай замкнутого множества U (ср. неравенства (7), (8)). Это условие означает, что для руля допустимы и его крайние положения (значения иг=±1 в неравенстве (7) или граничные точки круга (8)), могущие, в частности, давать оптимальное управление. Именно это обстоятельство делает рассматриваемую задачу неклассической, так как в классическом вариационном исчислении варьируемые параметры не могут удовлетворять неравенствам типа (7), (8), включающим и равенства. Особенно ярко демонстрирует неклассичность нашей вариационной задачи оптимальная задача по быстродействию для системы (1), правые части которой являются линейными функциями относительно переменных л:1, ..., хп, и1, ..., иг с постоянными коэффициентами, а множество U представляет собой замкнутый выпуклый многогранник. Примером такого многогранника является куб, определяемый неравенствами |и>|<1, /= 1 г. В этом случае оказывается, что оптимальное управление (6) осуществляется точкой (u}(t), ..., ur(t)), поочередно находящейся в различных вершинах многогранника U. Правила, согласно которым управляющая точка переходит скачками из одной вершины в другую, и дают закон оптимального управления. Эта линейная вариационная задача, имеющая важные технические приложения, легко решается на основе наших общих методов. Классические же методы для решения такой задачи совершенно неприменимы. Из сказанного о перескоках оптимально управляющей точки с вершины на вершину многогранника U следует, что класс допустимых управлений (2) нельзя считать состоящим из непрерывных функций. Мы предполагаем всюду, что он состоит из кусочно-непрерывных функций. Фазовые координаты х1, ..., хп считаются непрерывными и кусочно-дифференцируемыми функциями времени. В этих предположениях необходимые условия оптимальности формулируются в виде принципа максимума, опубликованного нами в ряде статей в 1956—1960 гг. Если рассматриваемый объект представляет собой механическую систему, то часть х1, ..., xk ее фазовых координат описывает ее геометрическое состояние, а часть xk+1, ..., х2к(2k =п) —
20. МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 267 ее скорости. В некоторых задачах целью управляемого процесса в этом случае может быть не прибытие объекта в определенную точку (х{, ..., xf[) фазового пространства, но занятие механической системой определенного пространственного положения (х\ч ... ..., х%) при произвольных конечных скоростях. Таким образом, здесь имеет место вариационная задача об оптимальном переходе объекта из определенной начальной точки (xj, ..., х%) фазового пространства в произвольную точку ^-мерной плоскости, определяемой уравнениями Мы видим, таким образом, что ранее сформулированная оптимальная задача не охватывает ряда важных вопросов. Ввиду этого разбирается также вопрос об оптимальном переходе объекта с некоторого начального многообразия М0 точек фазового пространства на некоторое конечное многообразие Mlt причем размерности многообразий М0 и Мх произвольны (в частности, когда они обе равны нулю, мы получаем первоначальную задачу). Совершенно ясно, что не только управляющие параметры объекта, но и его фазовые координаты по самому характеру технической задачи должны иногда удовлетворять некоторым неравенствам. Если, например, речь идет о движении самолета и х1 обозначает его высоту над землей, то должно быть выполнено неравенство x1^h>0i где h—минимальная допустимая высота полета. Неравенство xx^h вовсе не вытекает из свойств системы уравнений (1) и из неравенств, налагаемых на управляющие параметры, а является совершенно независимым. Задача об оптимальном управлении объектом, при котором изображающая его точка фазового пространства должна все время оставаться в некоторой замкнутой области G фазового пространства, также решена. Предполагается при этом, что область G имеет кусочно- гладкую границу. Движение объекта в этих условиях протекает частично внутри области G, подчиняясь там обычному принципу максимума, частично -же по границе области G. подчиняясь там осложненному принципу максимума. Переходы от кусков траекторий, проходящих внутри G, к кускам траекторий, проходящим по границе области G, подчиняются своеобразным правилам, напоминающим законы преломления света и в некотором смысле обобщающим их. До сих пор речь шла об оптимальном управлении, приводящем объект в заданную точку или на заданное подмногообразие фазового пространства. Задачей оптимального управления может быть, однако, и задача об оптимальном попадании в движущуюся точку фазового пространства. Допустим, что в фазовом пространстве имеется движущаяся точка *'=е'(0. *=1, ...,л. (9)
268 20. МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ Тогда возникает задача об оптимальном приведении объекта (1) в совпадение с движущейся точкой (9). Эта задача легко приводится к рассмотренной. Достаточно ввести новые переменные, положив У'= х1'—8'(0, £- 1, .... л. В результате этого преобразования управляемая система (1) преобразуется в новую, правда уже не автономную, а целью управляемого процесса становится приведение нового объекта (у1, ..., уп) в неподвижную точку (0, . . ., 0) фазового пространства. Так как основные результаты легко распространяются и на неавтономные управляемые процессы, то задача оказывается решенной. Здесь мы считали, что движение преследуемой точки (9) определено заранее на протяжении всего времени, могущего входить в рассмотрение. Совершенно новый и практически важный вопрос возникает, когда движение преследуемого объекта не известно заранее, а сведения о нем поступают только с течением времени. Для того чтобы решать такую задачу о преследуемом объекте, нужно иметь некоторые данные о его поведении. Весьма важным представляется случай, когда преследуемый объект является управляемым, так что его движение описывается системой уравнений ^- = g!'(z\ .... z\ v\ ...,^), 1 = 1, ..../I, (10) причем движение его происходит в том же фазовом пространстве, что и движение преследуемого объекта (1). Задача заключается втом, чтобы, зная технические возможности преследуемого объекта, т. е. систему уравнений (10) и его положение в данный момент времени, определить управление преследующего объекта в тот же момент времени с тем, чтобы преследование осуществлялось оптимальным образом. В такой постановке задача пока не решена. Однако нами получено решение другой задачи преследования. Предполагается, что в начальный момент положение преследуемого объекта известно, а дальнейшее его поведение описывается вероятностным образом—именно: процесс движения его считается марковским. В этих предположениях ищется такое управление преследующего объекта (1), при котором встреча некоторой малой окрестности объекта (1) с преследуемым объектом является наиболее вероятной. Первоначально мы искали оптимальное управление (6) при фиксированных начальном (3) и конечном (5) положениях объекта. Часто, однако, бывает нужно найти не одно оптимальное управление (6), а общее решение задачи при произвольных положениях (3) и (5). Будем для определенности считать, что конечное положение (5) объекта фиксировано, а начальное (3) является произвольной точкой пространства. Тогда искомое оптимальное
20. МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ 269 управление (6) становится функцией не только времени, но и начальной точки Х0 — (Х0, . . . , Хо), так что мы имеем оптимальное управление Zl(t,x0)...Zr(t, х0). (И) Положим uJ(t0, х0) = и/(х0). Если x(t) — положение управляемого объекта в момент времени / при управлении (11), то имеет место очевидное тождество W{t, x(t)) = tf(x(t)), /=lf . .., г, выражающее тот факт, что в каждый момент времени управлять объектом следует оптимальным образом. Поэтому вместо функций (И) от п—1 переменных можно рассматривать функции иЧ*), ...,й'(*) (12) от п переменных. Эти функции дают так называемый синтез оптимального управления. Вопрос о самом существовании синтезирующего управления (12) является весьма не простым; он решен положительно для линейных систем при некоторых дополнительных предположениях весьма общего характера. Для ряда конкретных примеров линейных систем построено и само синтезирующее управление (12). Исходя из предположения, что синтезирующее управление (12) существует и что соответствующий ему функционал (4), являющийся теперь функцией точки 1-- 1{х)-1(х\ ...,*"), (13) является непрерывно дифференцируемой функцией переменных а1, . . ., хп, американский математик Р. Беллман составил для функционала (13) некоторое дифференциальное уравнение с частными производными. Это уравнение Беллмана дает другой, отличный от нашего, но тесно связанный с ним подход к решению оптимальной задачи управления. Следует заметить, что предположение о непрерывной дифференцируемости функционала (13) не выполняется в самых простых случаях, так что соображения Беллмана дают скорее хороший эвристический прием, чем математическое решение задачи. Принцип максимума, кроме его полной математической обоснованности, имеет и то преимущество, что он приводит к системе обыкновенных дифференциальных уравнений, в то время как подход Беллмана требует решения уравнения в частных производных.
21 О НЕКОТОРЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ*) 1. Постановка вопроса. Предполагается, что состояние объекта определено точкой z = (г1, ..., zn) векторного я-мерного пространства R и поведение его определяется системой обыкновенных дифференциальных уравнений: dz/dt = Z(z% uy v) = X(z, u) + Y(z, v), (1) правые части которых — аналитические функции; и и v—управляющие параметры. Здесь и — точка аналитического ^-мерного многообразия Р, a v—точка аналитического ^-мерного многообразия Q. В пространстве R задано аналитическое многообразие М некоторой размерности. Игра считается законченной, когда точка z достигает многообразия М. Задача заключается в том, чтобы в каждый момент времени определить поведение параметра и, ведущее к завершению игры в кратчайший срок, зная состояние z объекта в этот момент времени и значение параметра v в тот же момент времени. Следует отметить, что в некоторых точках z приходится использовать не только сами значения параметра и, но и некоторое число его производных по времени. Параметр v предполагается кусочно-аналитической функцией времени t. 2. Основной результат. Так же как в теории оптимальных процессов [1], наряду с контравариантным вектором z введем ковариантный вектор «ф==(,ф1, ..., tyfi) и определим функцию Я, положив: п Я (г, г|>, и, u) = i|?Z= 2 ^'(z, и, v). (2) t = i При фиксированных значениях векторов г и г|) найдем максимум М (г, г|)) функции tyX (г, и) и минимум т(г, г|)) функции я|)К (г, v). Составим систему обыкновенных дифференциальных уравнений: dz'/ds1 = дЯ/дф,.; dtyjds1 = —дН/dz1', (З) приняв за независимое переменное s1, и дополним эту систему конечными соотношениями ipX(z, и)=М(г, г|>), m •фУ(г, v) = m(z, -ф). к ' *) Докл. АН СССР.—1964.—Т. 156, № 4.—С. 738—741.
21. О НЕКОТОРЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ 271 Будем считать, что система (3), (4) разрешима в следующем смысле. Пусть z0— произвольная точка из М и if)0 —единичный ковариантный вектор, определяющий гиперплоскость, касательную к М в точке z0. Будем считать, что система (3), (4) имеет единственное решение z = z(sl)\ if = i()(s1); u = u(s1); v = v(s1), (5) определенное для всех значений sx^0 и удовлетворяющее начальным условиям z (0) = z0; if> (0) = я|А Решение (5) зависит от начальной пары (z0, ур°) = х, а совокупность всех таких пар образует аналитическое многообразие N размерности п—1, в котором мы введем локальные координаты s2, ..., s\ Образуя всевозможные пары вида (s1, х), где s1—отрицательное число, ах — точка многообразия N, мы получим многообразие S размерности п, точки которого будем обозначать через s = (s1, х) = (s1, s2, ..., sn). Учитывая зависимость решения (5) от начальных условий, мы можем написать z = z(s)=(o(s)\ ^ = ^>(s)', u = a(s)', v = v(s). (6) Функция со дает аналитическое отображение многообразия S в пространство R. В случае, когда отображение со взаимно однозначно и имеет нигде не обращающийся в нуль функциональный определитель, задача решена Беллманом. Однако в очень простых случаях, представляющих интерес, отображение со не является взаимно однозначным. Преодолению этой трудности в некоторых простых предположениях и посвящена настоящая работа. Из всех точек s = (s1, х), переходящих в одну и ту же точку z при отображении со, выберем ту, для которой число s1 имеет наибольшее значение. Об этой точке 5 мы будем говорить, что она принадлежит верхнему слою, и будем обозначать ее через со"1 (z). Теорема. Пусть z—некоторая тонка из R и s0 = (sl, ■**<>) = = co-1(z). Тогда, исходя из состояния z объекта, игру всегда можно закончить за время, не превосходящее числа \s\\. Теорема эта верна, конечно, не для произвольной игры (1). Здесь она будет доказана лишь в некоторых весьма стеснительных предположениях. Пусть z(t) — решение уравнения (1), начинающееся в z и кончающееся на М. Положим co_1(z(/)) = (s1 (/), x(t)). Допустим, что ds1(t)/dt'^l. Тогда игра заканчивается за время, не превосходящее числа |sj|. Следовательно, нам достаточно строить управление u(t) по мере того, как становится известным управление v{t), и строить его так, чтобы все время выполнялось неравенство dslldt^\. Управления u(t) = u (si + t, x0), v (t) = v(sl -\-t, x0) называются экстремальными. Им соответствует экстремальное движение объекта z = co(s0-f/, x0), для которого dslldt=\.
272 21. О НЕКОТОРЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ Ниже следуют некоторые указания на метод доказательства для неэкстремального управления v(t), а также формулировка условий, при которых теорема доказана. 3. Запись уравнения (1) в п ереме н ны x s1, s2, . .., sn. Положим H(s, и, v) = H(z(s), q(s), и, v); H(s) = H(s, u(s), v(s)); (7) m = W(s, u, v) = H(s, u, v)—H(s). (8) Из условия (4) следует Я (5, и, v(s))^H(s); H(s, u(s), v)^H(s). (9) В случае если точки и и v соответственно близки к точкам a (s) и v(s), можно придать смысл величинам 6u = u—a(s); &v = v — v(s)\ (10) мы будем их рассматривать как векторы, координаты которых вычисляются в локальных координатах многообразий Р и Q. Разлагая величину 8# в ряд по координатам векторов (10), получим бя = -мви) + £,(в10+---. (И) где fs и gs — неотрицательные квадратичные формы, зависящие от s, а члены порядка выше второго опущены. Легко доказывается, что Я (s) = ф (s) dco (syds1; дН (syds1 = 0; ty(s)dco(s)/dsl' = 0, (=2,..., п. ( ] В дальнейшем мы будем предполагать, что выполнено Условие 1. В каждой точке s векторы дсо (s)/ds2, ..., day (s)/dsn линейно независимы. Из этого следует, что функциональный определитель D (s) отображения со удовлетворяет условию D(s)=d(s) Я (s), где d(s) не обращается в нуль. Пусть z = co(s0) и s1, ..., sn — локальные координаты в окрестности точки s0. Для того чтобы записать системы (1) вблизи точки z в переменных s1, ..., sn, достаточно разрешить векторное уравнение относительно величин ds'/dt. Умножая соотношение (13) на if (s) и деля результат на Я (s), получим, в силу (12), dsl/dt=l + 8H/H(s). (14) Если Я (s0) > 0, то D (s0) = d (s0) Я (s0) ф 0, и потому уравнение (13) можно разрешить; в частности, верно соотношение (14).
21. О НЕКОТОРЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ 2?3 В этом случае, каково бы ни было управление v(t), мы определим управление u(t) соотношением u(t) u(s(t)), и тогда, в силу (9), соотношение (14) дает ds1/dt^\. Зто соответствует решению Беллмана. Если #(s0)^0, то будем считать, что выполнено Условие 2. При H(s0)- 0 имеем grad Н (s0) ФО. Тогда существует такой вектор r(s)= (r1 (s), г2(s), ..., rn(s))> аналитический в окрестности точки s0, что г1 (s) = 1 и £^/"'(*) = 0 при tf(s) = 0. (15) 1=1 Из (13) можно вывести в дополнение к (14), что ^ = 7щг''(*)-\ R''(s, u,v), где R'(s, u(s), v(s)) 0, (16) причем Rl'(s, и, v) — аналитическая функция. Производная некоторой функции (p(s) в силу системы (14), (16) равна ^=^r(8) + ^ + <PR(8,U,v)9 (17) где <pr(s)=-grad(p{s)-r{s)\ q>R(s, u(s), v(s))=0. 4. Условие разрешимости системы (14), (16). Пусть So" (si, x0) = co~1(z)i H(s0)^0. Считая управление v(t), t^O, произвольно заданным не экстремальным, будем искать такое u(t), t^O, чтобы решение s(t) системы (14), (16) с начальным условием s (0) =- s0 удовлетворяло неравенствам ds*(t)ldt>\\ H(s(t))>0 при />0. (18) Так как v(t)=£v(t), то возможны два случая: v(0)=£v(s0), (19) v(t) = v(t) + btm + 0(tm+1), (20) где ЬфО—некоторый ^-мерный вектор, а т—натуральное число. В случае (19) налагаем два дополнительных условия. Условие 3. 6Я(50, u{s0), и(0))>0. Положим H*(s)=H(s), H1(s) = H°r(s), . .., Hi + 1(s) = H*(s) (см. (17)). Условие 4. Для каждой точки s0 из верхнего слоя существует такое неотрицательное целое k, что #° (50) = 0, . .. ,Hk~1 (s0)=0, Hk(s0)>0. Полагая u(t)=и (s(t)), мы при этих условиях можем найти Решение s(t) системы (14), (16), удовлетворяющее условиям (18). В случае (20) налагаем еще два дополнительных условия. Условие 5. Квадратичные формы fSo и gSo (см. (11)) невы- Рождены.
274 21. О НЕКОТОРЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ Квадратичные формы с матрицами, обратными матрицам форм fs0 и £s0> обозначим через fSo, gSo- Они применимы к ковариант- ным векторам. Функцию ##(s, и, v) (ср. (17)) разложим в ряд Тейлора по 8и и 8v: HR(s, и, v) = 'k(s)6u +\i(s)8v+ ... Здесь X(s) и \i(s) — ковариантные векторы. Условие 6. fSo(l(s0))> gSo(\i(s0)). В случае (20) существует такое управление u(t) (вообще говоря, не совпадающее с u(s(t))), что решение s(t) системы (14), (16) удовлетворяет условиям (18). Если при s1, близком к si, выполнены тождества X(s\ x0)^0; ii(s\ *0) = 0; £xHr(s\ х0) = 0, (21) то условие 6 не выполнено, но тогда при k = 2 (см. условие 4) для управления (20) можно взять управление u(t)= и (s(t))f и решение s(t) будет удовлетворять условиям (18). 5. Пример. Пусть а и b—два объекта, геометрические положения которых определяются векторами £ и г\ в эвклидовом пространстве Е произвольной размерности. Их движения задаются уравнениями | + оь| = ри, T) + pf| = oi;. Здесь а, р, р, а— положительные числа; и и v — управляющие векторы из Е, по модулю равные 1. Игра заключается в преследовании объекта b объектом а. Изложенная выше теория применима к ней, если выполнены неравенства р > а, р/а > а/р. При расчете этого примера используется следующее общее предложение. Пусть z—произвольная точка из R, не принадлежащая М. Допустим, что совокупность всех таких отрицательных чисел s1, для которых «(s1, x) = z, определяется из уравнения F(s1tz)--0 и чго при отрицательном s1 уравнение это несовместно с уравнениями ^^(s1, z) = 0; —,F(s1t z) = 0t i=lt ..., п. Тогда при выполнении условия 1 при отрицательном s1 выполнено соотношение Н (s) = a(s)jjF (s1, z), где z = co(s), s1 есть корень уравнения F(s1t z) = 0 и a (s) не обращается в нуль. Это предложение дает возможность проверить условие 4; если a(s)>0, условие 4 эквивалентно условию ±F(sl 2) = 0, ..., -щгР{81 £) = 0f 1J^LrF(sji £)>0. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, В. Г. Болтянский, Р. В. Г а м к р е л и дз е, Е. Ф. Мищенко. Математическая теория оптимальных процессов, М.» 1962.
22 К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР*) Введение 275 § 1. Задача преследования 277 § 2. Дифференциальная игра 281 § 3. Введение новых переменных 289 § 4. Доказательство первого варианта теоремы 1 297 § 5. Линейные дифференциальные игры 307 § 6. Контрольный пример задачи преследования 313 § 7. Усиление условия 5 320 § 8. Доказательство второго варианта теоремы 1 325 § 9. Сравнение двух вариантов теоремы 1 334 Цитированная литература 336 Введение В этой работе дается полное изложение результатов, которые ранее без доказательств и в менее законченном виде были опубликованы мною в ДАН [1]. Исходной здесь является задача о преследовании одного управляемого объекта другим управляемым объектом. Важнейшая характерная черта постановки задачи состоит в том, что будущее поведение преследуемого объекта не т редполагается известным. При осуществлении преследования мы должны исходить из данных о состоянии объектов в настоящий момент и из знания технических возможностей объектов. Для упрощения вычислений задачу преследования естественно несколько обобщить, превратив ее в так называемую дифференциальную игру. Термин этот первоначально был введен американским математиком Айзексом (R. Isaacs) в закрытых работах, а затем проник в открытую печать и стал общепринятым. В 1965 г. в открытой печати была опубликована книга Айзекса [2], посвященная дифференциальным играм, в которой содержатся некоторые общие соображения и разбор многочисленных примеров. Результатов, полученных мною в настоящей работе, книга Айзекса не содержит. К изучению дифференциальной игры, а следовательно, и к задаче о преследовании можно в некоторых случаях применить метод динамического программирования Беллмана (Bellman), который, впрочем, был, по-видимому, ранее известен Айзексу и без *) Успехи мат. наук.—1966.—Т. 21, вып. 4.—С. 219—274.
276 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР ссылки на Беллмана изложен в книге Айзекса [2]. При применении этого метода составляется дифференциальное уравнение в частных производных и без труда устанавливается, что если существует дифференцируемое решение этого уравнения, то соответствующая задача оказывается решенной. Однако в очень простых интересных случаях решение уравнения Беллмана представляет собой неоднозначную ветвящуюся функцию, производные которой на поверхностях ветвления обращаются в бесконечность. Именно так обстоит дело с задачей преследования, которая в качестве контрольного примера разбирается здесь (см. § 1 (1.3), (1.4), подробности в § 6). Я применяю здесь построения, аналогичные тем, которые дают принцип максимума [3]. Метод состоит в составлении и решении системы обыкновенных дифференциальных уравнений, в результате чего строится дифференцируемое отображение со некоторого многообразия S в фазовое пространство R задачи. Размерности пространств S и R совпадают. Многообразие S представляет собой прямое произведение многообразия N начальных значений на полупрямую т^О, на которой принимает свои значения независимое переменное т системы дифференциальных уравнений. Начальные значения берутся при т 0 и точки многообразия S, где т=-0, образуют его границу. Внутренние точки многообразия S образуют открытое многообразие S. Если в многообразии N начальных значений ввести локальные координаты s2, . . ., sn и положить т^-s1, то мы получим локальные координаты s1, s2, . . ., sn в многообразии S (подробное изложение см. § 2, А)). Таким образом, точка s многообразия S записывается в форме: s^-is1, s2, ..., s"). Отображение со, вообще говоря, не является взаимно однозначным, так что обратное к нему отображение со"1 неоднозначно. Пусть z—точка из /? и со-1^)^ = (s1 (г), s2(z), ..., sn{z)). Так определенная функция s1 (г) является функцией Беллмана (вообще говоря, она имеет ветвления). В случае, если отображение со взаимно однозначно и имеет всюду не обращающийся в нуль функциональный определитель, функция s1 (г) решает задачу методом Беллмана. В этой работе я накладываю на отображение со более слабое, но все же очень нежелательное ограничение. Для того чтобы функциональный определитель отображения со был отличен от нуля в точке s, необходимо и достаточно, чтобы векторы dco (s) dco (s) dco (s) "ds*" ' ~ds*~ ' ' ' '' dsn были линейно независимы. Вместо этого я предполагаю только, что векторы dco (s) dco (s)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 277 линейно независимы в каждой точке s многообразия 5. Это есть условие 1, налагаемое здесь на дифференциальную игру (см. §2). Остальные условия 2, ..., 9 представляются мне более естественными и легче устранимыми. В работе М. И. Зеликина (см. приложение) дается пример дифференциальной игры, где выполнены все условия 2, ..., 9 и не выполнено лишь условие 1. М. И. Зеликин показывает, что для этой игры основной результат и самый метод настоящей работы уже не пригодны. Есть основания все же надеяться, что и в том случае, когда для игры не выполнено условие 1, для ее изучения можно воспользоваться отображением со многообразия S. При выполнении условия 1 используется не все многообразие S, а только его верхний слой и точки, близкие к верхнему слою. При этом считается, что точка s= (s1, s2, ..., sn) принадлежит верхнему слою, если среди всех точек s=(s1, s2, . . ., srt), удовлетворяющих уравнению со (s) = z при фиксированном г, она обладает наибольшим значением величины s1 (подробно см. § 2, В)). Таким образом, из многообразия 5 вырезается его часть (именно, верхний слой), которая и используется; при этом разрезы производятся по поверхностям ветвления, т. е. по поверхностям, где функциональный определитель отображения со обращается в нуль. В случае невыполнения условия 1 не ясно, как нужно выбрать часть многообразия S, но можно сделать разумное предположение о том, по каким поверхностям следует производить разрезы с тем, чтобы в дальнейшем использовать лишь какую-то часть многообразия S. Разрезать многообразие 5 следует по двойным точкам, при этом двойной точкой будем называть такую точку s из S, что для нее найдется другая точка s*=£s из S, удовлетворяющая условиям: со (s) — со (s*), s1 - s1*. Очевидно, что обе точки s и s* являются двойными и совокупность всех двойных точек, вообще говоря, образует в многообразии S гиперповерхность. Неясно, однако, какие части многообразия 5, полученные после разрезания по поверхностям двойных точек, следует использовать, в то время как при выполнении условия 1 нужная часть многообразия 5 точно определена, это его верхний слой. § 1. Задача преследования Объект называется управляемым, если в каждый момент времени / его состояние определяется вектором некоторого заданного векторного фазового пространства (вектор этот обозначим через х)у а закон движения описывается векторным дифференциальным уравнением x=f(xy и). (1.1)
278 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Здесь х—производная вектора х по времени, а и—управляющий параметр. Управляющий параметр и представляет собой, вообще говоря, не число, а точку некоторого пространства. В случае, если х есть технический объект, то уравнение (1.1) задает не конкретное движение этого объекта, а его технические возможности, описывая все возможные движения, на которые он способен. Для задания конкретного движения объекта нужно задать его начальное состояние х0 в некоторый момент времени /0, а затем по мере течения времени задавать значения управляющего параметра и. Задание значений управляющего параметра и может осуществляться различными способами. В конечном счете параметр и оказывается функцией времени t, значения которой определяются по мере роста времени, однако может задаваться и непосредственно как функция времени и= u(t) или же как функция состояния объекта в этот момент времени и^ и(х), или же определяться в зависимости от каких-либо внешних причин, например от поведения другого объекта. В случае, если х есть механический объект, часть координат вектора х определяет геометрическое положение объекта, остальные же координаты задают скорости изменений геометрических координат. В ряде случаев фазовое пространство объекта не является векторным пространством, а представляет собой более сложное многообразие. Так обстоит дело, например, в случае, если объект является твердым телом. Переход к общему фазовому многообразию не представляет трудностей, и мы не будем осложнять изложение рассмотрением этого обобщения. В задаче о преследовании рассматриваются два объекта х и у, возможности второго объекта описываются дифференциальным уравнением y = g(y> v)f (1.2) аналогичным уравнению (1.1), где v—управляющий параметр, являющийся кусочно-непрерывной функцией времени. Мы будем считать, что объект у движется произвольным образом согласно уравнению (1.2), а объект х стремится его догнать, в возможно короткое время, используя все свои технические возможности, т.е. двигаясь согласно уравнению (1.1). Преследование считается законченным в момент, когда объекты х и у геометрически совпадут или же когда совпадут их центры тяжести; таким образом, преследование завершается в момент, когда часть координат вектора х становится равной части координат вектора у. Задача заключается в том, чтобы в каждый момент времени t, зная состояние объектов x(t) и (/(/) и значение управляющего параметра v(t) второго объекта, так задать значение и (t) управляющего параметра первого объекта, чтобы преследование осуществлялось наилучшим образом. Важно подчеркнуть, что дальнейшее поведение объекта у в моменты времени, следующие за t, не предпо-
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 279 лагается известным при вычислении значения u(t). В самом деле, в случае, если второй объект является управляемым, его будущее поведение не может быть известным. Например, если у есть самолет, то его курс может быть внезапно изменен, и предвидеть это изменение заранее невозможно. С другой стороны, такая поста новка задачи не вполне реалистична: как бы ни была полна информация о состоянии второго объекта в данный момент времени, на учет и переработку этой информации необходимо затратить некоторый конечный отрезок времени. Выход из этого затруднения заключается в том, что мы можем осуществлять преследование не самого объекта у, а того положения, в котором он находился некоторое малое время тому назад. Именно, объект x(t) будет стремиться занять положение не самого объекта y(t), а объекта y(t—е), где е—малая положительная константа. Ясно, что если в некоторый момент времени объекты x(t) и y(t—е) придут к геометрическому совпадению, то это будет означать хотя и не совпадение объектов x(t) и y(t), но их большую близость, так как за время е объект у сможет уйти очень недалеко. Пусть Л—некоторое множество пар (х, у) состояний объектов один и два. Мы будем говорить, что преследование объекта два объектом один осуществимо на множестве Л, если при произвольном исходном положении х0, у0 обоих объектов, принадлежащем Л ((#0> у0)£Л), и при произвольном управлении вторым объектом существует такое управление первым объектом, при котором преследование завершается за время, не превосходящее числа T(x0i y0)^0\ при этом значение управляющего параметра u(t) в любой момент времени t преследования определяется состояниями x(t) и y(t) обоих объектов и значением управляющего параметра v(t) в тот же момент времени t. В случае, если множество Л является множеством всех пар состояний (#, у) объектов один и два, мы будем говорить просто, что преследование объекта два объектом один осуществимо. Функцию Т (x0i у0), оценивающую время преследования, мы будем считать оптимальной, если при любом исходном положении (х0, y0) обоих объектов из Л существует такое поведение второго объекта, при котором время преследования не может быть меньше числа Т(х0, у0). Задача заключается в том, чтобы найти сравнительно общие условия, достаточные для осуществимости преследования, построить функцию u(t), осуществляющую преследование, и вычислить функцию T(xot y0). В настоящей работе эта задача решается при сравнительно стеснительных условиях, накладываемых на объекты. Условия эти, несомненно, могут быть ослаблены. Для того чтобы показать, что этим условиям удовлетворяют некоторые нетривиальные случаи преследования, в работе рассматривается следующий контрольный пример (см. § 6). Пусть Е—евклидово пространство произвольной размерности v>2, a^ и уг—два вектора этого пространства, определяющие
280 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР геометрическое положение в нем двух точек. Движения этих точек в пространстве Е описываются уравнениями х1 + ах1 = ри, (1.3) £i+P-0i = *-Ut (1.4) здесь а, р, р, а—положительные числа, а и и v—векторы пространства £, являющиеся управляющими параметрами; оба они произвольны по направлению и имеют единичную длину: 1«1=1. М=1- (1-5) Таким образом, точка хх массы единица движется в пространстве Е с трением а под действием постоянной по величине, именно, равной р, и произвольной по направлению силы ри. Аналогично, точка ул движется в пространстве Е с трением р под действием силы от, произвольной по направлению и постоянной по величине. Рассматривается задача о преследовании точки у1 точкой хх. Преследование считается завершенным в тот момент, когда точки приходят к геометрическому совпадению, т. е. когда имеет место равенство хх=ух. Из общей теории выводится, что преследование точки ух точкой х1 осуществимо, если выполнены неравенства р>а, р/а>а/р. (1.6) Для того, чтобы записать уравнение (1.3), (1.4) в форме (1.1), (1.2), применяют обычный прием, именно, записывают уравнения (1.3), (1.4) в виде х1 = х2, х2 —— ах2+р-и, (1.7) #1 = #2> У2= — Р-02 + <*'*>. (1.8) Если положить х = (хи х2), у = (уи у2), то МЬ1 видим, что уравнения (1.7), (1.8) имеют вид (1.1), (1.2). Функция Т (х0, у0) определяется в этой задаче преследования как минимальный неотрицательный корень некоторого трансцендентного уравнения, коэффициенты которого зависят от векторов х0 = (х10, х20), */о = (#ю> #2о)« Для проведения исследования удобно в задаче с объектами (1.1), (1.2) объединить векторы х и у в один вектор z = (x, у), т. е. составить прямое произведение R фазовых пространств обоих объектов и записать совокупность уравнений (1.1), (1.2) в виде одного уравнения, i = Z(z9 и, и), (1.9) для вектора z, где правая часть Z(z, и, v) удовлетворяет специальному условию, именно: Z(z, uy u) = X(z, u)+Y(z, v). (1.10) Очевидно, что уравнение (1.9), удовлетворяющее условию (1.10), как частный случай содержит совокупность уравнений (1.1) и (1.2).
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 281 Преследование считается завершенным, когда часть координат вектора х совпадает с частью координат вектора у. Этим условием в пространстве R выделяется некоторое подмногообразие М. Таким образом, в обозначениях уравнения (1.9) преследование завершается в тот момент, когда точка z пространства R приходит на многообразие М. Если в контрольном примере (1.3), (1.4) размерность геометрического пространства Е равна v, то размерность фазового пространства каждого из объектов равна 2v, а размерность соответствующего пространства R равна 4v; в этом пространстве R соответствующее подмногообразие М определяется условием хх = ^f/j, которое содержит v независимых скалярных условий, так что размерность многообразия М равна 4v—v=-3v. В нижеследующих параграфах для удобства вычислений мы будем вместо задачи преследования (1.1), (1.2) рассматривать несколько более общую задачу, соответствующую уравнению (1.9), которую назовем дифференциальной игрой. § 2. Дифференциальная игра Пусть R—/г-мерное векторное евклидово пространство и г ■-= = (г1, . . ., zn) — вектор этого пространства, движение которого описывается векторным уравнением z = Z(z, и, v) = X(z, u) + Y(zy v), (2.1) где и и v—управляющие параметры, причем и есть точка некоторого дифференцируемого многообразия Р размерности /?, a v есть точка дифференцируемого многообразия Q размерности q; относительно управляющего параметра v мы будем предполагать, что он является кусочно-непрерывной функцией времени. Функции X(z, и) и Y (г, v) предполагаются дифференцируемыми. В пространстве R задано |я-мерное дифференцируемое подмногообразие М. Мы будем говорить, что всеми этими данными описана некоторая дифференциальная игра. Пусть А—некоторое множество из R. Будем говорить, что данная дифференциальная игра может быть закончена на множестве Л, если при произвольном начальном значении z()£A вектора z и произвольном кусочно-непрерывном изменении управляющего параметра v(t) можно подобрать такое изменение управляющего параметра u(t), что точка z будет приведена на многообразие М за время, не превосходящее числа Г(г0)^0, при этом для нахождения значения параметра u(t) в каждый момент времени t игры используются только значения z(t) и v(t) вектора z и функции v в этот момент времени. (Если множество А совпадает с Ry мы будем говорить просто, что данная игра может быть закончена.) Функцию Г(г0), оценивающую время завершения игры, мы будем считать оптимальной, если при любом исходном состоя-
282 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР нии z0£A существует такое управление v, при котором игра не может быть завершена за время меньшее, чем T(z0). Для изучения дифференциальной игры (2.1) применим принцип максимума. Введем вспомогательный вектор *-(*i. •••> Ф„) (2-2) и составим вспомогательную функцию п Н(г, ф, и, v) = y-Z(z, и, v)= 2 ЪгЯ[г, и, v). (2.3) i -1 Функцию Я (г, if), i/, и) разобьем на две части, положив #i(z, Ф, и)-^$.Х(г, и), H2(zy г|), у)^я|).у(г, и), (2.4) так что Я (г, ф, I/, v) = H1(z4 ф, и) + Я2(г, ф, у). (2.5) При фиксированных гиф максимум функции Ях(г, if, и) обозначим через M1(z9 if>), а минимум функции Я2(г, if>, у) — через М2(г, i|)). Исходя из функции Я (г, г|з, и, и) как из гамильтоновой, составим гамильтонову систему уравнений: 1'=^^' с-'. •••■•). м ^—а/"г-^"'°' с-' ")• (") Система (2.6) представляет собой, очевидно, скалярную запись исходного векторного уравнения (2.1). Система дифференциальных уравнений (2.6), (2.7) не полна, так как наряду с переменными z и if) она содержит еще переменные и и v. Систему (2.6), (2.7) мы дополним скалярными уравнениями Ях(г, ф, и)- Мх(г% ф), Я2(г, % v)^M2(z% ф). (2.8) Совокупную систему уравнений (2.6), (2.7), (2.8) мы будем считатг полной, т.е. будем предполагать, что она дает возможность найти неизвестные величины z, г|), и, v как функции т. Так как система (2.6), (2.7), (2.8) является системой дифференциальных уравнений, то для задания определенного решения этой системы необходимо задавать начальные значения. Мы будем рассматривать лишь некоторое определенное множество начальных значений. Перейдем к описанию этого множества и точной формулировке того предположения, что система (2.6), (2.7), (2.8) разрешима. А) Пусть t — произвольная точка многообразия М и ф—произвольный единичный вектор пространства R, ортогональный к многообразию М в точке £. Каждую такую пару (£, ф) будем обозначать через 0: е = (е. ф). (2.9)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 283 Совокупность всех таких пар естественно образует дифференцируемое многообразие, которое мы обозначим через N, размерность его, очевидно, равна п—1. В самом деле, совокупность всех векторов ф, входящих в пару (2.9) при фиксированном £, представляет собой сферу размерности п—\i—1, а размерность многообразия М равна [а. Мы будем предполагать, что для каждой точки 0^ (£, ф) существует решение z-=z(t, 6), ф--я|)(т, в), u = u(x,Q), v=v(x,Q) (2.10) системы (2.6), (2.7), (2.8), определенное при всех не положительных значениях т и удовлетворяющее начальным условиям 2(0, 0) = £, ф(0, *о) -Ф- (2.11) Мы будем предполагать, кроме того, что функции (2.10) являются дифференцируемыми функциями переменных т и 0, что имеет точный смысл, так как т—действительное число, а 0—точка дифференцируемого многообразия N. Совокупность всех пар (т, 0), где т^О, а 0 — точка из N, составляет дифференцируемое ограниченное многообразие S размерности п с границей S', состоящей из всех пар вида (0, 0). Открытую часть S—S' многообразия S обозначим через S. Точки многообразия S будем обозначать через s: s=(r, 0). (2.12) Таким образом, функции (2.10) являются функциями точки s многообразия S, и соотношение (2.10) можно записать в виде z = z(s), -ф = -ф(s), u^ u(s), v^=v(s). (2.13) Мы особо выделим функцию z(s)y обозначив ее через co(s): со (s) = со (т, Q)=z(s)-=z (т, 0). (2.14) Функция со ставит в соответствие каждой точке s многообразия S размерности п точку z = co(s) векторного пространства R также размерности п. Таким образом, со есть дифференцируемое отображение /г-мерного многообразия 5 в /г-мерное векторное пространство R. Если в некоторой окрестности многообразия N ввести локальные координаты s2, . .., sn и положить t = s1, (2.15) то мы получим локальную систему координат s\ s2, ..., sn в некоторой окрестности многообразия S так, что (т, 9) = s = (s1, s2, ..., s"). (2.16) Введем теперь некоторые обозначения: Б) Пусть F(zy if), и, v) — произвольная функция переменных г, г|э, и, v. Заменяя в ней переменные z и гр их выражениями
284 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР через s из (2.13), мы получим функцию F(s, и, v) = F(z(s), я|ф). ". v). (2.17) Заменяя в функции F все ее аргументы их выражениями через s по формуле (2.13), мы получим функцию F(s)=--F(z(s), я|ф), «Ф), v(s))^F(s, u(s), v(s)). (2.18) Далее положим Af(s, и, u) = f(s> и, ^) — f(s). (2.19) В дальнейшем эти обозначения будут применяться к различным функциям, в частности, к функциям Н (г, if, i/, и), Z(z, i/, и), -з-^(2, м, у). Так как функция со (s)=-z(s) переменного s1 т удовлетворяет уравнению (2.6), то мы имеем Отсюда следует, что "(s) = 1>(s)^. (2-21) В) Пусть г—произвольная точка из v4=co(S). Из всех ее прообразов при отображении со, т.е. из всех точек s= (т, 0), удовлетворяющих условию со(т, 0)^ г, выберем ту, у которой число т имеет максимальное (т. е. минимальное по модулю) значение. Этот прообраз точки z будем называть верхним. Следует помнить, что верхний прообраз точки, вообще говоря, не является единственным. О верхнем прообразе будем говорить также, что он принадлежит верхнему слою многообразия S. Теперь мы можем формулировать основной результат настоящей работы в виде нижеследующей теоремы 1. Теорема эта будет доказана в двух различных вариантах. Теорема 1. Пусть со—отображение многообразия S в пространство R, соответствующее игре (2.1) (см. А)), Л=со(5) и 20 — произвольная точка из A, a s0 = (x0, 0О)—ее верхний прообраз при отображении со (см. В)). Положим Т(г0) = |t01. Оказывается, что при некоторых условиях, налагаемых на игру (2.1), она на множестве А может, быть закончена за время Т (г0). Условия эти принадлежат к числу девяти нижеследующих. В первом варианте теоремы (доказательство см. § 4) будут предполагаться выполненными условия 1, 2, 3, 4, 6, 8, 9. Во втором варианте теоремы (доказательство см. § 8) будут предполагаться выполненными условия 1, 2, 3, 4, 5, 7, 8, 9. Условие 1. Векторы dco(s) dco(s) {С) 99. ds2 . • • • > ds„ V~**) линейно независимы в каждой точке s многообразия S (см. А)).
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 285 Условие 2. Если в некоторой точке s многообразия S функция И (s) (см. Б)) обращается в нуль, то градиент ее в этой точке отличен от нуля. Условие 3. Функция #х (s, и) переменного и£Р достигает своего максимума в единственной точке u(s) многообразия Р. Точно так же функция Н2(s, v) переменного v£Q достигает своего минимума в единственной точке v (s) многообразия Q. Таким образом, АН, (s, и)<0 при ифи (s), \ АН2 (s, v)>0 при v^v (s) \ ( ] (см. Б)). Условие 4. Квадратичная форма, соответствующая точке максимума u(s) функции 11,(8, и), является невырожденной. Точно так же квадратичная форма, соответствующая точке минимума v(s) функции H2(s, v), является невырожденной. Условие 5. В каждой точке s многообразия S, принадлежащей верхнему слою, функция Н удовлетворяет условию tf(s)>0. (2.24) Условие 6. Уравнение AH(s, и, v) = AH1(s, u) + AH2(s, v) = 0 (2.25) всегда разрешимо относительно и, каковы бы ни были заданные точки s из S и v из Q. При этом, если v^v(s), решение и уравнения (2.25) всегда можно выбрать так, что градиент по и функции АН, (s, и) отличен от нуля в этой точке и, удовлетворяющей уравнению (2.25). Условие 7. Многообразия Р, Q и М являются аналитическими, функции Z(z, и, v), co(s), if>(s), u(s), v(s) — аналитические. В этом случае игру естественно называть аналитической. Условие 8. Для всякой точки а пространства R и положительного числа Т найдутся настолько малое положительное число е и настолько большое положительное число р, что, каковы бы ни были управления u(t) и v(t), O^i^T, и начальное значение z0, удовлетворяющее условию \z0—a\ < e, решение z(t) уравнения i=--Z(z, u(t), v(t)) с начальным значением z (0) = z0 удовлетворяет неравенству \z(t) — a\<p при 0 /<7\ При выполнении этого условия игру будем называть ограниченной.
286 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Условие 9. Оба многообразия Р и Q значений управляющих параметров и и v компактны. В случае, когда отображение со многообразия S в пространство R взаимно однозначно, а функциональный определитель —У-^ отличен от нуля в любой точке s многообразия S, теорема 1 совпадает с известным результатом Беллмана, в этом случае время Г(г0), указанное в теореме 1, является оптимальным. Однако в весьма простых, представляющих интерес случаях отображение со не является взаимно однозначным, и метод Беллмана перестает действовать. Именно это имеет место для задачи преследования (1.3), (1.4), где отображение со не взаимно однозначно. Настоящая работа использует следующую конструкцию. Если в некоторый момент t0 игра (2.1) находится в состоянии z0, то для построения нужного управления u(t0) в этот момент времени следует рассмотреть какой-нибудь прообраз s0 точки z0 при отображении со. Если в точке s0 функциональный определитель отображения со отличен от нуля, то соотношение z = co(s) даст возможность в окрестности точки z0 вместо координат г1, ..., zn ввести локальные координаты s1, ..., sn и привести исследования задачи в этих координатах. Если, однако, существует не один прообраз точки z0 при отображении со, то возникает вопрос о выборе прообраза s0. Если, кроме того, функциональный определитель отображения со в точке s0 обращается в нуль, то введение локальных координат при помощи соотношения z = co(s) невозможно. Все же оказывается, что исследование задачи при помощи переменных s1, ..., sn возможно и в этом случае. В дальнейшем прообраз s0 точки z0 будет выбираться совершенно определенным образом, именно, будет браться верхний прообраз и переменные s1, ..., sn будут использоваться также в случае обращения в нуль функционального определителя. Установим теперь некоторые свойства функциональной матрицы отображения со в связи с условием 1. Г) Покажем, что (см. (2.21)) Ms)^ = H(s) = H(0, 6), (2.26) где s = (s1, 0), так что функция Н(s) не зависит от s1, a гИ*)^ = 0 (/ = 2, ...,п). (2.27) Геометрически соотношение (2.27) означает, что векторы -^Ц- (j = 2, ..., п) ортогональны вектору if>(s). Для доказательства предложения Г) докажем прежде всего, что функции (2.26) и (2.27) не зависят от s1, т. е. что й(^> доз (s) = 0. (2.28)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 287 Из (2.7) следует ^=-*<*>|=<«> (2-29) (см. Б)). Пусть и1, ..., up — локальные координаты в окрестности точки u(s) многообразия Р, а и1, ..., vq — локальные координаты в окрестности точки v(s) многообразия Q. Так как точки u(s) л v(s) являются экстремальными для функции H1(s, и) и #2(s, и), то частные производные этих функций по ик и соответственно vl в точках u(s) и v(s) обращаются в нуль. То же самое имеет место и для функции #(s, и, v), так что ^(s)^(s) = ^(s)-§j(s)^0 (ft=l, .... р; /= 1, ...,0.(2.30) Вычислим теперь функцию i|) (s) д [ ; мы имеем dZ(s , , ч OL IS1 , / ч V^ иь / \ С'03 (i a=i Р dZ ( v ди* (s) ( v Л dZ . dvl (s) В силу (2.30) из соотношения (2.31) следует , , v dZ (s) , / ч v^ dZ t ч dcoa (s) /0 004 a=i Из соотношений (2.20), (2.29) и (2.32) следует A ., ч dz , v a©«(s) , . , ч dZ(s) a= i a=i a= l Таким образом, соотношение (2.28) доказано. Соотношение (2.26) тем самым уже доказано, а для доказательства соотношений (2.27) достаточно показать, что функции (2.27) обращаются в нуль при s1 — 0. Точка z = co(s) при sx = 0 принадлежит многообразию М (см. (2.11)), а потому вектор —21Л£1 dsJ при s1 — 0, / = 2, ..., п касается многообразия М в точке co(s), вектор же \р (s) при s^O ортогонален к многообразию М в той же точке. Таким образом, скалярное произведение i|)(s) , равно нулю при s^O, и соотношение доказано.
ш 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Итак, предложение Г) полностью доказано. Будем считать, что в функциональной матрице (^г) ('=1. ■■-.*; /=1. ••■.*) (2.3о) t указывает номер строки, а / — номер столбца. Вычеркивая из этой матрицы первый столбец, мы получим матрицу (*£г) (1'=1' -.-. «; / = 2. •-.«). (2-34) Заметим, что вектор *(s) = (^(s), .... *„(s)) не обращается в нуль ни при одном значении s. Это следует из того, что при 8г = 0 вектор i|)(s) имеет длину единица и потому отличен от нуля, а система уравнений (2.7) линейна и однородна относительно компонент вектора ty(s). Таким образом, соотношение (2.27) показывает, что между строками матрицы (2.34) имеет место линейная зависимость с коэффициентами i|)1(s), ... ..., i|)„(s). Точно так же соотношения (2.26) и (2.27) показывают, что в случае H(s) = 0 между строками матрицы (2.33) имеется линейная зависимость с коэффициентами xpj. (s), ..., if,, (s). Таким образом, детерминант D (s) матрицы (2.33) обращается в нуль при Н (s) = 0. Как я уже отмечал, предположение, что функциональный определитель D(s) отображения со отличен от нуля в каждой точке s многообразия S, использованное Беллманом, исключает из рассмотрения интересные случаи преследования, например задачу (1.3), (1.4). Ввиду этого я накладываю на функциональную матрицу (2.33) более слабые, но все же очень стеснительные ограничения. Именно, я считаю, что ранг матрицы (2.34) равен п — 1 в каждой точке s многообразия S. Это, очевидно, и есть условие 1. Д) При выполнении условия 1 имеет место соотношение D{s)=d{s)-H(s)y (2.35) где s—точка из S, d(s) не обращается в нуль, a D (s) есть функциональный определитель отображения со в точке s. Так как функциональный определитель D (s) зависит от выбора локальных координат в многообразии S, то скаляр d(s) также зависит от выбора этих координат. Тождество (2.35) будем доказывать в некоторой окрестности многообразия S с фиксированной в ней системой координат. Минор элемента ^^ матрицы (2.33), взятый с надлежащим знаком, обозначим через М{(ь). Если, в матрице (2.33) заменить первый столбец столбцом номера/> Ь то мы получим матрицу с двумя равными столбцами, так что
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 289 детерминант ее равен нулю. С другой стороны, детерминант этот дается формулой ±Mi(s)^f- = 0 (/ = 2, ...,п). ы 1 dsJ Таким образом, миноры M1(s), ..., М п (s) осуществляют линейную зависимость между строками матрицы (2.34), точно так же, как это делают коэффициенты if1(s), ..., i|>rt(s). Так как ранг матрицы (2.34) равен п—1, то коэффициенты, осуществляющие линейную зависимость между ее строками, однозначно определены с точностью до множителя, отличного от нуля, и мы имеем Mi(s)=d(s)^i(s) (i=U .... л), (2.36) где ds=7^0. Функциональный определитель D(s) задается формулой D(s)=±M^s)^ = ±d(s)^(s)^ = d(s).H(s). i= 1 i- 1 Итак, соотношение (2.35) доказано. § 3. Введение новых переменных При исследовании уравнения z = Z(z, и, v) (3.1) (см. (2.1)) мы вместо неизвестных функций г1, ..., zn введем новые неизвестные функции s1, ..., s4 по формуле z = co(s) (3.2) (см. § 2, А)). Подставляя в уравнение (3.1) z = co(s), получим ы\ dsl (см. § 2, Б)). Это векторное уравнение представляет собой систему из п дифференциальных уравнений, неразрешенную относительно производных s1, ..., sn. Если в некоторой точке s0 многообразия S функциональный определитель D(sQ) отображения со отличен от нуля, то соотношение (3.2) вводит в некоторой окрестности точки z0=;co(s0) пространства R вместо координат z1, . .., zn координаты s1, ..., sn и уравнение (3.3) разрешимо относительно производных. Таким образом, в этом случае в некоторой окрестности точки z0 системы дифференциальных уравнений (3.1) и (3.3) эквивалентны между собой и изучение дифференциальной игры локально в окрестности точки z0 может производиться при помощи системы уравнений
290 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР (3.3). Если отображение со взаимно однозначно на всем многообразии S, а функциональный определитель D(s) отличен от нуля в каждой его точке, то преобразование (3.2) координат носит не локальный, а интегральный характер, и дифференциальная игра может быть полностью изучена при помощи системы уравнений (3.3) (см. теорему 2), что эквивалентно методу Белл- мана. Мы, однако, будем пользоваться преобразованием (3.2) для введения новых неизвестных функций также и в окрестности такой точки s0 многообразия S, в которой D(s0) = 0. В общих чертах ход соображений здесь следующий. Пусть s = s(t) — некоторая траектория в многообразии S, выходящая из точки s0 верхнего слоя (см. § 2, В)), так что s(0)=s0, и определенная на некотором полуинтервале t^O. Траектории s = s(t) соответствует в пространстве R траектория z = co(s(^)). Если траектория s = s(t) удовлетворяет уравнению (3.3) при некотором выборе управлений u(t) и v(t), то траектория z = co(s(?)), очевидно, удовлетворяет уравнению (3.1) при тех же управлениях. При заданном управлении v(t) мы будем строить управление u(t) и соответствующую траекторию s = s(t), удовлетворяющую уравнению (3.3) так, чтобы s1^) было не меньше единицы. Кроме сказанного непрерывного движения точки s многообразия S, мы будем допускать также скачки, при которых точка s заменяется лежащей над нею точкой верхнего слоя (см. § 2, В)); при таких скачках точка z = co(s) продолжает двигаться непрерывно, а величина s1 получает положительное приращение. Таким образом, величина s1 все время возрастает не медленнее чем /. Это обеспечит нам приход точки z на многообразие М из положения г0 за время, не превосходящее числа Т(г0) (см. теорему 1). Систему уравнений (3.3) легко разрешить относительно s1; в самом деле, умножая векторное уравнение (3.3) скалярно на вектор if)(s), получим в силу соотношений (2.21) и (2.27) H(s)'S1=^H(s, и, v) = H(s) + AH(s, u,v) (см. § 2, Б)), деля это соотношение на #(s), получаем „i__i i A//(st и» у) _ 1 , A/Ms, u)+&H2(s, v) ,Q .. Это соотношение имеет место для любой точки s из S, для которой #(s)^0. Воспользуемся уравнением (3.4) для изучения дифференциальной игры в том случае, когда отображение со взаимно однозначно. Оказывается, что имеет место следующая Теорема 2. Допустим, что со (см. § 2, А)) есть взаимно однозначное отображение многообразия S на некоторое открытое множество А пространства R с всюду отличным от нуля
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 291 функциональным определителем D(s), причем выполнено условие Ь § 2, при этом, как легко видеть, (см. § 2, Г)) tf(s)>0 (3.5) в каждой точке s многообразия S. Тогда дифференциальная игра (2.1) при любом исходном положении г0 из А может быть закончена за время Т(г0), причем время это оптимально. Время Т(г0) определяется следующим образом: пусть со"1 (z0) =(sj, Э0), тогда T(z0) = \sl\. Доказательство. Так как отображение со взаимно однозначно и его функциональный определитель отличен от нуля на всем многообразии S, то преобразование (3.2) вводит в окрестности каждой точки z0£A новые координаты s1, . . ., sn вместо координат z1, . . ., zn и уравнение (3.3) эквивалентно уравнению (3.1) на всем А. Каковы бы ни были состояние z = co(s) игры в данный момент времени / и управление v(t), управление u(t) определим формулой u = u(s). (3.6) Тогда по мере задания управления v (t) мы сможем определять состояние г (t) = co(s(/)) игры, пользуясь системой уравнений (3.3) при начальном значении s0 = co~1(z0). Из системы (3.3) для s1 вытекает уравнение (3.4), которое в силу (3.6) переписывается в виде ^=1-1 ДЯ^(/))>1, (3.7) так как функция #2 (s, v) достигает своего максимума в точке v = v (s), и потому Atf2(s, и)>0. (3.8) Уравнение (3.7) показывает, что координата s1 растет не медленнее, чем время, а так как в начальный момент она имеет значение sj < 0, то она обратится в нуль по истечении времени, которое не превосходит числа \sl\ = T(z0). Обращение в нуль координаты s1 означает, что точка со (s) пришла на многообразие М. Таким образом, игра всегда может быть закончена за время, не превосходящее числа Т(г0). Для этого достаточно выбрать управление и по формуле (3.6). Покажем теперь, что время Т (z0) оптимально, т. е. что можно выбрать управление v таким образом, что игра не может быть закончена за время меньшее, чем T(z0). Для этого достаточно задать управление v формулой v=v(s). (3.9)
292 22- К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Тогда при произвольном выборе управления u = u(t) мы имеем в силу уравнения (3.4) неравенство s*=H Д//'я'(5)(/))<1, (ЗЛО) вытекающее из неравенства A#x(s, м)<0, (3.11) аналогичного неравенству (3.8). Из неравенства (3.10) видно, что если управление v задается формулой (3.9), то игра не может быть закончена за время меньшее, чем Т(г0). Итак, теорема 2 доказана. Для скорейшего завершения игры управление и задается формулой (3.6), т. е. как функция точки s. Для того чтобы задать его непосредственно как функцию точки г, мы должны определить точку s из уравнения co(s) = z, т. е. положить s = cd~1(z), тогда соотношение (3.6) превращается в соотношение u = u(«>-1(z)). (3.12) Подставляя это значение и в уравнение (3.3), мы получим уравнение z = Z(zy ^(co-1^)), v(t))9 (3.13) которое описывает то же самое движение точки z, как и то, которое было построено при доказательстве теоремы 2. Разрешим теперь систему уравнений (3.3) в окрестности точки s0, в которой #(s0) = 0, считая при этом, что для игры выполнены условия 1 и 2 (см. § 2). Выведем некоторые простые следствия условий 1 и 2 (см. § 2). А) Будем считать, что условия 1 и 2 выполнены и что #(s0) = 0. Оказывается, что если дифференцируемая функция /(s), заданная в некоторой окрестности точки s0, обращается в нуль вместе с функцией #(s), то в некоторой окрестности точки s0 она может быть записана в форме f(s)=*g(s).H(s)9 (3.14) где g(s) — непрерывная функция, порядок дифференцируемости которой только на единицу ниже, чем порядок дифференцируемости функции /(s). В случае если игра аналитическая (см. § 2, условие 7) и функция f(s) аналитическая, функция g(s) также аналитическая. Далее оказывается, что в некоторой окрестности точки s0 существуют дифференцируемые функции (в случае аналитической игры—аналитические) rl(s)=l, r*(s), ..., r»(s), (3.15)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 293 удовлетворяющие условию п Z-^r'(s) = <o'(s).tf(s)f (3.16) i= l dsl где co*(s) — дифференцируемая вектор-функция (в случае аналитической игры—аналитическая). Докажем предложение А). Так как градиент функции Н (s) отличен от нуля в точке s0, то эту функцию можно включить в систему из п дифференцируемых функций Л1 (*) = #(*), h*(s)y .... A«(s), (3.17) заданных на некоторой окрестности точки s0 с градиентами, линейно независимыми в точке s0. Таким образом, функции (3.17) могут быть приняты за новые координаты в некоторой окрестности точки s0. Выражая функцию f(s) в координатах Л1, ...,ЛП, мы получим функцию /(Л1, ..., hn). Функцию g определим теперь формулами /(/г1, ..., hn) «л / л g=* M hi —L при Л^О, д (3.18) г—Жг/(0, h\ ..., И при ^ = 0. Для доказательства существования функции (3.15) также используем систему координат (3.17). Векторы доз (s) dco(s) ds1 ' * * #' as» (3.19) на координатной гиперплоскости Лх = 0 линейно зависимы (см. (2.21), (2.27)). В то же время векторы ^2 » • • •» ^* линейно независимы в силу условия (см. § 2, условие 1). Таким образом, в каждой точке s некоторой окрестности точки s0 на гиперплоскости Лх = 0 существуют дифференцируемые функции (3.15), удовлетворяющие условию £iH£Lr<(s) = 0. (3.20) Функции (3.15) однозначно определены условием (3.20) при Лх=0. Доопределим их в некоторой окрестности точки s0 многообразия S, считая, что как функции координат Л1, ..., hn они не зависят от координаты Л1. Для так построенных функций (3.15) соотношение (3.20) выполнено при hx = 0. Следовательно, в некоторой окрестности точки s0 левая часть соотношения (3.20) делится на Л1 (см. (3.14)). Таким образом, имеет место соотношение (3.16). Итак, предложение А) доказано.
294 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Б) Будем считать, что для игры выполнены условия 1 и 2, и пусть #(s0) = 0, тогда в некоторой окрестности точки s0 из уравнений (3.3), кроме уже выведенного уравнения (3.4), вытекают уравнения sJ~*H(Hw'V) г*(*) + &(*> "> v) (/ = 2. •••• ")• (3-21) где r2(s), ..., rn(s)—функции, взятые из системы (3.15), а функции RJ'(s, и, v) суть дифференцируемые функции всех переменных (в случае аналитической игры — аналитические), удовлетворяющие условиям #(s, u{s), v(s)) = 0 (/ = 2, ..., n). (3.22) Уравнения (3.21) имеют место, когда точка s принадлежит некоторой окрестности точки s0, а и и v—произвольные точки многообразий Р и Q. Для доказательства предложения Б) мы подставим в систему (3.3) выражения для s1, ..., sn из уравнений (3.4), (3.21) и убедимся в том, что уравнения, полученные для неизвестных функций RJ'(s, и, и), разрешимы относительно них. Для проведения вычислений умножим соотношение (3.16) скалярно на вектор if>(s), мы получим после сокращения на H(s): •ф (s) • со* (s) = l. (3.23) Подставляя теперь выражения для s1, ..., sn в уравнение (3.3) из уравнений (3.4), (3.21), получаем п п да, (s) АН (s, и, у) у да, (s) ■ ,. , у да (s) „,-, ,л—7(ч и тЛ используя соотношения (3.16) и соотношение (2.20), получаем Z(s) + Atf(s, и, u).cD*(s)+X^^#/(s, и, v) = Z(s, и, и), /=2 ^ или, иначе, п £iM*L£/(Sf И| y) = AZ(s, a, v) — AH{s, и, v)-a*(s). (3.24) /=2 ^ Будем рассматривать это соотношение как систему уравнений относительно неизвестных R2, .. ., Rn. В его левой части стоит линейная форма из п—1 линейно независимых (см. § 2, условие 1) векторов доз (s) доз (s) as2 ' • • •' as« (3.25)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 295 : неизвестными коэффициентами R2, ..., Rn. В правой же части то — некоторый заданный вектор. Так как все векторы (3.25) фтогональны вектору i|)(s) (см. (2.27)), то для разрешения соот- юшения (3.24) относительно неизвестных коэффициентов R2, ... ..,7?" достаточно, чтобы вектор, стоящий в правой части соот- юшения (3.24), был также ортогонален вектору г|э. Мы легко убеждаемся в этом, составляя скалярное произведение вектора |)(s) с вектором, стоящим в правой части соотношения (3.24). Vlbi имеем i|)(s)-(AZ(s, и, v) — AH(s, и, у).со*(s))=A#(s, и, v) — AH(s, u,v)=0 см. (3.23)). Для доказательства формулы (3.22) достаточно убедиться, что травая часть соотношения (3.24) обращается в нуль при и= u(s), ) = и (s). Итак, предложение Б) доказано. В) Систему дифференциальных уравнений (3.4), (3.21) дополним конечным соотношением Atf (s, и, v) = 0. (3.26) Если в системе уравнений (3.4), (3.21) заменить величину \H(s, ut v) нулем в силу соотношения (3.26), не обращая внимания на то, что функция #(s), стоящая в знаменателе, может обращаться в нуль, то мы получим дифференциальные уравнения ^=1, (3.27) kf=R*(s, и, v) (/ = 2, .... п). (3.28) Эказывается, что если функции s(/)f u(t)9 v(t) (3.29) удовлетворяют системе уравнений (3.26), (3.27), (3.28), то функции z = w(s(/)), u(t), v(t) (3.30) удовлетворяют уравнению (3.1). Для доказательства предложения В) вычислим производную функции z (t) = со (s(t)), принимая во внимание, что функции (3.29) удовлетворяют уравнениям (3.27), (3.28). Мы имеем ;it)=8^ + £togpmRJ{8{f)t в(/),0(/)). (3.31) ds1 JT2 dsJ Принимая во внимание, что функции RJ (/ = 2, ..., п) удовлетворяют тождеству (3.24), мы получаем из (3.31) 4t)= *^P- + bZ[<*(s(t),u(t), v(t)))~ -AH(s(t), u(t), o(0)-«)'(s(0). (3-32)
296 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Так как для функции (3.29) выполнено равенство (3.26), то из (3.32) получаем i(t) = Z(z(t)9 u(t), v(t)). Таким образом, функции (3.30) удовлетворяют уравнению (3.1). Предложение В) доказано. Г) Предложением В) можно воспользоваться для доказательства теоремы 1. В самом деле, допустим, что на отрезке времени А>^^^^1 мы нашли решение (3.29) системы уравнений (3.26), (3.27), (3.28), причем начальная точка s(t0) находится в верхнем слое многообразия S. В силу уравнения (3.27) мы имеем s1('i)-s1(<e)=<i-'o. (3.33) Таким образом, величина sx (t) на отрезке времени ^0^^^^i изменилась в точности на t1 —10. Однако точка s(t) может не принадлежать верхнему слою на всем отрезке t0 < £< /1# Обозначим через s*(t) точку из S, лежащую в верхнем слое над точкой s(t). Так как s(t0) лежит в верхнем слое, то s* (t0)^s(t0), и мы имеем sml(t0) = sl(t0), s*1^)^1^)- (3.34) Из (3.33) и (3.34) следует s*1(ti)s*1(to)>t1-t0. (3.35) Таким образом, на отрезке времени ?0^^^^i величина s*1^), оценивающая игру, возросла не меньше, чем время. Д) Пусть ф (s)—функция точки s многообразия S. Производная этой функции, в силу системы уравнений (3.4), (3.21), вычисляется по формуле где п <p,(s) = £^JE.r'(s) (см. А)), (3.37) П <Pr(s, и, v) = Y.~T-RJ(s, и, v) (см. Б)), (3.38) ,= 2 dsJ причем ФЯ(8, u(s), v(s)) = 0 (см. (3.22)). (3.39) Формула (3.36) непосредственно вытекает из уравнений (3.4), (3.21).
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 297 § 4. Доказательство первого варианта теоремы 1 Здесь предполагается, что рассматриваемая дифференциальная игра удовлетворяет условиям 1—4, 6, 8, 9 § 2. Для доказательства теоремы 1 достаточно, по мере того как становится известным управление v (/), выбирать управление u(t) таким образом, чтобы обеспечить за величиной s1^) рост по меньшей мере такой же быстрый, как рост времени /. Если выполнено условие 6, то систему дифференциальных уравнений игры можно дополнить конечным соотношением Atf(s, и, v) = 0. (4.1) В случае, если v(t) = v(s(t)), это соотношение дает для а единственное значение u(t) = u(s(t)), однако, в прочих случаях для выбора u(t) остается еще значительный произвол. Условие 6 обеспечивает разрешимость конечного соотношения (4.1), а дифференциальные уравнения игры благодаря этому соотношению сильно упрощаются. Если точка s0, в окрестности которой рассматривается игра, удовлетворяет условию #(s0) = 0, (4.2) то упрощение благодаря соотношению (4.1) уравнения игры уже были выписаны (см. § 3, В)). Именно, они имеют вид 5Ж— 1. (4.3) s' = &(s, и, v) (/ = 2, ..., п) (4.4) (см. (3.27), (3.28)). Правые части этих уравнений определены, когда s принадлежит некоторой окрестности точки s0, а и и v суть произвольные точки многообразий Р и Q. В случае, если для точки s0, в окрестности которой рассматривается игра, соотношение (4.2) не выполнено, а имеет место противоположное соотношение Я (s0) =7*0, (4.5) то система уравнений (3.3) разрешима относительно производных s1, . .., srt, причем для s1 мы получаем уравнение •1=1+дя|^ (46) (см. (3.4)), а для остальных s^'—некоторые уравнения sf = Sf(s, ut v) (/ = 2, ..., п). (4.7) Если к системе дифференциальных уравнений (4.6), (4.7) присоединить соотношение (4.1), то уравнение (4.6) приобретет вид (4.3). Таким образом, при выполнении соотношения (4.1) система
298 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР дифференциальных уравнений игры в окрестности любой точки s0 может быть записана в виде *=1, (4.8) ^ = F'(s, и, v) (/ = 2, ..., л), (4.9) где в случае (4.2) FJ=RJ\ а в случае (4.5) FJ = S*\ однако в обоих случаях функции F' являются достаточное число раз дифференцируемыми функциями. Функции эти определены, когда s принадлежит некоторой окрестности точки s0, а и и v суть произвольные точки многообразий Р и Q. Допустим, что в некоторый момент времени t0 игра находится в состоянии s0 и задано некоторое управление v(t) при t^t0 v0 = v(t0). Суть доказательства первого варианта теоремы 1 заключается в том, чтобы решить систему уравнений (4.1), (4.8), (4.9) в окрестности точки s0, т. е. подобрать такие функции u(t) nv(t)t чтобы система эта выполнялась. Решение это осуществляется следующим образом. Прежде всего мы находим некоторое решение m=*m(s, v) (4.10) уравнения (4.1), определенное в окрестности точки (s0, v0). Это решение подставляется в систему (4.8), (4.9), и полученная система решается при v = v(t). Некоторые затруднения заключаются в том, что решение (4.10) не всегда оказывается дифференцируемой функцией переменных s1, ..., sn, но однако оно всегда удовлетворяет условию Липшица по этим переменным. Доказательству этого посвящено нижеследующее предложение Б). После того как, исходя из любого состояния игры s0, удается продвинуть ее на некоторое время, мы должны убедиться в том, что такие продвижения доводят игру до конца, а не затухают чрезмерно быстро. Подготовке этого доказательства посвящено нижеследующее предложение В). Укажем теперь, как находится решение (4.10) уравнения (4.1), формулировав при этом самый факт существования сказанного решения в виде самостоятельного предложения: А) При выполнении условий 4 и 6 каждой паре точек s0£S, v0£Q соответствует решение u = u(s, v\ s0, v0) (4.11) уравнения (4.1), определенное, когда s принадлежит некоторой окрестности S(s0, v0) точки s0, a v—некоторой окрестности V(s0, v0) точки v0. Решение (4.11) удовлетворяет условию Липшица по s. Для доказательства предложения А) мы перепишем уравнение (4.1) в форме — A#i(s, w) = A#2(s, v). (4.12]
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 299 Мы рассмотрим два существенно различных случая v0 = v(s0), (4.13) v0¥*v(s0). (4.14) В случае (4.13) решение (4.11) будем искать в виде u = u(s) + Xa, (4. 15) где а—произвольный постоянный р-мерный вектор, отличный от нуля, a X = X(s, v) — новая неизвестная скалярная функция. Так как функция A#5 (s, и) в точке u = u(s) достигает своего максимума с невырождающейся квадратичной формой и обращается в нуль, то мы имеем —Atfjs, u(s) + Xa) = X*B(s, X), (4.16) где В (s0, 0)>0. (4.17) Благодаря этому функция B(s, X) в окрестности точки s = s0, Х = 0 может быть записана в виде B(s, X) = [b(s, X)]\ (4.18) где b(s09 0) > 0 и функция b(s, X) достаточное число раз дифференцируема по s и X в окрестности точки (s0, 0). Уравнение (4.12) при подстановке в него и из (4.15) получает теперь вид *,».[6(s, X)]* = AH2(s, v), (4.19) которое в свою очередь является следствием уравнения X.b(s, X) = + VAH2(s, v). (4.20) В точке (s0, v0) правая часть этого уравнения обращается в нуль, а левая равна нулю в точке (s0, 0). Кроме того, производная левой части по А, в точке (s0, 0) положительна. Таким образом, уравнение (4.20) разрешимо относительно А,, и мы имеем X = X(s, v) = A{s+VAH2(s, v)). (4.21) В силу нижеследующего предложения Б) функция VAH2(s, v) удовлетворяет условию Липшица, а потому ему же удовлетворяет и правая часть соотношения (4.21). В случае (4.14) в силу условия 6 существует такое решение и0 Уравнения -Atfjso, u0) = Atf2(s0, v0), (4.22) где градиент с функции—ДЯ1(50, и) по переменному и в точке и0 отличен от нуля. Выберем такой постоянный вектор а, что сафО, (4.23)
300 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР И ПОЛОЖИМ и = и0 + Ха, (4.24) где X—неизвестная скалярная функция переменных s и v. Производя подстановку (4.24) в уравнение (4.12), получим -ДЯ1(5, a0) + W(s, X) = M12(s, и), (4.25) где с (s0, 0)^=0. (4.26) Если в уравнении (4.25) рассматривать величину X как неизвестную функцию величин s и и, то при s=^s0t v = v0 уравнение это имеет решение 1 = 0 и производная по X левой части при этих значениях отлична от нуля. Таким образом, уравнение (4.25) разрешимо относительно X, и мы имеем X = X(s, v), (4.27) где правая часть есть достаточное число раз дифференцируемая функция, определенная в окрестности точки (s0, u0). Таково почти полное изложение доказательства первого варианта теоремы 1. Перейдем теперь к формулировке и доказательству вспомогательных предложений Б) и В). w. Б) Пусть f(x) — скалярная непрерывная неотрицательная (/ (х) ^ 0) функция векторного переменного х, определенная на некоторой области £/, все частные производные которого до второго порядка включительно непрерывны. Тогда функция В(х) = + УЩ (4.28) удовлетворяет условию Липшица на любой области Ult замыкание которой компактно и входит в £/, т. е. имеет место неравенство \g{x2)-g{x1)\<m.\x,-x1\y (4.29) где векторы хг и х2 принадлежат Ul9 а константа т зависит только от Ux. Для доказательства предложения Б) рассмотрим функцию f(t) = f(x1 + e.t) (4.30) скалярного переменного t. где хг — некоторая точка из U, а е — единичный вектор, и соответствующую ей функцию g(t)=VW)- (4-31) Функции /(/) и g(t) будем рассматривать на таком интервале а < t < ft, что точка хл + е-1 принадлежит U. Из предположений, сделанных относительно f(x), следует, что функция /(/) неотрицательна, непрерывна и обладает непрерывными производными первого и второго порядка. Так как при
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 301 f(*o) = 0 точка t0 является точкой минимума функции f(t), то мы имеем П'о) = 0, f"(t0)>0 при /(<0) = 0. (4.32) Первая и вторая производные функции g(t) задаются формулами s'«)=wk- (4-33) g-(')=2rtfl4^-'"(". H.34) Из этих формул следует, что функции g' (t) и g" (t) непрерывны в каждой точке /, где f(t)>0. Заметим, что из формул (4.33) и (4.34) следует ff'W-i"^-^1 при /(0>0, g"(0 = 0. (4.35) Покажем теперь, что g'(U) = ±Y*-TL ПРИ /</о) = 0> (4.36) причем для правой производной берется знак плюс, а для левой знак минус, так что при//,(^0)=0 правые и левые производные совпадают, а при f"(t0)>0 (см. 4.32)) правая и левая производные различны. В самом деле, мы имеем f{t) = \f"{*)'{t-UY (4.37) (см. (4.32)), где 9 — промежуточное число между t и t0. Таким образом, g'(t0)= Hm V 7 (9)'(/ ^ = /^Г^'-^Ег1- В случае, если f"(t0)>0> нуль ?0 функции f(t) является изолированным и производная g' (t) определена формулой (4.33) для всех *=7^/о> близких к t0. Покажем, что gr (t) стремится к правой производной g"'(^o)> когда t стремится к t0 справа, и g' (t) стремится к левой производной g'(t0), когда / стремится к t0 слева. Для этого используем формулу (4.33), разлагая входящие в нее функции f'{t) и f(t) в ряды Тейлора в точке t0. Мы имеем ^/^.^ fQiHt-to) Г(91) t-t0 ( ад "2/^Г(в).,-^ ^Г(Ч) I'"'.!* где 0J и 0—числа, заключенные между t0 и t. Переходя к пределу при t, стремящемся к t0 в соотношении (4.38), мы убедимся в правильности высказанного утверждения. Таким образом, при
302 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР f(t0) = 0, f"(t0)>0 функция g' (t) имеет в точке t0 разрыв первого рода и непрерывна справа и слева от этой точки. Докажем теперь, что при f(t0) = 0, f"(t0) = 0 функция g'(t) непрерывна при t = t0. При этом мы будем рассматривать лишь t > t0. Рассмотрим сначала случай, когда на достаточно малом интервале /0<^<^о + £ функция /(/) не обращается в нуль. Если при этом функция g' (t) на таком интервале монотонна, то iimg"'(/) = a, где a—неотрицательное число или + оо. Если t-+t0 a —0, непрерывность функции g' (t) справа доказана. Если a > 0, то g(0 > Р'(* — ^о)» гАе Р > 0. А из этого следует, что /(/) > Р2х X(t—^о)2> а это невозможно, так как f(t0) = f'(t0) = f"(t0) = 0. Разберем теперь случай, когда функция g' (t) не монотонна на произвольно малом интервале t0 < t < /0-! е. Тогда при t—^ t0 она бесконечное множество раз проходит через локальные максимумы и минимумы, в которых g"(t) = 0. В этих точках значения функции g'(t) определяются по формуле (4.35) и потому стремятся к нулю при t—+t0, так как Г(/0) = 0. Таким образом, limgr'(*) = 0. Разберем теперь случай, когда f(t0) = 0, /"(/„) = 0 и функция f(t) бесчисленное множество раз обращается в нуль на произвольно малом интервале t0 < t< t0+e. Множество всех точек этого интервала, в которых /(f) >0, состоит из счетного числа интервалов типа t1<t<t2i где /(^) = f(t2) = 0. В силу ранее доказанного на отрезке ^^^^^2 функция g'(t) непрерывна и потому достигает своего максимума либо в одном из концов отрезка, где она вычисляется по формуле (4.36), либо внутри интервала, где она вычисляется по формуле (4.35). Таким образом, при стремлении отрезка tx ^ t ^ t2 в точке t0 максимум функции на указанном отрезке стремится к нулю. То же относится и к минимумам функции g'(t) на отрезках этого типа. Если точка t интервала t0 < t < t0+e не принадлежит отрезку указанного типа, а f(t) = 0y то f(t) = 0 и потому g'(t) = 0. Таким образом, g'(t)—+0 при t—>t0. Из установленных свойств функции g' (t) следует, что для любого отрезка р < / < q имеет место равенство я \g'{t)dt^ g{q)-g{p). (4.39) Р Докажем теперь утверждение Б) для случая, когда иг есть шаровая область, определяемая условием |*-*0|<р. (4.40) Так как область эта вместе с замыканием содержится в [/, то существует такое число рх > р, что замкнутый шар l*-*ol<Pi (4.41)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 303 содержится в U. Легко построить теперь такую функцию /i(x), которая совпадает с функцией f(x) на шаре (4.40), а на части шара (4.41), не принадлежащей к шару (4.40), постепенно сходит к нулю и равна нулю всюду вне шара (4.41). При этом функция fx(x) непрерывна и обладает непрерывными частными производными первого и второго порядка. Функция gi(t) = Vrfi(xl + e^t) (4.42) обладает всеми свойствами ранее рассмотренной функции g(t), но тождественно обращается в нуль на концах интервала своего задания, и потому максимальное и минимальное значения функции g[(t) определяются по формулам (4.35) и (4.36), т. е. оцениваются через вторые производные функции fx(x), которые ограничены. Таким образом, для любой функции gx(t) имеет место неравенство \g[(t)\<m. (4.43) Пусть теперь хх и х2—две произвольные точки из шара (40) и х2—хг = Т'-е, где е—единичный вектор, а Т=\х2—хх\. Мы имеем тогда \g'(x2)-g(x1)\-\g1(x2)-g1(x1)\-=-\g1(T)-g1(0)\^ т = \g[{t)dt<m-T. (4.44) о Таким образом, предложение Б) доказано для шаровой области (4.40). Исходя из этого, его легко доказать и для произвольной области иг. В) Пусть К — произвольное компактное множество из R, Т — произвольное положительное число и L—совокупность всех таких точек s = (t, 0) из S, что — Г<т<0 и cd(s)€/C (4.45) (см. § 2,' А)). Оказывается, что если игра ограничена (см. § 2, условие 8), то множество L компактно. Из этого, в частности, следует, что множество всех верхних прообразов каждой точки z0 пространства R в случае ограниченной игры компактно. Для доказательства компактности множества L достаточно показать, что если бесконечная последовательность z,o (*= 1, 2, ...) (4.46) точек пространства R сходится к некоторой точке а, то из последовательности «,= (*,. 8,) (*'=1, 2, ..-) (4.47)
304 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР точек многообразия S, удовлетворяющей условиям cd(s,.)^z/0, _7<т,<0 (*=1, 2, ...), (4.48) всегда можно выбрать сходящуюся в многообразии S подпоследовательность. При доказательстве этого мы будем переходить от последовательности (4.47) к ее подпоследовательности, сохраняя за подпоследовательностью обозначения (4.47). С помощью такого перехода мы можем достичь прежде всего того, чтобы lim т,-т0. (4.49) Вектор-функция z/(0 = co/(TI.+ <f 6,.) 0<*<|т,|, очевидно, является решением дифференциального уравнения z^Z{zh u(xt+t, 6,.), »(т,+ *, 6,.)) с начальным значением г/(0) = ю(т/, Q.) = Z;0. Так как все точки последовательности (4.46), за исключением лишь конечного числа, удовлетворяют условию | zi0—а | < е, где е—заданное положительное число, то, в силу ограниченности игры, существует настолько большое положительное число р, что \Zi(t)—a\<p при 0<*<7 (f=l,2,...). (4-50) Принимая во внимание, что еДт^МО, в,) (*=1, 2, ...), (4.51) мы из (4.50) получаем |<о(0, e,.HI<P' (4.52) В силу построения (см. § 2, А)) имеем 0|.= (^|.ф|.) (t=l, 2, ...), где £,- есть точка многообразия Af, а ф,-—единичный вектор, ортогональный к многообразию М в точке £,-. Так как со(0, Qi) = t)h то из (4.52) следует, что все точки £,- (i=l, 2, ...) многообразия М расположены в ограниченной его части и потому из последовательности £,- (i= 1, 2, ...) можно выбрать сходящуюся подпоследовательность. Иначе говоря, мы можем предположить, что последовательность £,. (i=l, 2, ...) сходится в многообразии М к точке £0. Так как все векторы <р£. имеют длину единица, то и из их последовательности можно выбрать сходящуюся подпоследовательность; таким образом, мы можем считать, что последовательность векторов ф,- (*=1, 2, ...) сходится к вектору ф0. Так как st- К, e,) = (T/f C/f ер,) (*=1, 2, ...), (4.53) то из сказанного следует, что последовательность (4.53) сходится в многообразии S к точке sn = (т0, £0, ф0). Таким образом, из
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 305 последовательности (4.47) мы выбрали сходящуюся подпоследовательность, и предложение В) тем самым доказано. Доказательство первого варианта теоремы 1. Когда точка s0 зафиксирована, а точка v0 пробегает все многообразие Q, совокупность всех окрестностей V(s0, v0) (см. А)) покрывает многообразие Q. Так как многообразие Q компактно, то из этого покрытия можно выбрать конечное покрытие К(s„, vt) (i=l, ...,*). (4.54) Пересечение всех окрестностей S(s0, vt) (i=l, ...,*) (4.55) точки s0 (см. А)) обозначим через S(s0). Построим теперь решение и= u(s, v; s0) (4.56) уравнения (4.1), определенное, когда s£S(s0), a v—произвольная точка из Q, исходя при этом из решений (4.11) при v0 = = vlf ..., vk. Пусть s — произвольная точка из S(s0), a v—произвольная точка из Q, и пусть / — наименьшее значение t, при котором v£V(s0, v{). Функцию (4.56) определим равенством u(s, v; s0) = u(s, v; s0, Vj). (4.57) Так построенная функция (4.56) является решением уравнения (4.1), определенным при s£S(s0), ugQ. Решение это удовлетворяет условию Липшица по переменному s равномерно по у, так как мы использовали лишь конечное число окрестностей V(s0, У/). По переменному v решение это разрывно, но оно является беров- ской функцией по паре переменных s, у. Построенную окрестность S(s0) уменьшим настолько, чтобы она входила в ту окрестность точки s0, на которой определена система уравнений (4.8), (4.9). Так что после подстановки в нее вместо и функции (4.56) мы получим систему уравнений s#1=l, (4.58) ss = f/(st v\ s0), (4.59) определенную при s£S(s0), v£Q. Для того чтобы из окрестностей типа S (s0) выбрать конечную систему, мы должны выделить в многообразии S некоторое компактное множество, в котором будут осуществляться все наши конструкции. Перейдем к построению этого компактного множества. Пусть Zo—исходное состояние игры и Т*= T(zJ), тогда в силу условия 8 существует такое положительное число р, что каковы бы ни были управления u(t), v(t)9 0<*<Г*, (4.60)
306 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР игра z(/), исходящая из состояния zj, удовлетворяет условию \z(t) — zIKp при 0<*<7*. (4.61) Совокупность всех точек z пространства R, удовлетворяющих условию |z —z;|<p, (4.62) компактно. Пусть теперь а < Т* — некоторое положительное число. Через L(a) обозначим совокупность всех таких точек s=-(t, 0), входящих в S, что — 7* < т < —а, | со (s) — г\ |< р. (4.63) В силу предложения В) L(a) есть компактное подмножество многообразия S. Когда точка s0 пробегает множество L(a), окрестности S(s0) покрывают это множество. Так как L(a) компактно, то из этого покрытия можно выбрать конечное S(s,.) (i=l, ...,/). (4.64) Будем считать, что в многообразии S введена метрика. Существует тогда настолько малое положительное число /*, что какова бы ни была точка s*£L(a), всегда найдется такая окрестность S(sf) системы (4.64), что весь шар радиуса г с центром s* содержится в этой окрестности. Далее, так как правые части системы (4.58), (4.59) ограничены при s0 = slt ..., slt то существует настолько малое положительное б, что решение системы (4.58), (4.59) при произвольной функции v-- v(t), исходящее из начального положения s* за время б, не выходит из окрестности S(s{). Будем теперь вести построение управления u(t) по управлению v(t) шагами длины б каждый. Построение будет вестись индуктивно, исходя из начального состояния игры. Допустим, что в момент t = 8-j (/—целое неотрицательное число, причем б/ < Т*) игра находится в состоянии z}t, причем a<T(z;)<r*—б-/. (4.65) Пусть sy*—верхний прообраз точки Z/. Выберем теперь такой номер i, что при произвольном выборе v = v(t) решение системы (4.58), (4.59) при v0=-vi и v^v(t)y исходящее из начального значения s) на протяжении времени б, остается в окрестности S(s(). По мере того как управление v(t) становится нам известным на отрезке времени б-/< ?< б-(/+ 1), будем решать системы (4.58), (4.59) при 00 = 0/, v=--v(t)c начальным условием s(6-/) = sj и положим и (t) = u(s(t), v(t)\ s7). Тогда поведение z(t) игры на отрезке б • / < / < б • (/" + 1) определяется формулой z(/)-co(s(0).
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 307 Состояние Z/+1 определяется, как z(6-(/-[- 1)). В силу предложения Г) § 3 для Z/+1 выполнено неравенство Г(е;+1)<7*-6.(/ + 1). (4.66) Таким образом, индуктивное построение игры может вестись, пока для некоторого состояния z) не нарушится первое из неравенств (4.65). Когда это нарушение произойдет, мы выберем для а новое значение а1 = а/2. Для множества z^) определится новое число 8j, аналогичное б, и мы поведем построение дальше. Когда для числа аг вновь нарушится первое из неравенств (4.65), мы выберем новое число а2=^а/4. В пределе мы построим такое управление u{t), определенное на полуинтервале 0^ t < fo^ T(z*0), что соответствующее решение z(t) уравнения (3.1) стремится при t—^Ьк многообразию М, но так как правая часть уравнения (3.1) ограничена для всех допустимых значений переменных z, и, v (см. условия 8, 9), то точка z(t) стремится при / — *• Ь к определенному положению, и потому при t = b игра заканчивается. Итак, первый вариант теоремы 1 доказан. § 5. Линейные дифференциальные игры Общая линейная дифференциальная игра будет здесь определена, но рассматриваться она будет лишь в очень ограниченных пределах. Для нее будут проведены только некоторые вычисления, которые легче проводятся в наиболее общем случае. Целью этих вычислений является дать возможность проверки условий из § 2 в более конкретных случаях. В качестве простого приложения будет в § 6 дан разбор задачи преследования (см. (1.3), (1.4)). Линейная дифференциальная игра (см. § 2) задается уравнением z = Cz-\ U(u) + V(v), (5.1) где z—вектор л-мерного евклидова векторного пространства R, рассматриваемый как одностолбцовая матрица, С—квадратная постоянная матрица порядка я, a U и К—достаточно дифференцируемые отображения многообразий Р и Q в R. Многообразие М размерности |я, на котором заканчивается игра, здесь предполагается векторным подпространством пространства R. Ортогональное дополнение в R к М обозначим через L, его размерность есть п — \i = v, а сферу какого-либо постоянного положительного радиуса с центром в нуле в пространстве L обозначим через /С, ее размерность равна v—1. Таким образом, при построении синтеза игры (5.1) (см. § 2, А)) начальные значения £ для z мы будем брать из М, а начальные значения ф для вектора if>— из К. Так что 0 = а,Ф), 5 = (т,С,Ф), x = s\ Ф = (52, ...,sv), £ = (sv", ..., sn). (5.2)
308 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Перейдем теперь к построению синтеза игры. Если считать вектор я|) однострочной матрицей, то уравнение для него запишется в виде | = -1С, (5.3) а решение этого уравнения — в виде г|э(s) = г|э(т, ф) = ф.е-т'с. (5.4) Условия, определяющие функции u(s) и v(s), имеют здесь вид: функция ф(т, <p)'U(u) = <p-e-*'c-U(u) (5.5) переменного и достигает своего максимума в точке и = и(ч, ф). (5.6) Функция i|)(t, ф).1/(у) = ф.е-т-с-У>) (5.7) переменного v достигает своего минимума в точке v = v(t, ф). (5.8) Дифференциальное уравнение для функции z(t, £, ф)=со(т, £, ф) (5.9) переменного т получается из уравнения (5.1) переходом от независимого переменного t к переменному т и заменой величин и и v по формулам (5.6), (5.8), т. е. имеет вид д = Cz + I/(и (т,ф)) + У (и (т,ф)), (5.10) и должно быть решено при начальном условии z(0) = С. (5.11) так что решение имеет вид со (т, t, ф) —^с.| C + Se-r-c(t/(a(r, Ф) + К(п(г, Ф)))£«г . (5.12) Так как функция #(8) = #(т, £, ф) в действительности не зависит от т, то она может быть вычислена при т = 0 и, как легко видеть, имеет вид Я(в) = Я(С,ф) = ф-СС + ф-£/(и(0|ф)) + ф-1/(1;(0,ф)). (5.13) Функция Д# (s, и, и) = ДЯ(т, ф, а, у) (5.14)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 309 в нашем случае, как легко видеть, записывается в виде АН (т, ф, и, v) = -ф (т, ф) • (Д[/ (т, ф, а) + ДК (т, ф, у)) = = Ф-е-*-с-(Д1/(т,ф, и) + Д1/(т,ф,и)), (5.15) где &U = U(u) — U(u(x, Ф)), Д1/=1/(и) — 1/(ц(т, ф)). (5.16> Формулируем теперь условие 4 § 2 для линейной игры (5.1)# А) Квадратичная форма, соответствующая максимуму функции (5.5) в точке и = и(т, ф), является невырожденной и потому отрицательно определенной. Точно так же квадратичная форма, соответствующая минимуму функции (5.7) в точке v = v(r, ф), является невырожденной и потому положительно определенной. Эти требования, налагаемые на отображения V и V, очевидно, эквивалентны условию 4 § 2. В дальнейшем они будут предполагаться выполненными. Формулируем теперь в форме Б) условие 1 § 2 применительно к линейной игре (5.1). Б) Положим w(x, <p) = e-*'c.(U(u(T, Ф))+ V(v(x, ф))). (5.17) Пусть ф0 — произвольная фиксированная точка сферы К. Введем в ее окрестности координаты (s2, ..., sv) = s, приняв за начало 0 точку ф0, так что ф = ф(52, ...,5Ч = ф(5), фо = ф(0). (5.18) Векторы Ф, = ^ (/ = 2, ...,v) (5.19) являются линейно независимыми касательными к сфере К в точке фо, и потому они составляют базис пространства £фо, ортогонального к Фо в пространстве L. Положим ^у(*.Фо) = Ф/^И^ф(0)) (*\/ = 2, ...,v). (5.20) Мы будем предполагать, что матрица 0*М*> 9o)) = ($aVy(',9o)dr) (U = 2, ...,v) (5.21) имеет ранг v—1 при произвольном ф06^С и т < 0. Это условие, как мы сейчас покажем, эквивалентно условию 1 § 2 для линейной игры (5.1).
310 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Докажем это. Для этого положим (см. 5.12)) т <3(т, £, ф)=^-с.ю(т>£>ф) = С+5^с(1/(«/(г> <р)) + КИг, ф)))Ж\ о (5.22) Очевидно, что векторы dco (s) dsJ и векторы ды (s) dsJ (/ = 2, ..., п) (5.23) (/ = 2 л) (5.24) линейно независимы одновременно, но функция со имеет более простой вид, чем функция со. Дифференцируя функцию со по переменным sv+1, ...,srt, мы получим линейно независимые векторы, лежащие в М. Таким образом, для того чтобы все векторы (5.24) были линейно независимыми, необходимо и достаточно, чтобы проекции векторов -§- (/ = 2, ...,v) (5.25) на линейное пространство L были независимыми. Базис векторного пространства L состоит из вектора ф0 и векторов (5.19), но скалярное произведение вектора ф0 на каждый из векторов (5.25) при Ф = Ф0 равно нулю из-за условий максимума и минимума, таким образом, для того чтобы проекции (5.25) на L были линейно независимыми, необходимой достаточно, чтобы матрица (5.21) имела ранг v— 1. Итак, утверждение Б) доказано. Докажем теперь нижеследующее важное свойство матрицы: К(т,Фо)) (*, / = 2, ...,v) (5.26) (см. (5.17)). В) имеет место соотношение симметрии *М*. Фо) = ^//(*, Фо) (*\/ = 2, ...,v). (5.27) При доказательстве соотношения (5.27) параметр т не играет роли, и потому мы будем его опускать в обозначениях, именно, положим и(т,ф) = и(Ф), e-^-U{u) = f{u), \ и(т,Ф) = и(ф), e-^.V(v)=g(v). | ( ' } Мы имеем тогда Ит,Ф) = /(и(ф)) + гИ<Р))- (5.29)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 311 Положим МФ.) = Ф/^(и(ф(0))), йГ//(Фо) = Ф,-~/г(»(ф(0))). (5.30) Для доказательства предложения В) нам достаточно доказать теперь, что имеют место соотношения симметрии fij (Фо) = ffi (Фо). Sij (Фо) = g/i (фо)- (5.31) Мы докажем только первое из этих соотношений. Более того, мы покажем, что величины ^у(ф0) составляют коэффициенты неотрицательной квадратичной формы. Аналогично доказывается, что величины gu (ф0) составляют коэффициенты неположительной квадратичной формы. Как и в предположении Б), мы считаем здесь, что в окрестности точки ф0 сферы К введены координаты (s2, ..., sv) = s, так что Ф = Ф (s), и (Ф (s)) = ф), ф0 = ф (0), и (Фо) = и (0). (5.32) Функция и (у) определяется тем, что функция ф.£(и) (5.33) точки и достигает своего максимума при u=u(y). По предположению (см. А)), числа F«e*»£S <*.<-». "■./» (5-34) составляют коэффициенты отрицательно определенной квадратичной формы. Таким образом, существует положительно определенная квадратичная форма с коэффициентами Fkl, удовлетворяющая условию 2 F*".Fai = -ei (М=1, ...,/7). (5.35) а=1 Для точки s, близкой к 0, функция u(s) определяется соотношением ф(«>^ = ° (А=1.....Р). (5-36) Дифференцируя это соотношение по s* при s = 0, получаем Ф/И + £ф§.-^2-.^В = 0. (5.37) Отсюда в силу (5.34), (5.35) получаем *«i«°> = YpM.<p.M (5.38)
312 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Таким образом, мы имеем /f (w)-wdf{u{0))-y шdf(0) dul у wd±BF*i.wdm /539^ Из этого видно, что //,-(фо) = Лу (Фо) и что квадратичная форма с коэффициентами /,у(ф0) неотрицательна. Итак, предложение В) доказано. Из предложения В) следует, что проверка условия 1 § 2 в некоторых случаях легче, чем это можно было бы ожидать. В самом деле, элементы матрицы 0МТ. <Ро)), (5.40) очевидно, являются элементарными функциями, но элементы матрицы (5.21) являются интегралами от элементов матрицы (5.40), которые могут не браться в элементарных функциях. В этих условиях установление ранга матрицы (5.21) может представлять непреодолимые трудности. Однако в силу симметрии обеих матриц каждая из них определяется соответствующей квадратичной формой, а для того чтобы квадратичная форма была невырожденной, достаточно, чтобы она была дефинитной. Для того же, чтобы квадратичная форма (5.21) была дефинитной, достаточно, чтобы была дефинитной квадратичная форма (5.40). Итак, мы имеем следующее предложение: Г) Пусть Ф = (Ф2, ...,<PV) (5.41) — произвольный вектор из пространства 1ф0 (см. Б)), координаты которого взяты здесь относительно базиса (5.19). Положим V Ит> Фо, ф)= 2 *М*. Фо)Ф'*-фЛ (5.42) т W (т, Фо, ф) = J w (г, ф0, ф) dr. (5.43) о Для того чтобы условие 1 § 2 для игры (5.1) было выполнено, достаточно, чтобы квадратичная форма (5.43) была дефинитной при всяком т < 0 и произвольном ф0 из /С. Для этого, в свою очередь, достаточно, чтобы квадратичная форма (5.42) была дефинитной. Д) Квадратичную форму ш(т, ф0, ф) вектора ф из 1фо (см. (5.42)) можно вычислить следующим образом. Пусть ф и ф*—два вектора из L. Составим скалярное произведение Ф-ш(т, ф*). (5.44) Будем считать теперь, что ф есть произвольный вектор, ортогональный к ф0, а ф* = ф*(е)—такой вектор из /С, зависящий от
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 313 параметра е, что Ф(0) = Ф„, ^ = Ф- (5.45) Тогда мы, очевидно, имеем и>(*> Фо. Ф) = £(ф-И*. Ф*(0))). (5.46) Если скалярное произведение (5.44) зависит от ср* линейно, то для получения квадратичной формы w (т, ф0, ф) достаточно в этом скалярном произведении заменить вектор ф* вектором ф. § 6. Контрольный пример задачи преследования Здесь будет разобран пример задачи преследования, упомянутый в § 1 (см. (1.3), (1.4)). Напомним его. Пусть Е—евклидово векторное пространство размерности v^2, ахи у—две его точки, движения которых описываются уравнениями х-\ ax = p-ut y-\-fiy = G'V. (6.1) Здесь а, р, р, а—положительные числа, а и и v—векторы из £, являющиеся управляющими параметрами, они произвольны по направлению и имеют длину единица. Мы будем разбирать задачу преследования точки у точкой х. Преследование считается завершенным, когда эти точки приходят к совпадению. Соответствующая этой задаче преследования дифференциальная игра имеет своим фазовым пространством четырехкратную прямую сумму R пространства £, так что каждый вектор z из R записывается в виде z*={zu z2, z3, z4), (6.2) где векторы z, (t= 1, ..., 4) есть элементы пространства £. Для перехода от задачи преследования (6.1) к дифференциальной игре положим z = (x, х, у, у), (6.3) U(u) = (0, р-и, 0, 0), V(v) = (0, 0, 0, ov). (6.4) При этих обозначениях система уравнений (6.1) записывается в виде z = Cz + U(u) + V(v), (6.5) где матрица С задается формулой /0100 г( 0 —а 0 0 [ о оо 1 \0 0 0 —р (6.6)
314 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР (следует помнить, что каждый элемент матрицы С есть квадратная скалярная матрица порядка v). Линейное пространство М дифференциальной игры (6.5) соответствующей нашей задаче преследования, состоит из всех векторов £=(£!,£„£., U, (6.7) удовлетворяющих условию k-C., (6.8) которое соответствует условию х = у. Линейное пространство L, ортогональное к М, состоит из всех векторов <P=--(<Pi, фя. Фз,Ф4), (6.9) удовлетворяющих условию Ф^1 -I- Ф2£2 + Фз£з + Ф4?4 = 0, (6.10) где £—произвольный вектор, удовлетворяющий условию (6.8). Из этого следует, что вектор ф записывается в виде Ф = (Х,0,-х,0), (6.11) где %—произвольный вектор из Е. Сферу К определим условием Ф«Ф=^2 или, что то же, Х-Х=1- (6.12) Матрица е~хС легко вычисляется. Для того чтобы ее кратко записать и для дальнейшего, введем обозначения е0 (т) = **•*, ег (т) = — J e0 (r) dry е2 (т) = — $ ег (г) dry о о т х (6.13) h (т) = *-\ U (т) =: - S f (г) dr, U (т) = - J /, (г) dr. о о Тогда мы имеем /1 *!(t) 0 0 ч * 10 0 1 /i(t) J I0'1*' \0 0 0 /0(т)/ Это легко проверяется. Из (6.11) и (6.14) следует (см. (5.4)) *(Tf9) = *(Tfx) = x(l.«iW.-l.-fiW)- (6.15) Условия максимума и минимума (см. (5.5), (5.7)) дают нам: Функция м(т, ф)=--м(т, %) определяется тем, что функция ре,(т)хи (6.16) переменного и достигает своего максимума при и=^ и(х, %).
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 315 Функция и(т, ф) = v(x, x) определяется тем, что функция -*М*)Х0 (6.17) переменного v достигает своего минимума при v-=-- v(x, %). Так как функции ех (т) и fx (т) положительны при отрицательном т, то эти условия дают «Ф. Х)=Х. у(т> Х) = "-Х- (6-18) При т= О условия максимума и минимума становятся неопределенными, так как ех (0) — fx (0) = 0, но мы будем считать, что соотношения (6.18) сохраняются и при т=0 по непрерывности. Из (6.4), (6.6), (6.8), (6.11) (см. (5.13)) получаем tf(s)-tf(tfX) = x(t.-W. (6-19) Из (6.4), (G.15), (6.18) следует (см. (5.15), (5.16)) Atf(s, и, v)=r АЯ(т, х, и, v)=- p-el(x)'X-(u — x)—cf'fl(x)-%(v—x). (6.20) Наконец, функция ш(т, ф) (см. (5.17) в нашем случае линейно зависит от ф (см. (6.4), (6.18)), и потому (см. § 5, Д)) квадратичная форма w(x, ф0, Ф) определяется формулой И*, Фо. Ф) = Ф-И*. Ф)- (6.21) Из (6.4), (6.15), (6.18), (6.13) и также (5.43) следует: И*. Фо. Ф) =(P^iW-cr7i(T))X-X, /fi 99^ ^(^Ф.,Ф) = -(р^,(т)-а7.(т))х-Х. *' ' Формулы (6.19), (6.20) и (6.22) дают нам возможность выяснить, при каких значениях констант а, р, р, а выполняются условия § 2 для рассматриваемой здесь задачи преследования. Для решения этого вопроса установим следующие свойства функции ^(т) и ^(т). А) При аф$ отношение *M-JH| (6-23) когда —оо < т < 0 лежит на интервале между ( 1, — ). Для доказательства предложения А) заметим, что Мт) = -Ч—. /x(x) = -L^ (6.24) (см. (6.13)). Из (6.24) следует, что g(0)=l, g(-oo)=j3/a. (6.25) Таким образом, для доказательства утверждения А) достаточно
316 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР показать, что для промежуточных значений т(—оо < т < 0) исключены равенства £(*)=!. £(т)=Р/а. (6.26) Доказательство поведем от противного. Допустим, что имеет место второе из равенств (6.26), тогда мы имеем е<х'х = е$х, что невозможно при т<0, так как а=^=р. Допустим, что имеет место первое из равенств (6.26), тогда мы имеем *i(*)-M*) = 0. (6.27) Это равенство имеет место при т = 0. Если то же равенство имеет место при т < 0, то производная левой части его обращается в нуль при некотором отрицательном т. Производная же эта равна £р-т—ga-x и не может обращаться в нуль при отрицательном т, так как аф$. Б) При произвольных значениях положительных констант а, Р, р, а игра (6.4), (6.5), (6.6) удовлетворяет условиям 2, 3, 4, 7, 8, 9 § 2. Докажем это. Условие 2 вытекает из формулы (6.19): так как вектор % всегда отличен от нуля, то градиент функции Н по компонентам вектора £2, равный %, также отличен от нуля. Условия 3 и 4 вытекают из формулы (6.20). В самом деле, из нее видно, что максимум функции АН по переменному и достигается в единственной точке и = %, и соответствующая этому максимуму квадратичная форма является отрицательно определенной, аналогичное имеет место для минимума функции АН по переменному v. Условие 7 выполнено, так как все выписанные здесь функции аналитические. Условие 8 следует легко из явной записи решения уравнения (6.5), которую легко дать при произвольных управлениях и и v. Условие 9 выполнено, так как здесь многообразия Р и Q суть сферы. В) Если положительные величины a, р, p, а удовлетворяют условиям р>а, р/а>сг/р, (6.28) однако одновременные превращения обоих этих неравенств в точные равенства исключаются, то игра (6.4), (6.5), (6.6) удовлетворяет условиям 1 и 6. Так что в силу предложения Б) для этой игры выполнены все условия § 2, за исключением, быть может, условия 5, и, следовательно, для нее верен первый вариант теоремы 1 (см. § 2). Докажем это. Покажем прежде всего, что при выполнении условий (6.28) отношение £j$ <—<x<0) (6-29)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 317 больше единицы. В случае а = р должно быть р>а (см. (6.28)), и тогда отношение (6.29) больше единицы. В случае аф$ отношение el(T)lf1(i) лежит в интервале (1, р/а) (см. А)), а тогда отношение (6.29) лежит на интервале (р/а, ^тб)- В силу условий (6.28) оба конца указанного интервала не меньше единицы и, по крайней мере, один конец больше единицы. Таким образом, отношение (6.29) больше единицы, и мы имеем P-M*)>a./i(t). (6.30) Из неравенства (6.30) непосредственно вытекает, что условие 1 выполнено, так как квадратичная форма ш(т, ф0, ф) (см. (6.28)) является положительно определенной. Для доказательства того, что выполнено условие 6, мы должны показать, что разрешимо уравнение Д# = 0. Пользуясь формулой (6.20), запишем его в виде "•%(%—") = %(%—^)- (6.31) Здесь а> 1 (см. (6.29)), а %, и, v—векторы по модулю, равные единице. При фиксированном векторе % требуется решить это уравнение относительно и при произвольном v, причем так, чтобы при v=£% градиент левой части по и был отличен от нуля. При произвольном изменении вектора v произведение %(%—v) принимает все значения от 0 до 2. Левая же часть при произвольном и принимает вс^ значения от 0 до 2а. Отсюда следует, что уравнение (6.31) разрешимо при произвольном и, а при v=£% мы получаем для и значения, отличные от ±%. При иФ±% градиент функции %и отличен от 0, так как совокупность всех векторов, ортогональных к и, не может быть в этом случаем ортогональна %. Нижеследующее предложение Г) позволяет для игры (6.4), (6.5), (6.6) выяснить структуру множества co(S) (см. теорему 1), а также выполнимость условия 5 § 2. Г) Игре (6.4), (6.5), (6.6) соответствует отображение со, ставящее в соответствие каждой точке s — (т, £, %) точку со(т, £, %) пространства R. Пусть z—произвольная точка из R, не принадлежащая М\ для нахождения всех прообразов точки z следует решить относительно (т, £, %) уравнение со(т, £, Х) = г. (6.32) Положим F(T,z) = (z1-z3 + e1(r)z2-f1(x)-ziy-(p-eA'c)-a-j2('c)r. (6.33) Оказывается, что если точка (г, £, %) удовлетворяет уравнению (6.32), то отрицательное число т удовлетворяет уравнению F(x, г) = 0, (6.34)
318 22- К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР и наоборот, если отрицательное число т удовлетворяет уравнению (6.34), то существует точка (т, £, х) из S, удовлетворяющая уравнению (6.32). Положим, далее, F'(r, z) = |f(t,z). (6.35) Оказывается тогда, что если точка (т, £, х) удовлетворяет уравнению (6.32), то F'(t, г) = 2(р.е2(т)-о.Ш)-Н&, х). (6.36) Для доказательства предложения Г) рассмотрим функцию z(*) = cD(T+*f С, X), (6.37) считая, что точка (т, £, х) удовлетворяет уравнению (6.32). Так как уравнение (6.5) автономно, то функция z(t) удовлетворяет ему при u = v = %. Точнее, z(t) = Cz(t)+U(x) + V(X) (6.38) (см. (6.4), (6.6)). При начальном условии z(0) = co(t + 0, £, х) = г. (6.39) Решение это, как легко проверяется, записывается так: Zi(t) = z1 + el(—t)zt+p-et(—t)x, ) zt(t) = ee(—t)zt + p-eA—t)x, { ,fi4fn z,(t) = z, + h(-t)zt + a-ft(- t)x, f ( ' zAt) = fA-t)-zt+o-n(-t)x- ) Так как z(—т) = со(т—т, £, %) = £,£№, то z,(-t)-^(-t) = 0. (6.41) Подставляя в это соотношение zt (—т) и z3(—т) из (6.40), получаем Zi — z9 + e1{*)zi—f1(x)zt-]-{p-et(4)—o-ft(i))X = 0- (6-42) Отсюда для % получаем * = р-Мт)-о.Мт) • (6'43) Так как |х|=1, то из (6.43) следует (6.34). Если, наоборот, отрицательное число т удовлетворяет уравнению (6.34), то, определяя вектор х из уравнения (6.43), мы получим |х|=1. Решая далее уравнение (6.38) при этом значении % с начальным условием (6.39), мы получим такое решение z(t), что z(—r) = t€M. (6.44)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 319 Ввиду автономности уравнения (6.38) функция z(t—т) удовлетворяет уравнению (6.38) и начальному условию *(0-т) = £ (6.45) (см. (6.44)). Таким образом, z(t-T) = <*(t9 £, х). (6.46) так как функция со(^, £, х), по определению, является решением уравнения (6.38) с начальным условием о> (О, С. Х) = С (6.47) (см. (6.45)). При t = % из (6.46) получаем о)(т, C>x) = z(0) = z (6.48) (см. (6.39)). Таким образом, точка (т, £, х) удовлетворяет уравнению (6.32) (см. (6.48)). Для доказательства формулы (6.36) продифференцируем по т соотношение (6.33). Первая из скобок, стоящая в квадрате и подлежащая дифференцированию, входит как числитель в выра- ражение (6.43), поэтому мы получаем Г{т,г) = = 2(р-е2 (т)—сг/2 (т)) [х(<?0 (т) zt—f0 (т) гА) + (р-е1 (т)— а-/, (т))] = = 2(р-<?2 (т)—а-/,(т)) х [е, (т) г2—f0 (т) г4 4- X (p«i (*) —afi (т))] = = 2(p-et(T)-a.f,(T))x(z,(-T)-z4(-T)) = = 2(p-e2(T)-or-/f(t))x(C»-W. (6-49) Таким образом, соотношение (6.36) доказано (см. (6.19)). Итак, предложение Г) доказано. Д) Если для констант а, р\ р, а выполнено единственное ненеравенство £Нт. (6-50) то для игры (6.4), (6.5), (6.6) имеет место равенство co(S) = #, (6.51) т. е. для каждой точки г, не принадлежащей Af, имеется прообраз, лежащий в S. Если условие (6.50) не выполнено, то соотношение (6.51) не имеет места. Для доказательства предложения Д) следует доказать, что при условии (6.50) Р'МТ) — а'Мт) ^ ±°° ПРИ т —*—°°- (6.52) Это легко следует из (6.13). Таким образом, при произвольном z, не принадлежащем М, имеем F(0, z) = (z1-z,)>>0 (6.53)
320 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР (см. (6.33)). В то же время при достаточно большом отрицательном т F(x, z)<0 (6.54) (см. (6.33), (6.52)). Таким образом, уравнение ^(т, г) = 0 всегда имеет отрицательное решение, если только выполнено условие (6.50), а отсюда в силу Г) следует, что имеет решение и уравнение (6.32). Е) Пусть z0—произвольная точка из /?, не принадлежащая М, и (то» Со» Хо)—ее прообраз, принадлежащий верхнему слою (см. § 2, В)). Тогда т0 есть минимальный по модулю отрицательный корень уравнений ^(т, г0) = 0 и имеет место неравенство (см. (6.35)) F'(*o> *о)>0. (6.55) Первая часть утверждения Е) непосредственно следует из предложения Г). Далее, так как F(0, z0) > 0, то при возрастании т от —оо до 0 функция F(x, z0) последний раз проходит через 0, возрастая, и потому для минимального по модулю отрицательного корня т0 многочлена F(x, z0) имеет место неравенство (6.55). Ж) Если для игры (6.4), (6.5), (6.6) выполнено условие (6.28), то она удовлетворяет условию 5 § 2. В самом деле, по доказанному в предложении В) мы имеем неравенство (6.30) или Р-Мт)—а.Мт)>0, (6.56) из которого непосредственно следует неравенство Р-*,М-<т-/,М>0 (6.57) (см. (6.13)). Таким образом, в силу равенства (6.36) знаки величин F' (т, z) и #(£, %) совпадают. А так как для верхнего прообраза (т0, £0, %0) имеет место неравенство (6.55), то для него имеет место неравенство Я (£,, Ь)>0, (6.58) и, следовательно, условие 5 для игры выполнено. § 7. Усиление условия 5 Здесь вновь будет рассматриваться общая дифференциальная игра (см. § 2), о которой мы будем предполагать, что для нее выполнены условия 1, 2, 5, 7, 8. А) В предложении Д) § 3 была введена операция, ставящая в соответствие функции cp(s) функцию <pr(s). Здесь cp(s) есть функция точки s многообразия 5, определенной на некоторой окрестности точки s0, для которой #(s0) = 0. В такой окрестно-
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 321 сти определено векторное поле (см. § 3, А)) r(s) = (l, r2(s), ..., r»(s)) (7.1) и функция <pr(s) определяется формулой Фг(«) = ^1^ГФ(5)г'(5). (7.2) i- 1 В частности, эту операцию можно применять повторно к самой функции #(s). Именно, составить последовательность H°(s) = H(s), №(s) = H°(s), ..., H^(s) = Wr(s), ... (7.3) Нижеследующее предложение Б) является важным следствием условия 5 § 2. Само условие 5 предполагает, что каждой верхней точке s функция #(s) неотрицательна, но если #(s) = 0, то условие 5 непосредственно ничего не дает. Оказывается, что и для точки s0, в которой H(s0) = 0, имеет место положительность некоторого инварианта, при этом мы должны учитывать возможность того, что некоторая точка z0 из R может иметь несколько верхних прообразов. Б) Пусть z0— некоторая точка пространства R, не принадлежащая М. Тогда среди ее верхних прообразов можно выбрать такой —s0, что для него либо H(s0)=£Oy и тогда в силу условия 5 Н (s0) > 0, или существует такое натуральное число k, что tf°(s0H0, Hl(s0) = 0, ..., tf*-i(s0) = 0, tf*(s0)>0. (7.4) Для доказательства предложения Б) формулируем и докажем предварительно предложение В), являющееся небольшим уточнением известного факта математического анализа. В) Пусть s0 — произвольная точка верхнего слоя многообразия S, причем (d(s0) = z0, тогда система соотношений zt = a?(s\ s2, ..., s») (t=l, . .., п) (7.5) в окрестности точки (s0, z0) может быгь заменена системой соотношений W(s\ z) = 0, (7.6) s' = wJ(s\ г) (/ = 2, ..., /г), (7.7) причем W(s\ г0)фО. (7.8) Только это последнее соотношение является специфическим. Так как соотношения (7.5) являются, по предположению, аналитическими, то и соотношения (7.6), (7.7) также аналитические. Для доказательства предложения В) заметим, что в силу условия 1 ранг матрицы ( °* j (t=l, ..., п\ / = 2, ..., п)
322 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР равен п—1, и потому среди ее миноров п—1 порядка имеются отличные от нуля. Предположим для определенности, что детерминант матрицы ( гс у" j (t = 2, ..., п\ / = 2, ..., п) отличен от нуля. Тогда в силу теоремы о неявных функциях п—1 соотношений из системы (7.5), именно, соотношения номеров t = = 2, ..., л, могут быть разрешены в окрестности точки (s0, z0) относительно переменных s2, ..., sn. И в результате этого решения мы получаем соотношения (7.7). Подставляя величины s2, ..., sn из соотношений (7.7) в соотношение (7.5) при 1=1, получаем соотношение (7.6). При этом соотношения (7.6), (7.7) в окрестности точки (s0, z0) эквивалентны соотношениям (7.5). Докажем теперь от противного соотношение (7.8). Допустим, что W(sx, z0) = 0. Тогда при z = z0 соотношения (7.5) эквивалентны соотношениям (7.7), а это значит, что прообраз точки z0 при отображении со содержит точки s, у которых первая координата s1 может принимать произвольные значения на некоторой окрестности точки sj. Таким образом, точка s0 не является верхним прообразом точки z0, что противоречит предположению. Итак, предложение В) доказано. Пусть s0—произвольный' верхний прообраз точки z0. Будем считать, что соотношения (7.6) и (7.7) заменяют соотношение z = co(s) вблизи точки (s0, z0). Докажем теперь предложение Б). Аналитическую функцию W(sl,z) (см. (7.6)) разложим в ряд по степеням (s1 — sj). Мы имеем W (s1, z) = a0(z) + a1(z)-(sl-sl) 4- ... +ak(z).(s1-si)k + + a,+1(z)-(s1-So1)fe+1+... (7.9) Коэффициенты a,(z) суть аналитические функции, определенные на некоторой окрестности точки z0. Так как W (sly z0) = 0, то a0(z0) = 0, но в силу соотношения (7.8) все числа a/(z0) не могут обращаться в нуль. Мы будем считать, что ak+1(z0) есть первое, не обращающееся в нуль. Кроме того, изменив, если нужно, знак функции W, мы можем считать, что ak+1(z0)> 0. Таким образом, мы имеем a0(z0) = 0, .... a*(*o) = 0, flft+i(z0)>0. (7.10) Функция W(s1yz0) имеет поэтому (k + 1)-кратный нуль s1 = s10, причем существует такое е > 0, что r(sJ + 8, z0)>0 (e>0). (7.11) Когда точка z достаточно близка к точке z0, указанный (k+ 1)- кратный нуль превращается в совокупность Е нулей функции Wis1, z) общей кратности &+ 1, лежащих вблизи sj. Можно считать, что при \z — z0|<6 все нули совокупности Е лежат
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 323 в е-окрестности точки sj и выполнено неравенство W(sJ + e, z)>0 (7.12) (см. (7.11)). Таким образом, если в совокупности Е есть действительные нули и s1 есть максимальный из них, то функция Wis1, z) переменного s1 возрастает в точке s1, и потому ^r(W(s\ 2))>0. (7.13) Подставляя в функцию Wis1, z) вместо z функцию co(s), мы получаем тождество по s: W(s\ cd(s)) = 0. (7.14) Дифференцируя левую часть этого тождества по переменным s1, ..., sn, получаем ^(s>,z) + ±±W^z)d-^, (7.15) 1=1 E^fe1.*)^ (/ = 2 п). (7.16) 1 = 1 Выражения (7.15) и (7.16) обращаются в нуль при подстановке z = cd(s). Тождества, вытекающие из (7.16), показывают, что величины —TW is1, (о is)) (i = 1, . .., п) осуществляют линейную зависи- dzl (доУ (s) \ ,. « ел \ —т1-) (t = 1, ..., п; ] = 2, ..., п) dsJ J и потому пропорциональны компонентам вектора i|)(s) (см. § 2), отличаясь от него лишь множителем —bis), причем bis0)^0. Учитывая это, мы получаем из (7.15) ^Wis1, <o(s)) = 6(s)-tf(s). (7.17) ds1 Дифференцируя это тождество по s1, . . ., sn и умножая полученные тождества соответственно на /*1(s)=l, r2is), ..., rn(s), получаем (см. § 3, А)) (3.16)) — W(S\ С0(5))-Ь^^-71Г(51,С0(5)).(0*'(5)-Я(5) = = b(s)-Hl(s) + br(s)-H(s) или, иначе, ^-U7(s\ (о(5)) = 6(5)-Я>(5) + 611,(5)-Я(5). (7.18)
324 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Применяя к (7.18) последовательно ту же самую операцию, получаем -^W(s\ &(s)) = b(s).H'(s) + bilW-*{s)+...+bii(s).H°(s). (7.19) Из соотношений (7.17), (7.18), (7.19) в силу (7.9) и (7.10) следует tf°(s0) = 0, Я1(50) = 0, ..., #*-*(*) = 0, 6 (s0)-Я* (So) >0. (7.20) Докажем, что для некоторого верхнего прообраза s0 точки z0 имеем /ф0)>0, (7.21) так что в силу (7.20) #*(s0)>0. (7.22) Ввиду ограниченности игры (см. § 2, условие 8) совокупность всех верхних прообразов точки z0 компактна (см. § 4, В)). Ввиду аналитичности игры эта совокупность конечна. Пусть она будет soi» • • •» som* (7.23) Если среди этих точек существует хоть одна soh для которой Я($0/)=7^=0, то предложение Б) уже доказано, так как тогда #(s0/-)>0. Допустим теперь, что Я(50/) = 0 (t=l, ...,m), (7.24) и обозначим через Я) совокупность всех точек из некоторой окрестности точки s0/, удовлетворяющих условию H(s) = 0. Так как grad#(s0/) =^=0, то каждое из множеств Я,- нигде не плотно в S, а потому нигде не плотна сумма К всех множеств со (Я,.) (i=l, • • ., т). Таким образом, в произвольной близости к точке z0 имеется точка z, не принадлежащая /С. Пусть s—один из верхних прообразов точки г. Точка s принадлежит окрестности одной из точек (23), пусть это будет s0/, ее мы и примем за s0. Так как точка s не принадлежит множеству Я,, то H(s)=^0, "а так как s принадлежит верхнему слою, то H(s)>0. (7.25) Первая координата s1 точки s1 определяется из уравнения W(s\ г) = 0 (7.26) и является максимальным корнем этого уравнения, принадлежащим окрестности точки sj, а потому имеет место неравенство (7.13). В силу соотношения (7.17) для s = s мы имеем, таким образом, из (7.13) и (7.25) 6(s)^0, а так как точка s достаточно близка
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 325 к точке soi = s0l то b(s) имеет тот же знак, что и b(s0). Таким образом, fe(s0)>0, и неравенство (7.21) доказано. Итак, предложение Б) доказано. Г) Пусть s0—такая точка верхнего слоя многообразия S, для которой выполнено условие Я° (s„) = 0, ..., Я*"1 (s0) = 0, Я* (s0) > 0, (7.27) где k—некоторое натуральное число (см. (Б)). Тогда для каждой точки s, достаточно близкой к s0, существует такое целое число /, 0</<А>, что H°(S) = 0, ..., H'-1(s) = 0, Я'(s) =^=0. (7.28) Далее, для окрестности точки s0 можно ввести понятие верхнего слоя, именно, прообраз каждой точки z, близкой к Zo = cd(s0), в окрестности точки s0 состоит из конечного числа точек, и ту единственную из этих точек (т, G), для которой т имеет максимальное значение, можно назвать верхним прообразом точки z в окрестности точки s0. Оказывается при этом, что для точки s верхнего слоя окрестности выполнено условие #(s)>0, (7.29) и если H(s) = 0, то существует такое натуральное число /, что Я0 (s) = 0, .. ., Я'"1 (s) = 0, Hl (s) > 0. (7.30) Для доказательства предложения Г) прежде всего следует записать отображение z = co(s) вблизи точки (s, z0) в форме (7.6), (7.7). Тогда в окрестности точки s0 имеют место соотношения (7.17), (7.18), (7.19), причем можно считать (изменив в случае надобности знак функции W), что b(s0)>0. (7.31) Из соотношений (7.17), (7.18), (7.19) в силу условий (7.27) и (7.31) следует, что для разложения (7.9) выполнено условие (7.10). Из этого следует, что в окрестности точки (s0, z0) каждый нуль функции со(s1, z) имеет кратность /+1^£+1, так что выполнено соотношение (7.28), а для максимального нуля имеет место неравенство (7.13), так что выполнено условие (7.29). Так как, далее, в силу соотношений (7.6), (7.7) верхний прообраз точки z в окрестности точки s0 определен однозначно, то для него выполнено условие (7.30). Итак, предложение Г) доказано. § 8. Доказательство второго варианта теоремы 1 Здесь предполагается, что рассматриваемая дифференциальная игра удовлетворяет условиям 1 — 5, 7—9. Доказательство, в отличие от доказательства первого варианта (см. § 4), будет при-
326 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР водиться без наводящих уныние деталей. В направлении этих деталей сделаю лишь одно общее замечание. При рассмотрении игры в переменных s1, .. ., sn (см. § 3), т. е. в различных окрестностях многообразия S, следует рассматривать пары окрестностей U и V, замыкания которых U и V компактны, причем U содержится в V. Рассматриваемые уравнения игры предполагаются аналитическими на всем множестве V. По ходу игры величины Н (s) и АН (s, и, v) остаются неотрицательными, поэтому, принимая за независимое переменное величину s1, мы получим дифференциальные уравнения dsJ __ AH(s, ц, v) /{ Н (s) DJ . dsi " Я (s) + Atf (s, и, v) Г (S> + Я(5)-1-ДЯ(5, и, v) K (S> U> V) (/=2, ..., /2), правые части которых ограничены по ходу игры (см. (3.4), (3.21)), и потому рост величины s1 за время перехода точки s из окрестности U на границу окрестности V оценивается снизу некоторой положительной константой с, не зависящей от хода игры. Таким образом, если игра исходит из некоторого состояния s в окрестности с7, то при росте t она либо покидает окрестность V по траектории, на которой Я положительно, причем s1 возрастает по меньшей мере на с, либо при стремлении t к некоторому пределу tx игра стремится к состоянию s(^), для которого Я(5(^)) = 0. (8.1) Пусть z0 — исходное состояние игры и s0 — верхний прообраз точки z0 при отображении со (см. § 2, В)). В силу условия 5 имеем #(s0)>0. (8.2) Рассмотрим сначала случай, когда #(s0)>0. (8.3) В этом случае в окрестности точки z0 вместо переменных г1, ..., гп можно ввести переменные s\ . . ., sn в силу соотношения z = co(s), (8.4) и для величины s1 имеет место уравнение •1=1 + ДЯ|^) (85) Мы будем считать, что исходным моментом времени является нуль и заданное управление v(t) непрерывно на некотором полуинтервале 0 ^ /. Управление и зададим формулой u = u(s). (8.6)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 327 Подставляя в уравнение игры в переменных s1, ..., sn v = v(t), u = u(s), (8.7) мы получим вполне определенные дифференциальные уравнения, которые можно решить при начальном условии s(0) = s0. (8.8) При этом (см. § 2, условие 3) имеем ДЯ (s, u{s), v(t))=AH2(s, 0(*))>O, (8.9) так что правая часть уравнения (8.5) остается не меньше единицы. Получаемая при интегрировании этих уравнений точка s(/), двигаясь по траектории, на которой #(s(^))>0, либо покинет рассматриваемую окрестность, либо в некоторый момент tx > О придет в состояние s(^), удовлетворяющее условию (8.1). В первом случае мы будем исходить при дальнейшем построении из состояния sx игры на границе рассматриваемой окрестности точно так же, как из первоначального состояния s0, пользуясь лишь тем, что Я{sx) > 0, а не тем, что sx лежит в верхнем слое. Продолжая развитие игры таким способом, мы либо будем приближаться неограниченно к состоянию s1 —О, т. е. к концу игры, либо придем к состоянию sl9 для которого H(sx) = 0. (8.10) Если точка sx принадлежит верхнему слою, то мы вновь обозначим ее через s0, если sx не принадлежит верхнему слою, то мы обозначим через s0 точку, лежащую в верхнем слое над s^ Для так полученного состояния s0 либо вновь имеет место неравенство (8.3) — случай, нами уже разобранный, либо для него существует такое натуральное число к, что Я° (s0) = 0, .. ., Я*"1 (s0) = 0, Я* (s0) > 0 (8.11) (см. § 7, Б)). Развитие игры, исходящее из состояния s0 = s(0) верхнего слоя, удовлетворяющего условию (8.11), мы будем строить по-разному для двух различных случаев в зависимости от управления v(t). Будем считать, что управление v(t) определено и непрерывно на некотором полуинтервале 0^^. Нам придется различать два следующих случая: случай 1: v (0) = v (s0), \ случай 2: v(0)¥*v(s0). j ( ' В случае 1 мы используем конструкцию, данную в § 4, именно, присоединим к дифференциальным уравнениям игры соотношение (4.1). Для решения этого уравнения относительно и применим способ, указанный в предложении А) § 4 в первом из рассмотренных там случаев (см. (4.13)). Таким образом, мы получим
328 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР развитие игры на некотором отрезке времени O^tf^^, на протяжении которого для величины s1 имеет место уравнение sx=l (см. (4.3)). После достижения состояния s(/x) мы перейдем к верхнему слою и поведем дальнейшее развитие игры. В случае 2 (см. (8.12)) мы дадим новую конструкцию в нижеследующих предложениях А), Б), В), Г), Д). А) В окрестности точки s0 многообразия S, для которой Я(50) = 0, (8.13) вместо координат s1, .. ., sn можно ввести такие новые координаты а1, ..., о» (8.14) при помощи невырожденного преобразования s = s(o\ ..., a,|) = s(a), s0 = s(o0), (8.15) что операция <pr(s) (см. § 3, Д)) записывается при помощи них в виде %(S(G)) =-^4(8(0)). (8.16) Для введения координат (8.14) мы определим функцию (8.15) как функцию переменного or1 из системы обыкновенных дифференциальных уравнений & = '(*) (8-!7) при начальных условиях s(gI) = s(g\ ...,a«), (8.18) где s(o2, .. ., а") есть некоторая аналитическая вектор-функция переменных а2, ..., а", удовлетворяющая условию s(a20, ..., <j«) = s0, (8.19) а векторы г (So), ^s(ol ...,a?), ..., ^s(a20, . . ., a?) (8.20) линейно независимы. Благодаря линейной независимости этих векторов, построенное преобразование (8.15) не вырождено в некоторой окрестности точки а0. Таким образом, предложение А) доказано. Б) Пусть s0—точка из S, удовлетворяющая условию (8.11), а (8.14) — координаты в окрестности точки s0, введенные в предложении А), для которых а0 = 0. (8.21) В этих координатах функция Н записывается в виде H(s(a)) = H(a) = (k+l)[y(a1)4 (a1)*" a (a1) -I -$(o\ a2, ...,<*»)], (8.22)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 329 где у — положительное число, а (а1) — аналитическая в окрестности точки 0^ = 0 функция переменного а', а (Ца1, а2, . . ., а")—аналитическая в окрестности точки а = 0 функция переменных <Л •••> or", удовлетворяющая условию р(<Л 0, ..., 0) = 0. (8.23) Для доказательства предложения Б) достаточно разложить аналитическую в окрестности точки о = 0 функцию Я(а) в ряд Тейлора по переменным (8.14), учитывая при этом, что в силу условия (8.12) и предложения А) имеем Я(0) = 0, si Я (0) = 0, -... ^тЯ(0) = 0, (^Я(°>>°> (8.24) благодаря чему последний член последовательности (8.24) может быть записан в форме (k+ Пу> гДе Y > 0- Таким образом, предложение Б) доказано. В) В переменных а1, ..., а" (см. А)) уравнения (3.4), (3.21) записываются в виде • , АН (а, и, v) . с/ / ч /о ос\ а = И (о) +f <а' "• У)' (8'25) ^ = Р(а, u,v) (/ = 2, . .., я), (8.26) где ДЯ(а, и, у) = АЯ (s(a), u, v), Я (о) = Я (s (a)), (8.27) а функции f (a, u, v) (t=l, . . ., п) суть аналитические функции всех переменных при произвольных значениях и и v и переменного а в некоторой окрестности точки а0. Для доказательства предложения В) достаточно вычислить производную в силу системы (3.4), (3.21) от величины a1' (i = 1, . .., п). При этом следует отметить, что в силу А) имеем tf = |£ = ei (8.28) (см. § 3, Д)). Таким образом, предложение В) доказано. Г) Будем считать, что в момент ^ — 0 игра находится в состоянии s0, удовлетворяющем условию (8.11), а для управления £>(/), непрерывного на некотором полуинтервале t^0, имеет место случай 2 (см. (8.12)), так что v(t) = v{0) + \L(t)9 (8.29) где v(0)=£v(s0), (8.30)
330 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР a \i(t) — непрерывная на полуинтервале [0 ^ / вектор-функция, удовлетворяющая условию |а(0)=*0. (8.31) Тогда функция Atf2(s, v(t)) в окрестности точки s0 и /!>0 записывается в виде A#2(s, v(t)) = 6 + v(s, (i(0), (8.32) где б — положительное число (см. § 2, условие 3), a u(s, |i) — аналитическая функция переменных s и [х при s, близком к s0, и |i, близком к нулю, удовлетворяющая условию v(s0t 0) = 0. (8.33) Управление и вблизи точки s0 зададим условием u = u(s). (8.34) Тогда в силу соотношений (8.29) и (8.34) мы имеем АН (s, и (s), у (0) = б + v (s, \i (/)). (8.35) Переходя в окрестности точки s0 к координатам а1, ..., а*' (см. А)), причем а0=ч0, мы запишем уравнения (3.4), (3.21) в виде .1=6+^M0)+gl(a>fl(0)> (8e36) <^ = ^>, |х(0) (/ = 2, ...,л). (8.37) где б—положительное число, w(o, \i) — аналитическая функция вблизи в=0, |i = 0, удовлетворяющая условию о/(0, 0) = 0, (8.38) g1'(a, \i) (t= 1, ..., я)—аналитическая функция переменных а и \i вблизи а = 0, [х = 0, а Я (а) задается формулой (8.22). Оказывается, что система уравнений (8.36), (8.37) имеет решение a = a(t) (8.39) на некотором полуинтервале 0<< с начальным условием а(0) = 0, (8.40) удовлетворяющее неравенству H(a(t))>0 при f>0. (8.41) Для доказательства предложения Г), т. е. для решения системы дифференциальных уравнений (8.36), (8.37) с начальным условием (8.40), перепишем эту систему в интегральной форме, умножив предварительно уравнение (8.36) на величину (k + l)^1)*.
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 331 Тогда будем иметь /„iVk+i- Г Г 6-(^+(a^tt;(a,li(/)) 1 ^ J Ivta^ + ta^ + ^Ca^ + Pta1, a2, ....a»)-1" о + (Н1)И»г,(«'.1*(0)]л. (8-42) <^=5^К|*(/))Л. (8.43) О В этих уравнениях введем новые неизвестные функции л , л- , . . . , л- , ПОЛОЖИВ (ai)*+i = /(ci+Jci)f Ы = ЦЫ+х*) (/ = 2, ..., л), (8.44) где ^-у. ^ = ^(0,0) (/ = 2 я). (8.45) Заметим, что с1 > 0, так что функция k (&+Х1) k+l является аналитической функцией переменного х1 в окрестности точки х* = 0. Благодаря этому числитель и знаменатель дроби, входящей в правую часть уравнения (8.42), можно разделить на величину k k (а1)*=<л + 1(с1+ я1)**1, в результате чего эта дробь запишется в виде ± + w*(x, /, [х(0), 1 где w*(x, t, \i) есть аналитическая функция переменных х9 tk+l, [i в окрестности точки х = 0, / = 0, \i = 0 (см. (8.22) и (8.38)), удовлетворяющая условию w*(x, 0, 0) = 0. (8.46) Таким образом, уравнение (8.42) переписывается в виде tx1=lh1(x, t, v(t))dt. (8.47)
332 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР Аналогично уравнение (8.43) записывается в виде tx*=\hf(x, t, \i{t))dt. (8.48) о Здесь функции hJ'(x, t, \i) являются аналитическими функциями 1 переменных ху tk+l, \i в окрестности точки х = 09 t = 0, ц, = 0 и удовлетворяют условию А'(х, 0, 0) = 0 (t=l, ...,/г). (8.49) Итак, система (8.47), (8.48) в векторной форме записывается в виде *х=$й(х, t, \i(t))dt, (8.50) о где h—аналитическая вектор-функция, удовлетворяющая условию (8.49). Ввиду аналитичности этой функции и условия (8.49) дЫ производные —г также удовлетворяют условию dxJ dhl (х, 0, 0) л /• • 1 ч /о г 1ч —к——'- = 0 (t, / = 1, ..., /г). (8.51) Так как \i(t) есть непрерывная функция при 0^ t, удовлетворяющая условию |i(0) = 0 (см. (8.31)), то функции dxJ в некоторой фиксированной окрестности X точки х = 0 стремятся к нулю вместе с t. Это свойство правой части уравнения (8.50) дает возможность для решения этого уравнения с начальным условием х(0) = 0 (8.53) применить метод сжатых отображений. В самом деле, благодаря свойству (8.52) для произвольных точек х, xlt x2 окрестности X, мы имеем оценку |А(Х, U И0) К "*(*). |'(*а. Л |Х(/)) —Л(^1. Л И0)К <m(0l*,—*i|, (8.54) где т(^) — монотонно возрастающая непрерывная функция, удовлетворяющая условию т(0) = 0. Для применения к уравнению (8.50) метода сжатых отображений рассматривается семейство Q функций x(t), определенных на отрезке 0<^^е и протекающих в окрестности Х\ здесь 8 — достаточно малое положительное число. На семействе Q опреде-
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 333 лен оператор А: t A(x) = \^h(x(t), t, \i(t))dt, (8.55) о и оператор этот является сжимающим (см. (8.54)). Таким образом, существует решение x(t) уравнения (8.50), определенное на некотором полуинтервале 0<^ с начальным условием (8.53), ему соответствует решение 1 1 a1 = f*+I(c1 + x1(0)*+1. tf = t(d + xt{t)) (/ = 2, ...,п). (8.56) Подставляя это решение в функцию Я (а) (см. (8.22)), получаем H(a(t)) = {k+ 1) [у-^гтт(с1 + АГ1(0)ггг+ uu'\ = ct^ri+o\tT^)t (8.57) где с—положительное число. Таким образом, предложение Г) доказано. Следует заметить (но я этого здесь не доказываю), что решение o(t) системы (8.36), (8.37) является единственным, удовлетворяющим условию (8.41), и кривая s(t) = s(o(t)) при достаточно малых положительных t проходит в верхнем слое окрестности точки s0 (см. § 7, Г)). Д) Траектория s(t), начинающаяся в точке s0 = s(0), для которой выполнено условие (8.11), была построена в предложении Г) в предположении, что v(0) =£v(s0), при помощи управления u = u(s). (8.58) При малых положительных значениях t она удовлетворяет условию H(s(t))>0. (8.59) Конструкция, данная в Г), имеет место лишь при малых значениях t. Однако, задавая управление и формулой (8.58), мы можем продолжать траекторию до тех пор, пока сохраняется неравенство (8.59). В результате такого продолжения траектории мы либо покинем рассматриваемую фиксированную окрестность, либо, оставаясь в этой окрестности, придем в такую точку s, для которой #(s) = 0. От точки s мы перейдем к точке верхнего слоя рассматриваемой окрестности (см. § 7, Г)) и, обозначив ее через s0, поведем построение траектории из нее уже описанным способом. Можно думать, что конечное число таких переходов выведет точку из фиксированной окрестности, однако это не доказано, и приходится допустить возможность счетной последовательности траекторий, расположенных в фиксированной окрестности. Переходя
334 22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР к пределу и продолжая процесс дальше, быть может, по счетному числу трансфинитов, мы все же выйдем из фиксированной окрестности. Этим в основном завершается доказательство второго варианта теоремы 1. § 9. Сравнение двух вариантов теоремы 1 В доказательствах двух различных вариантов теоремы 1 даются два различных управления игрой (см. § 4 и 8). Возникает естественный вопрос, имеет ли какое-либо из этих двух управлений преимущество над другим. Прежде всего следовало бы ответить на вопрос, существует ли такая игра, для которой условия первого варианта теоремы 1 выполняются, а условия второго варианта не выполняются, и наоборот. Ответа на этот вопрос я не имею. Я могу дать его частично для теоремы несколько более сильной, чем теорема 1 (см. ниже теорему 3). Далее, в случае, когда для некоторой игры выполнены условия обоих вариантов, желательно знать, имеет ли какое-нибудь из двух управлений преимущество над другим. Полностью ответить на этот вопрос трудно, так как в обоих вариантах управления имеются скачки величины s1 при переходах к верхнему слою, и оценить сравнительную величину этих скачков при обоих вариантах управления затруднительно, однако непрерывная часть изменения величины s1 происходит быстрее при втором варианте управления. В самом деле, при первом варианте непрерывное изменение величины s1 задается уравнением s4=l, (9.1) а при втором варианте—уравнением •I=1+A*(,,«,,,)t (g>2) причем второе слагаемое всегда неотрицательно, но является положительным в случае, если управление v (t) не оптимально. Для того чтобы усилить теорему 1, отметим одно обстоятельство, имеющее место как при доказательстве ее первого варианта, так и при доказательстве второго варианта. Для этого прежде всего напомним обозначения. Пусть z — произвольное состояние игры и (т, 0) — его верхний прообраз (см. § 2, В)), тогда T(z) = \x\. (9.3) Допустим, что для рассматриваемой игры выполнены все девять условий из § 2, так чго, исходя из некоторого состояния игры z0, можно построить развитие игрыг^/), соответствующее доказательству первого варианта, и развитие z2(/), соответствующее доказательству второго варианта. Пусть при этом z1(Q) = z2(0) = z0. (9.4)
22. К ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ ИГР 335 На первый взгляд может показаться, что величины 7 (Zl(0) и 7(г,(0) (9.5) являются монотонно убывающими функциями времени t; это, однако, не вытекает из доказательств, так как рассматриваемый в них прообраз s(t) игры не всегда принадлежит верхнему слою. Нетрудно видеть, однако, что имеют место неравенства Т(ггЦ))<Т(г,), T(zt(t))<T(z0). (9.6) Из этого легко следует, что имеет место следующее усиление теоремы 1: Теорема 3. Рассмотрим некоторую игру, и пусть 7\ и Т2—два положительных числа. Обозначим через Аг множество всех таких точек z из R, что Т(г)<Ти а через А2 —множество всех таких точек z из R, что Т (z) < 7\>. Если для каждой точки z из А^ и ее верхнего прообраза s выполнены условия первого варианта теоремы 1, то, исходя из любого состояния z0 множества Аг, игру можно закончить за время, не превосходящее величину T(z0). Если для каждой точки z из А2 и ее верхнего прообраза s выполнены условия второго варианта теоремы 1, то, исходя из любого состояния z0 множества А2, игру можно закончить за время, не превосходящее величину Т (z0). Для состояний, принадлежащих множеству А19 следует применять конструкцию, данную в § 4, а для состояний, принадлежащих множеству А2, следует применять конструкцию, данную в § 8. Контрольный пример преследования, описанный в § 6, задается положительными числами а, р, Р, а. (9.7) Для этого примера при произвольных положительных значениях чисел (9.7) выполнены все условия 1—9, за исключением, быть может, лишь условий 1, 5, 6. А условия 1, 5, 6 зависят от некоторых неравенств, выполненных для чисел (9.7). Условия 1 и 6 употребляются при первом варианте доказательства, а условия 1 и 5 — при втором варианте доказательства. При доказательстве условия 6 (см. (6.30)) используется неравенство P*i(t) >аЫт), (9-8) а при доказательстве условия (9.5) (см. 6.57) — неравенство рМ*)><тМ*). (9-9) При доказательстве условия 1 в § 6 используется неравенство (9.8) (см. (6.30)), но в действительности для него достаточно иметь неравенство (9.9), так как из (9.9) следует дефинитность квадратичной формы W(x, cp0, ср) (см. (5.43)).
336 ^2. К теории дифференциальных игр Допустим, что неравенство р > о имеет место, а вместо неравенства р/а > а/Р выполнено противоположное неравенство (см. (6.28)), тогда для малых отрицательных значений т выполнены оба решающих неравенства (9.8) и (9.9), а при дальнейшем убывании т сначала нарушается неравенство (9.8) при некотором значении т = — 7\, а затем—неравенство (9.9) при т = — Т2, так что Т2>Т1. Числа 7\ и Т2, указанные здесь, являются теми самыми, которые в теореме 3 определяют множества А1 и Л2. Таким образом, оказывается, что множество А2 в данном случае обширнее множества Alt и потому второй вариант теоремы 3 сильнее первого ее варианта в рассматриваемом нами примере. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, О некоторых дифференциальных играх, ДАН 156, № 4 (1964), 738 — 741. [2] R. Isaacs. Differential Games, John. Wiley and Sons, Inc., New York, London, Sydney, 1965. [3]Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Мищенко, Математическая теория оптимальных процессов, М., Физматгиз, 1961. [4] В. Г. Болтянский, Достаточные условия оптимальности и обоснование метода динамического программирования, Изв. АН СССР 28, № 3 (1964)
23 ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ*) Совместно с Е. Ф. Мищенко 1. Пусть движение вектора z в я-мерном эвклидовом пространстве R описывается линейным векторным дифференциальным уравнением dz/dt=-Cz+U(u)—V(v), (1) где и и v—управляющие параметры, значения которых лежат на (v—1)-мерной единичной сфере /С; С—постоянная матрица; U и V—аналитические отображения сферы К в пространство R. Пусть в R задано (п — г)-мерное векторное подпространство М. Мы будем говорить, что всеми этими данными описана линейная дифференциальная игра (1) (см. [1]). Будем говорить, что игра (1) может быть закончена на некотором множестве A aR, если при любом начальном значении z0£A вектора z и при произвольном кусочно-непрерывном изменении управляющего параметра v(t) можно подобрать такое изменение управляющего параметра u(t), что точка z попадет на подпространство М за время, не превосходящее числа Т(г0)^0; при этом для нахождения значения параметра u(t) в каждый момент времени t используются только значения z(t) и v(t) в тот же момент времени / и не используются значения z и v в моменты времени, следующие за t. В настоящей заметке мы указываем некоторые весьма простые условия, достаточные для завершения линейной дифференциальной игры. 2. Пусть L—ортогональное дополнение в R к подпространству М. Ортогональную проекцию любого вектора z£R в подпространство L будем обозначать через яг. Правая часть уравнения (1) определяет следующие два отображения сферы К в L: y = n(e-*cU(u)), (2) y = n(e-*cV(v)). (3) Всюду в дальнейшем будем считать, что т—отрицательное число. Мы будем предполагать, что выполнено следующее Условие а). Образы сферы К при отображениях (2) и (3) являются выпуклыми, локально выпуклыми (v—1)-мерными гиперповерхностями в L. (Локальная выпуклость понимается здесь в *) Докл. АН СССР.—1967.—Т. 174, № 1.— С. 27—29.
338 23. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ дифсреренциальногеометрическом смысле, как дефинитность второй квадратичной формы.) Рассмотрим скалярные произведения Ф • я {e~xCU (u))t ф • л {e~xCV (и)), (4) где ф — произвольный единичный вектор из L, который мы будем представлять себе как точку сферы /С, а сферу К — единичной сферой в L. Пусть и — и(х, ф), v^-v(t, ф)—точки, дающие максимум соответствующим выражениям (4) при фиксированных т, Ф по и, соответственно по v. Построим отображение y = n[e-xC(U(u(x, <p)))-V(v(x, ф))] = о;(т, <р) (5) сферы К в L. Это отображение, вообще говоря, не является ни регулярным, ни взаимно-однозначным. Обозначим через 2Х образ сферы К при отображении (5). Легко видеть, что вектор ф является нормалью к поверхности 2Х в точке w(x, ф). Мы будем предполагать выполненным следующее Условие б). Поверхность 2Х локально выпукла, причем вектор ф является внешней нормалью к 2Х в соответствующей точке. Наконец, мы будем предполагать, что выполнено еще одно Условие в). Ортогональная проекция подпространства СМ в L совпадает со всем L. Тогда имеет место следующая Теорема. При выполнении условий а), б), в) линейная дифференциальная игра (1) может быть закончена на некотором множестве AaR за вполне определенное вычислимое время Т(г0). Доказательство проводится путем редукции к теореме 1 работы [1], относящейся к общим, а не только к линейным дифференциальным играм. Множество А и время окончания игры определяются по рецепту, указанному в работе [1]. Здесь мы проведем саму редукцию, а также укажем условие, когда А = R. Функция co(s) (см. [1]) для линейной игры (1) выписывается в явном виде, именно z = cd(s)=-cd(t, ф, £) = т ^с[£+$е-'с(£/(ы(г, <p))-V(o(r, <p)))dr\, (6) О где s= (s1, s2, ..., sn)\ т = s1; q> = (s2, ..., sv) —произвольная точка сферы /С; £=--(sv+1, ..., sn) — произвольная точка подпространства М\ и(т, ф), v(r, ф)—функции, фигурирующие в отображении (5). Линейная независимость векторов dco/ds2, ..., dco/dsn эквивалентна локальной выпуклости поверхности 2Х, и, таким образом, условие 1 работы [1] в нашем случае выполнено. Условие 2 для игры (1) легко может быть проверено в самом общем случае. В частности, оно вытекает из более сильного условия в). Осталь-
23. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 339 ные условия 3, 4, 6, 8, 9 работы [1] для линейной игры почти автоматически следуют из условий а), б). Приведем здесь доказательство того, что в предположениях сформулированной выше теоремы выполнено наиболее трудно проверяемое условие 5 работы [1], т. е. что для любой точки s, принадлежащей верхнему слою отображения co(s), функция Н(s) неотрицательна. На конечном этапе доказательства мы воспользуемся следующим вспомогательным предложением, которое содержится в § 7 работы [1]: Лемма. Пусть уравнение F(x, г)-0, г$М, (7) получается в результате исключения переменных s2, ..., sn из уравнения (6) (это значит, что если точка z удовлетворяет уравнению (6), то отрицательное число х удовлетворяет уравнению (7), и наоборот, если отрицательное число х удовлетворяет уравнению (7), то cywtecmeyem точка s—(т, ф, £), удовлетворяющая уравнению (6)). Тогда имеют место следующие два соотношения: dF(x, (o(s))/dz^-b(s)q>e~xC; Fx(x, <o(s))=b(s)H(s), b(s)^0. (8) Построим функцию F(x, г) для игры (1). Для этого рассмотрим отображение т у- $o/(r, q>)dr, (9) о получающееся интегрированием по т отображения (5). Образом сферы К при отображении (9) является локально выпуклая поверхность Дт, и так как т отрицательно, то вектор ф является внутренней нормалью к ней в соответствующей точке. Можно доказать, что Ат выпукла в целом. Для простоты построения предположим, что Ат содержит внутри себя начало координат. Построим теперь вспомогательную функцию А,т(у), определенную -> для любой точки y£L следующим образом. Пусть луч Оу пересекает поверхность Ат в точке у0. Положим К(у)=\0у\/\0у0\. (10) Тогда уравнение поверхности Ах запишется, очевидно, в виде X (у)- 1-0, а Функция F(x, z) — в виде F(x, z)=-Xx(ne-xCz)-\. (И) Так как вектор д'кх(у)/ду является внешней нормалью к поверхности Ат, а вектор ф—внутренней нормалью, то дХх(у)/ду =
340 23. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ = — 8(У)У, гДе ё(У) > 0. Поэтому w_^|__,to)f^. (12) Сравнивая это соотношение с первым из соотношений (8), получим g(jie~xC(d(s)) = b(s). Следовательно, в силу второго соотношения (8), /Ч(т, <*(s)) = g(s)H(s), g(s)>0. (13) Отсюда следует, что функция Н (s) имеет в каждой точке s тот же знак, что и F\(x% w(s)). Пусть теперь точка s принадлежит верхнему слою отображения (6) и пусть z = co(s)— ее образ. Тогда число т является наименьшим по модулю корнем уравнения (7). С другой стороны, из определения функции К(у) следует, что F(0, z)=-+oo. Поэтому при прохождении через наибольший отрицательный корень F(x, z) возрастает и, таким образом, F'x(x, z)^0, а значит и #(s)^0, ч. т. д. 3. Для того чтобы множество Л, на котором игра (1) может быть закончена, совпадало со всем пространством R, достаточно, чтобы при отображении со каждая точка z£R имела прообраз s£S. В силу леммы предыдущего параграфа для этого, в свою очередь, достаточно, чтобы при любом z£R уравнение (7) имело хотя бы один отрицательный корень. Нетрудно сообразить, что это условие выполняется, если для каждой точки z £ R существует хотя бы одно отрицательное значение т такое, что точка ne~xCz лежит внутри поверхности Дх. Проверку этого свойства можно легко произвести, если т устремить к —оо. 4. При доказательстве теоремы пункта 2 мы фактически использовали локальную выпуклость поверхности Дт, которая непосредственно вытекает из условия б). Однако и в том случае, когда поверхность Ат не является локально выпуклой, значительная часть конструкции может быть сохранена. Именно, если поверхности у = п \e-rCU(u(r, <p))dr, у=л \e~rC V(v(r, q>))dr о обладают тем свойством, что вторую из них можно путем трансляции перенести внутрь первой, то из поверхности Ах можно выделить выпуклую, кусочно локально выпуклую часть Ах, ограни-
23. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 341 чивающую некоторую выпуклую область в L. Поверхность Дт* можно далее положить в основу конструкции функции К{у)- Выделение выпуклой части А* поверхности Ах означает, что при рассмотрении игры (1) мы используем не все многообразие S, а лишь некоторую его часть S*, которая получается, если взять те точки (т, ф, £), для которых т J о; (г, cp)dr€AT, о и затем произвести склеивание. Однако вопрос о переходе через поверхности склеивания требует специального изучения. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, УМН, 21, в. 4 (130), 219 (1966).
24 О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 1 *) В заметке [2] изложены некоторые результаты о линейных дифференциальных играх, выведенные из сложной нелинейной теории [1]. После моего доклада 30 января этого года на конференции в Лос-Анжелосе профессор Е. Polak (Беркли) сказал мне, что линейная задача, вероятно, решается гораздо проще непосредственно. Обдумав это замечание, я пришел к уверенности, что имеет место значительно более общий результат, чем доложенный мною в Лос-Анжелосе, который, однако, уже был намечен в [2]. Этот более общий результат я формулировал в своих лекциях в Беркли, Провидансе и Монреале в начале февраля этого года. В настоящей заметке я излагаю этот результат в той самой формулировке, в которой он был изложен мною на упомянутых лекциях, и привожу его доказательство. Пусть R—эвклидово векторное пространство размерности л; М — его векторное подпространство и L—векторное подпространство пространства /?, являющееся ортогональным дополнением к подпространству Af. Размерность пространства L обозначим через v. Пусть, далее, Р и Q—два многообразия, гомеоморфные сфере размерности v — 1. В пространстве R рассмотрим линейную дифференциальную ИГРУ [1]» оканчивающуюся на многообразии М и описываемую дифференциальным уравнением dz/dt=Cz + U(u) — V(v). (1) Здесь z — вектор пространства R\ С—постоянная квадратная матрица размерности п; и£Р и v£Q—управляющие, параметры; U и V—непрерывные векторные функции этих параметров. Параметр и соответствует преследующему объекту, а параметр v — убегающему объекту. Эту дифференциальную игру (1) мы изучим в предположении, что для нее выполнены следующие условия А и Б; А. Через я обозначим операцию ортогонального проектирования из пространства R в подпространство L, и пусть т—произвольное положительное число. Будем предполагать, что функция nexCU(u) (2) *) Докл. АН СССР.—1967.—Т. 174. № 6.—С. 1278—1280.
24. О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 1 343 дает гомеоморфное отображение многообразия Р на некоторую выпуклую гиперповерхность в пространстве L\ выпуклое тело, ограниченное в L этой поверхностью, обозначим через и (г). Границу тела и(т) будем считать принадлежащей этому телу. Точно так же будем предполагать, что функция nexCV(v) (3) дает гомеоморфное отображение многообразия Q на некоторую выпуклую гиперповерхность пространства L. Выпуклое тело, ограниченное этой поверхностью, обозначим через и(т). Это тело также будем считать замкнутым. Б. Будем предполагать, что при любом т > 0 выпуклое тело v (т) может быть трансляцией (параллельным сдвигом) передвинуто внутрь выпуклого тела и(т). Здесь и в дальнейшем выпуклым телом будем называть выпуклое замкнутое ограниченное v-мерное подмножество пространства L. Для формулировки и доказательства результата введем некоторые операции над выпуклыми телами. В. Пусть А и В—два выпуклых тела, а и р—два действительных числа. Совокупность всех векторов вида г-ах+ру, где х£А, у£В, (4) очевидно, является выпуклым телом. Его мы обозначим через аА + РЯ. (5) Очевидно, что если вектор z принадлежит границе тела (5), то векторы х и у (см. (4)) принадлежат границам тел Л и В. Если А (т)—выпуклое тело, непрерывно зависящее от действительного параметра т на отрезке Ti^T^Tg, то, пользуясь операцией суммирования (5) и предельным переходом, можно определить операцию интегрирования: S Л (г) dr, (6) причем результат ее есть выпуклое тело (6). Очевидно, что тело (6) состоит из тех и только тех векторов г, которые могут быть записаны в форме т2 z-=\x{r)dr, где х(г)€Л(г), (7) Ti причем х(т)—функция подходящего класса. Если z принадлежит границе тела (6), то почти каждая точка х(х) принадлежит границе тела А (т), так что, не меняя интеграла (7), можно считать, что каждая точка л'(т) принадлежит границе тела А (т).
344 24. О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 1 Г. Пусть А и В—два таких выпуклых тела, что В трансляцией может быть переведено внутрь Л. Очевидно, что совокупность всех векторов ху удовлетворяющих условию х + ВаА, (8) составляет выпуклое тело. Его мы обозначим через А* В. Эта операция «вычитания» совершенно отличается от обычной (см. В). Теорема. Пусть z0—произвольная точка пространства R, не принадлежащая М, и т > 0. Положим г] (т) = яетСг0; (9) т w (т) = и (т)—v (т); W(x)=^w(r)dr (10) о (см. А, Б, В, Г). При малых значениях т точка —л(т)> очевидно, не принадлежит выпуклому телу W(x). Если при некоторых значениях т имеет место включение -Л(*)€#(т) (11) и т0—минимальное значение т, при котором имеет место включение (11), то, исходя из состояния z0, игра может быть закон- чена и притом за время, не превосходящее числа Т(г0) = т0. (12) При доказательстве этой теоремы управление и будет конструироваться с учетом управления и, так чтобы по возможности уменьшить время окончания игры. При построении управления u(tx) в момент времени tx мы будем использовать значение z(^) в тот же момент времени и управление v(t) на отрезке /х<^^ ^^-fe, где е—произвольно малое положительное число. В задаче преследования такая постановка вопроса вполне допустима; она возникает в случае, если преследующий объект гонится не за самим убегающим объектом, а за тем местом, где убегающий объект находился е секунд назад. Для решения задачи в обычной постановке вопроса следует произвести предельный переход при е-^0. Доказательство. Будем считать, что управление v(t) задано на отрезке 0<?^е, и пусть u(t)—пока произвольное управление, заданное на том же отрезке. Подставляя эти управления в уравнение (1), найдем его решение z(t) на отрезке 0</<8 при начальном условии z(0) = z0. Число T(z(e)) (см. (12)) является функционалом от функции u(t). Ниже мы выберем функцию u(t) таким образом, чтобы число T(z(e)) получило минимальное значение, и докажем, что 7(z0)-7(z(e))>e. (13)
24. О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 1 345 Легко видеть, что при произвольном т^е имеет место включение w(r)au(r) — nerCV(v(r—/*)), где т—е^г^т. (14) Интегрируя это включение по г в пределах т — е^г^т и прибавляя к полученному соотношению выпуклое тело W (т—е), получаем т #(т)с J [и(г) — nerCV(v(x—r))]dr+W(x—г). (15) Т-8 По условию, при т^т0 левая часть этого включения содержит точку —г] (т0), следовательно, и правая часть ее содержит. Пусть Ti<T0 (16) — минимальное значение т, при котором точка —т](т) содержится в правой части включения (15). Тогда существует такое управление u(t) (см. В), О^^^е, что точка ( т' >* — \ле^сг0+ \ nerC[U(u(x1 — r)) — V(v(x1 — r))]dr\ = V Ti-e ) = — ne^-^czu (17) где 8 г1 = Рсг0 + \esC[U(u{z—s))— V(v(e — s))]ds, (18) о принадлежит телу W (гг — e), а это значит, что Т(г1)^х1 — г^х0 — г. (19) Так как z1^z(z) (см. (18)), то неравенство (13) доказано. Замечание. Нет надобности предполагать, что Q есть многообразие. Пусть Q—произвольное компактное множество такое, что при произвольном положительном т множество nexCV(Q) может быть трансляцией переведено внутрь выпуклого тела и (г). Определим тогда выпуклое тело w(x) как совокупность всех таких векторов х, что x+7iexCV (Q)czu(t). Тогда имеет место приведенная выше теорема, причем доказательство ее полностью сохраняется. ЦИТИРОВАННАЯ ЛИТЕРАТУРА И] Л. С. Понтрягин, УМН, 21, в. 4 (130) (1966). [2] Е. Ф. Мищенко, Л. С. Понтрягин, ДАН, 172, № 1 (1967).
25 О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 2*) Здесь будут развиты соображения, изложенные в [2], как в направлении расширения класса рассматриваемых игр, так и в направлении улучшения результата. Пусть R— векторное пространство произвольной размерности и dz/dt=Cz + u —v (1) — заданное в R векторное дифференциальное уравнение, так что z£R; при этом С—квадратная матрица, а и^Р, v£Q—управляющие параметры, причем Р и Q—замкнутые ограниченные выпуклые подмножества пространства R произвольной размер* ности. Далее, пусть М — замкнутое выпуклое подмножество пространства R, также произвольной размерности. Уравнением (1) и множеством М определена дифференциальная игра. При этом и—преследующий параметр, v—убегающий параметр и М — множество, на котором игра заканчивается [1]. Для формулировки и доказательства результата введем некоторые операции над выпуклыми множествами, в частности операцию альтернированного интегрирования выпуклых множеств. Все рассматриваемые в дальнейшем множества являются замкнутыми подмножествами пространства R. А. Пусть А и В—два множества, а а и р—два действительных числа. Через аА ч рб (2) обозначим совокупность всех векторов ах+Р*/, где х£А, у£В. В случае а = р= 1 формула (2) дает алгебраическую сумму множеств. В случае а=1, Р=— 1 формула (2) дает алгебраическую разность множеств. Если А и В — выпуклые множества, формула (2) дает выпуклые множества. Через А^-В (3) обозначим совокупность всех векторов х, удовлетворяющих условию х+ВаА. Множество (3) может оказаться и пустым. Если А — выпуклое множество, то формула (3) определяет также выпуклое множество. Пусть Л, [/, V—выпуклые множества. Тогда имеют *) Докл. АН СССР.— 1967.—Т. 175, № 4.—С. 764—766.
25. О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 2 347 место следующие легко доказываемые соотношения: (A-2-U)^-V = A3-(U+V), (4) (А + U) JL V э (Л -*- К) + [/. (5) Б. Пусть Л0 — некоторое выпуклое множество, а Uit...,U„; Vlt...,V„ (6) — две последовательности выпуклых множеств. Определим индуктивно множество Л/+1, /-=--0, 1, ..., п—1, положив A!+1 = (Ai+Ui+1)l-Vi+1. (7) Множество Ап естественно назвать альтернированной суммой последовательностей (6) с начальным значением А0. Пусть U = U1+... + U„; V = V1+...+V„, тогда из формул (4) и (5) следует Ancz(A0 + U)±V. (8) В. Пусть А = А0 — некоторое выпуклое множество, а V(т) и V (т) — два ограниченных выпуклых множества, непрерывно зависящих от действительного параметра т на отрезке p^x^q. Определим альтернированный интеграл функций U (т) и V(x): я В= J [U{x)dx*-V{x)dx]. (9) А.р Здесь Л является начальным множеством интегрирования, р — начальным значением т, a q—конечным значением. Сам интеграл (9) является выпуклым множеством. Для определения интеграла (9) разобьем интервал интегрирования на мелкие отрезки точками го = Р, ги . .., rn = q, и пусть и< = S У(#; v/= S y(T)dT С-1. •••• л). (10) ri-i r/-i Выписанные здесь интегралы от выпуклых множеств определяются естественным образом на основе операции сложения (2). Исходя из последовательностей (10) и начального множества Л1и построим альтернированную сумму Ап (см. Б). Предел этой альтернированной суммы при безграничном измельчении отрезка P^x^q и является интегралом (9). Пусть теперь функции U (х) и V(т) определены на отрезке /?<т<г, причем г > q, тогда имеет место включение J [U(x)dx-*-V(x)dx]cz(B + \U{x)dx\*- \V{x)dx (11) Л, р \ q J q (см. (8), (9)).
348 25. О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 2 Теорема. Положим А = — М (см. (1)) и составим альтернированный интеграл т W(t)= J [erCPdr^erCQdr] (т>0). (12) л, о Пусть, далее, z0—произвольная точка пространства R, не входящая в М; положим г)(т) = етС20. Если при некотором значении т > О точка —т) (т) принадлежит выпуклому множеству W (т), то обозначим через т0 минимальное значение т, для которого эта принадлежность осуществляется. Оказывается тогда, что игра (1), начинающаяся в точке z0, может быть закончена за время, не превосходящее числа Г(20) = Т0. (13) При доказательстве этой теоремы управление и будет конструироваться с учетом управления v, так чтобы по возможности сократить время игры. При построении управления u(t) в момент времени t мы будем использовать значение z(t) в тот же момент времени и управление v(s) на отрезке ^^s^^ + e, где е—произвольно малое положительное число (см. [2]). Доказательство. Будем считать, что управление v(t) задано на отрезке О^^^е, и пусть u(t)— пока произвольное управление, заданное на том же отрезке. Подставляя эти управления в уравнение (1), найдем его решение z(t) на отрезке 0^ £^е при начальном условии z(0) = z0. Число T (z(e)) (см. (13)) является функционалом от функции и (t). Ниже мы выберем функцию u(t) таким образом, чтобы число T(z(e)) получило минимальное значение, и докажем, что Т(г0)-Т(г(г))>г. (14) Из (11) следует, что при произвольном т^е имеет место включение W(T)dlw(T—e)+ J erCPdr)-2- $ erCQdra \ т-е / т-8 х х cW(x—в)i- J erCPdr— J erCv(x—r)dr = D(x). (15) Х-8 Х-8 Следует заметить, что последний член формулы (15) определен для всех значений т > е, так как функция v(x—г) определена на всем отрезке интегрирования т—е^г^т, ибо ее аргумент на этом отрезке интегрирования меняется на отрезке [0, е], а функция v(t) и задана на этом отрезке. Согласно предположению, точка —т)(т) принадлежит левой части включения (15) при т = т0. Пусть Tj^To—то минимальное значение т, для которого
25. О ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ. 2 349 точка —т)(т) принадлежит последней части включения, именно множеству D(x). Тогда существует такая функция u(t)£P, О ^ t ^ е, что точка —e{Xi~e) cz1 принадлежит множеству W (тх—е) при условии, что е z1 = eeCz0 {-1 esC (u(e—s) — v (e—s)) ds. (16) о Так как, очевидно, z1 = z(e), то утверждение доказано. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, УМН, 21, в. 4 (130) (1966). [2| Л. С. Понтрягин, ДАН, 174, № 6 (1967).
26 ЗАДАЧА ОБ УБЕГАНИИ ОДНОГО УПРАВЛЯЕМОГО ОБЪЕКТА ОТ ДРУГОГО*) Совместно с Е. Ф. Мищенко В последние годы появилось много работ (см., например, [1 —5]), посвященных задаче преследования одним управляемым объектом £=/(*, и) (1) другого управляемого объекта y = g(y, v). (2) Здесь ху у—фазовые векторы объектов, а и, v—управляющие параметры. В этой задаче активная роль отводится преследующему параметру и, целью которого является по возможности быстро привести к совпадению пространственные координаты объектов (1) и (2) при произвольном управлении v объектом (2). Столь же естественна, однако, и другая задача—об убегании объекта (2) от объекта (1). В ее постановке активная роль отводится убегающему параметру и, целью которого является не допустить совпадения пространственных координат объектов (1) и (2) ни при каком значении времени t при произвольном управлении и объектом (1). В настоящей заметке рассматривается линейная дифференциальная игра с точки зрения задачи убегания. Уравнение игры следующее: z = Cz—и rvt (3) где z—фазовый вектор n-мерного эвклидова пространства Rn\ С — квадратная постоянная матрица; и — преследующий параметр; v—убегающий параметр; u^P,v^Q\ Р и Q — выпуклые компактные подмножества пространства Rn произвольных размерностей» вообще говоря, меньших, чем п. Мы скажем, что в игре (3) возможно убегание, если при любом начальном значении z0£Rn> Zo€M вектора г и при произвольном изменении управляющего параметра u = u(t) можно подобрать такое изменение управляющего параметра и = и(£),что точка z(t) не попадет на множество М ни при каком значении *) Докл. АН СССР.—1969.-Т. 189, № 4.—С. 721 — 723.
26. ЗАДАЧА ОБ УБЕГАНИИ 351 времени /. При этом для нахождения значения параметра v(t) в каждый момент времени / допускается использовать лишь значения u(t) и z(t) в тот же момент времени и не допускается использовать значение и в моменты времени, следующие за t. В настоящей заметке мы даем условие, достаточное для возможности убегания в игре (3). Одновременно дается оценка снизу для расстояния точки z(t) от подпространства М. Последнее является весьма существенным. Перейдем к формулировке результата. Через L обозначим ортогональное дополнение к М в пространстве Rn. Пусть размерность L будет v, причем v>2. (4) Через я обозначим операцию ортогонального проектирования из Rn в L. Множества пОР, nO'Q, i' = 0, 1, 2, ..., (5) являются компактными выпуклыми подмножествами пространства L. Наше основное предположение заключается в следующем. А. Существует такое целое положительное число k, что при i < k—1 множества (5) суть точки; множество же пСк~^ имеет размерность v, а множество nCk~1P может быть перенесено путем трансляции строго внутрь множества пСк"^. Теперь мы можем сформулировать наш основной результат. Теорема. При выполнении условия А и неравенства (2) в дифференциальной игре (3) возможно убегание, причем существует такое положительное число е, что если |лг(0)|<е, (6) то имеет место следующая оценка снизу для расстояния |яг(/)| точки z(t) до М при всех t^O: \nz(t)\>y(\z(t)\)\nz(0)\*, (7) где у—монотонно убывающая функция своего аргумента, зависящая только от игры, но не от начального значения. Очевидно, что из неравенства (7) уже следует возможность убегания. Конечно, условие А не является необходимым для возможности убегания в любой игре вида (3). Однако это условие выполняется в ряде конкретных нетривиальных примеров. Укажем, в частности, на пример х \-ах = ри, /оч (о)
352 26. ЗАДАЧА ОБ УБЕГАНИИ Здесь х, у, и, v—векторы некоторого эвклидова пространства Е размерности ^2; х—геометрическое положение преследующей точки; у—геометрическое положение преследуемой точки; и и v — управляющие параметры; |и|<1; \v\ <1; а, р, а, р — положительные числа. Преследование считается законченным в тот момент, когда х = у. Для перехода от этой задачи преследования к дифференциальной игре положим z = (x—у, х, у). (9) Многообразие М определяется здесь условием х—у = 0. Легко видеть, что для этой дифференциальной игры условие А выполнено, если а>р, причем k = 2. Благодаря наличию трения а > 0, (5 > 0 при движении, начавшемся из состояния покоя (х=0, у = 0), скорости x(t), 'y(t) будут ограничены: ИОКр/сс, |у(0|<<т/р, (Ю) проекция (0, x(t), y(t)) точки z(t) на М в течение всего времени будет оставаться в пределах компактного множества (10), и неравенство (7) для нашей игры запишется в виде |nz(0|>c|nz(0)|2, (11) где с—константа. Условие А выполнено также в задаче о «мальчике» и «крокодиле», которая описывается системой дифференциальных уравнений где х, у, и, v—векторы некоторого эвклидова векторного пространства Е размерности ^2, х—вектор, определяющий геометрическое положение преследующего объекта («крокодила»), у — вектор, определяющий геометрическое положение преследуемого объекта («мальчика»), а преследование считается законченным в тот момент, когда х = у. Легко видеть, что в игре, соответствующей этой задаче, условие А выполнено, причем k=\. В заключение сделаем одно существенное замечание. Постановка задачи об убегании, которую мы формулировали выше, не вполне реалистична. Мы предполагали, что в процессе убегания объект (2) беспрерывно ведет наблюдение за объектом (1) и выбирает в каждый момент времени значение управляющего параметра t с целью ухода от объекта (1). Будущее поведение объекта (1) не предполагается известным. Однако предположение, что состояние объекта (1) в настоящий момент времени полностью известно, является не реалистичным. Непосредственно можно наблюдать лишь пространственные координаты объекта (1), а для
26. ЗАДАЧА ОБ УБЕГАНИИ 353 получения всего вектора х необходимо дифференцирование, для получения параметра и нужны дальнейшие операции; кроме того, на переработку всей информации также нужно некоторое время. Таким образом, в момент времени / мы можем использовать сведения об объекте х, относящиеся лишь ко времени /—б, где S > 0—малое положительное число. Из формулированных выше результатов вытекает возможность убегания объекта y(t) от объекта x(t—б), а оценка (7) дает возможность оценить и расстояние между объектами x(t) и y(t), если только б достаточно мало. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, УМН, 21, в. 4 (130), 219 (1966). [2J Е. Ф. Мищенко, Л. С. Понтрягин, ДАН, 174, № 1, 27 (1967). [3] Л. С. Понтрягин, ДАН, 174, №6, 1278(1967). [4] Л. С. Понтрягин, ДАН, 175, № 4, 764 (1967). [5] Б. Н. Пшеничный, ДАН, 176, № 1, 65 (1968).
27 ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ*) Здесь дается усиление результатов работы [1]. Рассматривается линейная дифференциальная игра z = Cz—u + v + a. (1) Здесь z—фазовый вектор игры, принадлежащий заданному векторному эвклидову пространству R конечной размерности; С — заданное линейное отображение пространства R в себя; а—заданный постоянный вектор из R', и—управление преследования; v—управление убегания; и и v — векторы из R, но они не произвольны, а удовлетворяют условиям: и£Р, v£Q, где Р и Q — заданные компактные выпуклые подмножества пространства R. Игра считается оконченной, когда z достигает заданного векторного подпространства М пространства R. Целью игры является предотвращение ее окончания, для чего в каждый момент времени / мы выбираем значение v(t) управления v, используя при этом функции z(s) и u(s)t известные нам на отрезке 0 ^ s ^ /. Таковы правила игры. Через L обозначается ортогональное дополнение в R к М, обозначим через v размерность L, а через л—операцию ортогонального проектирования из R на L. Пусть А и В—два * подмножества пространства L. Мы будем писать А с: В, если существует такой вектор x£L, что х + АаВ. Теорема об убегании. Если v>2w существует такое действительное число \х > 1, что имеют место соотношения •Х- dim nexCQ = v; \xnexCPc:nexCQ (2) для всех достаточно малых действительных положительных значений параметра т, то, действуя согласно правилам игры, мы можем предотвратить ее окончание на всем протяжении времени 0^/<оо, если, конечно, начальное состояние z0 не принадлежит М, Кроме того, мы можем вести игру так, что для расстояния точки z(t) до М имеет место оценка (3). *) Докл. АН СССР.—1970.—Т. 191, № 2.—С. 283 — 285.
27. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 355 Для записи оценки обозначим через £ расстояние точки г до М и через ц — ее расстояние до L. Тогда имеет место оценка если только £0 ^ е. Здесь с, г — положительные константы, a k и т—натуральные числа, зависящие только от игры, но не от ее хода. Дадим более детальное описание процесса убегания. Параллельный сдвиг любого из множеств Р и Q в пространстве R может быть компенсирован изменением вектора а; пользуясь этим, мы можем достичь того, что множества Р и Q принадлежат соответственно векторным подпространствам U и V пространства R, причем dimP = dim(/, dim Q = dim V, кроме того, для упрощения предположим, что dim V = v. Далее можно считать, что вместо (2) имеет место обычное включение \ineTCP<=nexCQ. (4) Определим линейные отображения /т и gx соответственно пространств U и V формулами: /т = летС; gx = nexC. (5) Оказывается, что отображение h, = g?U (6) является аналитической функцией параметра т при всех малых значениях т, хотя это неверно для отображения gxx, так что определено линейное отображение h0 пространства U в пространство V. Можно достичь также параллельным сдвигом множества Q, что существует настолько малое положительное число б, что если вектор w£V удовлетворяет неравенству |tt;|<;6, то вектор I', определяемый (7), принадлежит Q, v = h0(u) + w, где и£Р. (7) Каждой точке z0£R, для которой |0^1> ставится в соответствие отрезок времени длительности е=е0/(1 + ло), (8) где 0О > 0—константа, зависящая от игры. Кроме того, той же точке z0 ставится в соответствие такое значение вектора w = w (z0), удовлетворяющее условию |a>(z0)| ^ б, что управление v(t), определяемое по управлению u(t) на отрезке О^/^0 формулой (7), т. е. соотношением v{t) = h0(u(t)) + w(z0), (9)
356 27. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ вместе с управлением и (t) дает движение z (/), 0 < / ^ 0, z (0) = z0, для которого выполнены неравенства £(9)>е/[1 + т|(в)]*> е<1; (10) 5(0>с'Й/[1 + л(0]1*"1. (И) где е и с1 — положительные константы, зависящие от игры. Неравенство (10) дает основание рассмотреть в пространстве R гиперповерхность S, задаваемую уравнением | = 8/[l-fn]*. (12) Гиперповерхность S разбивает пространство R на две области: внутреннюю S_, содержащую М, и внешнюю S+. Если на некотором протяжении игры точка z(t) находится вне поверхности S, то мы не заботимся о выборе управления и, и только в тот момент времени /0, когда точка z(t0)£S, мы включаем на время 9 (см. (8)) специальное управление убегания v(t)9 заданное формулой (9), считая, что z0 = z(t0). В конце этого отрезка времени точка вновь оказывается вне поверхности S (см. (10)), и процесс повторяется снова. На отрезке времени t0^.t^t0 + Q мы имеем неравенство 5(0>се*/[1 + Л(0]*1 + а*"1. (13) которое легко выводится из неравенства (11). В неравенстве (13) есть константа с, зависящая от игры, причем 0 < с < с'. Если в самом начале игры точка z0 = z(0) лежит внутри или на поверхности S, то управление убегания (9) включается сразу на отрезке времени 0^/^9 (см. (8)), и тогда на этом отрезке имеет место неравенство (11), а в конце его точка z(0) уже находится вне поверхности S (см. (10)). Таким образом, в течение всей игры, за исключением, быть может, первого отрезка времени 0^/<9, точка z(t) либо находится вне поверхности S, либо удовлетворяет неравенству (13). На первом же отрезке времени она может удовлетворять неравенству (11). Огрубляя неравенства (11) и (13), а также условие пребывания точки z(t) вне поверхности S, мы получаем оцен- ку (3). Для иллюстрации результата рассмотрим процесс преследования в эвклидовом векторном пространстве Е размерности v^2, в котором имеются преследующая точка х и убегающая точка у. Движения этих точек задаются уравнениями х + ах = и, |и|<р; y+fy/ = u, |u|<a, (14) где а, р, (5, а—положительные числа, а и, v£E — управляющие векторы; процесс преследования заканчивается, когда х = у. Эле-
27, ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 357 ментарные вычисления показывают, что если о» > р, то условия теоремы об убегании выполнены, и точка у может все время уходить от точки х. В случае, если выполнено противоположное неравенство р > а, из результатов заметки (2) следует, что в пространстве начальных состояний (х0, х09 у09 у0) имеется такое открытое множество Q, что если начальное состояние (х0, x0i //<>> //о)€^, то преследование всегда завершается. ЦИТИРОВАННАЯ ЛИТЕРАТУРА [1] Л. С. Понтрягин, Е. Ф. Мищенко, ДАН, 189, №4 (1969). [2] Л. С. Понтрягин, ДАН, 174, № 6 (1967).
28 ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ В ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ*) Совместно с Е. Ф. Мищенко § 1. Постановка задачи и формулировка результата Некоторые постановки задач в теории дифференциальных игр можно проиллюстрировать на примере движения двух управляемых объектов, один из которых, преследующий, стремится догнать другого, а второй, убегающий,— уйти от преследователя. Пусть закон движения преследующего объекта задан дифференциальным уравнением * = /(*. "), (1) а закон движения преследуемого объекта—дифференциальным уравнением У = 8(У> v). (2) Здесь через х и у обозначены фазовые векторы объектов, а через и и v—управляющие параметры объектов. Пусть в процессе движения объекты (1) и (2) ведут беспрерывное наблюдение один за другим и в каждый момент времени с помощью управляющих параметров корректируют свое движение в зависимости от полученной информации о поведении противника. Тогда в соответствии с целью объекта (1) или объекта (2) естественно ставятся следующие задачи. 1. Задача преследования. Используя информацию о поведении объекта (2), выбрать управление u(t) объектом (1) в каждый момент времени t таким образом, чтобы по возможности быстро привести к совпадению пространственные (нефазовые) координаты объектов (1) и (2) («догнать» объект (2)). 2. Задача об уклонении от встречи (задача об убегании). Используя информацию о поведении объекта (1), выбрать управление v(t) объектом (2) в каждый момент времени t таким образом, чтобы не допустить совпадения пространственных координат объектов (1) и (2) ни при каком значении времени / («убежать» от объекта (1)). Очевидно, в такой общей постановке обе эти задачи являются неопределенными до тех пор, пока мы не условимся, какого рода информацией располагает каждый из объектов о поведении другого. *) Дифференц. уравнения.— 1971.— Т. 7, № 3.— С. 436—445.
28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ 359 В настоящей работе мы будем заниматься лишь задачей об уклонении от встречи, и поэтому сформулируем предположение о характере такой информации только для этой задачи (по поводу же задачи преследования см., например, [1—6]). Но сначала перейдем к соответствующей дифференциальной игре. Для этого объединим векторы х и у ъ один вектор z, положив z = (x, у), и запишем совокупность уравнений (1) и (2) в виде одного уравнения z = F(z, u,v). (3) Будем считать, что z — вектор n-мерного евклидова векторного пространства Rn, г и и v — параметры управления. Уравнение (3) описывает дифференциальную игру. Для ее полного задания нужно указать еще то множество М из R", при приходе на которое точки z(t) игра считается законченной. Скажем, что в игре (3) возможно уклонение от встречи (или возможно убегание), если при любом начальном значении z0£Rn, z{) £М, вектора z и при произвольном изменении управляющего параметра u — u(t) можно подобрать такое изменение управляющего параметра v^v(t), что точка z(t), являющаяся решением уравнения z=^F{z, u(t), v(t))9 г0 = г(0), (4) не попадет на множество М ни при каком значении времени /, 0</<оо. При этом для нахождения значения параметра v(t) в каждый момен времени / разрешается использовать лишь значения u(s) и z(s) при s ^ t и не разрешается использовать эти значения при s > /. Применительно к объектам (1) и (2) такое правило выбора параметра убегания означает следующее предположение о характере информации в задаче об уклонении от встречи. Убегающий объект (2) знает технические возможности преследующего, т. е. функцию f(x, u), а также функцию g(y, v). Кроме того, он знает в каждый момент времени / его фазовое состояние x(s) и фазовую скорость x(s) при s^/. В настоящей работе задача об уклонении от встречи решается для линейных дифференциальных игр. Краткое изложение результатов было уже ранее опубликовано [7J. Здесь же приводим их полное изложение. Итак, будем рассматривать линейную дифференциальную игру, заданную дифференциальным уравнением г=-Сг—u + v, (5) где г — вектор /2-мерного евклидова векторного пространства R", С—квадратная матрица, и — параметр преследования, v — параметр убегания, и£Р, y(EQ, Р и Q — заданные компактные выпуклые подмножества из R" произвольных размерностей. Мно-
360 28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ жества окончания игры М будем считать линейным подпространством пространства Rn. Далее, функции u = u(t), v = v(t) предполагаются измеримыми. Желая решить задачу об убегании для этой игры, мы имеем в виду ответить на следующие вопросы: 1) каковы достаточные условия для возможности уклонения от встречи в игре (5); 2) каково управление v = v(t), обеспечивающее уклонение от встречи; 3) какова оценка снизу для расстояния точки z(t) до подпространства М, которую можно гарантировать в процессе всей игры. Ответы на вопросы 1) и 3) содержатся в формулировке нижеследующей теоремы об уклонении от встречи. Ответ на вопрос 2) дается в процессе доказательства этой теоремы (см. п. Е, § 2) Перейдем к формулировке результата. Через L обозначим ортогональное дополнение к подпространству М в Rn. Пусть размерность L равна v, причем v>2. (6) Через л обозначим операцию ортогонального проектирования из Rn на L. Рассмотрим две последовательности множества в подпространстве L: лР, лСР, лС2Р, ..., лС<7\ . .., (7) jiQ, nCQ, nC2Q, .. ., n&Q, ... (8) Очевидно, все множества (7) и (8) суть компактные выпуклые подмножества из L. Предположим, что для них выполнено следующее условие: а) существует такое целое положительное число k, что каждое из множеств лР, лСР, лС2Р, ..., лС*"2Р, jiQ, nCQ, nC2Qy ..., nCk~2Q состоит из единственной точки, множество nCk~1Q имеет размерность v, а множество пСк~гР может быть перенесено параллельным сдвигом строго внутрь множества nCk~xQ. Всюду в дальнейшем через 5 будем обозначать расстояние от точки 2 до подпространства М, а через т] — расстояние от точки z до L. Таким образом, |лг| = £. Теорема об уклонении от встречи. При выполнений условия а) и неравенства (6) в игре (5) возможно уклонение от встречи. При этом надлежащим выбором управления убегания v = v(t) можно обеспечить следующую оценку для расстояния точки z(t), 0</<oo, до подпространства М: 6 (0> 7(4(0)6(0)* при £(0)<е.
28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ 361 Здесь в — положительное число, а у— монотонно невозрастающая функция своего аргумента, зависящие лишь от игры (5) и не зависящие ни от начальной точки игры, ни от ее хода. § 2. Доказательство теоремы об уклонении от встречи В этом параграфе через е, с, г0, cly c2i c3i ... обозначим положительные константы, зависящие лишь от игры (3), т. е. от матрицы С и от множеств М, Р, Q, но не зависящие ни от начальной точки игры, ни от управлений u(t)y v(t). Через £ будем обозначать ортогональную проекцию точки z на подпространство L: nz = Z. Будем считать, что в L выбрана прямоугольная система координате началом в нуле пространства R" и координаты точки £ в этой системе будем обозначать через е1, £2,.... £v- Следующие ниже два предложения А и В являются простыми следствиями условия а) § 1. А. Так как множество nCk~1P параллельным сдвигом на некоторый вектор / можно переместить строго внутрь множества nCk~1Q, то существует такая константа с19 что, каков бы ни был вектор (Oi g L, удовлетворяющий ограничению KK*i, (Ю) и каково бы ни было управление u(s)£P, заданное на отрезке 0<s^x, уравнение nCk~1[v — u(s)]=l + (o1 (11) всегда можно разрешить относительно v. Пусть v = v0(s) (12) — это решение. При dimQ = v v0(s) определяется по u(s) однозначно и при измеримом u(s) измерима автоматически. Если же dimQ>v, то v0(s) определяется не однозначно, но ее всегда можно выбрать измеримой. Подставляя v0(s) в уравнение (11), умножая затем полученное тождество на (/—s)A!"1[(/s—I)!]"1» ^^т, и производя интегрирование в пределах от 0 до t, получим 15-LTjrJ(/_s)*-inC*-1[u.(s)-«(s)]ds = ©/*+/(0, (13) о где со = со1[^!]-1, l(t) = l(k\)~4k. Итак, существует такая константа с, что, каков бы ни был вектор cogL, удовлетворяющий единственному ограничению |ю|<с, (14)
362 *«• ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ и каково бы ни было управление u(s), заданное на отрезке О ^ s ^ т, всегда найдется специальное управление v0 (s), для которого выполняется соотношение (13); при этом вектор-функция /(/) не зависит от u(s) и u(s). В. Пусть игра (5) при / = 0 начинается в точке z0, |лг0|== = £о^1, и пусть при заданном векторе о>, удовлетворяющем неравенству (14), она развивается под воздействием управления v0(s), выбранным в соответствии с п. А. Тогда проекция траектории игры на подпространство L при / ^ т может быть записана в следующей форме: С = Е(0 = Со + ^ + ^2+...+а^* + ^*+Л(0^ О5) где а19 а2, ..., ak—постоянные векторы, зависящие от точки z0, но не зависящие от управлений u(s), v0(s); h(t) — вектор-функция, хотя и зависящая от выбора этих управлений, но удовлетворяющая ограничению |й(0КМ1 + л(0))*, (16) где с2—некоторая константа. Кроме того, константу с2 можно выбрать так, чтобы выполнялись следующие неравенства; К|<с2(1 + г)0), 1=1, 2, ..., k, (17) IЛ (0-4(0) |< с, (1 + 4(0))/. (18) Доказательство. По формуле Коши имеем С (0 = netcz0 + л J e«~s) c [v0 (s) — u (s)] ds. (19) о Раскладывая первое слагаемое в ряд по степеням /, подынтегральное выражение—в ряд по степеням t—s и принимая во внимание условие а) § 1, а также соотношение (13), получим формулу (15). Оценки же (16) — (18) очевидны. Предложения А и В сводят задачу об уклонении от встречи на заданном отрезке времени 0^/^т к задаче о выборе такого постоянного для этого отрезка вектора со = со(г0) = со0, при котором для кривой (15) выполняется неравенство (9). Следующие два предложения С и D показывают, что такой выбор вектора со возможен, если разумным образом ограничить длину отрезка [0, т]. Но сначала сделаем одно замечание. Так как v^2, то в пространстве L всегда можно выбрать двумерное подпространство L*, содержащее £0. Если оценка (9) будет выполнена для проекции кривой (15) на L*, то она будет выполнена и для самой кривой. Поэтому для упрощения вычислений в дальнейшем будем считать пространство L двумерным. Выберем в нем систему координат так, чтобы точка £0 имела координаты (£0, 0),
28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ 363 и пусть в этой системе координат а~(а], a% (0 = (С01, СО2), А(0 = (АЧ0. Л2(0)- Тогда уравнение кривой (15) перепишется так: X} = С1 (0 = to + a\t + aj*« + • • • + al-i/*"1 + (а\ + со1 + ft1 (0) *\ 5» = £»(') = <# + <#* + ••-! al-i^+fal+w' + ft'C))'*- С. Существуют такие константы е^ 1, с0 и coj. что при Т»-С°1+л(0) и при w^coj для первой компоненты кривой (23) выполняется (20) (21) (22) (23) (24) следующее неравенство: I£4T°)I^(1+t|(to))* Доказательство. Возьмем "/"6" ^ 1 8< с0 / с0с2 Положим далее О), ,1 — 1 если (50 + а}т0 + а^т* + ... + a£r*) > 0, (oj = — т с, если (£0 + а\х0 + а^ + ... + ф§) < 0. (25) (26) (27) Непосредственно проверяется, что при со = coj будет выполнено следующее неравенство: ipwi>m5F- (28) Поэтому для доказательства предложения С достаточно доказать, что, уменьшая, если надо, величину е, мы получим неравенство 2е ^ е (1-И(0))*^(1+Т](То))* 1ли, что все равно, неравенство 1/2 1 1+Л(0) 1+л(0) 1+т)(0) В силу (18) имеем |л(то)-л(0) I 1+л(0) */2- Л(То)-П(0) 1+Л(0) */в. (29) > 0. (30) (31)
364 28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ Поэтому при достаточно малом е неравенство (30) выполняется и предложение С доказано. Впредь зафиксируем выбранное значение е, а затем в конце п. D, если потребуется, уменьшим его еще раз. Замечание. Величину coj мы выбрали вполне определенным образом: coj = у с или coj = — -jc (см. (27)). Однако нетрудно заметить, что годится любое значение coj, взятое, например, на г 1 3 1 г з 11 отрезке -^с, ~тс\ или соответственно на отрезке —-j-c, —-jc\ Следующее предложение является наиболее существенным пунктом в доказательстве теоремы об уклонении от встречи. D. Пусть начальная точка £0 кривой (23) удовлетворяет условию Uo[ = 50<8, (32) тогда существует такой вектор со = со0 = (coj, coo) и монотонно не- возрастающая функция у, что на отрезке 0 ^ t < т0 (см. (24)) будет выполнено неравенство \Ut)\>lk0y(r\(t)). (33) При этом первую компоненту coj вектора со0 можно выбрать таким образом, чтобы одновременно выполнялось и неравенство (25). Доказательство. Полярные координаты точки £(/) кривой (25) обозначим через р(/), ф(/)- Положим далее a = a1k+(*1 + h1(t), П4ч P = a| + <o»+ft»(/). { } Тогда получим р (t) cos Ф (/) = l0 + a\t + a\t2 + ... + aU**-1 + atk, р (0 sin Ф (t) = a\t + a\t2 + ...+4_1^"1 + рЯ (60) Умножая соотношения (35) последовательно на 1, /, /2, . .., tk~x получим р (/) cos ф (/) = l0 + a\t + a\t2 + ... + aj-i'*""1 + «**» p (/) sin ф (t) = 0 + a\t + a\t2 -\ . . . + al^/*"1 + p/*, (36^ *p (0 sin q> (/) = 0 + 0 + a\t2 -f .. . + aJU**""1 + <#-i'* + P **+1, Эти соотношения будем рассматривать как систему 2k линейных алгебраических уравнений относительно неизвестных 1, t, t2, ... . .., t2k~x. Решая ее формально относительно неизвестной 1, найдем !=§-, (37)
28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ 365 где D—определитель системы (36), a Dx — определитель, получающийся из D заменой первого столбца столбцом из свободных членов системы (36). Вынесем из первого столбца Dx общий множитель р(/) и положим Dx = p{t)D. (38) Тогда получим p(t)D = D. (39) Поэтому, для того чтобы получить оценку для величины %{t) = p(t), надо оценить определители D и D. Определитель D является функцией параметров а и р, и отметим эту зависимость индексами а, p.* D = Da^. Кроме того, он зависит от величин £0, а\, ah . . ., a\^lf а\, а\, ..., al-lf которые, в свою очередь, зависят от z0. Эту зависимость не будем отмечать явно. Докажем, что, каков бы ни был фиксированный прямоугольник Я, определяемый неравенствами а1<а<а2, Рг<Р<Р2, (40) всегда найдется точка (а0, ро) £ Я и положительные числа гиб, зависящие только от размеров прямоугольника Я и от числа k, но не зависящие от величин £0, а\у а\, ..., а\_и а\, а\, ..., al_lf такие, что |Dao + Acc.30 + A3|>^, (41) если только |Да|<6, |Ар|<б. (42) В самом деле, непосредственно видно, что Da% p является многочленом от параметров а и р следующего вида: Да.|5 = 1$Р*+ S' PiFV- (43) i,j=0 Пусть р—наибольший по модулю коэффициент многочлена (43). Тогда Da,z = pdaz, \Р\>11 (44) гДе ^аз принадлежит семейству {d} многочленов ограниченной степени, каждый из которых имеет по крайней мере один коэффициент, равный единице, а все остальные не превосходят единицу. Это семейство многочленов компактно, откуда легко следует существование положительной константы, ограничивающей снизу максимумы модулей всех многочленов семейства. А так как производные по а и р от многочлена семейства {d} равномерно ограничены сверху, то существование чисел г и б, обеспечивающих неравенство (41), доказано.
366 28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ Возьмем теперь вполне определенный прямоугольник Я, а именно выберем числа а19 а2 так, чтобы при выполнении неравенства a^ai + co^a, (45) число со1 гарантировало выполнение неравенства (25) (см. С)). Затем числа fi19 Р2 возьмем так, чтобы при выполнении неравенства выполнялось неравенство (со^ЧМ2^ (см. (14)). (47) Пусть (а0, Р0)—точка максимума многочлена (43) на этом прямоугольнике. Положим coj = a0—a\y ©o = Po—a|- (48) Тогда, очевидно, имеем (см. (34)) D = Dap = Dao+ht (о. Зо+^2 (о- (49) Возьмем, наконец, е настолько малым, чтобы на всем отрезке 0^/^т0 (см. С) выполнялись неравенства \h>(t)\<b, |А»(01<в. (50) (Такой выбор е возможен в силу неравенства (16).) Тогда из неравенства (41) сразу следует следующая оценка снизу для определителя D: |Я|>г#. (51) Оценим теперь сверху модуль определителя D. Из неравенства (17) следует существование такой константы с3, что при 0 ^ / ^ т0 выполняется неравенство |б|<с,(1 + т1(0))**-1. (52) Сравнивая неравенства (51) и (52) и полагая Yi (т|о) = -£- • (1 + T|(0))2*-i. (53) из (39) получим P(0>Yi(4(0))8 (54) при любом ty заключенном на отрезке [0, т0]. Очевидно, YiOl(0))— монотонно убывающая функция своего аргумента, зависящая лишь от игры. Определим теперь функцию YoOl) следующей формулой: Yo(^) = Yih + ^). (55)
28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ 367 Тогда, очевидно, при 0^/^т0 имеем Yo (Л (0) - Уг (Л (0 + с0с2) = Yi (Л (0) + Л (0 - Л (0)+с0с2) <,уг (л (0)), (56) гак как |ц (t)—ц(0) | ^с0с2. Отсюда и из (54) следует неравенство (33). Предложение D доказано. Е. Доказательство теоремы об уклонении от встречи. Пусть для игры выполнено условие а) § 1. Выберем число е в соответствии с пунктами С и D и обозначим через S(n—1)- мерную поверхность в пространстве Rn, определяемую уравнением 1 = ТТ^г- <57> Эта поверхность разбивает пространство Rn на две области: внутреннюю S_, содержащую подпространство М, и внешнюю S+. Если начальная точка игры принадлежит области S+9 то в течение некоторого времени управление v (t) можно выбирать произвольно. Пусть t0— первый момент, при котором точка z(t) попадает на поверхность S. Примем этот момент t0 за новое начало отсчета времени, а точку z(t0)—за начальную точку игры (3). Очевидно, |0 < е, поэтому по правилам п. В, С, D этой точке можно поставить в соответствие вектор со0 = (соо, Юо)> а затем в соответствии с п. А — и специальное управление v0(t), определенное на отрезке времени 0^/^т0 (см. (24)). Под воздействием этого управления для траектории игры (5) z(t) на этом отрезке будет обеспечено неравенство I яг (t) I = Ш > е* Vo(T](/)) . , (58) а при t = x0 точка г(т0) вновь окажется в области S+. После этого процесс можно повторить. Пусть теперь начальная точка игры z0 принадлежит области S_. Тогда управление v0(t) можно включить сразу, в результате чего в силу предложения D при 0^/^т0 будет выполнено неравенство |я*(01>ВТо(Л(0). (59) а при / = т0 точка z (т0) также окажется в области S+. Таким образом, если для начальной точки игры выполнено ограничение £0^е> т0 ИГРУ можно вести так, чтобы на всем бесконечном отрезке времени / выполнялось неравенство (9): Z(t)>y(r\(t))t(0)k. (60) Теорема доказана.
368 28. ЗАДАЧА ОБ УКЛОНЕНИИ ОТ ВСТРЕЧИ § 3. Примеры А. Контрольный пример. Законы движения преследующего и убегающего объектов задаются соответственно уравнениями х + ах=ри, (61) у+ №=-*>. (62) Здесь х, у, и, v — векторы некоторого евклидова пространства Е размерности v^2, x—геометрическое положение преследующей точки, у — геометрическое положение убегающей точки, и, v — управляющие параметры )^|<1, |и|^1, а, р, а, р — положительные числа, причем ст > р. (63) Преследование считается законченным в тот момент, когда х= у. Ставится вопрос о возможности убегания объекта (62) от объекта (61). Перейдем к соответствующей дифференциальной игре. Для этого положим z=(zu z2, z3) = (x—у, х, у). (64) Таким образом, z является вектором Sv-мерного евклидова пространства R = ЕхЕхЕ и игра задается следующей системой дифференциальных уравнений: z1 = z<L—z3, z2= — az2+ pu, z3 = — $z3 + ov. (65) ЛИТЕРАТУРА [1] Понтрягин Л. С. УМН, 21, вып. 3 (130), 219, 1966. [2] Мищенко Е. Ф., Понтрягин Л. С. ДАН СССР, 174, № 1, 27, 1967. [3] Понтрягин Л. С. ДАН СССР, 174, № 6, 1278, 1967. [4] Понтрягин Л. С. ДАН СССР, 175, № 4, 764, 1967. [5] Пшеничный Б. Н. Автоматика и телемеханика, № 1, 65, 1968. [6] Красовский Н. Н. Игровые задачи о встрече движений. М., «Наука», 1970. [7] Понтрягин Л. С, Мищенко Е. Ф. ДАН СССР, 189, № 6, 721, 1969.
29 ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ*) Здесь рассматриваются линейные дифференциальные игры, основной моделью для которых служит процесс преследования одного управляемого объекта другим управляемым объектом. Линейные дифференциальные игры, конечно, составляют весьма частный случай общих, однако и для них результаты не тривиальны; кроме того, они гораздо более конкретны, чем соответствующие обобщения на нелинейный случай. Постановка задачи будет формулирована для нелинейного случая, а результаты относятся только к линейному. Теория дифференциальных игр возникла в результате математической идеализации технических задач. Идеализации возможны различные. При выборе идеализации следует стремиться к тому, чтобы, отражая наиболее существенные черты технической проблемы, она в то же время была доступна для математической обработки. Таким образом, теория не должна строиться в полном отрыве от технических задач. Для того чтобы иметь конкретный пример, вообразим, что один самолет преследует другой. Цель первого самолета—догнать второй, цель второго — уйти от преследования. Каждый пилот управляет своим самолетом, имея в виду свою цель и пользуясь информацией о ситуации. Информация состоит из двух частей: первая—это полное знание технических возможностей обоих самолетов, вторая—это сведения о поведении собственного самолета и самолета противника. Сведения о поведении самолетов могут включать в себя различные данные об их состоянии за период, предшествующий данному моменту, но ничего нельзя считать известным о будущем поведении самолетов, так как они управляемы и в любой момент времени летчик может изменить положение рулей, изменив тем самым поведение самолета. В действительности каждый из пилотов может получать сведения о противнике лишь с некоторым запозданием, однако нет надобности включать это обстоятельство в идеализацию; более того, можно даже предполагать известным поведение противника с некоторым опережением и строить математическую идеализацию на этой основе, а затем уже показать, что полученная теория может быть использована для приближенного решения реальной задачи. *) Тр. Матем. ин-та им. В. А. Стеклова. —1971. —Т. 112.—С. 30—63.
370 ^^• линейная дифференциальная игра убегания Перейдем к математическому описанию процесса преследования. В этом процессе участвуют два управляемых объекта — преследующий и убегающий. Состояние каждого из объектов в любой момент времени определяется его фазовым вектором. Фазовый вектор преследователя обозначим через х, а фазовый вектор убегающего — через у, уравнения объектов запишем в обычной форме: X=f(x, и), у- g(y, v), (1) где точка означает производную по времени, а и и v суть управления. Так как хну являются фазовыми векторами, то каждый из них распадается на две части: х=(х19 х2), у=--(у1§ у2), где хх и ух определяют геометрические положения объектов, а х2 и у2 — их скорости. Считается, что процесс преследования заканчивается в тот момент времени, когда наступает равенство Xi=--y» (2) т. е. тогда, когда объекты геометрически совпадают. Упомянутая ранее первая часть информации состоит из уравнений (1). Эти уравнения дают не сами движения объектов, а описывают лишь их возможности, так как при различных управлениях u=u(t) и v^v(t) мы получаем различные движения. Таким образом, в примере с самолетами уравнения (1) описывают технические возможности самолетов. Сам процесс преследования мы можем рассматривать с двух различных точек зрения. 1. Мы можем отождествить себя с преследующим объектом. В этом случае наша цель заключается в завершении процесса преследования и управление и находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени / мы должны конструировать значение u(t) управления и, зная уравнения (1), т. е. первую часть информации, и используя вторую ее часть в виде знания функций x(s), y(s), v(s) на отрезке / —0^s^/, где 0—подходящим образом выбранное положительное число. 2. Мы можем отождествить себя с убегающим объектом. В этом случае наша цель состоит в предотвращении конца преследования и управление v находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени / мы должны конструировать значение v(t) управления и, зная уравнения (1), т. е. первую часть информации, и используя вторую ее часть в виде знания функций x(s), y(s), u(s) на отрезке t —9<s</.
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 371 Такова та математическая идеализация процесса преследования, которой я пользуюсь и которая неизбежно расщепляет задачу на две различные задачи: задачу преследования и задачу убегания. Расщепление происходит из-за того, что при двух различных подходах мы используем различные информации. Существуют и другие идеализации, одна из них принадлежит Айзексу [1]. При этой идеализации как в задаче преследования, так и в задаче убегания используется одна и та же информация, именно знание значений x(t) и y(t). При этом предполагается, что существует оптимальное управление и=и(х, у) преследования, определяющееся как функция хну состояний объектов, и оптимальное управление v = v(x, у) убегания, определяющееся как функция хну состояний объектов. При такой идеализации задача математически становится весьма определенной, она заключается в нахождении функций и(х, у) и v (л:, у), называемых оптимальными стратегиями, но именно эта определенность чрезвычайно затрудняет ее решение и катастрофически сужает класс рассматриваемых задач. Дифференциальная игра из процесса преследования возникает в результате естественного стремления упростить обозначения, именно вместо двух фазовых векторов л: и у мы вводим один вектор z = (x, y)t образуя фазовое пространство R игры как прямую сумму фазовых пространств обоих объектов. Тогда пара уравнений (1) записывается в виде одного уравнения z = F(z, и, v), (3) а соотношение (2) определяет в векторном пространстве R некоторое подмногообразие М. Теперь мы можем определить дифференциальную игру независимо от исходного процесса преследования. Дифференциальная игра задана, если задано ее фазовое векторное пространство R, уравнение (3), где z£R, a F — некоторая функция трех переменных, причем и — управление преследования, a v—управление убегания, и, сверх того, в пространстве R задано некоторое множество М, на котором игра заканчивается. Как и в случае процесса преследования, мы связываем с дифференциальной игрой две различные задачи. 1. Нашей целью является завершение игры, т. е. приведение точки z на множество М, при этом для осуществления этой цели в нашем распоряжении находится управление преследования и, так что в каждый момент времени t мы выбираем значение u(t) этого управления, используя функции z(s) и v(s) на отрезке t—-d^s^t. Таковы правила игры преследования. 2. Нашей целью является предотвращение конца игры, т. е. предотвращение прихода точки z на множество Му при этом для осуществления этой цели в нашем распоряжении находится управление v убегания, так что в каждый момент времени t мы выби-
372 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ раем значение v(t) этого управления, используя функции z(s) и u(s) на отрезке t—9^s^£. Таковы правила игры убегания. В настоящей работе рассматривается линейная дифференциальная игра убегания. § 1. Линейная дифференциальная игра Фазовое пространство R линейной игры мы будем считать евклидовым векторным пространством размерности п. Уравнение игры имеет вид z = Cz — u + v. (1) Здесь z£R, С есть линейное отображение пространства R в себя, а управления и и v являются векторами пространства /?; эти векторы, однако, не произвольны, а удовлетворяют условиям и£Р, u€Q, (2) где Р и Q суть выпуклые компактные подмножества пространства R (размерности множеств Р и Q произвольны). Как функции времени управления u=u(t) и v = v(t) являются измеримыми функциями t. Множество 7W, на котором игра заканчивается, мы будем считать векторным подпространством пространства R. A) Ортогональное дополнение к М в пространстве R обозначим через L, а его размерность—через v (dimL^v). Далее, пусть W — пока произвольное векторное подпространство пространства L. Операцию ортогонального проектирования из пространства R на W обозначим через я. Так как С есть линейное отображение пространства R в себя, то ехС, где т—действительное число, есть линейное отображение R пространства R на себя, а пехС—линейное отображение пространства R на пространство W. Оба эти отображения аналитически зависят от действительного параметра т. Положим Рт=пехСР, Qx=nexCQ, (3) множества Рх и QT являются выпуклыми компактными подмножествами пространства W, непрерывно зависящими от действительного параметра т. Каждой точке z £ R поставим в соответствие два неотрицательных числа: г - (Н, г]), (4) где I—расстояние точки z до М, а г\ — ее расстояние до L. Если z0 — начальное значение, то соответствие (4) будет z0-+(£0, т]0), а если z(t)—текущая точка, то соответствие (4) будет z(t)—+ — (КО, ч(0). B) Пусть А—выпуклое множество из W, а — точка из W, а |х—действительное число. Через а+ А
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 373 мы обозначим совокупность всех точек из W, представимых в виде а-- х, где х£А. Мы будем говорить, что множество (5) получается из множества А путем трансляции. Через цЛ (6) обозначим совокупность всех точек из W, представимых в виде \хх, где х^А. Очевидно, что множества (5) и (6) — выпуклые. Если А и В—два выпуклых множества из W и существует такая точка а б W, что a+AczB, (7) то мы будем писать ЛсВ. (8) Очевидно, что все сказанное может быть отнесено к любому векторному пространству W. С) Мы будем говорить, что для игры (1) выполнены условия убегания, если существует такое двумерное векторное подпространство W пространства L, для которого выполнены условия: a) не существует в W фиксированного одномерного векторного подпространства W1, для которого имеет место включение Qx с Г1 (9) при всех малых положительных значениях т; b) существует такая константа \i> 1, что |i/\cQx (10) при всех достаточно малых положительных значениях т (см. (3), А) и В)). Оказывается, что имеет место следующая теорема: Теорема (убегания). Если для игры (1) выполнены условия убегания (см. С)), то при любом начальном значении z0, не принадлежащем М, можно так вести игру убегания, что точка z(t) никогда не достигнет пространства М (0^ t < оо) и, кроме того, для расстояния точки z(t) до М имеет место нижеследующая оценка. D). Если для игры (1) выполнены условия убегания С), то существуют три такие положиттельные константы 0, е и с и натуральное число k, зависящие только от игры, а не от ее начального значения и не от ее хода, что игру убегания можно вести таким образом, что 1) при Ъ0^г имеем |(/)> £^ , 0<*<oo; (11)
374 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 2) при £0 ^ е имеем с$ 4'»lHlW- 9<(<00- (,3) Целью настоящей работы является доказательство вышефор- мулированной теоремы убегания, которое и дается на протяжении следующих параграфов. Предложение С) § 6 совпадает с предложением D). Первый вариант теоремы об убегании был доказан мной совместно с Е. Ф. Мищенко в работе [2], вместо условий убегания С) предполагались выполненными более сильные условия Е), а оценка была хуже, чем оценка D). E) Будем считать, что W = L, v^2, и положим Рт = пСтР, Qm=nCmQt (14) тогда усиленные условия убегания имеют вид c) существует настолько большое натуральное число k, что каждое из множеств Рт и Qm при т < k представляет собой одну точку, а A\mQk=A\mW\ (15) d) существует такая константа |х> 1, что pPkcQ» (16) Позже я усилил этот результат [3], заменив условие убегания Е) более слабыми условиями. F) Считая, что W^L и v^2, мы предполагаем следующее: e) при всех достаточно малых положительных значениях т имеем dimQT =A\mW\ (17) f) существует такая положительная константа ^ > 1, что для всех достаточно малых положительных т имеет место включение IaPtcQt. (18) Ознакомившись с этой моей работой, Р. В. Гамкрелидзе выразил уверенность, что в условиях убегания F) векторное пространство W = L можно заменить любым двумерным подпространством W пространства L. Проверив свое доказательство, я убедился, что оно действительно пригодно в этом предположении, и, кроме того, заменил условие е) более слабым условием а), после чего результат приобрел вид теоремы (убегания).
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 375 Для иллюстрации теоремы (убегания) приведем ниже следующий пример, расчет которого был сделан А. Мезенцевым [4] и который в настоящей работе я не привожу. Пример. В евклидовом пространстве Е размерности v ^ 2 рассмотрим движение двух точек л: и у, где х—«преследователь», а у— убегающий объект. Процесс преследования заканчивается тогда, когда х = у. Движения точек хну задаются уравнениями х(р> + а^Р-и + ... +ар_1х+арх--и, (19) у(*)+&1У(«-1)+ ••• +bq^y + bgy-v. (20) Здесь х{П и уи) суть производные порядка i по времени / от векторов х и у, aif i= 1, . .., р\ bj9 j =1, 2, ..., q суть линейные отображения пространства Е в себя, а и и v—управляющие векторы, принадлежащие пространству Е и удовлетворяющие условиям и€Л i>€Q, (21) где Р и Q—выпуклые компактные подмножества пространства £, причем dim Q = v. Будем говорить, что точка у имеет маневренное превосходство над точкой х, если выполнено одно из двух условий: 1) ЖР, 2) при q = р существует такое число \i > 1, что jiPczQ. (22) Оказывается, что если убегающий объект у имеет маневренное превосходство над преследователем х, то этот процесс преследования удовлетворяет условиям Е), а следовательно, и условиям С), так, что если в начальный момент точки х0 и у0 не совпадают, то процесс убегания продолжается неограниченно, а для | х (t)—у (t) \ имеет место оценка D), где k = q+ 1. § 2. Матрицы, аналитически зависящие от параметра В § 1 уже рассматривалось линейное отображение лехС векторного пространства R на его векторное подпространство W. Это линейное отображение в дальнейшем будет применяться к некоторым подпространствам пространства R. Отображение пехС аналитически зависит от параметра т, так что и элементы соответствующей ему матрицы аналитически зависят от т. Здесь будут установлены некоторые нужные для дальнейшего свойства таких линейных отображений и соответствующих им матриц. А) Пусть /(т)— функция переменного т, аналитическая при малых ненулевых значениях т и, быть может, имеющая полюс в точке т = 0, так что в окрестности нуля она может быть записана в виде /(т) = алтЧал+1т*+1-г ... (1)
376 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ ИЛИ /(т)^0, (2) где акфО и k — целое число. Число k мы будем называть порядком функции /(т) и обозначать через {/}. Порядок функции /(т)еееО будем считать равным бесконечности. Через Ох обозначим совокупность всех функций переменного т, аналитических в окрестности точки т^О, так что порядок каждой функции /(т)£Ох неотрицателен. Множество Ох естественным образом составляет алгебраическое кольцо, именно для каждых двух его элементов /(т) и g(x) естественным образом определены сумма f{x)-\-g{x), разность f(x)—g(x) и произведение f(x)-g(x). Частное f(x)/g(x) принадлежит Ох только тогда, когда {/} ^ \g]. Элемент /(x)gOx тогда и только тогда имеет обратный, принадлежащий Ох, когда порядок его равен нулю. Таким образом, квадратичная матрица А (т), элементы которой принадлежат кольцу Ох, тогда и только тогда имеет обратную матрицу А~г(х) с элементами из От, когда детерминант матрицы А (0) отличен от нуля. Пусть теперь gT — линейное отображение некоторого векторного пространства V в некоторое векторное пространство W', причем отображение это зависит от параметра т. Выбрав в пространствах V и W некоторые системы координат, мы тем самым поставим отображению gx в соответствие некоторую матрицу. Если элементы этой матрицы принадлежат кольцу Ох, то мы будем говорить, что отображение gx аналитически зависит от т при малых значениях т. Очевидно, что свойство это не зависит от случайного выбора координатных систем в пространствах V и W. Кольцо Ох является кольцом главных идеалов и потому нижеследующее предложение В) является следствием известной теоремы линейной алгебры. Здесь, однако, я дам его доказательство. В) Пусть gx — матрица с элементами из Ох (см. А)), число столбцов которой равно q, а число строк г. Оказывается, что для достаточно малых т матрица gx может быть записана в виде gx = B(x)G(x)A(%), (3) где А (т) и В (т) суть квадратные матрицы порядков q и г с элементами из Ох, детерминанты которых при т = 0 отличны от нуля. Матрица же G(x) имеет канонический вид, именно, является диагональной, т. е. все недиагональные ее члены равны нулю, а вдоль диагонали стоят следующие функции т: т\ т*., ..., тЧ 0, ..., 0, (4) где kl9 k2, ..., ks суть неотрицательные целые числа, причем &!<Ife2... ^kSi где s — ранг матрицы gx при малых ненулевых значениях т.
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 377 Для доказательства предложения В) перепишем соотношение (3) в виде 0(т) = Я-1(т)*И-1(*). (5) что возможно ввиду того, что матрицы А (т) и В (т) имеют обратные. Полагая Л_1(т) = С(т), В'1 (x) = D(x), мы можем переписать соотношение (5) в виде G(t) = D(t)£xC(t), (6) где С(т) и D(x) суть квадратные матрицы, детерминанты которых отличны от нуля при т = 0. Если матрицы С (т) и D (т) удовлетворяют этому условию, то из соотношения (6), очевидно, вытекает соотношение (3). Таким образом, для доказательства предложения В) достаточно найти такие матрицы С(т) и D(x), что получающаяся при помощи них из матрицы gT по формуле (6) матрица G(x) имеет канонический вид, описанный в предложении В). Для построения квадратных матриц С(т) и D(t) рассмотрим произвольную матрицу дг = ||х{|| с элементами из Ох, число столбцов которой равно q, а число строк равно /*, и введем над ней некоторые элементарные операции. Операция 1 состоит в перестановке двух любых столбцов матрицы х\ операция 2 — в умножении одного из столбцов матрицы х на произвольный элемент /(т) порядка k = 0 (см. А)); операция 3—в прибавлении к любому столбцу матрицы х другого ее столбца, умноженного на произвольный элемент g(x) кольца Ох. Очевидно, что каждая из операций 1, 2, 3 может быть осуществлена путем умножения матрицы х справа на некоторую квадратную матрицу С(т) порядка q, детерминант которой отличен от нуля при т = 0. Аналогичные операции над строками матрицы х обозначим через Г, 2', 3'. Очевидно, что каждая из этих операций может быть осуществлена путем умножения матрицы х слева на некоторую квадратную матрицу D(x) порядка /*, детерминант которой отличен от нуля при т = 0. Таким образом, для доказательства предложения В) достаточно показать, что произвольную матрицу х можно привести к каноническому виду путем последовательного многократного применения к ней шести описанных операций. Покажем это. Пусть ^^О— наименьший из порядков элементов матрицы х. Путем перестановки строк и столбцов матрицы х можно преобразовать ее в матрицу у, у которой элемент у\ имеет порядок kx. Порядки же всех остальных элементов не меньше числа kx. Элемент у\ может быть записан в виде yl = tktf(x)t где порядок элемента /(т) равен нулю. Умножая первый столбец матрицы на элемент 1//(т), мы получим матрицу z, для которой z\ = Tki. Все же остальные элементы имеют порядок не меньше, чем /?!, и потому делятся на ткк Пусть г) — произвольный (i > 1) элемент первой строки матрицы z. Так как он делится на rfei, то мы имеем z} = — т^(т). Прибавляя к i-му столбцу матрицы z
378 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ первый ее столбец, умноженный на элемент g"(x), мы получим матрицу и, в первой строке которой на /-м месте стоит нуль. Применяя эту операцию последовательно ко всем элементам первой строки, а затем ко всем элементам первого столбца, мы получим из и матрицу и, для которой и£ = т\ а элементы v[ и v] равны нулю при /=й=1, /=т^1. Все же остальные элементы матрицы v делятся на тЧ Вычеркивая в матрице v первую строку и первый столбец, мы получим из нее матрицу w, число столбцов которой равно q— 1, а число строк г— 1. Применяя к матрице w описанные построения, мы получим из v новую матрицу, два первых диагональных элемента которой имеют вид xfei, т\ причем /гх ^ /г2, а все остальные элементы первых двух строк и первых двух столбцов равны нулю. Продолжая этот процесс далее, мы приведем матрицу х к каноническому виду. Так как переход (6) от матрицы gx к канонической матрице G(x) не меняет ранга матрицы при малых значениях т, то последняя часть утверждения В) также верна. С) Пусть V и W — векторные пространства размерностей q к г соответственно; gx—аналитичное при малых значениях т отображение пространства V в пространство Wy причем ранг отображения gT при хфО равен s. Тогда в пространстве W существует подпространство Wx размерности s, а пространство У разбивается в прямую сумму своих подпространств Vl и V2 размерностей s и q—s соответственно. Далее, существуют отображения tyx, фт, gx. Отображение i|)T отображает W1 в W, причем i|)0 тождественно на Wv Отображение gx отображает Vx в W1 (а при т=^=0 — на WJ. Отображение срт отображает V на Vu причем фт тождественно на Vl9 а Ф(У2 = 0. Кроме того, £т = 1|^Фт. (7) Так как фт тождественно на Vlt то из (7) следует, что отображения gx = ttyxgx и gx совпадают на V1. Отметим, что прямое слагаемое V2 определяется здесь однозначно, а прямое слагаемое Уг может быть выбрано произвольно, так только, чтобы вместе с фиксированным пространством V2 оно в качестве прямой суммы имело все пространство V. Для доказательства предложения С) введем в векторных пространствах V и W некоторые координаты. В этих координатах отображение gx записывается в виде некоторой матрицы, которую мы также обозначим через gx. Элементы матрицы gx принадлежат кольцу Ох (см. А)). Число столбцов матрицы gx равно q, число строк равно г, а ранг ее при т=^=0 равен s. В силу предложения В) матрица gx может быть записана в виде gx = B(T)G(T)A(T). (8)
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 379 В пространстве W можно выбрать координатную систему так, что матрица В(0) является единичной. Так как матрица &(т) диагональная, то последние ее q—s столбцов и г — s строк содержат только нули. Вычеркивая из матрицы G(t) эти последние q—s столбцов и г—s строк, мы получим квадратную матрицу G(t) порядка s. Вычеркивая в матрице А (т) последние q—s строк, мы получим матрицу А (т), число строк которой равно s, а число столбцов — q. Вычеркивая в матрице В (т) последние г—s столбцов, мы получим матрицу £(т), число строк которой равно г, а число столбцов равно s. Очевидно, £х = В(т)0(т)Л(т). (9) При выбранных нами в пространствах W и V системах координат обозначим через Wx совокупность всех векторов вида w1 = (w1, ..., ws, 0, ..., 0) и будем считать, что матрица В(т) дает отображение г|)т пространства W1 в W'. Очевидно, что г|)0 дает тождественное отображение пространства Wx на себя и потому пространство i|)TWi при малых т имеет размерность s. Матрицу G (т) А (т) будем рассматривать как дающую отображение пространства V в пространство Vx. Обозначим через V (т) совокупность всех векторов v £ V, для которых gx(v) = 0 при малых положительных т. Так как отображение г|)т пространства Wx на пространство tyxW1 изоморфно, то условие gx(v) = 0 равносильно условию G(x)A(t)v = 0. Так как матрица G(t) при т^=0 имеет ранг s, то условие gT(v)=0 эквивалентно условию A(i)v = 0 (10) при тфО. Это уравнение при %Ф 0 определяет пространство V (т). Так как матрица А (т) при всех малых значениях т, включая т = 0, имеет ранг q, то матрица А (т) при всех малых значениях т имеет ранг s. Из этого следует, что пространство V (т) всех векторов и, определяемых уравнением (10), имеет размерность q—s, причем это уравнение имеет смысл также при т = 0, и пространство V(t) при т^=0 стремится к некоторому пространству V (0) при т-^0, причем пространство V (0) описывается уравнением Л (0)0 = 0. (11) Пространство V(0) примем за V2, а его любое прямое дополнение—за Vx. Будем теперь считать, что векторный базис еи ... ..., eS9 ..., ец выбран таким образом, что первые s его векторов
380 29- ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ принадлежат пространству Vu а последние q— s-пространству 1Л. Матрицу, составленную из первых s столбцов матрицы А (^обозначим через Ах(т), матрицу, составленную из последних^—s столбцов матрицы А (т), обозначим Л2(т). Из того, что последние q— s базисных векторов пространства V принадлежат подпространству V2f в силу (11) следует, что Л2(0)^0, (12) а так как ранг матрицы А (0) равен s, то из (12) следует, что матрица Аг(0) имеет ранг s. Мы имеем A(t)v = A1(t)v1-] A2(t)v2, v = vx^v2, vx^Vl9 v2£V2. (13) Будем считать, что матрица G (т) А1 (т) определяет отображение g*x пространства Vx в Wlf а матрица А^1(т)А(т) — отображение фх пространства V на пространство Vx. Для построенных отображений имеет место формула (7). Итак, предложение С) доказано. D) Пусть U, V, W — три векторных пространства размерностей р, qf г соответственно, /т — линейное отображение пространства U в W9 gx— линейное отображение V в W. Оба эти отображения аналитически зависят от т при малом т. Р и Q — выпуклые подмножества максимальных размерностей пространств U и V соответственно и \i — положительное число. Предполагается, что [ifl(P)czgx(Q) (И) при всех достаточно малых т. В силу предложения С) пространство V разбивается в прямую сумму ■ своих подпространств VL и V2. Оказывается, что существует такое линейное отображение hx пространства U в пространство Vly аналитически зависящее от т, что /т = £тАт, (15) гДе gx есть отображение gXf рассматриваемое на Vlf при этом выполнено условие \ih0(P)cz<p0(Q) (см. С)). (16) При доказательстве будем употреблять обозначения предложения С). Положим W(x) = bWi- (17) При малых значениях xdim W (x) = s. Отображение tyxgx пространства Vx в пространство W (т) обозначим через gx. При т^=0 оно изоморфно. Так как Р и Q имеют максимальные размерности, то из (14) следует ft(l/)cft(V1) = W,(t). (18)
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 381 Так как при т^=0 отображение gx пространства V± на W (т) изоморфно, то отображение gx* определено и аналитично при т=^=0, но в точке т = 0 оно может иметь полюс. Таким образом, отображение Лх=£х7т (19) аналитично при хфО, но может иметь полюс при т = 0. Однако из включения (14) следует ja/ix (/>)<= Фт(<2), (20) и из него вытекает, что существует настолько большое положительное число а, что |М")|<«1"|. (21) Из этого непосредственно следует, что отображение hx не имеет полюса и потому аналитично при малых значениях т. Из (20) следует (16). Таким образом, предложение D доказано. Е) Пусть gx—линейное отображение s-мерного векторного пространства Vx (s=l, 2) в двумерное векторное пространство W, аналитически зависящее от т при малых значениях т и обладающее тем свойством, что в W нельзя найти фиксированного одномерного векторного подпространства W1 такого, что gx(Vi)cWi (22) при всех малых значениях т. Тогда могут иметь место только два следующих случая: a) Число s = 2, и при произвольном выборе координат в векторных пространствах Vx и W матрица gx записывается в виде £т = т*£;, (23) где go есть матрица ранга два, а число k—целое неотрицательное. b) В пространствах Vx и W можно выбрать координаты, так что матрица gx имеет вид Д(т) fli(x)\ mv причем для порядков ее элементов имеют место соотношения {a} =k, {&}=/, 0<*</, W>£, {Ьг}>1 (см. A)). {ZD) Сюда формально включен случай s=l, когда мы должны считать, что a1(x)^b1(x)^0t т. е. матрица фактически состоит из одного столбца. При доказательстве разберем сперва случай s = 1 ив произвольных координатах запишем матрицу gx в виде а(т)\ (26) Ь(ч)Г
382 2^• ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ Если порядки функций а(х) и Ь(х) различны, то, переставив, если нужно, номера осей в W, мы получим {а} < {&}. Если порядки элементов а (т) и Ъ (т) равны, то мы можем вычесть из второго элемента Ь (т) элемент а(т), умноженный на некоторое число г, так что порядок полученного элемента Ь{т) — га(х) уже больше порядка элемента а (т). Новая матрица L т j соответствует отображению gT в некоторых других координатах плоскости W. Случай Ь(т) = 0 невозможен, так как тогда существовала бы в W фиксированная прямая W1, для которой выполнялось бы соотношение (22). Перейдем теперь к случаю s —2 и разложим матрицу gx в ряд по степеням т. Мы имеем & = Л0 + тЛ1 + тМа+ ..., (27) где Л0, Аи .. . суть постоянные квадратные матрицы второго порядка. Пусть k — наименьшее целое число, для которого матрица Ak не равна нулю. Если ранг матрицы Ak равен двум, то мы имеем случай а). Если ранг матрицы Ak равен единице, то при подходящем выборе координат в плоскостях V± и W матрица Ак имеет вид ** = (J 1)> С28) в этих координатах матрица «,-(f, tO <м> \gl(T) g2(T)y обладает тем свойством, что {£}=*. {£}>*. {g\}>k, {gt}>k. (30) Если {g\} > {gf}, то прибавим к первому столбцу матрицы (29) ее второй столбец, тогда соотношения (30) сохранятся для новой матрицы, но прибавится еще соотношение {gi} = {gi}- Прибавление к первому столбцу матрицы ее второго столбца соответствует изменению координат в плоскости Vt. Элементы g\ (т\ и gl (т) второй строки матрицы не могут одновременно быть тождественны нулю, так как тогда в плоскости W существует прямая W1, для которой выполнено условие (22). Таким образом, матрица gx приведена к виду (24). Итак, предложение Е) доказано. § 3. Решение вспомогательного интегрального уравнения При построении управления убегания через управление преследования мы будем решать одно специальное интегральное уравнение. Здесь описывается нужное нам интегральное уравнение и дается его решение.
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 383 Пусть S — некоторое семейство функций, заданных на отрезке / (О<£<0). Оператор Л, определенный на этом семействе, мы будем называть вольтерровским, если значение функции Ag (g £ S) в точке t£l определяется лишь значениями функции g(s), принадлежащими отрезку 0^s</. Если t понимать как время, то это значит, что функция Ag в момент времени t определяется только прошлым и настоящим функции g, но не зависит от ее будущего. Только такие операторы и будут употребляться при построении управления убегания через управление преследования. Образчиком оператора вольтерровского типа может служить интег- t рал \g{i)dx. Значение функции Ag в точке t мы будем обозна- о чать через Atg. Можно сказать, что At есть функционал, зависящий от параметра t. Вольтерровские операторы, которые мы здесь будем рассматривать, возникают из операции свертывания двух функций. Пусть f(t) и g(t)—две ограниченные измеримые функции, заданные на отрезке /. Свертка h(t) этих функций задается формулой t h{t) = \f{t-x)g{x)dx. (1) О Функция h(t) также измерима, ограничена и определена на отрезке /. При зафиксированной функции / формула (1) ставит в соответствие функции g функцию А, h = Ag, h(t) = Atg, так что А (или, что то же самое, At) есть оператор. Очевидно, что оператор At является вольтерровским. Известно и легко проверяется, что свертка коммутативна, т. е. что h(t)=lf(t-x)g(x)dx= \f(x)g(t-x)dx. (2) О О Для доказательства формулы (2) достаточно сделать замену т = = t—а переменной интегрирования. Установим несколько простых свойств свертки. Допустим, что функция f(t) дифференцируема, тогда мы имеем h(t) = f(0)g(t) + lf(t-x)grdx = f(0)g(t) + 6 t + ^fWg(t-x)dx (см. (2)). (3) О
384 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ k Обозначим через \ последовательно k раз проведенную операцию интегрирования функции от нуля до / или, иначе, при помощи формул о k t/k-\ \ $/(') = /('). $W)=H S H*))<k, A=l,2, ... (4) 0 Предполагая, что функция /(/) дифференцируема, и интегрируя по частям правую часть тождества (1), получаем 1 t 1 Л(0 = /(0)$£(0+$/С—0$£(т)Л=* о 1 / 1 = /(0)S«(0+S/(*)$£(*-T)rfr (см. (2)). (5) О Предположим, что функция /(/) имеет все производные до порядка k+ 1 и что /(0) = 0, /(0) = 0, ..., /<*-»(0) = 0; (6) тогда мы получаем путем последовательного применения формулы (5) k+\ t k+\ Л(0 = /ш(0) \ £(0+S/(*+1)W Sg(f-T)^ (см. (1)и(6)). (7) 0 Из этой формулы вытекает: l%hg(t-x)dT = k\ J £(/)• (8) о А) Пусть x(t) и y(t)—две функции действительного переменного /, аналитические и рассматриваемые на отрезке / (0 ^ / ^ Э), порядков k и / соответственно. Здесь k — произвольное целое число, а /^0 (см. А), § 2). Определим вольтерровский оператор А] формулой t А\г = х (t) J у (т) z (t—т) dx, (9) 6 где z(t) есть ограниченная измеримая функция, заданная на отрезке /. Оператор А] будем называть одночленным АС-операто- ром порядка /7* = fe4-/4-l, обладающим дифференцируемостью порядка q* = l-+ 1. Здесь q*^ 1. Определим одночленный оператор порядка p* = k с порядком дифференцируемости q* = 0f положив A;z = x(()z((). (10)
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 385 Пусть А), ..., А] — конечная совокупность одночленных АС-опе- раторов. Определим оператор Аи положив At = A\+Al+... + A't. (11) Оператор At будем называть АС-оператором. Пусть р{— порядок одночленного оператора А\ и qt— порядок дифференцируемости того же одночленного оператора. Пусть р — наименьшее из чисел plt ..., ptn а ^ — наименьшее из чисел ql9 ..., qn. Хотелось бы сказать, что р есть порядок оператора Аи aq— его порядок дифференцируемости. Но такое определение неинвариантно, так как оператор At может быть разложен в сумму одночленных операторов различными способами. Поэтому мы скажем, что порядок At не меньше числа /?, а порядок его дифференцируемости не меньше числа q. B) Пусть At—АС-оператор, порядок которого не меньше р (см. А)), и z(t)—функция, имеющая оценку |z(0K'r, /•><); (12) тогда существует такая константа с > 0, зависящая от оператора At и числа г, что функция Atz имеет оценку \Atz\^ctP+r, (13) что оправдывает название «порядок». Для доказательства достаточно рассмотреть случай, когда At = A*t есть одночленный АС-оператор (см. (9) и (10)). Так как x(t) есть функция порядка k, то функция x(t)/tk ограничена на отрезке / так, что она не превосходит некоторой константы сг, и потому ИОК***, (14) точно так же имеем \y(t)\<ctP. (15) В случае, когда А] задается формулой (10), мы, очевидно, имеем \A*tz\^\x{t)\-\z{t)\<zcltk+r = cltP*+r. В случае, когда A*t задается формулой (9), мы, очевидно, имеем / t \A*t*\<\x(t)\l\y(t)\-\z(t — T)|dT<<va**$T'(*—x)'dx = о о /+1 = cxc2tkl\ 5 tr = ctk+l + 1+r = ctP*+r. Таким образом, предложение В) доказано. C) Пусть А,—АС-оператор, порядок которого не меньше /?, а порядок дифференцируемости не меньше, чем q, причем q^z\. Существует тогда такой АС-оператор At, порядок которого не
386 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ меньше р—1, а порядок дифференцируемости не меньше, чем q—1, что ±Atz = Atz. (16) Доказательство достаточно провести для одночленного оператора At = A}. Так как q*^\, то оператор А] имеет вид (9). Дифференцируя соотношение (9), мы получаем в силу (3) t -fLAtz = -±-A;z = x(t)$y(x)z(t-T)dT + О t + x(t)\y{%)z{t-x)dT + x{t)y{0)z{t) = Atz. (17) о Здесь оператор At является трехчленным, причем порядок каждого члена не меньше р—1, а порядок дифференцируемости каждого члена не меньше q—1. Таким образом, предложение С) доказано. D) Пусть At—АС-оператор, порядок которого не меньше /?, а порядок его дифференцируемости не меньше </. Здесь/?—произвольное целое число, a q—произвольное целое неотрицательное 1 число. Оказывается, что оператор Bt = At\) , определяемый формулой 1 Btz = At\z, (18) имеет порядок не меньше чем /?+1 и порядок дифференцируемости не менее чем q + 1. Доказательство. Предложение D) непосредственно вытекает из формул (5), (9), (10). E) Будем считать, что переменное / принимает значения на отрезке 0^/^Э. Рассмотрим интегральное уравнение Jt^x^-t^t^ /+/1|^|т^(/-т)^4^!(Я^Н К£), (19) о о где k и /—целые числа, 0^.k < /, %(t)—искомая функция, l(t) — заданная на отрезке / измеримая ограниченная функция с оценкой |Е(*) К <*. (20) a Ht и Kt—АС-операторы, порядки и порядки дифференцируемости которых не меньше чем k + 2. При этих условиях уравнение (19) имеет решение. 1 X(0-$S& (21)
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УЬЁГАНИЯ 387 определенное на отрезке 0 ^/^9' (9'> 0), а оператор St является линейным вольтеровским и имеет оценку \Stt\<ca, (22) откуда следует, что х(0 имеет оценку |Х(01<«*'- (23) Здесь 9' зависит от чисел k, l и оператора Ни а с зависит еще и от оператора Kf Для решения уравнения (19) введем новую неизвестную функцию *(0= S X(0 (24) и, пользуясь формулами (7) и (8), перепишем уравнение (19) в виде i-k Z(t)= (/+1>; , Г z(t)+Ltz + Ktl, (25) где Lt есть АС-оператор, порядок и порядок дифференцируемости которого не ниже единицы. Это уравнение будем решать методом последовательных приближений, положив i-k z0^0, zi+At) = (kl^t\_k^ ZtW + L^ + Ktt (26) Заметим, что в силу предложения В) мы имеем оценку \K,l\^aatk+*. (27) При |г|<^+2 \Ltz\^btk+\ (28) где а и b—константы, зависящие соответственно от операторов К, и Ht. Мы имеем |z,-2.| = |Zi| = f*t5l<a«<*+*- (29) Предположим, что имеет место оценка |z,—z/_1|<a1./*+«. (30) Тогда мы имеем l*,+i—z,|< ('+1) •' (*+1) "' Ь j l2/-*/-il + IMz,-Z/-i)f<
388 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ Будем считать, что 9'= тогда а^^а.\Ш + Ьв'\^а'\1-2ТГ+2)]- Таким образом, метод последовательных приближений для уравнения (19) сходится и \z(t)\^c0atk+2. Для получения функции %(/) из z(t) будем последовательно дифференцировать тождество (25). Заметим, что первый член есть оператор над функцией z(t) порядка 0 и дифференцируемости порядка /—k^\. Таким образом, первое дифференцирование тождества (25) возможно, и решение z\t) может быть записано в виде 1 z(0= $"(')• (31) Подставляя в тождество (25) это выражение, мы убедимся, что правая его часть имеет уже вторую производную, и потому z может быть записано в виде 2 z{t)=\v{t). В конечном счете мы сможем записать z(t) в форме k -I-2 z{t)= 5 ио. причем w(t) = Stl. На каждом шаге процесса мы будем получать для производных г оценки —r z(0 dt* <с/а/*+а-'> (32) так что w(t) есть ограниченная измеримая функция с оценкой ]w(/)|<cft+2a=ca. (33) Итак, предложение Е) доказано. F) В предложении А) был описан АС-оператор, применяющийся к скалярной функции. Очевидным образом определяется АС-оператор, применимый к векторной функции 2(t) = (z*(t), .... *МШ (34)
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 389 Он представляет собой последовательность At = (Aut, .... Am9t) (35) скалярных АС-операторов. Если порядок каждого оператора последовательности (35) не меньше числа р, а его порядок дифференцируемости не меньше числа q, то то же самое мы скажем и о векторном АС-операторе At (см. А)). Операция Atz определяется формулой Atz = Autz* + ...+Aa4tz» (36) и ставит измеримой векторной функции z(t) в соответствие скалярную функцию Atz. Теперь вместо уравнения (19) мы можем рассмотреть уравнение t t JT*x(f-T)dT= ^_ж JT«x(<-T)rfT + fel(^x + /CfS), (37) О О где Ht — по-прежнему скалярный АС-оператор, порядок и порядок дифференцируемости которого не ниже k +2, a Kt—векторный АС-оператор, порядок и порядок дифференцируемости которого не ниже &+2, l(t)—векторная измеримая функция с оценкой №)\<а, (38) k и /—целые числа, 0^&</ и %(/) — неизвестная функция. Из Е) непосредственно следует, что существует решение уравнения (37) вида 1 l(t)=\stl, (39) определенное на некотором отрезке О^/^0', где 0' зависит от чисел k, l и оператора Ни а для оператора St имеет место оценка I Stl |< от, (40) где число с зависит от чисел k, l и операторов Ht и Kt- Для доказательства существования решения %(/) уравнения (37) достаточно рассмотреть последовательность уравнений t t |xV(<-T)rfr= '*),_» ^'r(t-r) dx+k\ (Htx' + K,. Л1). о о i = l, ..., m, (41) вида (19) и составить решение уравнения (37) как сумму решений уравнений (41). Теперь мы можем рассмотреть то интегральное уравнение, которое и будет в дальнейшем использовано при построении управления убегания.
390 ^^• линейная дифференциальная игра убегания G) Пусть a(t) и b(t)—две аналитические на отрезке / (0^ ^ / ^ 0) функции порядков k и / соответственно, причем 0 ^ k < / (см. А), § 2); At и Bt — векторные АС-операторы размерности т, определенные на отрезке /, порядки и порядки дифференцируемое™ которых не ниже чисел k 4-2 и /4-2 соответственно, и l(t)—m-мерная векторная функция, заданная и измеримая на отрезке /, с оценкой |1(01< а. (42) Оказывается, что существуют функции х(0иХ(0» удовлетворяющие уравнениям la(T)x(t-x)dx+Atl = x(t)la(t)9 (43) о t 1 $&(т)х(/-т)А + я,Е = £(о$МО. (44) определенные на некотором отрезке О^/^0', где 0' зависит от функций a(t) и b(t)t имеющих оценки |х(0К<**. |X(0I<«2'. (46) где константы с, с зависят от функций a(t), b(t) и операторов Аь Вх. Доказательство состоит в сведении пары уравнений (43), (44) к уравнению вида (37) путем исключения неизвестной функции %(t). Так как каждое из уравнений (43), (44) можно разделить на произвольное, отличное от нуля число, то мы можем считать, что функции a(t) и b(t) имеют вид a(t) = tk + ai(t), b(t) = t4 bx(t), (46) где порядки функций ax{t) и b1(t) не меньше чисел k4- 1 и 1+ 1 соответственно. Далее положим где порядок функции /(/) не ниже, чем —(/—k)+ 1.
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 391 Исключая неизвестную функцию f(t) из системы (43), (44), получаем одно уравнение о о О t t -[a1{x)%{t-T)dT + f{t)\b{T)1{t-x)di-Atly о о которое, очевидно, имеет вид (37) (см. F)), и потому существует его решение %(t) с оценкой (45). Функция %(t) получается из уравнения (43) и для нее, очевидно, имеет место оценка (45). Итак, предложение G) доказано. § 4. Маневр обхода Здесь дается основная конструкция, позволяющая построить обходное движение точки z(t)t точнее, построить управление убегания с тем, чтобы точка z(t) не попала на М (см. § 1). A) Пусть 2'— конечномерное линейное семейство функций переменного /, рассматриваемых и аналитических на некотором отрезке / действительной оси. Существует тогда такое натуральное число т, зависящее от 2' и /, что любая функция ф(/)£2', не равная тождественно нулю, имеет на отрезке / не более т нулей с учетом их кратности. Для доказательства в векторном пространстве 2' введем произвольным образом евклидову метрику и обозначим через S сферу единичного радиуса в 2', тогда для функций ср(/) найдется такое положительное число г, что rq>(t) принадлежит S. Числа нулей функций ф(/) и гф(/) совпадают. Таким образом, для доказательства достаточно рассмотреть лишь функции, принадлежащие S. Допустим, что в S существует последовательность функций <М0. ф.(0. •••. (0 число нулей которых на / неограниченно возрастает. Так как множество S компактно, то можно считать, что последовательность (1) равномерно сходится к некоторой функции Ф0(0€5 на некоторой окрестности отрезка / плоскости комплексного переменного /. Пользуясь подсчетом числа нулей при помощи логарифмического вычета, приходим к заключению, что Ф0(0 имеет на отрезке / бесконечное множество нулей, что невозможно. B) Пусть 2—конечномерное линейное семейство функций, рассматриваемых и аналитических на некотором отрезке /, при-
392 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ надлежащем отрезку 0^/^ 1; W—двумерное векторное евклидово пространство с фиксированной в нем ортогональной системой координат: w = (wx, w2)£W\ Г — квадрат, определяемый неравенствами l^'Ka, i=l, 2, а>0, (2) a kx и k2—два целых числа, причем 0 ^ kx ^ k2. Существует тогда такое положительное число у, что для любого вектора ф(/) = = (ф1(0» Ф2(0)> компоненты которого принадлежат 2, найдется такой квадрат Г'сГ со стороной 2у, что точка v (t) g W, задаваемая равенствами 0'(/) = ф/(/)-а'7*<\ i=l, 2, (3) при /6/, ее = (ее1, ее2) £ Г' (4) удовлетворяет условию |и(/)|>7^. (5) Для доказательства расширим семейство 2, присоединив к нему функции tki и tk*, до семейства 2', и пусть т—число, соответствующее этому семейству (см. А)). Пусть р > 2m -J- 1 (6) есть целое число. Разобьем квадрат Г равноотстоящими друг от друга вертикальными и горизонтальными прямыми wl' = aln /=1,2, / = 0, 1, . . ., /?, а10 = —а, aip=a на р2 малых квадратов со стороной 2а//?. В плоскости W рассмотрим кривую о;'' = о;'(0 = ф''(0/'*''. *'=1. 2. (8) Покажем, что кривая (8) не может проходить через все построенные малые квадраты. В самом деле, при входе в любой из этих малых квадратов кривая должна пересечь одну из его сторон, т. е. либо одну из вертикальных прямых системы (7), либо одну из горизонтальных прямых системы (7). Таким образом, либо число пересечений с вертикальными прямыми не меньше чем (р2—1)/2 раз, либо число пересечений с горизонтальными прямыми не меньше чем (р2—1)/2 раз. Допустим для определенности, что имеет место первое. Так как вертикальных прямых в системе (7) имеется р-\ 1, то хотя бы одну из них, например прямую w1 =aj, она должна пересечь не менее чем (р—1)/2 раз. Это означает, что функция 4l(t)—a\tk* имеет не менее (р—1)/2>т нулей (см. (6)). Так как эта функция принадлежит семейству 2', то она
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 393 тождественно равна нулю, а это значит, что кривая (8) вся лежит на вертикальной прямой w1^^, и поэтому она не может проходить через все малые квадраты. Обозначим через Г" тот малый квадрат из Г, через который кривая (8) не проходит, через у'—0ДнУ четверть стороны квадрата Г" и Г' — квадрат со стороной длины 2у, центр которого совпадает с центром квадрата Г". Так как кривая (8) не проходит через квадрат Г", то при выполнении условий (4) при каждом фиксированном / хотя бы одно из чисел \wl(t) — а'|, /=- 1, 2, больше или равно у. Из этого непосредственно вытекает \v(t)\>yt^ Итак, предложение В) доказано. Нижеследующее предложение С) легко выводится из В). С) Пусть 2—конечномерное линейное семейство функций, рассматриваемых и аналитических на некотором отрезке /, принадлежащем отрезку 0 ^ / ^ 1, причем нуль входит в /; W—двумерное векторное евклидово пространство с фиксированной в нем ортогональной системой координат u=(w1t w2)^W; A—квадрат, определяемый неравенствами |ш<|<&, i=lf 2, &>0, (9) а (ot — линейное отображение пространства W в себя, аналитически зависящее от / при t^I, не вырождающееся при малых положительных /. Существуют тогда такие два положительных числа б и 0g/, что для любого вектора ,Ф(0==('Ф1(0» яР2(0)> компоненты которого принадлежат 2, найдется такой квадрат А'с: А со стороной 26, что точка a;(0 = i|>(0 + <»*P (Ю) при 0</<9, pgA' (11) удовлетворяет условию |И*)|>6*Ч (12) где k2—целое число, зависящее от матрицы cot. Доказательство предложения С) состоит в сведении его к предложению В). Это сведение опирается на приведение матрицы —cof к каноническому виду, т. е. записи ее в виде —<ot = B(t)Q(t)A(t) (см. В), § 2), (13) где О(0-(о /*■)• °<ki<k*> (14) а матрицы A (t) и B(t) имеют обратные на некотором отрезке О^/^0, на котором / в дальнейшем только и рассматривается.
394 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ Положим v(t) = B^(t)w(t)t фЮ^Я-Ч'ЖО. а-Л(0Р. (15) тогда соотношение (10) записывается в виде v(t) = <p(t)—Q(t)a, (16) которое совпадает с (3) предложения В). Компоненты вектора ф (t) принадлежат к конечномерному линейному семейству 2, которое описывается следующим образом. Пусть b[(t)—элементы матрицы B~x(t)\ умножая все элементы семейства 2 на функцию #•(/), мы получаем некоторое семейство 2{, а семейство 2 составляется как прямая сумма четырех семейств 2{. Для создания всех предпосылок предложения В) мы должны теперь указать еще число а, определяющее квадрат Г. И тогда в силу В) будет найдено число у. Число а строится, исходя из предпосылок предложения С), а затем, исходя из тех же предпосылок и числа у, строится число б так, чтобы'утверждение предложения С) выполнялось, при этом число 0, быть может, нужно будет еще несколько уменьшить. Перейдем к проведению этой сравнительно кропотливой процедуры. Так как матрицы A (t) и B(t) имеют обратные, а матрица A {t) — A (0) делится на /, то существует такое положительное число г, что для любого вектора w£W имеют место неравенства \A(t)w\^r\w\, (17) {A-ityw^rlwl (18) \B(t)w\^r\w\t (19) \(A(t)-A(0))w\^\w\. (20) Определим теперь число а, положив а=гб//2. (21) Из неравенства (17) следует тогда, что Л(*)ДэГ. (22) По построенному так числу а в силу предложения В) строится число у- Возьмем теперь в квадрате Г произвольным образом квадрат Г' с центром а0 и стороной 2у и положим Л-*(0)а0 = ро. Пусть К — множество всех точек из Д вида Po+w, где |ш|<е, е>0,
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 395 т. е. круг радиуса е с центром в ро. Выясним, при каких условиях будет Л-ЧОГ'э/Г. (25) Мы имеем где A(t)(h + w) = a0 + v, (26) v=(A(t)—A(0))h + A(t)w. (27) В силу неравенств (18) и (20) имеем |u|<9fc|/2/r + 8/r. (28) Таким образом, для того чтобы имело место включение (25), достаточно, чтобы было •^P + f<V- (29) Следовательно, выбрав числа 9 и е такими, что 0<_ZY г = ^, (30) мы тем самым обеспечим выполнение включения (25). Число 9 зафиксируем так, чтобы, кроме прежних требований, оно удовлетворяло условию (30), и положим г=-—г=. (31) Тогда в круг К впишем квадрат А' со стороной 26. Этим самым найдено число б и каждому квадрату Г' из Г поставлен в соответствие квадрат А' из А: Г->Д', причем Л(0А,с=Г. (32) Соответствие это определяется соответствием (23) между центрами квадратов. Покажем теперь, что при указанном выборе чисел 9 и б утверждение предложения С) верно. Пусть г|;(/)—произвольная вектор- ная^функция, компоненты которой принадлежат семейству 2. Этой функции в силу (15) соответствует функция ф(£), компоненты которой принадлежат семейству 2, и потому в силу предложения В) найдется такой квадрат Г' в квадрате Г, что при agT' мы имеем \v{t)\>yt (33) (см. (9) и (16)). Из этого в силу неравенства (19) получаем неравенство 5^. \w(t)\^ryt^6t, (34) которое имеет место при Р^Д' (см. (32)). Таким образом, предложение С) доказано.
396 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ § 5. Управление убегания Для линейной дифференциальной игры (1) § 1, удовлетворяющей условиям убегания С) § 1, мы строим здесь специальное управление убегания v(t), как вольтерровский оператор St (см. § 3) от управления преследования u(t), причем оператор этот зависит от начального значения z0 игры. Вместо линейной дифференциальной игры (1) § 1 мы рассматриваем здесь дифференциальную игру (А), формально более общую, но в действительности совпадающую с игрой (1) § 1. Формально более общая запись берется для того, чтобы выпуклые множества Р и Q можно было произвольным образом транслировать в пространстве R. A) В евклидовом векторном пространстве R размерности п рассмотрим дифференциальную игру г=- Cz — и Л- v 4-а, (1) где zg/?, С—заданное линейное отображение пространства R в себя и a£R— заданный вектор. Вектор и является управлением преследования, вектор v—управлением убегания, векторы эти непроизвольны, они удовлетворяют условиям и€Я, u€Q, (2) где Р и Q — заданные выпуклые компактные подмножества пространства R размерностей р и q. Игра считается законченной в тот момент времени, когда точка z достигает заданного векторного подпространства М пространства R. Таким образом, игра задана, когда задано векторное пространство R, его линейное отображение С в себя, вектор а, выпуклые компактные подмножества Р и Q и векторное подпространство Af, размерность которого мы обозначим через п — v. Игра, однако, не изменится, если каждое из множеств Р и Q подвергнуть параллельной трансляции в пространстве R и соответственным образом изменить вектор а. Вследствие этого мы можем считать, что множества Р и Q содержат нуль пространства /?, и тогда существуют такие векторные подпространства U и V размерностей р и q пространства R, что имеют место включения P^U, Q^V. (3) B) В дифференциальной игре А) обозначим через L ортогональное дополнение к М в /?, через W—двумерное векторное подпространство пространства L и через я—операцию ортогонального проектирования пространства R на W. Путем параллельной трансляции множеств Р и Q можно достичь того, что имеют место включения (3), а множества Р и Q имеют нуль в качестве внутренней точки. Линейное отображение пехС, рассматриваемое на U, мы обозначим через /т, а то же отображение, рассматриваемое на У, мы обозначим через g-x. Если игра удовлетворяет
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 39? условиям убегания а) и Ь) § 1, то путем дополнительной трансляции множеств Р и Q можно достичь еще того, что вместо условий а) и Ь) § 1 будут выполнены более сильные условия: a) в IF не существует такого фиксированного одномерного векторного подпространства W1, что ^(^)сГ (4) при всех достаточно малых т; b) существует такая константа р, > 1, что ,iMP)c=£T(Q). (5) Следует заметить, что имеющаяся в соотношении (5) константа \i может оказаться несколько меньше, чем константа ц в соотношении 10) § 1. С) Пусть V—евклидово векторное пространство размерности qf Vt — его s-мерное векторное подпространство, ф — операция ортогонального проектирования из пространства V на подпространство Vlt A — компактное выпуклое подмножество пространства V размерности q и р — произвольно малое положительное число. Существует тогда такой выпуклый многогранник В в пространстве Vu содержащий внутри себя выпуклое множество у (А) и содержащийся в р-окрестности этого множества, а, кроме того, такое кусочно-линейное отображение у многогранника В в р-ок- рестность выпуклого множества Л, что для каждой точки vx^B мы имеем <руЫ =i>i. (6) Отображение у легко заменить аналитическим, удовлетворяющим условию (6). Для доказательства предложения С) разобьем пространство Vt на конгруэнтные между собой кубы такого размера, что главная диагональ каждого куба меньше заданного числа р. Сумму всех этих кубов, пересекающихся с множеством ф(Л), обозначим через В', а выпуклое замыкание полиэдра В' — через В. Полученный так выпуклый многогранник В удовлетворяет условиям, формулированным в предложении С). Возьмем произвольное симплициаль- ное подразделение многогранника В, и пусть ЬиЬг% ...,bk (7) — перечень всех вершин этого подразделения. Так как произвольная точка Ь{ из последовательности (7) отстоит от множества Ф (А) на расстояние меньшее, чем р, то найдется прообраз этой точки bi при отображении ф, отстоящий от множества А также на расстояние меньшее, чем р. Так мы получаем последовательность точек alt a2, ..., aki
398 ^^• линейная дифференциальная игра убегания расположенных в р-окрестности выпуклого множества Л, причем у(а{) = Ь{, t=l, ...,&. Пусть Т — произвольный симплекс взятого нами подразделения многогранника В, и пусть, например, &1э . .., Ьг—совокупность всех его вершин. На соответствующие этим вершинам точки а1У .. ., аг в пространстве V натянем симплекс S и обозначим через у линейное отображение симплекса Т на симплекс S, при котором y(b{) = ah /-1, ..., г. Определяя так отображение у на каждом из симплексов рассматриваемого подразделения многогранника В, мы получим отображение у всего выпуклого многогранника В. Покажем теперь, как заменить отображение у аналитическим отображением у. Для этого обозначим через V2 ортогональное дополнение подпространства Vx в пространстве У, тогда пространство V распадается в прямую сумму своих подпространств V1 и V2, так что каждый элемент v$V однозначно записывается в виде v = vt + v29 v1^V1, v2£V2. Таким образом, и элемент 7(^1), где v1^B1 может быть записан в виде у (vt) = v1 + х (vt), где х (Vi) 6 V2. Здесь х—кусочно-линейное отображение многогранника В в пространство V2. Отображение х» расписанное покоординатно, представляет собой совокупность из q~s кусочно-линейных скалярных функций, каждая из которых зависит от s скалярных переменных. Аппроксимируя каждую из этих скалярных функций многочленом от s переменных, мы получим аналитическую аппроксимацию х отображения х- Отображение у, описываемое формулой y(v1)=v1 + x(v1)% является аналитическим отображением многогранника В в р-ок- рестность множества А и удовлетворяет условию Vy(Vi)=vl9 совпадающему с условием (6). Таким образом, предложение С) доказано. D) В векторном пространстве R рассмотрим дифференциальное уравнение z = Cz + b(t), (8) где z g/?, С—линейное отображение пространства R в себя и b(t) — вектор из R, зависящий от времени /. Оказывается, что решение z(t) уравнения (8) с начальным условием г(0) = г0
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 399 может быть записано в виде t z(t) = eiCz0 + ^e*cb(t—x)dx. (9) о Доказательство очевидно. Е) Будем считать, что для игры А) выполнены условия убегания в форме В), и используем здесь обозначения, введенные в В). В силу предложения С) § 2 отображению gx соответствует разбиение пространства V в прямую сумму его подпространств Vx и V2, причем подпространство V2 определено однозначно, а за Vt мы примем его ортогональное дополнение. Отображение gx, рассматриваемое на Vl9 обозначим через gx. Оказывается, существует такое аналитическое отображение v множества Р в множество Q и такое положительное число р, что выполнены условия с) и d). c) При и£Р, v1eVlf Ы<р (Ю) мы имеем u-^ + tf^eQ. (П) Таким образом, если и= u(t)~произвольное управление преследования, определенное на отрезке 0^/^9, a v1(t) — произвольная измеримая векторная функция, определенная на том же отрезке, для которой выполнены условия M0€Vlf IMOKp. то формула (11), т. е. формула 1> = 0(О = МО + *(и(О)> (12) определяет управление убегания. d) При подстановке в уравнение (1) игры произвольного управления u = u(t) и соответствующего ему в силу формулы (12) управления v = v(t) проекция nz(t) решения z(t) этого уравнения с начальным значением z0 записывается в виде jiz(*) = iK9 + ti(*), где ф (t) = netcz0 -|- ^ nexCadT, о t lAt) = \gAvAi-*)-K{u(t-x)) + y\v(u{t-x)))dx. (13) Здесь h\ есть линейное отображение пространства U в пространство Vu а <р^—линейное отображение пространства V в пространство V1# Оба эти отображения определены и аналитичны на до-
400 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ статочно малом отрезке О^т^Э и становятся нулевыми при т = 0. Отображение v, положительные числа р, Э и отображения h*Xi фх зависят только от игры А) и не зависят от управления u(t)t функции v1(t) и начального значения z0. Функция v1(t)y удовлетворяющая условиям (10) и произвольная в остальном, в дальнейшем будет выбираться для целей убегания. Для доказательства предложения Е) воспользуемся прежде всего предложением С), положив V* Так как выпуклое множество Q имеет нуль внутренней точкой и \i > 1, то множество А лежит внутри множества Q и расстояние от множества А до границы множества Q положительно, его мы обозначим через 2р. Согласно предложению С) на выпуклом многограннике В, содержащем множество ф(Л) и содержащемся в его р-окрестности, определено аналитическое отображение у, переводящее В в р-окрестность множества Л. Таким образом, расстояние между у (В) и границей множества Q не меньше р; кроме того, имеет место соотношение <PY(fi) = fi ПРИ tfi € Я- (14) Теперь воспользуемся предложением D) § 2. В силу его отображение /т может быть представлено в виде fx = gxhTf (15) причем МЯ)с^фЮ) = Ф(Л). (16) Таким образом, отображение у определено на множестве h0(P) и расстояние между множеством yh0(P) и границей множества Q не меньше р. Следовательно, полагая v = yh0f (17) мы получаем для v включение (11). Подставляя в уравнение (1) произвольные управления u = u(t), v = v(t), запишем решение полученного уравнения с начальным значением z0 в виде z(t) = e*cz0 + \?c{v{t—т) — u(t—т)+а)йт (см. D)). (18) о Применяя к полученному равенству операцию я, получаем nz(0 = ro?'cze+ $ яе^аЛ-ь J QT(v(t—T)) — fx(u(t — T)))dT. (19) о о
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 40! Линейное отображение gT в силу предложения С) § 2 может быть записано в виде gT = gT<Px> (20) причем ф0=Ф, а срх—тождественно на К,: <Pt(i>i) = i>i. (21) Положим теперь Фт-=Фо-Ьфх, hx = h0+h;. (22) Тогда из (15), (20), (22), (21), (12), (17), (14) мы получаем формулу (13). Итак, предложение Е) доказано. F) Сохраняя обозначения предложения Е), положим l2 = \gAMt-v)-K{u{t-v)) + &{v{t-T)))dT, (23) о так что при замене v(t)=v(u(t)) мы получаем C(0 = Ci(0 (см. (13) Е)). (24) Векторную функцию v1(t) для целей убегания мы выберем на отрезке 0 ^ t ^ 0 в виде М') = МР#. u>v)> (25) где ро — постоянный двумерный вектор Ро = (PS, R), (26) u = u(t)—векторная функция в пространстве U, v = v(t)—векторная функция в пространстве У, Lt—оператор, линейно зависящий от совокупности этих трех величин и вольтербвскии в отношении векторной функции {и, v) = (u(t), v(t)). Оказывается, что оператор Lt можно выбрать так, что при подстановке в формулу (23) выражения (25) для vx (t) мы получим £2 = <МРо + МО)> (27) трица второго порядка с детерминантом, *>0, а Pi(') = (K(0. Й(0) (28) где <ot—квадратная матрица второго порядка с детерминантом, отличным от нуля, при t > 0, а удовлетворяет оценке |К(')К<*. '=1.2, (29) при u(t)$P, v(t)€Q.
402 99. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ Если при этом вектор ро удовлетворяет оценке |Й|<6, *= 1,2, (30) и число 0 достаточно мало, то вектор vx (t) удовлетворяет оценке мокр. (31) Положительные числа 0, Ь и с зависят только от игры и не зависят от векторной функции (u(t), v(t)). Докажем утверждение F). Так как для игры выполнено условие а), то линейное отображение gx удовлетворяет условиям предложения Е) § 2, и поэтому мы будем считать, что имеет место либо случай а), либо Ь) (см. Е) § 2), так что матрица gx имеет либо вид (23), либо вид (24) § 2. Для этих двух случаев оператор Lt будет строиться двумя различными способами. Положим t с. (о=(«(<). a(<))=S*T(-AH«('-*))+q>;H*--T)))dT. (32) о Очевидно, мы имеем Й(*) = Л,(и,1;), Ц(0=Я*(и. *). (33) где At и Bf суть АС-операторы от векторной функции (и, v) (см. А) § 3). В случае а) (см. Е) § 2) порядки и порядки дифференцируемости обоих операторов не ниже, чем k +2. В случае Ь) (см. Е) § 2) порядок и порядок дифференцируемости оператора At не ниже, чем k +2, а порядок и порядок дифференцируемости оператора Bt не ниже, чем /+2. Разберем случай а). В этом случае мы определим оператор Lt формулой МРо, ". ») = Ро, (34) т. е. выберем вектор v1(t) в виде постоянного вектора (50. Из (23/ § 2 следует 1 \gt = th+l£. (35) где go—матрица ранга 2. Мы имеем теперь U (0 - <*+1g?(ft, -ь (^Л3 (0 )=со, (Ро + pt (0), (36) где Таким образом, в случае а) предложение F) доказано. Разберем случай Ь). Мы будем считать, что матрица gt записана в виде (24) § 2. Таким образом, имеются функции a(t)
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 403 b(t) порядков k и / соответственно, а также АС-операторы At и Bt (см. (33)). Исходя из этих данных, составим и решим уравнения (43), (44) ('§ 3) относительно неизвестных функций %(t) и y^(t). При этом мы будем считать, что t = (u, v). (38) Вектор vl(t) = (v\(t), v\{t)) определим, положив yH0=-Pi-r^S + x(0. ь!(0 = о. (39) Тогда имеет место формула (27), где \a(t) \a{t)\ щ-Л\ { ). (4°) й(0-Х(0. Pi (0 = 0. (41) Непосредственно проверяется, что матрица со,, заданная формулой (40), имеет ранг 2 при / > 0. Таким образом, и в случае Ь) предложение F) доказано. G) Если игра (1) удовлетворяет условиям убегания, то существуют такие положительные числа 0, б, k (k—целое) и такой вольтеровский оператор Stf определенный на отрезке 0^/^9, зависящий от z0 £ R и ставящий в соответствие управлению преследования и- u(t) управление убегания v=--v(t) = St(z0l и), (42) что решение z(t) уравнения z = Cz—u(t)-\- St(z0, и)л-а (43) с начальным значением z0 удовлетворяет условию |яг(/)|>6/* (44) при 0</<9. Доказательство опирается на предложение С) § 4. Оператор St мы определим формулой St (z0, u) = v(u (0) + Lt (ft,, и, v (и)), (45) где вектор ро мы выберем ниже в зависимости от вектора z0. Проекция nz\t) решения z(t) с начальным значением z0 записывается в виде Jiz(0 = *(0+Ei(0 (см. (13)), (46) где t я|> (0 = netcz0 + J neTCadT, (47) ti(0 = <MPo+Pi(0) (см- F)). (48)
404 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ Совокупность всех функций ty(t) вида (47) при фиксированных С и а и при произвольном z0, очевидно, принадлежит некоторому линейному конечномерному семейству 2 аналитических функций. Полагая P = & + Pi(0. (49) мы можем переписать nz(t) в виде л2(0 = И<)=ф(/)+<МР). (50) Квадрат Л определим неравенствами |Р'|<& (см. (30)). (51) Таким образом, мы имеем здесь все предпосылки предложения С) § 4, и потому существует предусмотренное этим предложением положительное число б. Выберем теперь 9 настолько малым, чтобы было I Pi (<)!<«• (52) Пусть теперь z0 — произвольное начальное значение и ty(t) — функция семейства 2, соответствующая этому значению z0 в силу формулы (47). В силу предложения С) § 4 существует такой квадрат Д'сД, что при 0</<В, р^Д' (53) имеем |о>(0|>в/*«. (54) За ро возьмем центр квадрата Д', тогда мы будем иметь Ро + МОбД', (55) и потому |я2(0|>в/*«, что дает неравенство (44) при k = k2. Таким образом, предложение G) доказано. § 6. Процесс убегания Здесь мы будем рассматривать игру (1) § 5, удовлетворяющую условиям убегания (см. В) § 5). Ей в силу предложения G) § 5 соответствует положительное число Э, которое мы зафиксируем, и вольтеровский оператор St, определенный на отрезке 0^/^9 и ставящий в соответствие начальному значению z0 и управлению u(t) управление v(t)=St(z0, и). (1) Управление v(t), задаваемое этой формулой, мы будем называть специальным управлением убегания.
29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ 405 Здесь мы будем пользоваться обозначениями § 1 (см. (4)). A) Каково бы ни было начальное значение z0 игры, применяя специальное управление убегания v(t) (см. (1)), мы к концу периода Э приведем игру в положение z(0), удовлетворяющее условию £(9) > 8 = 89*. (2) Это вытекает непосредственно из предложения G) § 5, так как Я2(в)<6(в). B) Для рассматриваемой игры существует такая положительная константа с, что, каково бы ни было начальное значение z0, причем ?()^8> применяя специальное управление убегания (1), мы будем вести точку z(t) так, что на всем отрезке 0^/<9 для нее выполняется условие W)> (1+f(/))», о<«е. (3) Для доказательства заметим прежде всего, что, каковы бы ни были управления u(t), v(t)y заданные на отрезке 0^/^9, мы имеем оценки ^>»- «> |z(0 —ZelOCl + n,)/, (5) где а и Р—две положительные константы, зависящие только от игры и числа 9. Из последнего неравенства следует, что при t < , *° , (6) мы имеем Далее, в случае, если v(t) есть специальное управление убегания (см. (1)), мы в силу G) § 5 при t > 9R . г,—г- имеем Из формул (7), (8) и (4) следует (3), где с—подходящим образом выбранная константа. Итак, предложение В) доказано. C) Игру убегания при произвольном начальном значении можно вести так, что имеют место оценки Е(А> се* (9)
406 29. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА УБЕГАНИЯ при е</<00. (10) Если начальное значение z0 удовлетворяет условию £0^е> то оценка (9) имеет место для всех значений /, т. е. при 0</<оо. (11) Если начальное значение z0 не удовлетворяет условию £0^8> то имеет место оценка при 0</^в. (13) Доказательство предложения С) состоит из описания процесса убегания. Если начальное значение z0 удовлетворяет условию to^e, то на отрезке времени 0^/^Э мы применяем специальное управление убегания и в силу предложения В) получаем оценку (12) на отрезке 0 </< 8. Причем в конце отрезка Э имеет место оценка (2). Таким образом, либо для точки z0, либо для точки z(0) выполнено условие £о>е, 5(в)>е. (14) Начиная с этого момента, т. е. с момента / = 0 или / = 8, мы применяем следующий способ управления: если для z(t) l(t)>e>> то управление v(t) берется произвольным образом до тех пор, пока не наступает момент времени t0 такой, что £(£0) = е- Начиная с момента t0 к точке z(t0) применяется специальное управление убегания. Таким образом, предложение С) доказано. ЛИТЕРАТУРА 1. Р. Айзеке. Дифференциальные игры. М., Мир, 1967. 2. Л. С. П о н т р я г и н, Е. Ф. Мищенко. Задача об убегании одного управляемого объекта от другого.— Докл. АН СССР, 1969, 189, № 4. 3. Л. С. П о н т р я г и н. Линейная дифференциальная игра убегания.— Докл. АН СССР, 1970, 191, № 2. 4. Л. С. Понтрягин. Линейные дифференциальные игры. Доклад на Международном конгрессе математиков в Ницце, 1970.
30 ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ*) Пленарный доклад Здесь рассматриваются линейные дифференциальные игры, основной моделью для которых служит процесс преследования одного управляемого объекта другим управляемым объектом. Линейные дифференциальные игры, конечно, составляют весьма частный случай общих, однако и для них результаты не тривиальны, кроме того, они гораздо более эффективны, чем соответствующие обобщения на нелинейный случай. Постановка задачи будет сформулирована здесь для общего нелинейного случая, а результаты только для линейного. Постановка задачи. Теория дифференциальных игр возникла в результате математической идеализации технических задач. Идеализации возможны различные. При выборе идеализации следует стремиться к тому, чтобы, отражая наиболее существенные черты технической проблемы, она в то же время была доступна для математической обработки. Таким образом, обзор теории не должен даваться в полном отрыве от технических задач. Для того чтобы иметь конкретный пример, вообразим, что один самолет преследует другой. Цель первого самолета—догнать второй, цель второго—уйти от преследования. Каждый пилот управляет своим самолетом, имея в виду свою цель и пользуясь информацией о ситуации. Информация состоит из двух частей, первая—это полное знание технических возможностей обоих самолетов, вторая—это сведения о поведении собственного самолета и самолета противника. Сведения о поведении самолетов могут включать в себя различные данные об их состоянии за период, предшествующий данному моменту, но ничего нельзя считать известным о будущем поведении самолетов, так как они управляемы, и в любой момент времени летчик может изменить положение рулей, изменив тем самым поведение самолета. В действительности каждый из пилотов может получить сведения о противнике лишь с некоторым запозданием, однако нет надобности включать это обстоятельство в идеализацию, более того, можно даже предполагать известным поведение противника с некоторым опережением и строить математическую идеализацию на этой основе, а затем *) Международный конгресс математиков в Ницце, 1970. Докл. сов. математиков.—М.: Наука, 1972.—С. 248—257.
408 30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ уже показать, что полученная теория может быть использована для приближенного решения реальной задачи. Перейдем к математическому описанию процесса преследования. В этом процессе участвуют два управляемых объекта, преследующий объект и убегающий объект. Состояние каждого из объектов в любой момент времени определяется его фазовым вектором. Фазовый вектор преследователя обозначим через х, а фазовый вектор убегающего — через //, уравнения объектов запишем в обычной форме: * = /(*. и)> У = ё(У> v), (1) где точка означает производную по времени, а и и v суть управления. Так как х и у являются фазовыми векторами, то каждый из них распадается на две части: *=(*i. Х2), У = (Уг, У2)> где хг и уг определяют геометрические положения объектов, а хг и у2—их скорости. Считается, что процесс преследования заканчивается в тот момент времени, когда наступает равенство *i = </i> (2) т. е. тогда, когда объекты геометрически совпадают. Упомянутая ранее первая часть информации состоит из уравнений (1). Эти уравнения дают не сами движения объектов, а описывают лишь их возможности, так как при различных управлениях u = u(t) и v = v(t) мы получаем различные движения. Таким образом, в примере с самолетами уравнения (1) описывают технические возможности самолетов. Сам процесс преследования мы можем рассматривать с двух различных точек зрения: 1. Мы можем отождествить себя с преследующим объектом. В этом случае наша цель заключается в завершении процесса преследования, и управление и находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени t мы должны конструировать значение u(t) управления и, зная уравнение (1), т. е. первую часть информации, и используя вторую ее часть в виде функций x(s)f y(s), v(s) на отрезке t—0^s^ /, где Э—подходящим образом выбранное положительное число. 2. Мы можем отождествить себя с убегающим объектом. В этом случае наша цель состоит в предотвращении конца преследования, и управление v находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени t мы должны конструировать значение v(t) управления и, зная уравнения (1), т. е. первую часть информации, и используя вторую ее часть в виде функций x(s), y(s)f u(s) на отрезке t—9^s^/.
30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 409 Такова та математическая идеализация процесса преследования, которую я буду рассматривать и которая неизбежно расщепляет задачу на две различные задачи: задачу преследования и задачу убегания. Расщепление происходит из-за того, что при двух различных подходах мы используем различные информации. Существует и другая идеализация, принадлежащая Айзексу, при которой, как в задаче преследования, так и'в задаче убегания используется одна и та же информация, именно, знание значений x(t) и y(t). При этой идеализации предполагается, что существует оптимальное управление и = и(х, у) преследования, определяющееся как функция х и у состояний объектов, и существует оптимальное управление v = v(x> у) убегания, определяющееся как функция х и у состояний объектов. При такой идеализации задача математически становится весьма определенной, она заключается в нахождении функций и (х, у) и v(xt у), называемых оптимальными стратегиями, но именно эта определенность чрезвычайно затрудняет ее решение. В частности, предполагая существование оптимальных стратегий, мы резко сужаем класс рассматриваемых задач. Дифференциальная игра. Ди(|х|)еренциальная игра из процесса преследования возникает в результате естественного стремления упростить обозначения, именно, вместо двух фазовых векторов х и у мы вводим один вектор: z = (x, у), образуя фазовое пространство R игры как прямую сумму фазовых пространств обоих объектов. Тогда пара уравнений (1) записывается в виде одного уравнения z = F(zf и, v), (3) а соотношение (2) определяет в векторном пространстве R некоторое подмногообразие М. Теперь мы можем определить дифференциальную игру независимо от исходного процесса преследования. Дифференциальная игра задана, если задано ее фазовое векторное пространство /?, уравнение (3), где zg/?, a F — некоторая функция трех переменных, причем и—управление преследования, av — управление убегания, и, сверх того, в пространстве R задано некоторое множество М, на котором игра заканчивается. Как и в случае процесса преследования, мы связываем с дифференциальной игрой две различные задачи: 1. Нашей целью является завершение игры, т. е. приведение точки z на множество М, при этом для осуществления этой цели в нашем распоряжении находится управление преследования uf так что в каждый момент времени / мы выбираем значение u(t) этого управления, используя функции z(s) и v(s) на отрезке t—O^s^/. Таковы правила игры преследования. 2. Нашей целью является предотвращение конца игры, т. е. предотвращение прихода точки z на множество М, при этом для осуществления этой цели в наше-i распоряжении находится уп-
410 30- ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ равление v убегания, так что в каждый момент времени t мы выбираем значение v(t) этого управления, используя функции z(s) и u(s) на отрезке t—9<s<£. Таковы правила игры убегания. Линейная дифференциальная игра. Фазовое пространство R линейной игры мы будем считать евклидовым векторным пространством размерности п. Уравнение игры имеет вид z = Cz—u + v\ (4) здесь z£R, С есть линейное отображение пространства /?всебя, а управления и и v являются векторами пространства /?. Эти векторы, однако, не произвольны, а удовлетворяют условиям и€Л v£Q, (5) где Р и Q суть выпуклые компактные подмножества пространства /? (размерности множеств Р и Q произвольны). Как функции времени управления u — u(t) и v = v(t) являются измеримыми функциями t. Множество Му на котором игра заканчивается, мы будем считать векторным подпространством пространства /?. Имеются результаты также и для более общего случая, когда М есть произвольное выпуклое замкнутое подмножество пространства /?. При обсуждении этого более общего случая указанная общность будет специально оговариваться. A. Ортогональное дополнение к М в пространстве R обозначим J?, а его размерность—v (dim 3? = v). Операцию ортогонального проектирования из пространства /? на 2 обозначим я. Так как С есть линейное отображение пространства /? в себя, то етС, где т—действительное число, есть линейное отображение пространства /? на себя, а пехС—линейное отображение пространства /? на пространство J2\ Оба эти отображения аналитически зависят от действительного параметра т. Положим: Рх = петСР; Qx = nexCQ. (6) Множества Рх и QT являются выпуклыми компактными подмножествами пространства J?, непрерывно зависящими от действительного параметра т. Операции над компактными выпуклыми множествами из Я\ B. Пусть А и В—два компактных выпуклых множества из J?7, а а и р—действительные числа. Обозначим через а А + РВ (7) совокупность всех векторов вида ax-bfk/, где хg Л, у£В. Очевидно, что множество (7) компактно и выпукло. Если одно из множеств А или В пусто, то и множество (7) пусто. Легко проверяется, что при неотрицательных а и р мы имеем дистрибутивность: (а-Ьр)Л=аЛ + рЛ. (8)
30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 41! Совокупность всех компактных выпуклых непустых множеств из & естественным образом составляет полное метрическое пространство Q. Таким образом, если Хх = Х(т) есть компактное выпуклое множество из J?, зависящее от действительного параметра т, иначе говоря, если X (т) есть функция действительного параметра т со значениями в й, то можно определить понятие измеримости этой функции и интеграл Лебега от нее: и \Х(%)&% (/!</о), (9) и который также. является элементом пространства й. Будем считать, что при tt = t2 множество (9) состоит из нулевого элемента пространства S. С. Пусть А и В—два компактных выпуклых множества из S?. Если существует такой вектор х6=2% что х+ВаА, (10) то мы будем писать ВсЛ. (11) Совокупность всех векторов х, удовлетворяющих условию (10), обозначим А*-В (12) и будем называть геометрической разностью множеств Л и В. Очевидно, что множество (12) компактно и выпукло; оно не пусто тогда и только тогда, когда выполнено условие (11). Игра преследования. Для игры (4) составим геометрическую разность (см. А и С): p*-£-Qt. (13) Оказывается, что разность эта есть измеримая функция т, так что можно определить интеграл \(PxJLQx)dx, 0<*. (14) о При £ = 0 интеграл этот по условию состоит из вектора 0. Через / обозначим со окупность всех значений t, для которых (14) непусто. / состоит либо из числа 0, либо является отрезком 0^^^/0, либо совпадает с полупрямой 0^t. Обозначим через Wt совокупность всех точек zg/?, для которых имеет место включение t ne*cz(i[(P^Q,)d>z, (15) о
412 30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ и через Т (z)—минимальное значение числа t, для которого имеет место включение (15). Очевидно, что W0=M (16) и что Wt непусто для всех значений /g/. Имеет место следующая теорема о преследовании [1]. Теорема 1. Если для начального значения z0 игры (4) определено число Г(г0), то игра преследования с начальным значением z0 может быть закончена за время, не превосходящее числа T(z0). Эта теорема не вполне точна. В действительности за время t, не превосходящее числа T(z0), точка z0 может быть приведена в положение z(t), отстоящее от М на расстояние не большее, чем число се, где с > 0 зависит от z0, а е>0 — произвольно малое число, в зависимости от выбора которого мы ведем игру преследования. Чтобы дать указание на доказательство теоремы и на характер ее неточности, сформулируем основное свойство функции Wf числа t. D. Пусть z0£Wx и0<б<т. Тогда для любого управления убегания v (t), заданного на отрезке 0^ t ^ е, можно найти такое управление преследования u(t), заданное на отрезке 0^/^е, что игра (4), в которой взяты указанные здесь управления u(t)} v(t), переводит точку z0 за время е в точку z1 = z(e), принадлежащую множеству Wx_e. Это свойство функции Wt будем называть свойством 9* (преследование). Свойство 9* функции W (/) позволяет завершить игру преследования за время, не превосходящее Т (z0), используя в качестве информации управление v = v(s) с опережением, именно, на отрезке /^s^^-l e, где 8>0 произвольно мало. Использование информации с запаздыванием, например, значения функции v(s) на отрезке t—2e^s^/ — е, приводит к неточности попадания на М. Результат D может быть существенно улучшен [2]. E. Рассмотрим игру (4), финальное множество М для которой есть произвольное выпуклое замкнутое множество из /?. Тогда существует и конструктивно описывается выпуклое замкнутое множество Ми зависящее от t, t^zO, удовлетворяющее условию М0 = М и обладающее свойством 9* (см. D). При этом функция Mt является максимальной, обладающей этим свойством. Результат Е дает возможность доказать теорему, аналогичную теореме 1, но более сильную. Если для данного z g/? существует такое т^О, что z£MXi то обозначим через Т (z) минимальное значение т, для которого это включение имеет место. Оказывается, что если для данного начального значения z0 число Т (z0) определено, то игра преследования с этим начальным значением может быть закончена за время, не превосходящее числа T(z0). Следует отметить, что результат этот не дает полного решения задачи преследования. Именно, если для данного z0 число Т (z0)
30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 413 не определено, то может случиться, что игра преследования с начальным значением z0 все же может быть закончена за время, не превосходящее некоторого числа. Далее, если число Т (z0) определено, то оно может не давать наилучшей оценки для времени окончания игры преследования. Максимальная функция Mt была построена мною для линейной игры, но ее максимальность была отмечена Н. Красовским и А. Субботиным. Эти же авторы построили максимальную функцию Ми обладающую свойством 5* для нелинейной игры вида (3). Игра убегания. Пусть 3 — некоторое двумерное векторное подпространство пространства J? (см. А), взятого для игры (4). По аналогии с А обозначим через я операцию ортогонального проектирования из пространства /? на £ и положим: Рх = пехСР; Qx = nexCQ. (17) Тогда имеет место следующая теорема об убегании: Теорема 21). Допустим, что для игры (4) существует такое двумерное векторное подпространство $ пространства ££ (см. А), что выполнены следующие два условия: a) найдется такое действительное число \х > 1, что для всех достаточно малых положительных значений т выполнено включение (см. (17)): \iPxcQx; (18) b) не существует в плоскости 3? такой фиксированной пря- ♦ мой 2\ чтобы для всех достаточно малых положительных значений х имело бы место включение*. QX<^J?. (19) Тогда для любого начального значения z0 игры, не принадлежащего Mt можно так вести игру убегания, что точка z(t) никогда не достигнет пространства М (0^/< оо) и, кроме того, для расстояния точки z(t) до М имеет место оценка (21) (см. ниже). F. Для записи оценки (21) каждой точке z g R поставим в соответствие два неотрицательных числа: г^&, Л), (20) где I—расстояние точки z до М, а т)—ее расстояние до J?. Если г0 — начальное значение, то соответствие (20) будет: z0—* (Е0> "По)» а если z(t)—текущая точка, то соответствие (20) будет: z(t)-+ ~~*(£(0» Л(0)- Существуют такие положительные числа с и е г) Добавлено при корректуре: полное доказательство теоремы 2 дано в работе [4].
414 30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ и натуральное число к, зависящее от игры, но не от ее хода, что *(0>{1Тда "РИ В0<8. (21) Теорема 2 вытекает из следующего предложения G. Для игры (4) находятся два положительных числа: Э—отрезок времени и е—расстояние. Далее, каждому начальному значению z0, для которого |0^е» и управлению u(t), О^^^б, ставится в соответствие управление v(t) (причем значение v(t) определяется точкой z0 и функцией u(s), известной на отрезке O^s^/) таким образом, что для решения z(t) уравнения (4) с указанными управлениями u = u(t), v = v(t) и начальным значением z0 выполнены следующие два неравенства: 5(6) > е, (22) 5(/)>(HW- °^<e- (23) Управление v(t) будем называть специальным управлением убегания. Процесс игры убегания можно описать следующим образом: Обозначим через S совокупность всех точек z из /?, для которых £^е, а через S' — совокупность точек z, для которых £ = е. Если начальное состояние игры z0 принадлежит цилиндру S, то мы сразу же включаем специальное управление убегания (см. G) на период времени 0 ^ / ^ 0, в конце которого z (Э) лежит вне цилиндра S (см. (22)), причем на отрезке О^^^О выполнено неравенство (23). Если в начальный момент времени / = 0 или в какой-либо промежуточный момент времени / точка z (/) находится вне цилиндра S, то мы выбираем управление убегания v (t) произвольно и ждем того момента времени /0, в который точка z (/0) окажется на поверхности S', и, приняв точку z(t0) за начальную для отрезка времени t0 ^ t ^ t0 + 9, включаем на этот период времени специальное управление убегания (см. G). Тогда в силу (23) на этом отрезке времени имеет место неравенство ^>(i+T(/))»' '<•<'<'»+°« <24> а в конце его точка оказывается вне цилиндра S, и рассмотрение игры возобновляется. Таким образом, на протяжении всей игры для точки z(t) всегда выполнено одно из неравенств (23), (24), или \(t)^z. Считая, что е > cek, мы получаем из этих неравенств оценку (21). Если при конструировании специального управления убегания v(t) использовать управление u(t) с запаздыванием, а именно, для вычисления значения v(t) употреблять функцию u(s), извест-
30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 415 ную на отрезке —6^s^/—б, где 0 < б < _£!*£_, (25) (1+Ло)1 причем сг > 0, I—натуральное число, то оценки (22), (23) сохраняются. Таким образом, в игре убегания можно использовать запаздывающую информацию. Первоначально теорема 2 об убегании была доказана в нашей совместной с Е. Ф. Мищенко работе [3], причем вместо условий а) и Ь) предполагались выполненными более сильные условия с) и d). c) Существует такое число (л>1, что для всех достаточно малых положительных т имеет место включение (см. А) liPx с QT (26) (ср. (18)). Отображение пехС, будучи линейным и аналитически зависящим от т, может быть разложено в ряд яетС = £о + т#1+ ...+т'лгл+ ... (27) d) Существует такое целое число т^0,для которого каждое отображение g09 gl9 ..., gm^t переводит множество Q в некоторую точку, a dimgmQ = v, v^2 (см. А). Позже я усилил этот результат, заменив условие d) более слабым условием. e) При всех достаточно малых положительных значениях т dimQT = v, v^2. Ознакомившись с моей работой, Р. Гамкрелидзе выразил уверенность, что в условиях с) и е) пространство £Р может быть заменено любым его двумерным подпространством «2\ так что, по его мнению, теорема 2 должна быть верной при выполнении условия а) и условия f). f) dimQT = 2 при всех малых положительных значениях т. Проверив свое доказательство, я убедился в том, что оно действительно верно при выполнении условий а) и f), и обнаружил, сверх того, что условие f) естественным образом заменяется в нем условием Ь). После этого результат приобрел тот вид, в котором он здесь приведен. Пример. В евклидовом пространстве Е размерности v ^ 2 рассмотрим движение двух точек х и у, где х—«преследователь», а у—убегающий объект. Процесс преследования заканчивается тогда, когда х = у. Движения точек х и у задаются уравнениями хш + а1х<*-1)Н-... Ч ак_ххЛ akx = u, (28) yu> + biyii-D+t . . + bi^1y + bly = v. (29)
416 30. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Здесь хи) и уи) суть производные порядка i по времени / от векторов х и у, а{, 1=1, ..., k\ bj, j = 1, ..., /, суть линейные отображения пространства Е в себя, а и и v—управляющие векторы, принадлежащие пространству Е и удовлетворяющие условиям: и g Р, £>€Q, где Р и Q — выпуклые компактные подмножества пространства £, имеющие размерность v. Будем говорить, что точка у имеет маневренное превосходство над точкой х, если выполнено одно из двух условий: 1. l<k; * 2. при l = k существует такое число (л > 1, что \iPc:Q. Оказывается, что если убегающий объект у имеет маневренное превосходство над преследователем х, то этот процесс преследования удовлетворяет условиям с) и d), так что если в начальный момент точки х0 и у0 не совпадают, то процесс убегания продолжается неограниченно. В случае, если маневренное превосходство имеет преследователь jc, то, применяя теорему 1, мы сможем в фазовом пространстве этой игры обнаружить открытое множество начальных состояний, исходя из которых игра всегда заканчивается. Расчет этого примера произвел А. Мезенцев. ЛИТЕРАТУРА [1] П о н тр я г и н Л. С, Линейные дифференциальные игры. I, ДАН СССР, 174, 6 (1967), 1278—1281. [2] Понтрягин Л. С, Линейные дифференциальные игры, II, ДАН СССР, 175, 4 (1967), 764—767. [3] Понтрягин Л. С, Мищенко Е. Ф., Задача об убегании одного управляемого объекта от другого, ДАН СССР, 189, 4 (1969), 721—723. Добавлено при корректуре: [4] Понтрягин Л. С, Линейная дифференциальная игра убегания. Труды Матем. ин-та им. В. В. Стеклова АН СССР, т. СХП, 30—63.
31 ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ *) Научное сообщение Вопрос о том, чем следует заниматься, стоит для математиков, быть может, острее, чем для специалистов в других областях знания. Математика, возникшая как чисто прикладная наука, и в настоящее время имеет своей основной задачей изучение окружающего нас материального мира с целью использования его для нужд человечества. В то же время она имеет свою внутреннюю логику развития, следуя которой математики создают понятия и даже целые разделы, являющиеся продуктом чисто умственной деятельности, которые никак не связаны с окружающей нас материальной действительностью и не имеют в настоящее время никаких приложений. Эти разделы зачастую обладают большой стройностью и некоторого рода красотой. Однако такого рода красота не может служить оправданием их существования. Математика— не музыка, красоты которой доступны большому количеству людей. Математические красоты могут быть поняты лишь немногими специалистами. Создавая такие красоты, математики практически работают только на себя. Невозможно, однако, утверждать, что обладающие внутренней стройностью, но лишенные приложений разделы математики не имеют права на существование. Они составляют внутреннюю ткань пауки, иссечение которой могло бы привести к нарушению всего организма в целом. Кроме того, оказывается, что некоторые отделы математики, лишенные приложений в течение многих веков, позже находят эти приложения. Классическим примером служат кривые второго порядка, созданные в древности из внутренних потребностей науки и нашедшие лишь позже очень важное применение. С другой стороны, некоторые разделы математики, занимающиеся лишь внутренними проблемами, постепенно вырождаются и почти наверняка оказываются ни для чего не нужными. В этой обстановке вопрос о выборе тематики исследований становится для математиков весьма тревожным. Я считаю, что если не все, то во всяком случае многие математики должны в своей работе обращаться к первоисточникам, то есть к приложениям математики. Это необходимо как для того, чтобы оправдать свое существование, так и для того, чтобы влить новую свежую струю в научные исследования. *) Вестник АН СССР.—1978. — № 7.—С. 10—17.
418 31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Исходя из этих соображений, а также находясь под некоторые давлением руководства Математического института им. В. А. Стек- лова, я и три моих сотрудника Е. Ф. Мищенко, Р. В. Гамкре- лидзе и В. Г. Болтянский решили заняться поиском прикладных тем для своих исследований в теории колебаний, точнее, в математическом изучении электронных приборов и в теории регулирования, которую более общо теперь разумнее назвать теорией управления. Мы заранее исключили из своего рассмотрения математические задачи, уже сформулированные техниками. А основали свой поиск на ознакомлении с техническими проблемами, устанавливая контакты с многими специалистами в области техники. При этом мы не просто стремились найти приложения математики, но старались найти новые постановки математических задач, интересные с точки зрения самой математики. Среди многих технических задач, с которыми мы ознакомились, была следующая. Некий специалист в области авиации сказал: «Если один самолет преследует другой самолет, то пилот преследователя, конечно, умеет это делать, но интересно было бы иметь теорию, быть может, даже такую, которая позволяла бы осуществлять преследование при помощи автомата». Мы все понаслышке знаем, что существуют самонаводящиеся ракеты. Но ракета обладает такими преимуществами в скорости и маневренности перед самолетом, что теория, на которой основано ее поведение, может быть очень грубой. Хочу сразу обратить внимание на странность этой задачи, которая на первых порах казалась нам совершенно неприступной. В самом деле, самолет-преследователь очевидным образом не должен лететь в то место, где в настоящее время находится убегающий самолет, так как последний, конечно же, уйдет с того места, где он сейчас находится. В тоже время бессмысленно предполагать, что убегающий самолет движется по прямой: он может повернуть, причем неизвестно куда. Задача о преследовании одного самолета другим самолетом, насколько я знаю, до сих пор не решена. Рассмотрены упрощенные модели преследования, которые составляют предмет так называемой теории дифференциальных игр. Слово «игра» указывает на то обстоятельство, что будущее поведение каждого из самолетов неизвестно: оно зависит от воли пилота. Дифференциальной эта игра называется потому, что закон движения самолета описывается дифференциальными уравнениями. Для того чтобы применить математику к решению какой-либо технической задачи, прежде всего надо дать ее математическое описание. В данном случае мы начнем с математического описания движения самолета. При этом, как всегда это делают математики, мы будем отвлекаться от излишней конкретности, стремясь уловить лишь главные характерные черты технической задачи, подлежащей решению. Мы будем рассматривать самолет как точку, движущуюся
31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 419 в пространстве. Известно, что положение точки в пространстве определяется тремя координатами. Их мы обозначим через х19 х, л'3. Так как точка (самолет) движется, то она имеет и некоторую скорость-вектор. Компоненты этого вектора мы обозначим через л'4, хГ), л*,.. Величины х19 х29 . . ., хв определяют состояние движущейся точки в данный момент времени и называются ее фазовыми координатами. Для того чтобы отвлечься от излишней конкретности, мы будем рассматривать объект, состояние которого в данный момент времени определяется не шестью, а произвольным числом фазовых координат. Их мы обозначим через х19 х29 . . ., хп. Совокупность всех этих величин вместе принято обозначать одной буквой, так что мы полагаем x = (xli х29 ..., хы). Здесь х есть точка фазового пространства нашего объекта, или фазовый вектор нашего объекта. Произвольную фазовую координату объекта обозначают через xi9 где i может принимать любое значение: i = = 1, 2, ..., п. Так как состояние объекта меняется со временем, то величина х,- также меняется со временем, и скорость ее изменения обозначается обычно через х{. Это есть производная величины X; по времени t. Физическая закономерность поведения объекта, как правило, заключается в том, что скорость л:,- изменения фазовой координаты X; нашего объекта однозначно определяется фазовыми координатами объекта хЛ9 х29 .. ., xN9 что математически записывается в виде формулы *,• = //(*!, х2> .... *,,)=//(*). 1'=1,2,...,/1. (1) Это значит, что х,- есть функция величин х19 х29 ..., хи9 то есть может быть вычислена, если величины xl9 x29 ...9xt известны. Здесь мы имеем п неизвестных величин х19 х29 ..., хп9 которые меняются со временем, то есть являются функциями времени xf = X;(t)9 и п дифференциальных уравнений, так что задачу можно решать математически, то есть получить закономерность изменения состояния объекта со временем, найти х как функцию времени: x = x(t). При помощи уравнений вида (1) могут быть описаны весьма разнообразные объекты. Объекты могут быть не только механическими, но и другого рода, например, химический процесс может быть описан уравнениями типа (1). В этом случае массы различных веществ, входящих в реакцию, являются фазовыми координатами х1щ х29 ..., хп нашего объекта. Такими же уравнениями может быть описан и биологический процесс, например сосуществование на острове волков, зайцев и травы. Экономические закономерности также допускают описание при помощи системы уравнений типа (1). Приведенное здесь описание движения самолета не содержит главного для нас элемента. В самолете сидит пилот, который по своей воле может менять закономерность его движения, приводя
420 31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ в действие рули управления. Так, пилот может менять тягу двигателя, положение хвостового руля, положение закрылков. Положение каждого из элементов управления определяется некоторым числом. Все эти числа мы обозначим через ии и2, ..., иГ1 а их совокупность обозначим одной буквой, положив и = (ии и2, .. ., иг). Здесь и есть вектор, компоненты которого определяют положение рулей. Таким образом, движение самолета описывается не уравнениями (1), а уравнениями */ = //(*, и), / = 1» •.., л, (2) где в правую часть входит вектор управления и. Вектор управления и меняется со временем по воле пилота самолета и потому является заданной функцией времени: u = u(t). Таким образом, уравнения (2) в действительности имеют вид */ = //[*, И(0]. <=1> ■•-.Л. (3) где u(t) есть конкретно осуществляемое в течение времени управление объектом. Систему уравнений (3) уже можно решать. Следует отметить одно очень важное обстоятельство. Величины и19 и21 ..., иг, определяющие положение рулей, не могут быть произвольными. Так, если их есть величина тяги двигателя, то ясно, что она может меняться лишь в некоторых пределах от 0 до некоторой величины а, О^^^а. Точно так же и хвостовой руль может поворачиваться лишь в определенных пределах, так что если и2 есть угол его поворота, то он удовлетворяет некоторым неравенствам: —b^u2^b. Чтобы отвлечься от излишней конкретности, мы можем просто сказать, что вектор и не есть произвольный вектор г-мерного пространства, а принадлежит некоторому заданному множеству этого пространства. Система дифференциальных уравнений (2) вместе с заданным множеством Q дает математическое описание возможностей поведения управляемого объекта. Такой объект мы будем называть управляемыми, поскольку поведение его зависит от того, какой функцией u(t) времени / является управление и объекта. Для того чтобы начать решать задачу о преследовании одного самолета другим самолетом, мы должны были бы и второй самолет описать в виде управляемого объекта, а затем точно сформулировать задачу преследования. Но, как я уже сказал раньше, сама игровая постановка задачи содержит в себе настолько большую странность, что мы предпочли вначале попытаться решить другую задачу, в которой элемент игры отсутствует. Мы предположили, что второй объект неподвижен, или, говоря в терминах самолета, речь стала идти о том, чтобы перевести самолет из одного состояния в другое в кратчайшее время. Математически эта задача формулируется так. В начальный момент времени задается некое исходное фазовое состояние объекта,
31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 421 которое мы обозначаем через л:0. Кроме того, имеется какое-то другое фазовое состояние объекта —х1. Если, управляя объектом каким-нибудь способом, мы можем перевести его из фазового состояния х° в фазовое состояние х1, то возникает задача о том, каково должно быть управление, которое переводит объект из фазового состояния л:0 в фазовое состояние яЛ в кратчайшее время. Это есть задача оптимизации на быстродействие. Получаемое в результате решения этой задачи управление u(t) называется оптимальным в смысле быстродействия, а само движение объекта оптимальным движением в смысле быстродействия. Если в процессе движения объекта меняется не только время, но и какая-либо другая величина, представляющая для нас особый интерес, например расходуется топливо, то можно поставить вопрос об оптимизации расхода топлива при переходе из состояния л:0 в состояние х1. Такая задача весьма важна, например, при рассмотрении перехода космического корабля с одной орбиты на другую, где минимальность расхода топлива играет огромную роль. Так сформулированную задачу оптимизации могло бы решать вариационное исчисление, если бы не было ограничения на управляющий вектор и, то есть если бы вектор и был произвольным вектором. То обстоятельство, что вектор и принадлежит к заданному множеству Q, сразу выводит сформулированную задачу оптимизации из круга тех, которые способно решать классическое вариационное исчисление. Если вектор и произволен, то сформулированная задача является задачей классического вариационного исчисления. Но следует отметить, что она никогда не решалась в вариационном исчислении в той постановке, в какой она приведена здесь. Формулированные в классическом вариационном исчислении задачи носят более общий характер, чем приведенная здесь, и лишены той конкретности, которая возникла у нас благодаря рассмотрению технического объекта. Оказалось, что этот более конкретный характер вариационной задачи, связанный с тем, что мы рассматриваем управляемый объект, привел к новым возможностям решения самой задачи, дал возможность прийти к догадкам, к которым в общей вариационной задаче прийти было бы чрезвычайно трудно. Формулирую теперь то решение, которое было получено нами для задачи на быстродействие. Вводятся вспомогательные величины "Фи 'Фг» • • •» 'Фл числом я, совокупность которых обозначается одной буквой г|) = (г|)1, г|)2, ..., ipj, где г|) — вектор с компонентами г|)1э г|)2, . . ., \рп. Составляется вспомогательная величина H = ylf1{x, u)-r^Jt(x9 м)+...ч-yjn(x, u) = H(ty, x,u). (4) Сразу видно, что величина Н зависит от трех векторов: г|э, х и и. Новая вспомогательная величина (4) была обозначена через Н
422 31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ потому, что нужные для нас уравнения, получаемые из нее, очень похожи на уравнения Гамильтона, всем известные из механики. Они суть следующие: ; _ дН (г|), *, и) ; _ дН(^ х, и) Полученная система дифференциальных уравнений (5) состоит из 2п уравнений. В них входят неизвестные функции хи х2У ..., хп9 \р1У г|)2, ..., г|)и, и,, и2, ..., ип то есть число неизвестных функций равно 2я-|-/\ Таким образом, система эта неполна. Решать ее невозможно. Однако эта система уравнений дополняется одним условием. Управляющий вектор и должен выбираться так, чтобы при любых фиксированных значениях г|), х функция #(г|), х, и) достигала своего максимума при этом значении и. Дополненная этим условием система уравнений (5) уже является полной, и именно эта система соотношений должна решаться при отыскании оптимального по быстродействию решения задачи. Этот результат был назван принципом максимума. Задачи на оптимизацию какой-либо другой величины, а не времени, например расхода горючего, решаются очень похожим образом. Здесь я не формулирую ее решения. Целью движения объекта мы считаем определенное его фазовое состояние х1, то есть прибытие точки в определенное место с определенной скоростью. Принцип максимума годен, однако, и для решения других задач, например, целью может служить прибытие в определенное место с произвольной скоростью. Если управляющий вектор и может принимать произвольные значения, а не связан условием принадлежности к множеству Q, то из условия максимальности функции #(я|), х, и) по переменному и следует, что все частные производные этой функции по переменным ии u2i ..., иг равны нулю, то есть должны быть выполнены г соотношений: дН{1*' U) = 0, /=1,2, ...,г. (6) У Этот результат вытекает из общих результатов классического вариационного исчисления, но в такой форме он никогда не был сформулирован, так как в классическом вариационном исчислении вообще не рассматривались управляемые объекты. Следует отметить также, что и в случае произвольно меняющегося и соотношение (6) слабее, чем условие максимальности Н по и. Дадим теперь решение одной очень простой задачи оптимизации на быстродействие, которое можно получить при помощи принципа максимума, но невозможно получить методами классического вариационного исчисления. Рассмотрим математический маятник, то есть движение некоторой точки по прямой, которая притягивается к некоторой
31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 423 фиксированной точке 0 этой прямой с силой, пропорциональной расстоянию до нее. Прямую, по которой движется точка, примем за ось абсцисс, а точку 0 — за начало координат. Координату движущейся точки обозначим через х. Тогда уравнение движения этой точки запишется в виде х+х = 0, (7) где х есть вторая производная координаты х по времени, то есть ускорение движущейся точки. Одно уравнение (7) можно переписать в виде двух уравнений первого порядка Х = Уу (8) У = — х. Пусть x=^x(t)y y = y(t) — произвольное решение системы (8). Для геометрического его изображения рассмотрим на фазовой плоскости переменных (х, у) точку [x(t), y(t)], движущуюся с течением времени /. Получаемая так в результате движения точки по фазовой плоскости траектория называется фазовой траекторией. Для системы (8) она представляет собой окружность с центром в начале координат, по которой точка движется с постоянной угловой скоростью, равной одному радиану в секунду, причем движение происходит по часовой стрелке. Допустим теперь, что на нашу движущуюся точку х воздействует внешняя сила величины и, которая не может превосходить по модулю единицы. Тогда уравнение движения точки записывается в виде х-\-х ^и или в виде системы уравнений у--- —х -|-и. Система уравнений (9) описывает движение управляемого объекта, где и есть управляющий параметр. Постараемся теперь привести точку, находящуюся в начальный момент времени в произвола ном положении (л:0, у0), в состояние покоя, то есть в начало координат фазовой плоскости за минимальное время, используя для этого управляющий параметр и. Из принципа максимума непосредственно следует, что оптимальное управление и может принимать только значения ±1. При и- +1 фазовой траекторией системы (9) является окружность с центром в точке (1, 0), а при и —1 фазовой траекторией системы (9) является окружность с центром в точке (—1, 0). Зная, что оптимальное значение и=- ±1, мы должны теперь только указать, как меняется и между этими Двумя значениями в процессе движения. Из принципа максимума легко вывести, что значение и зависит лишь от положения фазовой точки на фазовой плоскости, а именно вся фазовая плоскость разбивается на две части, в одной из которых и должно иметь
424 31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ значение +1, а в другой — значение —1. Разбиение фазовой плоскости на две части осуществляется линией, начерченной на рисунке. Она состоит из полуокружностей радиуса единица, опирающихся как на диаметры на отрезки оси абсцисс. Причем на положительной части абсциссы полуокружности обращены вниз, а на отрицательной части абсциссы полуокружности обращены вверх. Две полуокружности, примыкающие к началу координат, Рис. 12 сами являются оптимальными траекториями, так что если начальная точка находится на одной из них, то движение в начало координат осуществляется по соответствующей полуокружности. Оказывается дальше, что если фазовая точка находится под начерченной линией раздела, то и должно иметь значение +1, а если над линией раздела, то значение и должно быть равно — 1. Легко вычертить траекторию оптимального движения точки (см. рисунок) исходя из произвольного начального положения (л:0, у0). Начиная с какой-либо точки плоскости (л:0, у0), движение определяется уравнением (9) с определенным значением и=±\, причем значение это переключается на противоположное, когда соответствующая траектория доходит до линии раздела переключения. В конце концов точка попадает на одну из полуокружностей линии раздела, примыкающих к началу координат, после чего точка движется по соответствующей полуокружности к началу координат. Принцип максимума является всеобъемлющим универсальным методом для решения задач оптимизации. Он нашел многочисленные применения в различных областях знания и оказал существенное влияние на развитие вариационного исчисления. В игровых задачах достигнуть результатов столь общего характера нам не удалось. Ими занимается сейчас большое число математиков, среди которых следует отметить группу сотрудников Математического института им. В. А. Стеклова и школу академика Н. Н. Красов-
31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 42& ского в Свердловске. Ими достигнуты значительные результаты. Здесь я ограничусь тем, что приведу один конкретный пример задачи преследования. В пространстве R произвольной размерности я, где п^2, рассмотрим две точки х и //, каждую из которых мы можем одновременно трактовать как вектор. Точку х будем считать преследующей точкой, а точку у—убегающей точкой. Процесс преследования считается законченным, когда х совпадает с у. Движение этих точек описывается следующими уравнениями: V "Г "• (10) У + Ру - v. Здесь и и v—векторы пространства R. В нашей задаче они являются управляющими векторами. Их можно выбирать произвольными по направлению, но они ограничены по длине, а именно: для них выполнены условия |ы|^р, |и|^а. Числа а, (5, р, а положительны. Таким образом, уравнение (10) описывает движение точки с линейным трением а под действием внешней силы и, которая может быть выбрана произвольной по направлению, но не превосходит по величине числа р. Аналогичное верно и для точки у. Процесс преследования можно рассматривать с двух точек зрения. При первой точке зрения мы отождествляем себя с преследователем. Наша задача заключается тогда в завершении преследования путем выбора надлежащего управления и. При этом в процессе преследования мы все время наблюдаем за поведением уходящего объекта. При второй точке зрения мы отождествляем себя с убегающим объектом, и наша задача состоит в том, чтобы уйти от преследования, выбирая надлежащим образом управлением. При этом мы все время наблюдаем за преследующим нас объектом. Основной результат, имеющийся здесь, следующий. 1. Задача преследования всегда может быть решена положительно, то есть преследование завершено, если выполнены два неравенства р/а>а/Р, р>а. (11) 2. Задача убегания имеет всегда положительное решение, если выполнено неравенство а > р. Оказывается, что при решении задачи преследования в случае, когда выполнены условия (11), мы всегда имеем наилучший способ поведения преследователя, то есть имеется единственное оптимальное управление преследователя u(t), отклонение от которого неизбежно увеличивает время преследования. При этом оптимальное управление преследователя u(t) определяется постепенно с возрастанием времени t в зависимости от поведения убегающего объекта. После сообщения Л. С. Понтрягина состоялось обсуждение. В кратком выступлении академик А. Н. Тихонов уточнил, что принцип максимума, обсуждавшийся в докладе, — этс знаменитый принцип максимума
426 31. ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Понтрягина, вошедший в мировую литературу по вопросам управления. Методы, основанные на этом принципе, получили мировое признание и используются сегодня во всех задачах управления, в частности при решении вопросов стыковки и мягкой посадки космических кораблей. Академик Б. Н. Петров отметил эффективность действия принципа максимума в теории дифференциальных игр, которая охватывает многие задачи и математической физики, и механики, и управления. Школы академиков Л. С. Понтрягина и Н. Н. Красовского достигли в этой области крупных успехов. В настоящее время, сказал Б. Н. Петров, в развитии теории дифференциальных игр советские ученые существенно опережают зарубежных исследователей. Итоги обсуждения подвел академик П. Н. Федосеев. Высоко оценив доклад Л. С. Понтрягина, он пожелал ученым, работающим в области теории управления, дальнейших успехов.
32 ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ *) § 1. Введение Здесь рассматриваются линейные дифференциальные игры, основной моделью для которых служит процесс преследования одного управляемого объекта другим управляемым объектом. Линейные дифференциальные игры, конечно, составляют весьма частный случай общих, однако и для них результаты не тривиальны, кроме того, эти результаты более эффективны, чем соответствующие обобщения на нелинейный случай. Постановка задачи будет формулирована здесь для нелинейного случая, а результаты только для линейного. Постановка задачи. Теория дифференциальных игр возникла в результате математической идеализации технических задач. Идеализации возможны различные. При выборе идеализации следует стремиться к тому, чтобы, отражая наиболее существенные черты технической проблемы, она в то же время была доступна для математической обработки. Таким образом, постановка задачи не должна даваться в полном отрыве от технических проблем. Для того чтобы иметь конкретный пример, вообразим, что один самолет преследует другой. Цель первого самолета догнать второй, цель второго — уйти от преследования. Каждый пилот управляет своим самолетом, имея в виду свою цель и пользуясь информацией о ситуации. Информация состоит из двух частей, первая—это полное знание технических возможностей обоих самолетов, вторая—это сведения о поведении собственного самолета и самолета противника. Сведения о поведении самолетов могут включать в себя различные данные об их состоянии за период, предшествующий данному моменту, но ничего нельзя считать известным о будущем поведении самолетов, так как они управляемы и в любой момент времени летчик может изменить положение рулей, изменив тем самым поведение самолета. В действительности каждый из пилотов может получать сведения о противнике лишь с некоторым запозданием, однако нет надобности включать это обстоятельство в идеализацию, более того, можно даже предполагать известным поведение противника с некоторым опереже* *) Мат. сб. Новая сер.—1980.—Т. 112, вып. 3.—С. 307—330,
428 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ нием и строить математическую идеализацию на этой основе, а затем уже показать, что полученная теория может быть использована для приближенного решения реальной задачи. Перейдем к математическому описанию процесса преследования. В этом процессе участвуют два управляемых объекта: преследующий объект и убегающий объект. Состояние каждого из объектов в любой момент времени определяется его фазовым вектором. Фазовый вектор преследователя обозначим через х, а фазовый вектор убегающего—через у, уравнения управляемых объектов запишем в обычной форме: x = f{x,u), y = g{y,v), (l) где точка означает производную по времени, а и и v суть управления, т. е. параметры, входящие в правую часть уравнений. Каждый из параметров принадлежит своему ограничивающему множеству где Р и Q — множества произвольной природы. Если управление и становится заданной функцией времени t, т. е. u = u(t), то первое из уравнений (1) становится обычным дифференциальным уравнением, которое можно решать при заданном начальном значении х(0)= х0. То же относится и ко второму из уравнений (1). Так как х и у являются фазовыми векторами, то каждый из них распадается на две части где хг и ул определяют геометрические положения объектов, а х2 и у2 их скорости. Считается, что процесс преследования заканчивается в тот момент времени, когда наступает равенство Хг = Уи (2) т. е. тогда, когда объекты геометрически совпадают. Упомянутая ранее первая часть информации состоит из уравнений (1). Эти уравнения дают не сами движения объектов, а описывают лишь их возможности, так как при различных управлениях u = u(t) nv = v(t) мы получаем различные движения. Таким образом, в примере с самолетами уравнения (1) описывают технические возможности самолетов. Сам процесс преследования мы можем рассматривать с двух различных точек зрения. 1. Мы можем отождествить себя с преследующим объектом. В этом случае наша цель заключается в завершении процесса преследования и управление и находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени t мы должны конструировать значение u(t) управления а, зная уравнения (1), т, е. первую часть информации, и используя
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 429 вторую ее часть в виде знания функций x(s), y(s), v(s) на отрезке / — Q^Cs^/, где Э—подходящим образом выбранное положительное число. 2. Мы можем отождествить себя с убегающим объектом. В этом случае наша цель состоит в предотвращении конца преследования и управление v находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени / мы должны конструировать значение v(t) управления и, зная уравнения (1), т. е. первую часть информации, и используя вторую ее часть в виде знания функций x(s), y(s), u(s) на отрезке / — 0<s</. Такова та математическая идеализация процесса преследования, которую мы рассматриваем и которая неизбежно расщепляет задачу на две различные задачи: задачу преследования и задачу убегания. Расщепление происходит из-за того, что при двух различных подходах мы используем различные информации. Существует и другая идеализация, принадлежащая Айзексу, при которой как в задаче преследования, так и в задаче убегания используется одна и та же информация, именно знание значений x(t) и y(t)- При этой идеализации предполагается, что существует оптимальное управление и^и(хуу) преследования, определяющееся как функция х и у состояний объектов, и существует оптимальное управление v = v(x, у) убегания, определяющееся как функция х и у состояний объектов. При такой идеализации задача математически становится весьма определенной, она заключается в нахождении функций и (х, у) и v(x, у), называемых оптимальными стратегиями, но именно эта определенность чрезвычайно затрудняет ее решение. В частности, предполагая существование оптимальных стратегий, мы резко сужаем класс рассматриваемых задач. Дифференциальная игра. Дифференциальная игра из процесса преследования возникает в результате естественного стремления упростить обозначения, а именно, вместо двух фазовых векторов х и у мы вводим один вектор: z =(x, у), образуя фазовое пространство R игры как прямую сумму фазовых пространств обоих объектов. Тогда пара уравнений (1) записывается в виде одного уравнения z = F(z, и, и), (3) а соотношение (2) определяет в векторном пространстве R некоторое подмножество М. Теперь мы можем дать определение дифференциальной игры независимо от исходного процесса преследования. Дифференциальная игра задана, если задано ее фазовое векторное пространство /?, уравнение (3), где z£R, a F — некоторая функция трех переменных, причем и — управление преследования, a v — управление убегания, и сверх того в пространстве R задано некоторое множество М, на котором игра заканчивается
430 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Как и в случае процесса преследования, мы связываем с дифференциальной игрой две различные задачи: 1. Нашей целью является завершение игры, т. е. приведение точки z на множество Му при этом для осуществления этой цели в нашем распоряжении находится управление преследования и, так что в каждый момент времени t мы выбираем значение u(t) этого управления, имея в виду нашу цель, и используя функции z(s) и v(s) на отрезке /-— 9^s^/. Таковы правила игры преследования. 2. Нашей целью является предотвращение конца игры, т. е. предотвращение прихода точки z на множество М, при этом для осуществления этой цели в нашем распоряжении находится управление v убегания, так что в каждый момент времени t мы выбираем значение v(t) этого управления, имея в виду нашу цель и используя функции z(s) и u(s) на отрезке / — 9^s^/. Таковы правила игры убегания. Линейная дифференциальная игра. Фазовое пространство R линейной игры мы будем считать евклидовым векторным пространством размерности п. Уравнение игры имеет вид: z = Cz—и + vf здесь z£R, С есть линейное отображение пространства R в себя, а управления и и v являются векторами пространства R, эти векторы, однако, не произвольны, а удовлетворяют условиям "€/\ v£Qy где Р и Q суть выпуклые компактные подмножества пространства R (размерности множеств Р и Q произвольны). Как функции времени управления u=u(t) и v = v(t) являются измеримыми функциями /. Множество М, на котором игра заканчивается, мы будем считать выпуклым замкнутым подмножеством пространства Ry в частном случае векторным подпространством пространства R. В настоящей работе рассматривается лишь дифференциальная игра преследования. Ее решение основано на ряде конструкций, связанных с выпуклыми множествами. Именно этому посвящены следующие три параграфа. Эта работа является полным изложением результатов, данных в заметках [1] и [2]. § 2. Выпуклые множества и их геометрическая разность Здесь будут рассматриваться замкнутые выпуклые подмножества евклидового векторного пространства R, причем замкнутость и выпуклость не всегда будут оговариваться. А. Пусть А и В—два замкнутых выпуклых подмножества пространства R, множество Е = аА+рВ, (1)
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 431 где а и р—фиксированные действительные числа, определяется как совокупность всех z^ax-т Ру, где x£Af у g В. Ясно, что множество Е выпукло. Очевидно, что если одно из множеств А и В компактно, то множество Е замкнуто. Далее, если оба множества Л и В компактны, то множество Е также компактно. В частном случае, когда а, р 1, мы получаем алгебраическую сумму А + В двух замкнутых подмножеств пространства R. B. Если Л есть замкнутое выпуклое подмножество пространства R> то определяется его опорная функция, как функция произвольного вектора u£R, которая обозначается через г(Л, и). Она определяется формулой с (Л, u) = sup(x, и). хеА Если а и Р—два неотрицательных числа, то мы имеем следующее легко проверяемое равенство (см. (1)): с(Е, и) = ас{А, и) + $с(В, и). (2) Оказывается, что следующие два соотношения эквивалентны между собой: Лс=В, (3) с (А, и)^с(Ву и). (4) C. Геометрическая разность. Если Л и В—два замк* нутых выпуклых подмножества пространства /?, причем В компактно, то определяется их геометрическая разность D^-A^B как совокупность всех таких точек z£R, для которых z-Y ВаА. Ясно, что множество D выпукло и замкнуто. Очевидно, что D ВаА, причем D есть максимальное множество, удовлетворяющее этому условию, т. е. из соотношения D + BczA следует соотношение DczD. (5) Оказывается, что c(D, и)<с(Л, и)— с (В, и). (6) Пусть X — замкнутое выпуклое множество, a Y—компактное выпуклое множество. Положим, далее, F=(X + Y)*-Y. Тогда оказывается, что F=X. (7)
432 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Докажем соотношение (6). Мы имеем А + ВаА. Отсюда в силу формул (2)—(4) имеем c(D, и) + с(В, и)*^с{А, и) и, следовательно, c(D, и)^с(А, и)—с (В, и), т. е. формула (6) доказана. Докажем теперь формулу (7). Так как X + YaX+ Y, то в силу формулы (5) мы имеем XczF. (8) Далее, в силу формул (6) и (2) мы имеем c(F, u)^c(X+Y, u)—c(Y, u) = c{X, и). Таким образом, в силу эквивалентности соотношений (3) и (4) мы имеем FczX. (9) Из соотношений (8) и (9) следует соотношение (7). Итак, пункт С полностью доказан. D. Пусть А — замкнутое выпуклое множество, а (/и V—компактные выпуклые множества. Докажем, что (A JLV) + Uc{A + U)*_V. (10) Допустим, что точка z принадлежит левой части этого соотношения. Тогда z = x + y, где x£AJ*-V, (11) y£U. (12) Из (11) в силу пункта С следует x + VczA. (13) Складывая (12) и (13), получаем z+VczA + U. Таким образом, в силу самого определения разности имеем ze(A + u)±v§ и включение (10) доказано. E. Через Нг обозначим шар радиуса г с центром в начале координат в пространстве R. Расстояние между двумя компактными выпуклыми подмножествами X и Y пространства R опреде-
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 433 лим как минимальное число г, для которого имеют место включения XczY+Hr, YczX+Hr. Так определенное расстояние между X и Y обозначается, как обычно, через h(X, Y). Легко доказывается, что для так введенного расстояния выполняются все аксиомы метрики. Таким образом, совокупность Q(R) всех непустых компактных выпуклых подмножеств пространства R есть метрическое пространство. Известно, что если R' есть непустое компактное подмножество пространства R, то совокупность Q (R') всех элементов пространства Q(/?), входящих в /?', есть компактное подмножество пространства Q(R). F. Очевидно, что #г-2- Hs=^ #г_5, если г > s. G. Если X (t) есть непрерывная функция действительного числового параметра / со значениями в метрическом пространстве Q (/?), то можно определить интеграл Q Y{p,q) = \X(t)dU (И) Р где предполагается, что p^q. При этом оказывается, что Y(p, q)£Q(R) есть непрерывная функция пределов интегрирования р и q. Далее, если г есть число, промежуточное между р и </, т. е. p^r^q, то имеем ч ч lX(t)dt + \x(t)dt = l X(t)dt. Интеграл (14) определяется как обычный риманов интеграл. Пусть S={t0 = p, tu ..., tk = q) точек, подразделяй to < 'i < • • • < th. — последовательность точек, подразделяющая отрезок pq так, что выполнены условия Тогда определим сумму k 2 (S)=.2 *(■*/)(',— *,--,), 1 = 1 где т,- лежит на отрезке tt_ly t(, т. е. timml^xi^.ti. Так построенная сумма 2 (S) есть выпуклое компактное множество в силу пункта А. Сумма 2 (S) зависит от подразделения S отрезка pq. Обозначим через 8(S) максимальную из длин отрезков подразделения S, т. е. максимальное из чисел ti — //el, i=\, . . ., к. Оказывается, что существует компактное выпуклое множество Y (/?, q)
434 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ такое, что расстояние h(Y(p, q), ]►] (S)) стремится к нулю вместе с 6(S). Это предельное множество Y (p, q) и называется интегралом Q \X(t)dt = Y(p,q). Р Н. Легко доказывается, что выпуклое множество Y (/?, q) совпадает с множеством всех точек у вида я y=\x(t)dtt р где x(t) есть такая измеримая функция переменного t со значениями в пространстве R, что х (t) £X(t). Далее, если у g Y' (/?, q), где У (/?, q') есть граница множества Y(p, q), то функция x(t), соответствующая этому значению у, почти для всех значений t удовлетворяет условию x(t)£X' (t), где X (t) есть граница множества X(t). я I. Очевидно, что \^Hr{t)dt = Hq р \r{t)dt р § 3. Оценка геометрической разности Здесь мы будем рассматривать компактные выпуклые подмножества евклидового векторного пространства R. Через Нг здесь, как и в § 2, будем обозначать шар с центром в начале координат радиуса г в пространстве R. А. Пусть А — компактное выпуклое подмножество пространства R. Положим АГ = А~*-НГ. Очевидно, что множество Аг может быть не пустым при некоторых положительных значениях г тогда, и только тогда, когда размерность множества А совпадает с размерностью пространства R. Обозначим через а максимальное значение г, при котором множество Аг непусто. Здесь мы будем считать, что а—число положительное и что г ^ а. Так как а зависит от множества А, то положим а = а(Л). Через б обозначим диаметр множества А и положим б^б(Л). Далее, положим k = k(A) = 6/a. Дадим теперь оценку расстояния h(Art А) между множествами Аг и Л, обозначив это расстояние через a(r) = h{An А). Оказывается, что a(r)^kr. (1)
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 435 Докажем неравенство (1). Так как множество Аа непусто, то существует в А такая точка с, что с+#ас=Л. Так как множество Аг лежит в множестве Л, то в множестве Л найдется такая точка а, расстояние от которой до множества Аг равно расстоянию между множествами Аг и Л, так что мы имеем о(г)=р(а, Аг). На отрезке ас выберем такую точку Ъ, чтобы имело место равенство р (а, Ь) г р (а, с) а Так как с+НааА, то из соображений подобия следует, что Ь-\ НгаА. Таким образом, Ь$АГ и мы имеем a(r)<p(a,6) = ^gj|p(a, c) = £p(a, с)^-^8 = кг. Таким образом, оценка (1) доказана. В. Пусть Л и В—два таких компактных выпуклых подмножества пространства /?, что их разность D = A-¥-B имеет ту же размерность, что и все пространство /?. Тогда существуют такие два положительных числа у и /, зависящих только от чисел k(D), a(D) и б (Л), что при г^у два произвольных компактных выпуклых подмножества А' и В' пространства R обладают тем свойством, что если h(A, Л')<г, ft (Я, fi')<r, (2) то их разность D'= А'-$-В' удовлетворяет условию ft(D, D')<^lr. (3) Докажем это предложение. Из условия (2) следует А' + НГ=>А, (4) B'c=B-f#r. (5) Вычитая из обеих частей соотношения (4) множество Hri мы в силу пункта С § 2 получаем А'=>А * Нг (6) Вычитая из включения (6) включение (5), мы получаем D' = А'^В'^А^В^#2r- D3LH2r. (7) Так как множество D имеет полную размерность, то при 2r^a(D) из пункта А следует D-£-Hu + HUr=>D. Таким образом, где k^k(D).
436 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Аналогично доказывается, что D+H2k>r^D'9 где число k'^k{D') может быть оценено через числа б (Л) и <x(D) при y = a(D)/3. Так как множество D содержит шар радиуса а (О), то из (7) следует, что а' = a(D')>a(D) — 2г. Далее, мы имеем £' + В'с=Л'с=Л + #г, откуда следует, что б' = б(0')<б(Л)+2г. Из этих оценок для а' и б' мы видим, что при r^.y = a(D)/3 число k' оценено, а именно b(A) + \a(D) k' = A-< г-^ • Эта оценка зависит лишь от чисел б (Л) и a(D). Принимая за / наибольшее из чисел 2k и 2k'', мы видим, что формула (3) верна. Из построения числа / видно, что оно зависит только от множеств Л и В в предположении, что их геометрическая разность D имеет полную размерность. С. Пусть А, А' и В, В'— компактные выпуклые подмножества пространства/?. Очевидно, что если h (Л, Л'Х>, h(By В') <: г, то h(A + B9 Л' + В')<2г. § 4. Альтернированный интеграл А. Пусть Л—замкнутое выпуклое подмножество пространства R, а Ul9 ..., Un9 Vu ..., V;|- (l) две последовательности компактных выпуклых подмножеств пространства R. Положим А0 = А, Ai=--(Al^1+Ui)^Vl9 i=l, ...9n. (2) Множество Ап будем называть альтернированной суммой последовательностей (1) с начальным значением Л. В развернутом виде Ап запишется формулой
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 437 Положим t/^f/H ... + £/„, V=V1+...+V„. Тогда в силу формулы (10) из § 2 мы имеем включение (Л -*- V) -\ [/с Ляс(Л + [/)-*- V. (3) B. Допустим, что множество Л компактно и существует такое положительное число Р, что а(А{)>$, i=l, ..., /г. (4) Тогда альтернированная сумма Л„ является непрерывной функцией переменных Л, Uu ..., £/„, V\, ...,Vn в пространстве Q(/?) для тех значений переменных, для которых имеет место неравенство (4). Это следует из пунктов В и С предыдущего параграфа. C. Пусть А — замкнутое выпуклое подмножество пространства /?, U (т) и V(т) — два компактных выпуклых множества в пространстве /?, непрерывно зависящих от параметра т на отрезке /?<т< q9 и Р=-(г0, ги ..., гп) — некоторое подразделение отрезка pq, т. е. такая последовательность чисел, что Го = Р<гг < ... <rn = q. Положим П П U{= J [/(T)dT, V{= I V{T)dT. (5) r/-i r/-i Исходя из множества Л и последовательностей (5), так же как в пункте А, составим последовательность множеств А09 Л1э ... ..., Ап. Далее, введем обозначение Y(A,P, rt)=-Ah подчеркивая тем самым зависимость множества At от исходного множества Л, подразделения Р и номера /. Мы можем написать также К (Л, Р, /•,-) = К (Л, Р9 г), где г = /-,-. Таким образом, множество Y(A, P, г) определено для всякого значения г, принадлежащего последовательности Р. В случае если множество Л компактно, мы будем считать, что функции U (т) и V (т) удовлетворяют следующему требованию. Существует такая непрерывная, заданная на отрезке pq функция Р(г), положительная при всех значениях г > /?, что для любого подразделения Р отрезка pq имеет место неравенство a(Y(А, Р, г))>р(г). (6)
438 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Таким образом, не исключается возможность, что а(А) = 0. При выполнении этого условия множество Ап является непрерывной функцией чисел ги г21 ..., гп_г. Это непосредственно вытекает из пункта В. Если выпуклое замкнутое множество Л не компактно, то положим Н»[\А = А», Я|АПУ = У'\ и вместо условия (6) выдвинем другое. Именно: существует настолько большое число \i, что a(Y(A», P, г))>Р(г). (7) Оказывается, что при этом предположении Y^(A, P, г) является непрерывной функцией переменных г1у г2, ..., гп_х. Докажем это. Легко проверить, что для заданного jjl можно подобрать настолько большое v, что имеет место равенство У»1 (Л, Р, r) = Y»(A\ P, г). (8) Так как правая часть этого равенства непрерывна относительно переменных ги г2, ..., гп_и то и левая часть его также непрерывна относительно этих переменных. D. Пусть Р = (Ри ..., Рт, ...)—такая последовательность неограниченно измельчающихся подразделений отрезка pq, что имеет место включение Тогда в силу формулы (10) из § 2 мы имеем Y(A, Pu q)z>Y(A, Рш, q)=>.. . эУ (Л, Ря, q)z>.. . Таким образом, эта последовательность есть убывающая последовательность замкнутых выпуклых множеств в пространстве R. Ее пересечение мы обозначим через Y (Л, Р). Возникает вопрос, при каких условиях это множество не зависит от последовательности Р подразделений отрезка pq. Оказывается, что для этого достаточно, чтобы было выполнено условие (7). Докажем это. Для доказательства этого в силу равенства (8) достаточно доказать утверждение для случая, когда А — компактное множество и для него вместо условия (7) выполнено условие (6). Пусть Q= (Qj, .. ., Qm9 ...)—другая последовательность подразделений отрезка pq, аналогичная последовательности Р. Допустим, что компактные множества У (Л, Р), У (Л, Q) не совпадают. Тогда расстояние между ними положительно. Мы обозначим его через Зе. Существует теперь настолько большое положительное число /п, что при j^m h(Y(A, Pj, q)t Y(A> P))<e, H(Y(A, Qj9 q)% Y{A, Q))<e,
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ nPFCJIFAOB АНИЯ 430 В силу условия (6) множество Y(A, Pm, q) является непрерывной функцией членов подразделения Рт за исключением точек р и q, которые фиксированы. Таким образом, существует настолько малое число б, что, смещая члены подразделения Рт на величину, меньшую б, мы получим новое подразделение Р\ удовлетворяющее условию h(Y(A, РЯ9 q), Г (Л, Р\ <7))<в. Выберем теперь такой номер / > т, чтобы каждый интервал подразделения Qj был по длине меньше б. Тогда, смещая элементы подразделения Рт на величину, меньшую б, мы можем перевести подразделение Рт в такое подразделение Р', каждый элемент которого принадлежит подразделению Qy. Так что мы имеем P'czQy. Из этого следует включение Y(Л, Р\ q)z>Y(A, Qy, q). Так как h(Y(A, Ря, q), Y(A, P))<e, то мы имеем Г(Л,Р) + Я2езГ(Л, Р\ q)=>Y(A, Q„ q)=>Y(A, Q). Но так как последовательности Р и Q равноправны, то мы имеем и другое включение Г (Л, Q) + H2ez>Y(A,P). Таким образом, оказывается, что h(Y(A,P), Г (Л, Q))<2e, а по предположению это расстояние равно Зе. Мы пришли к противоречию. E. При выполнении условия (7) множество Y (Л, Р) не зависит от последовательности подразделений Р. Это множество называется альтернированным интегралом функций U (т) и V (х) на отрезке pq с начальным множеством Л и обозначается так: я 7(Л,Р)- \ (U(x)dx^V(x)dx). А,р Из формулы (8) следует я я Я^П \ (U(x)dx^V(x)dx)^Hll(] J (U(x)dx-*-V(x)dx). (9) А* Р Av, p F. Пусть х—произвольная точка отрезка pq, т. е. p^.x^q. Положим х W(x)--W(A, х)- \ (U(x)dx * V(x)dx). А.р
440 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Правая часть определена, так как условие (7), выполненное на отрезке pq, тем самым выполнено и на отрезке рх. Пусть теперь х^у—две точки на отрезке pq. Оказывается, что тогда у W(y)= J (U(T)d%3-V(x)d%). (10) W (x), x Далее, оказывается, что если х^р+е, где е— положительное число, и множество А компактно, то существует такое положительное число Х9 что h(W(y), W(x))KX(y-x). (11) Последнее неравенство показывает, что при компактном А функция W (х) имеет равномерно ограниченный рост на каждом отрезке р + e^x^iq. Отсюда легко следует в силу формулы (9), что Н^ Г) W (х) также имеет равномерно ограниченный рост на отрезке р + е <I x <I q. Докажем предложение F. Пусть P—-(r0f rl9 ..., rn) — некоторое подразделение отрезка pq, содержащее в качестве точек деления числа х и у, так что x = rk, y = rv Положим Щ= J U(x)d%, VJ= J V(x)d%, /= 1,2 /—Л- (12) rk + i-l rk + i-l Пусть, далее, В— некоторое замкнутое выпуклое подмножество пространства R. Построим альтернированную сумму (см. п. А) последовательностей (12) с начальным множеством В и обозначим ее через Y(B, Р, х, у). Тогда мы имеем, очевидно, Y(A, P, y) = Y(Y(A9 P, х), Р9 х, у). (13) Пусть теперь Р = (Р1, ..., Pj, ...)—последовательность подразделений отрезка pq, неограниченно измельчающаяся и такая, что каждое подразделение Pj этой последовательности содержит в качестве точек деления числа х и у. Пусть теперь j^m—два натуральных числа. Обозначим через Р такое подразделение отрезка pq, которое совпадает с подразделением Р; на отрезке рх и с Рт на отрезке ху. Тогда мы имеем включение У (Л, Р/9 y)cY(A9 Р9 y)cY(A9 Ря9 у). Перейдем теперь к пределу в этих включениях при /—+ оо. Тогда мы получим, воспользовавшись формулой (13), W(y)cY(W(x)9 РЯ9 х, у)с=У(Л, РЯ9 у). Предельный переход для среднего члена включения верен при компактном А в силу пункта В. В случае некомпактного А для доказательства правильности предельного перехода следует ис-
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 441 пользовать процедуру (Яд, Hv). Переходя к пределу в этих включениях при т—^ оо, получаем у W{y)c: J (U(T)dT*-V(T)dT)cW(y). W (л), х Из этого следует равенство (10). Таким образом, первая часть предложения F доказана. Докажем теперь вторую часть предложения F, т. е. неравенство (11). Из неравенства (6) следует a (W (х)) ^$(х), где функция $(х) непрерывна и положительна для всех х > р. Таким образом, на отрезке p+e^x^q мы имеем <x(W (x))^fi, где Р—положительное число. В то же время имеет место 6(№(л:))^6, где б—некоторое положительное число, и, следовательно, k(W {x)) ^ k, где к — некоторое положительное число (см. пункт А § 3). В силу непрерывности функций V (%) и V (т) существует такое число г, что 11(т)с:Нг, У(т)сЯг. Отсюда следует, что У У \U{x)dx^Hr{y_x), \V(x)dx<=Hr{IJ_x). (14) А* X Далее, из равенства (10) и включений (3) следует У \ У ! XV (х) .*- J V (т)dx ) + J U (т) diс W (у) с \ х J х / У \ У ci[w(x)-V $ Щт)</т)-*_$ V(x)dx. (15) \ х Ух Усиливая эти включения, получаем W(x)±-\V{x)dx^W{y)-\Hr^_x)^ { И \ U [ W (х) ч- J U (т) dx J JL J V(x)dx \ A* ' X + "r (y-x)- Усиливая эти включения, на основании включений (14) получаем W(x)*-H,ly_x><=W(y) + Hrlll_x)<zW(x) + H,riu_x). Вычитая из этих включений Яг(._х), получаем W(x)±Hirll)_x)<=W(y)czW(x)^ H,rh_x). (16) В силу пункта А § 3 первое из этих включений при 2г (у—л:)^Р Дает W(x)<zW{y)-\ Я2,М/_Л,.
442 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Так как &> 1, то это включение вместе со вторым включением (16) дает неравенство (11), где X=^2kr, однако при условии, что 2г (у—*)<jp. Но отсюда следует неравенство (11) и для произвольных х, у. Итак, предложение F полностью доказано. Допустим, что множество А и обе последовательности (1) суть шары с центром в нуле, так что A = Hl9 и{=-Нг., V~HS.. Допустим, что для каждого i имеет место неравенство Y/=/+(/-i+/-2+ •••+/•/) —(Si + sa+ ...+s,)>0. Тогда в силу формулы (2) мы имеем А •=: Ну., так что альтернированная сумма Ап определяется формулой Ап = Ну . Если A=-Ht, U(t)=-Hrii)9 V (t)= Hsit)> T0> предполагая, что у (t) =-/+$/- (т) d%— \ s (т) dx> О р р при p<t^q, получаем q J \"r(T)df—- ^s(x) "I) = Лущу § 5. Линейная дифференциальная игра преследования Рассмотрим линейную дифференциальную игру, задаваемую уравнением z=^Cz—u + v, (1) где z£R—фазовый вектор игры, R— фазовое векторное пространство нашей игры, и — управление преследования, v—управление убегания. Причем имеет место условие и£Р, v£Q, где Р и Q—компактные выпуклые подмножества пространства R. Игра считается законченной, когда точка z приходит на множество М, где М есть замкнутое выпуклое подмножество пространства R. Заметим, что если u(t), v (t)—две заданные функции, то решение уравнения (1) при u = u(t), v = v(t) с начальным условием z (0) = z0 может быть записано в форме t z(t) = etcz0 + J esC [v (t — s) — u(t—s)] ds. (2) о
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 443 Составим альтернированный интеграл t W(t)== J (exCPdT^eTCQdT). м, о Пусть z0— произвольная точка пространства R. Рассмотрим гипотетическое включение eicz^W{t). (3) Если существует такое неотрицательное /, что это включение имеет место, то обозначим через tQ = T(zQ) минимальное значение /, для которого включение (3) имеет место. Оказывается, что имеет место следующий результат. А. Пусть е—малое положительное число и v(t)—управление убегания, заданное на отрезке 0<;/^е. Возьмем теперь произвольное управление преследования u(t) на том же самом отрезке 0^/^е, и рассмотрим решение уравнения (1) на этом отрезке, причем за v и и взяты заданные уже теперь функции v(t) и u(t). В силу формулы (2) решение уравнения (1) с начальным значением z(0)=z0 при t-г записывается в виде 8 *!- z(e)- eeCz0+ \esC(v(e—s) — и(г — s))ds. (4) о Положим ti= Т(гг). Мы предполагаем, что управление v(t) задано на отрезке Ое, а управление u(t) на этом же отрезке выбрано пока произвольно. Тогда число tx является функционалом от функции u(t), заданной на отрезке Ое. Выберем теперь такое управление u(t) на отрезке Ое, чтобы число tx достигало своего минимума, и сохраним за ним обозначение tx. Оказывается, что /х<1 t0 — е. Докажем высказанное утверждение. Пусть пока /х — произвольное число. Рассмотрим гипотетическое включение e<'« + e>cz0€U?(*i+e). (5) Ясно, что при ti = t0 — е это включение имеет место. Вместо включения (5) рассмотрим более слабое включение (см. формулу (15) из § 4) e«- + E>cz0£( №(/,) + J eTCPdx)^L $ e^Qdi.
444 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Это включение также имеет место при tx=tQ — е. Оно эквивалентно включению e</i + e>cZo+ \ e%cQdxczW(t1)+ $ e%cPdx. (6) Заменим теперь множество, являющееся вторым членом левой части этого включения, одним определенным элементом этого множества, который запишем в виде 8 etxc ^ esCv(e—s)dsi о где v(t), входящее в этот интеграл, есть заданное управление v{t) убегания. Из включения (6) следует включение e^ + ^cz0 + e^c\ esCv(z—s)ds£W(t1) + J exCPd%. о h Это включение имеет место при tx = tQ — е. Выберем теперь за tx минимальное значение tlt при котором это включение имеет место. Тогда существует такой конкретный элемент второго члена правой части этого включения, для которого включение сохраняется. Запишем этот конкретный элемент в виде 8 о где u(t), стоящее под знаком интеграла, есть некоторое управление u(t), определенное на отрезке Ое. Производя эту замену и перенося второй член включения в левую часть, мы получим включение ehc eeCz0 -f ) esC(v(z—s) — u(z—s))ds € Нулевая часть этого включения в силу формулы (4), очевидно,' записывается в виде e^z^^^W (t^). Таким образом, наше утверждение доказано. Предложение А позволяет нам построить по заданному на отрезке Ое управлению v(t) управление u(t), минимизирующее величину Т (zx) — tlf причем оказывается, что tx <I /0 — е. Если теперь управление v(t) становится известным нам на отрезке е 2е, то, исходя из полученного уже начального значения zlf мы изложенным способом можем получить управление и (t) на отрезке е 2е, минимизирующее величину T(z2) = t2i причем t2^t1 — е. Повторяя этот процесс дальше, мы можем шаг за шагом построить управление u(t)y исходя из становящегося известным управления v(t)%
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 445 таким образом, что в некоторый момент времени t*^T(z0) точка z(t) попадает на множество М. Но при этом управление u(t) в момент времени / строится в предположении, что управление v(s) задано на отрезке 0 t + e, т. е. мы используем знание управления v(t) с опережением. Исправим этот дефект следующим образом. Пусть v(t) — некоторое управление, становящееся известным с течением времени. Положим v(t) = v(t — E). Таким образом, для того чтобы знать управление v(s) на отрезке 0<s^/-be, достаточно знать управление v(s) на отрезке —е^ <s^/, т. е. без опережения. Но на отрезке —еО управление v(s) вообще не задано, и поэтому мы его зададим произвольно. Решение уравнения дифференциальной игры (1) с начальным значением z0 при u = u(t), v = v(t) обозначим через z(t), а решение того же уравнения при u=-u(t), v=v(t) обозначим через z(t). Мы знаем, что z(t*)£M. Выясним теперь, каково z(t*). Для этого оценим разность z(t) — z(t). Мы имеем z(t) — z(t)= \e*cv{t—s)ds— \esCv{t—s)ds = о о / t = \esCv{t — s)ds—\esCv{t—s—z)ds. (7) о о Заменяя s-i-e через т, второй из интегралов в формуле (7) перепишем в виде / t + e \esCv(t — s — e)ds= $ e^-^cv{t—T)di, О 8 Далее, это выражение можно переписать в виде * + е t \ <?<*-*> Су (/_Т) dT= \ £?<*-*) CV {t — T)dT — е О 8 t + e _Je(T-e)Cy(/_T)dT Ь J eP-vcv(t—T)d%. о / Заменяя в выражении (7) переменное s интегрирования в первом интеграле через т, мы получим ht) — z(t) =-- ^(e^—e^-^c)u(t — T)dT о е t + e + \je(T-E)Cv(t—T)dT— I e^-^cv(t—T)dx.
446 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Из этой формулы видно, что | г (*)-*(*) |< ее, где с зависит от отрезка Ot и игры. Так как для нас важно значение t ^t* ^T (z0), то эта константа с для t^--t* оценивается через величину T(z0) и величины, зависящие от игры. Таким образом, выбирая е заранее достаточно малым, мы можем осуществить преследование так, что точка z(t*) окажется от множества М на расстоянии, не превосходящим ее, где с зависит от z0 и игры, но не зависит от е. Резюмируя полученный результат, мы приходим к выводу, что дифференциальная игра преследования, начинающаяся в точке z0, может быть закончена за время, не превосходящее числа T(z0). Правда, при этом мы попадаем не на само множество М, но приближаемся к нему на величину, не превосходящую числа ее. Однако, в силу того что е заранее может быть взято произвольно малым, мы здесь просто говорим, что игра преследования заканчивается за время, не превосходящее T(z0). Освободиться от неточности ее до сих пор не удалось, хотя так как эта величина произвольно мала, то кажется естественным ожидать точного результата. Но получение его видимо связано с преодолением каких-то существенных трудностей. То, что игру преследования можно закончить точно за время T(z0), легко доказать, не производя описанных здесь конструкций с шагом е. Но эта конструкция позволяет нам улучшить результат, т. е. сократить время преследования, если процесс убегания v(t) выбран неудачно, т. е. убегание осуществляется не наилучшим образом. § 6. Упрощенное рассмотрение линейной дифференциальной игры Здесь мы рассмотрим дифференциальную игру с уравнением (1) из § 5, но с множеством М, представляющим собою векторное подпространство пространства R. Через L обозначим ортогональное дополнение подпространства М в пространстве R, а через я—операцию ортогонального проектирования пространства R на подпространство L. Положим P(t) = ne?cP, Q{t) = netcQy и предположим, что множество S (t) = P (t) -%- Q (t) имеет размерность, равную размерности подпространства L при всех положительных t < Г, где Т может, в частности, быть равно оо. Только для значений 0 < / < Г мы и будем рассматривать множество S (t). Положим, далее, W(t)=]S(x)dx. (1) О
3i\ ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 447 рассмотрим теперь гипотетическое включение neiCz0£W (t). Если при каком-нибудь значении / это включение имеет место, то обозначим через t0 = T(z0) минимальное значение /, при котором это включение имеет место. А. Пусть v(i) — управление, заданное на отрезке 0^/^е. Возьмем теперь произвольное управление u(t), заданное на таком же отрезке, и пусть z(t)— решение дифференциального уравнения игры при этих управлениях с начальным значением z0. Положим Zlz= г(г). Рассмотрим величину T(zA). Она является функционалом от управления u{t) на отрезке Ое, которое мы еще не выбрали. Выберем теперь такое управление u(t) на этом отрезке, чтобы t1^T(z1) достигало своего минимума. Оказывается, что t^to — г. Докажем это утверждение. Пусть tx — пока произвольное число. Рассмотрим гипотетическое включение ne^ + ^cz[)£W(t1 i г). (2) Это включение имеет место при t1 = t0 — е- Вместо включения (2) рассмотрим другое эквивалентное ему включение ti+e яе«< + е>с20€Г(/1) + J S(x)dx. (3) и Мы имеем S(t) + Q(t)cP(t). Это включение можно интегрировать. Проинтегрируем его в пределах от tx до tx ~r е. Мы получаем тогда ti+e ti + e ti+e J S(x)dx+ J Q(T)dTd J P(x)dx. и и ix Из этого и из включения (3) следует tx + г tx + г ne^ + ^cz0+ J Q(T)dTcW(t1)+ J P(x)dx. и и Подставим теперь в этом включении вместо второго члена в левой части один из его элементов, а именно следующий: neiiC } esCv(E — s)ds, о гДе v(l) есть заданное управление на отрезке Ое. хМы получим ле«* + *)сг0+ net*c\)esCv(E — s)dseW(t1)-\ $ P(x)dx. (4)
448 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ Выберем теперь минимальное значение для 1г^10 — е, для которого включение (4) имеет место. Тогда существует определенный элемент второго члена правой части последнего включения, для которого включение сохраняется. Этот элемент запишем в виде 8 netiC ] esCu(e—s)ds, о где u(t) есть элемент из Р. Тогда включение (4) переписывается в виде пе1 ttc eCz0H ^£?sC(u(e—s) — и (г—s))ds б €W(h). Левая часть может быть переписана иначе. Мы получаем ne^z, £W (tt). Таким образом, наше утверждение доказано. Резюмировать полученные здесь результаты можно точно так же, как и в предыдущем параграфе. § 7. Применение полученных результатов для конкретных процессов преследования 1. Пусть Е — евклидово пространство размерности v^2, x и у—геометрические положения преследующего и убегающего объектов. Движение их описывается уравнениями х + ах = а, |а|<р, (1) У + $У=Ь, |&|<а. (2) Здесь а, (5, р, а—положительные числа, а и Ь—управляющие векторы, принадлежащие пространству Е и удовлетворяющие указанным неравенствам, а в остальном произвольные. Будем считать, что преследование заканчивается, когда х=-у. Дифференциальную игру, соответствующую описанному процессу преследования, построим следующим образом. Положим - zx = x—у, z2=--x, zs = y. Здесь z1, г2, г3 суть векторы пространства £. Фазовый вектор z задается формулой z = (z1J г2, г3), так что вектор z задается тремя векторными компонентами. Совокупность двух уравнений (1) и (2) теперь перепишем в виде zx = z2—z\ z2= — az2 + a, z3 = — fiz3 + b. (3) Управления и и v задаются формулами и = (0, — а, 0), и-(0, 0, Ь).
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 449 Следовательно, Р={(0, -а, 0): |а|<р}, (4) Q={(0f 0, Ь): |6|<а}, (5) Af = {z: zl = 0}, L={(z1f 0, 0): z^E). Таким образом, мы можем отождествить пространство L с пространством Е> положив (г1, 0, 0)=г1. Оператор л имеет вид л (г1, г2, z3) = (z1, 0, 0) = г1. Матрица С имеет вид 0 0 .0 1 — а 0 — 1 0 -Р Матрицу е1с мы получим, решая однородное уравнение, соответствующее системе (3). В результате получаем Oto. , « Р £^ = Вторая и третья строка этой матрицы не выписаны, так как нас интересует лишь оператор neic, который в силу сказанного записывается в виде neic (zj, z{j, zl) = z] + -=^— z20 =^— zj. (6) Формула (6) позволяет нам вычислить множество Р (t)--=ne1cP, Q(t) ^neicQ. В силу формул (4), (5), (6) мы имеем 1—е~а' Таким образом, множество Р(/) есть шар радиуса r(t)^- ;*, 1 в-Р' а множество Q(t) есть шар радиуса s(t)^—«—а, а геометрк- ческая разность этих множеств S(t) есть шар радиуса со(/) = __—р р—а. Множество W (/), определяемое формулой (1) из § 6, есть шар радиуса о Легко доказывается, что для того, чтобы величины (o(t), y(t)
450 32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ были положительны при всех t > 0, достаточно, чтобы выполнялись два неравенства р > ст, р/а > а/р. (7) При этих условиях величина y(t) неограниченно возрастает при t неограниченно возрастающем. Если одно из неравенств в (7) заменить на противоположное, то функция y(t) будет непременно принимать отрицательные значения. Для того чтобы определить величину Т (z0) (г0 = (г5, z\, zj)), мы должны найти минимальное значение t, при котором точка \ — e-ai 2 1— е-& о ra?*cz0 - z\ н — 25 р— г? принадлежит шару радиуса y(t). Таким образом, величина Т (z0) есть наименьший положительный корень трансцендентного уравнения y(t)* = (netcz0l neiczQ). 2. Пусть в евклидовом пространстве Е размерности v^2 имеется две точки: х—преследующая и у—убегающая. Дифференциальные уравнения движения этих точек следующие: х = ау |а|<р, у = Ь9 |6|<а, где а и Ь—управляющие векторы, принадлежащие пространству Е и связанные лишь указанными неравенствами. Игра преследования заканчивается, когда | х—у\^1, где />0 (/—поимка). Соответствующую этому процессу преследования дифференциальную игру зададим следующим образом: zx^=x—у, z2 = x. Таким образом, фазовый вектор игры z задается формулой z = — (г1, г2), так что вектор z задается двумя векторными компо- нентами. Дифференциальное уравнение игры имеет вид zx-=z2—bt z2 = a. Управления и и v задаются формулами и=(0, -a), v = (—b9 0). Следовательно, Р = {(0, -а): М<р}, Q={(-b, 0): \b\^a}, M^{z = (z\ г2): |zx|</}. Через L обозначим множество L = {(z1, 0): z1^E}. Таким образом, мы можем отождествить пространство L с пространством Е, положив (г1, 0) = гК
32. ЛИНЕЙНЫЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ 451 Матрица С имеет вид С = (о о)» а матрица е1С задается формулой Так как в этой задаче множество М не является векторным подпространством пространства /?, то мы должны решать ее, пользуясь методом параграфа 5, но при этом мы можем спроектировать все построение альтернированного интеграла ортогонально на подпространство L пространства R. Оператор проектирования задается формулой л (г1, г2)-(г1, 0) = z1. При этом множество М переходит в шар Н1 в пространстве E = L, а проекции л множеств е1СР и eicQ будут шарами радиусов р/ и а соответственно, т. е. шарами Hpt и На. Мы должны сосчитать альтернированный интеграл W{t)= \ (HpxdTJLH0dx) = HyU), Hl,0 где y{t) = l + ~2 pt2 — ot. Условие у (t) > 0 при / > 0 выполняются, 1 а2 — если / >-о~— • Если это условие выполнено, то радиус шара W (t) всегда положителен при / > 0 и неограниченно возрастает при t неограниченно возрастающем. Величина Т (z0) определяется теперь как минимальное значение /, при котором шар #Y(0 содержит точку netc(zl zl) = zl+tz20. Таким образом, для нахождения Т (z0) нужно найти минимальный положительный корень уравнения (/ + ip/2-cr/)2HzJ|2 + 2(zi, zl)t + \zl\4\ ЛИТЕРАТУРА [1] Л. С. Понтрягин, Линейные дифференциальные игры, I, ДАН СССР, 174, № 6 (1967), 1278—1280. [2] Л. С. Понтрягин, Линейные дифференциальные игры, II, ДАН СССР, 175, № 4 (1967), 764—766.
33 РЕШЕНИЕ ЛИНЕЙНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ БЕЗ ДИСКРИМИНАЦИИ УБЕГАЮЩЕГО ОБЪЕКТА*) Совместно с А. С. Мищенко В статье [2], которая является развернутом изложением заметки [1], рассматривается линейная дифференциальная игра, задаваемая дифференциальным уравнением z=- Cz—и + ъ. (1) Здесь z—фазовый вектор игры, принадлежащий евклидову векторному пространству R размерности п, и и и — управления, т. е. функции времени /, становящиеся известными по мере роста /, каждая из которых — вектор пространства R, причем и и и удовлетворяют условиям и£Р, u€Q, (2) где Р и Q—выпуклые компактные подмножества пространства R произвольных размерностей, С есть линейное преобразование пространства R в себя. Игра считается законченной, когда точка z проходит на заданное векторное подпространство М пространства R. Управление и есть управление преследования, а о — управление убегания. В задаче преследования управление и—функция времени /, и = и(/), которая становится известной по мере роста времени /, а и—управление, находящееся в нашем распоряжении, которое с ростом / должно выбираться таким образом, чтобы игра заканчивалась максимально быстро. Управление u(t) в каждый момент времени / должно выбираться на основе знания 2(s), u (s) при Самым естественным подходом к решению задачи является попытка выбирать управление u(t) в каждый момент времени t таким образом, чтобы расстояние между точкой z (t) и подпространством М убывало как можно быстрее. Но такой путь решения задачи оказывается невозможным. Для того чтобы оценить приближение точки z(t) к подпространству М, приходится поступать совершенно по-другому. Конструируется такая оценочная функция Т( z) точки г, обращающаяся в нуль тогда и только тогда, когда zgAf, что при росте времени / при правильном выборе управления u(t) функ- *) Докл. АН СССР.—1984.—Т. 277, № 5.—С. 1063—1066.
33. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ 453 ция T(z) убывает не медленнее, чем растет t, т. е. 74* (*i))-Г (*('.)) <-('i-'.)- (3) При конструировании функции Т(z) управление u(t) строится на отрезке t0^t^t0 + г в предположении, что управление u(t) известно на этом же отрезке. Таким образом, используется знание управления u(t) с опережением на е. Это называется дискриминацией управления убегания. Напомним некоторые естественные операции над выпуклыми множествами пространства R. 1. Если X и Y — два выпуклых множества пространства R, а а и р—два действительных числа, то определяется выпуклое множество Z=aX fpF, (4) состоящее из всех векторов вида z = ajt + Py, где х£Х, y£Y. Тем самым становится возможным определение риманова интеграла от выпуклого множества X(s), непрерывно зависящего от действительного параметра s0, So^s^Si, \X(s)ds (5) So с естественными свойствами. При этом используются операции (4) лишь при неотрицательных аир. 2. Определяется геометрическая разность Z* = XJLY (6) двух выпуклых множеств X и Y пространства R, причем Z* состоит из всех векторов z*£R9 удовлетворяющих условию Y + z*cX. Заметим, что множества (4), (5), (6) являются выпуклыми. В упрощенном варианте в работе [2], § 6, с. 325, рассматривается ортогональное дополнение L размерности v к подпространству М и ортогональная проекция я пространства R на подпространство L. Вводятся множества Р (т) = петСР, Q (т) = nexCQ. (7) Предполагается, что множество S(t) = P(t)jlQ(t) (8) имеет размерность v при 0 < т < Т. Будем в дальнейшем различать два случая: 1) р (т) =. Q (т)-f S (т) — случай исчерпывания, 2) р (т) Ф Q (т) + 5 (т)—отсутствие исчерпывания.
454 33. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ Рассматривается выпуклое множество х W{%)=\s(t)dt. (9) о Оценочная функция Т (г) определяется как наименьшее значение т, при котором выполнено включение ne%cz£W{%). (10) В настоящей заметке дается конструкция управления преследования u(t) без дискриминации управления убегания о(/), причем предполагается, что выполнены некоторые условия дифференцируемое™. Именно: предполагается, что множества W (т) представляют собой выпуклые множества с гладкими границами, а границы множеств Р (т) и S(x) не содержат прямолинейных отрезков. . Рассматривается опорная функция c(W(x)—nexCz, г|э) выпуклого множества W (т) — летСг, где г|)—единичный вектор. Эта опорная функция больше или равна нулю при любом г|), если nexCz$W(%), (11) и принимает отрицательные значения при некоторых значениях г|), если включение (11) не имеет места. Минимум этой опорной функции обозначается через —F(z, т) = Мшс(Г(т) — nexCz, ф). (12) При вхождении точки neTCz в множество W (т) функция F(z, т) меняет знак с плюса на минус. Поэтому значение оценочной функции T(z) определяется как минимальный положительный корень уравнения F(z, т) = 0. (13) Производная 0(zf т) = |?(г, т) (14) при вхождении точки nexCz в множество W (т) имеет неположительное значение. Если при этом вхождении G(z, т) ^ 0, то T(z) является гладкой функцией аргумента z в окрестности данной точки. Если же G (г, т) = 0, то функция Т (г) может терпеть разрыв. В предположении, что и и v суть известные функции, мы получаем z как функцию от параметра / и х=Т(г)—тоже как функцию t. Пусть г|)(/)—такой единичный вектор, в котором достигается минимум (12) опорной функции, s(i|), т)—точка на границе выпуклого множества S(t), в котором достигается мак-
33. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ 455 симум скалярного произведения (s(x|), т), ф)= Max (s, ф). (15) seS (т) Соотношение (13) превращается в тождество по /. Дифференцируя его по t, получаем соотношение 'тО(г, т) + ^ = 0, (16) откуда при вфО имеем т = —-рт-г—-. (17) — G (2, т) ч ' Функция G дается формулой G{z, т)=-(петССг — s(i|), т), ф), (18) а формула (17) принимает вид " — (л^ссг—5(гр, т), if)' 1 ' Из формулы (19) видно, что управление и всегда можно выбрать так, что т<—1. (20) Выберем и таким образом, чтобы т принимало наименьшее значение, которое в силу сказанного меньше —1. Очевидно, u(t) выбирается таким образом, что скалярное произведение (петСи, г|)) достигает максимального значения. Это значение и=иоп? называется оптимальным и является тем значением управления, которое мы выбираем в процессе преследования при йфО. Если при выбранном по указанному правилу управлении u(t) функция G приближается к нулю, то т определяется из того же соотношения (17). Здесь мы должны рассмотреть два различных случая. Будем называть управление г)опт оптимальным, если скалярное произведение (летСг)0ПТ, ф) достигает максимального значения. Тогда в случае исчерпывания, если управление v оптимально на некотором отрезке времени и в начальный момент G - 0, то тогда т=^ — 1, a G-- 0 на всем отрезке времени. Если же 1)=^гэопг, a G(z0t т0)=-0, то в малой окрестности этого момента времени t0 точка z(t) уходит с поверхности
456 33. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ G(z, т)=^0, причем т имеет следующий характер поведения: х0-х = Ак+уТ~Г0+о(к+1/'ГТ0)9 (21) где k — кратность корня т0 уравнения (13). Приход точки z(t) на поверхность G(z, т) = 0 происходит либо с непрерывным изменением т, и тогда поведение описывается формулой т-т0 = Ak+l/t^l+ о (k+yj^i), (22) либо происходит скачкообразное падение значения т. В случае отсутствия исчерпывания поведение траектории исследуется аналогично с небольшими изменениями. Таким образом, установлено, что при оптимальном выборе управления u(t) решение z(t) дифференциальной игры всегда удовлетворяет неравенству &Т(г(Ъ)К-1. ЛИТЕРАТУРА 1. ПонтрягинЛ. С—ДАН, 1967, т. 175, с. 764—766. 2. Понтрягин Л. С—Мат. сб., 1980, т. 112, № 3, с. 307—330.
34 РЕШЕНИЕ ЛИНЕЙНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ НА ОСНОВЕ АЛЬТЕРНИРОВАННОГО ИНТЕГРИРОВАНИЯ БЕЗ ДИСКРИМИНАЦИИ УПРАВЛЕНИЯ УБЕГАНИЯ*) Совместно с А. С. Мищенко В статье [3] рассматривалась задача нахождения решения линейной дифференциальной игры преследования без дискриминации убегающего объекта в случае линейного терминального множества М на основе интегрирования выпуклых множеств в векторном пространстве. Линейная дифференциальная игра задается дифференциальным уравнением z = Cz—u+v, (1) где z — вектор евклидова векторного пространства R размерности я, а и и v—управления, являющиеся функциями времени / и удовлетворяющие условиям и€Л u€Q, (2) где Р и Q—выпуклые компактные подмножества пространства R произвольных размерностей. В отличие от работы [3] будем считать, что терминальное множество М есть некоторое выпуклое множество пространства /?. В работе [2], которая представляет собой развернутое изложение заметки [1], решалась задача преследования, т. е. искалось управление u(t) таким образом, чтобы значение u(t) выбиралось на основе знания z(s) и v(s) при s^£. При этом считается, что управление v — функция времени t, которая становится известной по мере роста /, а и должно выбираться так, чтобы игра заканчивалась максимально быстро. В работе [2] конструируется выпуклое множество Wx, т^О, причем W0=M, и для каждой точки z ищется минимальное значение т = Т (z), при котором точка exCz принадлежит множеству Wx. Эта точка w = ex^z естественно принадлежит границе множества Wx и зависит от z. Обозначим через ty{w) единичную нормаль к поверхности dWx в точке w, направленную наружу. Так полученная функция Т (z) является оценочной функцией времени приближения точки z к множеству М. Если в процессе игры величина Т (z) убывает, стремясь к нулю, то игра заканчивается. Доказывается, что в процессе игры Функция Т(z) убывает не медленнее, чем растет время t. Тем *) Докл. АН СССР.—1984.—Т. 277, Nb 6.—С. 1330—1334.
458 34. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ самым устанавливается, что игра, начинающаяся в точке z0, заканчивается за время, не превосходящее величины Т (г0). При этом важно, чтобы неправильный процесс убегания и (Сдавал преимущество преследователю, т. е. ускорял окончание игры. Существенный недостаток работы [2] заключается в том, что при вычислении управления u(t) используется знание функции v(s) при /<s</ + e для заранее заданного произвольно малого положительного числа е > 0. Поэтому считается, что имеет место дискриминация убегания. В заметке [3] нами приведена конструкция управления преследования u(t) без дискриминации управления убегания u(t), соответствующая упрощенному варианту конструкции множества WT и оценочной функции T(z). В настоящей работе ликвидируется недостаток работы [2], связанный с дискриминацией убегающего объекта в предположении, что выпуклое множество WT имеет гладкую границу, гладко зависящую от т, а множество Р имеет также гладкую границу, не содержащую, кроме того, прямолинейных отрезков. Настоящая статья не зависима от работы [3] и не перекрывает ее содержания. Положим Px=^exCPt и пусть L(PT) — носитель выпуклого множества Рх. Если вектор ty(w) не перпендикулярен пространству L(PT), то управление u(t) выбирается так, чтобы достигался максимум функции (е*си, г|)И), и£Р. (3) Этим условием управление и определяется однозначно, оно является наилучшим способом преследования. В случае, если вектор ty(w) в момент времени t0 ортогонален пространству L(PT), правило (3) не позволяет выбрать управление u(t), и оно выбирается по другому правилу. Условие ортогональности выполняется на некотором интервале времени to^t^to + b. При этом управление u(t) есть внутренняя точка множества Р, достигающая границы последнего при t—+t0+6. Таким образом, в момент t0 управление u(t), вообще говоря, претерпевает разрыв, в то время как в момент /0-Ьб управление u(t) непрерывно. В случае аналитичности границ множеств Wx и Р имеет место единственность траектории z(t) в окрестности момента /<>+$ ухода с множества точек, удовлетворяющих условию ортогональности. При всех указанных способах выбора управления преследования u(t) имеет место соотношение т. е. функция T(z(t)) убывает не медленнее, чем растет t. Ввиду того, что в настоящей работе выдвигаются более сильные требования, чем в [2], она не заменяет полностью работу [2], но
34. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ 459 ликвидирует дискриминацию управления и (/) и делает выбор оптимального управления u(t) более конкретным. Напомним построение выпуклого множества WXl данное в работе [2]. 1. Если X и Y — выпуклые множества пространства /?, а а, р—действительные числа, то определяется выпуклое множество Z^aX-\ (ЗУ, (4) состоящее из всех векторов вида z=ax^ Ру, где х£Х, y^Y. Тем самым становится возможным определение риманова интеграла от выпуклого множества X(s)f непрерывно зависящего от действительного параметра s, s0 < s < sb lX(s)ds (5) с естественными свойствами. При этом используются операции (4) лишь при неотрицательных аир. 2. Определяется геометрическая разность 2*=Х*—У (6) двух выпуклых множеств X и У пространства /?, причем множество Z* состоит из всех векторов z*£R, удовлетворяющих условию Y+z*aX. Заметим, что множества (4), (5), (6) выпуклые, а в случае компактности X и Y компактные. 3. Для определения множества Wx вводится понятие альтернированного интеграла Wx^- J (PxdxJ-QxdT), (7) м, о где Рх = етСР, Qx=eTCQ. Для определения альтернированного интеграла (7) вводится понятие альтернированной суммы выпуклых множеств (Л, Хи X2f ..., Xrn Yu У2, ..., Yn). Полагаем Л0^Л, А^ (i4f._H Хд^-Уп i---U 2, ..., п. (8) Пусть (г0, /*!, ..., г„)— подразделение отрезка [0, т], 0= /о </ч <...</-„ = т. (9) Положим (см. (5)) Xr- J PTdx, У,.= J QTdx. (10) r/-i r/-i
460 34. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ Альтернированная сумма Ап (см. (8)) для множеств А=-М и Xh Yh определенных формулами (10), представляет собой приближенное значение альтернированного интеграла (7). Доказывается, что если мелкость подразделения (9) стремится к нулю, альтернированная сумма множеств (10) имеет предел, который и является по определению альтернированным интегралом (7). В работе [2J доказывается, что если функция u(s) известна на отрезке t ^ s ^ t + e, то всегда можно выбрать управление и (t) на том же отрезке так, чтобы имело место неравенство T(z(t + e))^T(z(t))-E. При этом управление u(t) выбирается таким образом, чтобы падение значения оценочной функции T(z(t + e))-T(z(t)) было (по модулю) максимально большим. Таким образом, на каждом отрезке времени длины е решается некоторая непростая вариационная задача и имеет место дискриминация убегающего управления. Для построения управления u(t), даваемого в настоящей работе, рассмотрим опорную функцию c(Wx—exCz, г|)), |ф|=1. (11) Ясно, что эта опорная функция больше или равна нулю, если exCz^WTl и принимает, кроме положительных, также отрицательные значения, если это включение не имеет места. Обозначим — F(z, x) = Minc(Wx—exCz, ф). (12) Таким образом, значение Т (z) определяется как минимальный положительный корень уравнения относительно т F(z,%) = 0. (13) При вхождении траектории exCz в множество Wx функция F(z, т) переходит с положительных значений к отрицательным. Таким образом, производная G(z, x)-=-^- в этих точках имеет неположительное значение. Оптимальное управление и (t) выбирается следующим образом. Из условия, что т является корнем уравнения (13), дифференцируя соотношения (13) по времени t, мы получаем соотношение tG(z, t) + -^z = 0, (14) откуда dF_.
34. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ 461 Управление u(t) выбирается таким образом, чтобы т, определяемое условием (15), принимало наименьшее значение, что и приводит к описанному выше способу выбора оптимального управления u(t) = uonT(t). Доказывается, что при таком выборе т^—1. Таким образом, при росте / оценочная функция T(z(t)) убывает быстрее, чем растет t. Управление и(/), которое при произвольном заданном и (t) дает наименьшее значение для т (см. (15)), называется оптимальным управлением убегания и обозначается оопт (t). Это оптимальное управление оопт(£) не зависит от выбора управления и. Соотношение (15) имеет смысл лишь, когда G(z, т)=^=0. Вычисляется, что 0(z, t) = (^cCz, г|)И)-(^(а0ПТ-и0ПТ), г|>И). (16) Отсюда видно, что при вфО формула (15) принимает вид • И?Сг, г|?)-И>0ПТ-и), г|?) из которой видно, что т^—1, а при и = я)0пт имеем х=—1. Доказывается, что если G (г, т) = 0 и и = иопт, то т также равно —1, хотя это и не вытекает из формулы (17). Если на протяжении некоторого интервала времени и = иопт, а в начальный момент G(z, т) = 0, то на протяжении всего этого интервала времени G(z, т) = 0, а т=—1 и г|)(ш) = const. Если о=7^иопт, G(z, т) = 0, то в малой окрестности этого значения t0 точка z(t) сходит с поверхности G(z, т) = 0, причем т при этом уходе с поверхности имеет следующий характер поведения: \х-х0\ = Ак+1/\Т=Ц+о(к+У~\Т=Ц), (18) где k — кратность корня т0 уравнения (13), А — некоторое положительное число. Приход точки z(t) на поверхность G(z, t) = 0 может происходить либо при непрерывно меняющемся т(£), и тогда характер т(/) описывается той же формулой (18), либо происходит скачкообразное падение значения т(/), и тогда поведение x(t) при t < t0 является гладким. При наступлении условия ортогональности вектора ty(w) и пространства L(PT) управление и меняется скачкообразно и выбирается следующим образом. Рассматривается квадратичная функция относительно и (Л(т0, т0, z0), и) —72(Я(*о. г0)и, и), (19/
462 34. РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ПРЕСЛЕДОВАНИЯ где h — вектор, задаваемый формулой /* = я[;о(>оСГЧ + ^оС'^ (20) а В — матрица, задаваемая формулой * = я(*т'с'Йг^'С)' <21) причем я—проекция пространства R на подпространство L(P). Управление u(t) выбирается таким образом, чтобы функция (19) принимала наибольшее значение. ЛИТЕРАТУРА 1. Понтрягин Л. С—ДАН, 1967, т. 175, с. 764 — 766. 2. Понтрягин Л. С—Мат. сб., 1980, т. 112, № 3, с. 307—330. 3. Понтрягин Л. С, Мищенко А. С—ДАН, 1984, т. 277, № 5.
35 МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ОПТИМАЛЬНЫХ ПРОЦЕССОВ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ*) В 1950 и 1951 гг. дирекция Математического института им. В. А. Стеклова в лице зам. директора М. В. Келдыша и партийная организация института стали настойчиво рекомендовать мне заняться прикладными вопросами. Эта рекомендация полностью соответствовала моим собственным взглядам. В 1932 и 1942 гг. я уже делал отдельные экскурсы в приложения и считал, что надо заняться ими более серьезно, но все никак не мог собраться. Эти мои благие намерения настойчиво поддержал в начале 50-х годов Е. Ф. Мищенко, ставший к тому времени моим другом. Он настаивал на том, чтобы незамедлительно приступить к прикладной работе. Естественно было начать с теории колебаний и теории регулирования — вопросов, к которым приобщил меня А. А. Андронов еще в начале 30-х годов. В результате всего этого осенью 1952 г. в Математическом институте я открыл под своим руководством и при участии моих учеников В. Г. Болтянского, Р. В. Гамкрелидзе и Е. Ф. Мищенко научно-исследовательский семинар, посвященный теории колебаний и теории регулирования. Последнюю теперь естественнее называть теорией управления. Работа семинара началась с изучения книги «Теория колебаний» Андронова, Хайкина и Витта. Затем стали приглашать для докладов в семинаре техников, которые рассказывали нам о своих технических проблемах. Сразу же я дал твердую установку — мы не занимаемся математическими задачами, уже сформулированными техниками. Каждый доклад на семинаре должен был начинаться с описания технической задачи, а затем уже шла его математическая идеализация при помощи обыкновенных дифференциальных уравнений. Мы перебрали большое количество технических задач, выискивая среди них такие, которые приводят к интересным математическим вопросам. В наших поисках мы пришли к трем интересным математическим проблемам: 1. Обыкновенные дифференциальные уравнения с малым параметром при высших производных. 2. Дифференциальная игра преследования одного объекта другим объектом. *) Тр. МИАН.—1985.—Т. 169.—С. 119—158.
464 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 3. Как частный случай 2-й задачи — математическая теория оптимального управления. Вторая и третья задачи относятся к теории управления. О результатах, полученных нами по этим двум задачам, я сделал три ответственных доклада. Перечисляю их в хронологическом порядке: а) Пленарный доклад «Оптимальные процессы регулирования» на конгрессе в Эдинбурге в 1958 г. б) Пленарный доклад «Линейные дифференциальные игры» на конгрессе в Ницце в 1970 г. в) Научное сообщение «Оптимизация и дифференциальные игры» на заседании Президиума АН СССР (1978 г.). Эти три доклада и составляют основное содержание настоящей статьи. Доклад в) помещен в разделе 1, доклад а) в разделе 2 и доклад б) в разделе 4. В последнем, восьмом пункте раздела 2 приведены более поздние результаты по теории оптимального управления, относящиеся к дифференциальным включениям. Этот пункт написал по моей просьбе для данной статьи В. И. Благодатских, являющийся специалистом по теории дифференциальных включений. 1. Оптимизация и дифференциальные игры Вопрос о том, чем следует заниматься, стоит для математиков, быть может, острее, чем для специалистов в других областях знания. Математика, возникшая как чисто прикладная наука, и в настоящее время имеет своей основной задачей изучение окружающего нас материального мира с целью использования его для нужд человечества. В то же время она имеет свою внутреннюю логику развития, следуя которой математики создают понятия и даже целые разделы, являющиеся продуктом чисто умственной деятельности, которые никак не связаны с окружающей нас материальной действительностью и не имеют в настоящее время никаких приложений. Эти разделы зачастую обладают большой стройностью и некоторого рода красотой. Однако такого рода красота не может служить оправданием их существования. Математика—не музыка, красоты которой доступны большому количеству людей. Математические красоты могут быть поняты лишь немногими специалистами. Создавая такие красоты, математики практически работают только на себя. Невозможно, однако, утверждать, что обладающие внутренней "стройностью, но лишенные приложений разделы математики не имеют права на существование. Они составляют внутреннюю ткань науки, иссечение которой могло бы привести к нарушению всего- организма в целом. Кроме того, оказывается, что некоторые отделы математики, лишенные приложений в течение многих веков,, позже находят эти приложения. Классическим примером служат
ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 465 кривые второго порядка, созданные в древности из внутренних потребностей науки и нашедшие лишь позже очень важное применение. С другой стороны, некоторые разделы математики, занимающиеся лишь внутренними проблемами, постепенно вырождаются и почти наверняка оказываются ни для чего не нужными. В этой обстановке вопрос о выборе тематики исследований становится для математиков весьма тревожным. Я считаю, что если не все, то во всяком случае многие математики должны в своей работе обращаться к первоисточникам, т. е. к приложениям математики. Это необходимо как для того, чтобы оправдать свое существование, так и для того, чтобы влить новую свежую струю в научные исследования. Исходя из этих соображений, а также находясь под некоторым давлением руководства Математического института им. В. А. Стек- лова, я и три моих сотрудника Е. Ф. Мищенко, Р. В. Гамкре- лидзе и В. Г. Болтянский решили заняться поиском прикладных тем для своих исследований в теории колебаний, точнее, в математическом изучении электронных приборов и в теории регулирования, которую более общо теперь разумнее назвать теорией управления. Мы заранее исключили из своего рассмотрения математические задачи, уже сформулированные техниками, основали свой поиск на ознакомлении с техническими проблемами, устанавливая контакты с многими специалистами в области техники. При этом мы не просто стремились найти приложения математики, но старались найти новые постановки математических задач, интересные с точки зрения самой математики. Среди многих технических задач, с которыми мы ознакомились, была следующая. Один специалист в области авиации сказал: «Если один самолет преследует другой самолет, то пилот преследователя, конечно, умеет это делать, но интересно было бы иметь теорию, быть может, даже такую, которая позволяла бы осуществлять преследование при помощи автомата». Мы все понаслышке знаем, что существуют самонаводящиеся ракеты. Но ракета обладает такими преимуществами в скорости и маневренности перед самолетом, что теория, на которой основано ее поведение, может быть очень грубой. Хочу сразу обратить внимание на странность этой задачи, которая на первых порах казалась нам совершенно неприступной. В самом деле, самолет-преследователь очевидным образом не должен лететь в то место, где в настоящее время находится убегающий самолет, так как последний, конечно же, уйдет с того места, где он сейчас находится. В то же время бессмысленно предполагать, что убегающий самолет движется по прямой: он может повернуть, причем неизвестно куда. Задача о преследовании одного самолета другим самолетом, насколько я знаю, до сих пор не решена. Рассмотрены упрощенные модели преследования, которые составляют предмет так назы-
466 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ваемой теории дифференциальных игр. Слово «игра» указывает на то обстоятельство, что будущее поведение каждого из самолетов неизвестно: оно зависит от воли пилота. Дифференциальной эта игра называется потому, что закон движения самолета описывается дифференциальными уравнениями. 1. Управляемые объекты. Для того чтобы применить математику к решению какой-либо технической задачи, прежде всего надо дать ее математическое описание. В данном случае мы начнем с математического описания движения самолета. При этом, как всегда это делают математики, мы будем отвлекаться от излишней конкретности, стремясь уловить лишь главные характерные черты технической задачи, подлежащей решению. Мы будем рассматривать самолет как точку, движущуюся в пространстве. Известно, что положение точки в пространстве определяется тремя координатами. Их мы обозначим через х1, х2у х3. Так как точка (самолет) движется, то она имеет и некоторую скорость- вектор. Компоненты этого вектора мы обозначим через я4, хб, х6. Величины я1, х2у ..., х* определяют состояние движущейся точки в данный момент времени и называются ее фазовыми координатами. Для того чтобы отвлечься от излишней конкретности, мы будем рассматривать объект, состояние которого в данный момент времени t определяется не шестью, а произвольным числом фазовых координат. Их мы обозначим через х1, х2, ..., хп. Совокупность всех этих величин вместе принято обозначать одной буквой, так что мы полагаем х = (хг, х2> ..., хп). Здесь х есть точка фазового пространства нашего объекта, или фазовый вектор нашего объекта. Произвольную фазовую координату объекта обозначают через х*ч где i может принимать любое значение: i= 1, 2, ..., п% Так как состояние объекта меняется со временем, то величина х1' также меняется со временем, и скорость ее изменения обозначается обычно через х*. Это есть производная величины х1 по времени t. Физическая закономерность поведения объекта, как правило, заключается в том, что скорость х1 изменения фазовой координаты xi нашего объекта однозначно определяется фазовыми координатами объекта я1, х2, ..., хп, что математически записывается в виде формулы х' = /'(*\ х2, ..., xn) = f'(x), 1=1, 2, ..., п. (1) Это значит, что х* есть функция величин х1, х2, ..., хп, т. е. может быть вычислена, если величины х1, х2, ..., хп известны. Здесь мы имеем п неизвестных величин я1, х2, ..., хп, которые меняются со временем, т. е. являются функциями времени t и п дифференциальных уравнений, так что задачу можно решать математически, т. е. получить закономерность изменения состояния объекта со временем, найти х как функцию времени.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 467 При помощи уравнений вида (1) могут быть описаны весьма разнообразные объекты. Объекты могут быть не только механическими, но и другого рода, например химический процесс может быть описан уравнениями типа (1). В этом случае массы различных веществ, входящих в реакцию, являются фазовыми координатами х1, х2, ..., хи нашего объекта. Такими же уравнениями может быть описан и биологический процесс, например сосуществование на острове волков, зайцев и травы. Экономические закономерности также допускают описание при помощи системы уравнений типа (1). Приведенное здесь описание движения самолета не содержит главного для нас элемента. В самолете сидит пилот, который по своей воле может менять закономерность его движения, приводя в действие рули управления. Так, пилот может менять тягу двигателя, положение хвостового руля, положение закрылков. Положение каждого из элементов управления определяется некоторым числом. Все эти числа мы обозначим через и1, и2, ..., иг, а их совокупность обозначим одной буквой, положив и = (и1, и2, . .., иг). Здесь и есть вектор, компоненты которого определяют положение рулей. Таким образом, движение самолета описывается не уравнениями (1), а уравнениями *'" = /'"(*. и), (2) где в правую часть входит вектор управления и. Вектор управления и меняется со временем по воле пилота самолета и потому является заданной функцией времени: u=u(t). Таким образом, уравнения (2) в действительности имеют вид Xi = fi(x, U(t)), 1=1, 2, ..., /I, (3) где u(t) есть конкретно осуществляемое в течение времени управление объектом. Систему уравнений (3) уже можно решать. Следует отметить одно очень важное обстоятельство. Величины и1, и2, ..., игу определяющие положение рулей, не могут быть произвольными. Так, если и1 есть величина тяги двигателя, то ясно, что она может меняться лишь в некоторых пределах от 0 до некоторой величины а: О^и1 ^а. Точно также и хвостовой руль может поворачиваться лишь в определенных пределах, так что если и2 есть угол его поворота, то он удовлетворяет некоторым неравенствам: —b^u2^b. Чтобы отвлечься от излишней конкретности, мы можем просто сказать, что вектор и не есть произвольный вектор г-мерного пространства, а принадлежит некоторому заданному множеству этого пространства. Система дифференциальных уравнений (2) вместе с заданным множеством Q дает математическое описание возможностей поведения управляемого объекта. Такой объект мы будем называть управляемым, поскольку поведение его зависит
468 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ от того, какой функцией u(t) времени t является управление и объекта. 2. Задача оптимизации. Для того чтобы начать решать задачу о преследовании одного самолета другим самолетом, мы должны были бы и второй самолет описать в виде управляемого объекта, а затем точно сформулировать задачу преследования. Но как я уже сказал раньше, сама игровая постановка задачи содержит в себе настолько большую странность, что мы предпочли вначале попытаться решить другую задачу, в которой элемент игры отсутствует. Мы предположили, что второй объект неподвижен, или, говоря в терминах самолета, речь стала идти о том, чтобы перевести самолет из одного состояния в другое в кратчайшее время. Математически эта задача формулируется так. В начальный момент времени задается некое исходное фазовое состояние объекта, которое мы обозначаем через х0, Кроме того, имеется какое-то другое фазовое состояние объекта хг. Если, управляя объектом каким-нибудь способом, мы можем перевести его из фазового состояния х0 в фазовое состояние хи то возникает задача о том, каково должно быть управление, которое переводит объект из фазового состояния х0 в фазовое состояние хг в кратчайшее время. Это есть задача оптимизации на быстродействие. Получаемое в результате решения этой задачи управление u(t) называется оптимальным в смысле быстродействия, а само движение объекта оптимальным движением в смысле быстродействия. Если в процессе движения объекта меняется не только время, но и какая-либо другая величина, представляющая для нас особый интерес, например расходуется топливо, то можно поставить вопрос об оптимизации расхода топлива при переходе из состояния х0 в состояние хг. Такая задача весьма важна, например, при рассмотрении перехода космического корабля с одной орбиты на другую, где минимальность расхода топлива играет огромную роль. Так сформулированную задачу оптимизации могло бы решать вариационное исчисление, если бы не было ограничения на управляющий вектор и, т. е. если бы вектор и был произвольным вектором. То обстоятельство, что вектор и принадлежит к заданному множеству Q, сразу выводит сформулированную задачу оптимиза- ции из круга тех, которые способно решать классическое вариационное исчисление. Если вектор и произволен, то сформулированная задача является задачей классического вариационного исчисления. Но следует отметить, что она никогда не решалась в вариационном исчислении в той постановке, в какой она приведена здесь. Формулированные в классическом вариационном исчислении задачи носят более общий характер, чем приведенная здесь, и лишены той конкретности, которая возникла у нас благодаря рассмотрению технического объекта. Оказалось, что этот более конкретный характер вариационной задачи, связанный с тем, что мы рассматриваем управляемый объект, привел к новым воз-
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 469 можностям решения самой задачи, дал возможность прийти к догадкам, к которым в общей вариационной задаче прийти было бы чрезвычайно трудно. 3. Принцип максимума. Формулирую теперь то решение, которое было получено нами для задачи на быстродействие. Вводятся вспомогательные величины грх, г()2, ..., г|)„ числом п, совокупность которых обозначается одной буквой ^^(г^, г|?2, ...,г|;„), где г|>— вектор с компонентами ур1ч г|;2, .. ., i|v Составляется вспомогательная величина Я = ф1/1(^ ") + W2(*. ")+ • ■. + г|>я/л (*. ") = #(*, х, и). (4) Сразу видно, что величина Н зависит от трех векторов: г|э, * и и. Новая вспомогательная величина (4) была обозначена через Н потому, что нужные для нас уравнения, получаемые из нее, очень похожи на уравнения Гамильтона, всем известные из механики. Они суть следующие: w _ дН (я|), х, и) • _ дН (г|), х, и) ,- Х~ Wi ' *'"" М * (5) Полученная система дифференциальных уравнений (5) состоит из 2п уравнений. В них входят неизвестные функции х1, х2, ..., хп, *h, ^2> • • •» tym и1» и2' • • •» иГ> т- е- число неизвестных функций равно 2/г+г. Таким образом, система эта неполна. Решать ее невозможно. Однако эта система уравнений дополняется одним условием. Управляющий вектор и должен выбираться так, чтобы при любых фиксированных значениях г|>, х функция Н (г|), х, и) достигала своего максимума при этом значении и. Дополненная этим условием система уравнений (5) уже является полной, и именно эта система соотношений должна решаться при отыскании оптимального по быстродействию решения задачи. Этот результат был назван принципом максимума. Задачи на оптимизацию какой-либо другой величины, а не времени, например расхода горючего, решаются очень похожим образом. Здесь я не формулирую их решения. Целью движения объекта мы считаем определенное его фазовое состояние хи т. е. прибытие точки в определенное место с определенной скоростью. Принцип максимума годен, однако, и для решения других задач, например целью может служить прибытие в определенное место с произвольной скоростью. Нсли управляющий вектор и может принимать произвольные значения, а не связан условием принадлежности к множеству Q, то из условия максимальности функции #(г|э, х, и) по переменному и следует, что все частные производные этой функции по переменным и1, и2, ..., иг равны нулю, т. е. должны быть выполнены г соотношений -£7 = 0, /=1,2,..., г. (6)
470 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Этот результат вытекает из общих результатов классического вариационного исчисления, но в такой форме он никогда не был сформулирован, так как в классическом вариационном исчислении вообще не рассматривались управляемые объекты. Следует отметить также, что и в случае произвольно меняющегося и соотношение (6) слабее, чем условие максимальности Я по и. 4. Пример синтеза оптимального управления. Дадим теперь решение одной очень простой задачи оптимизации на быстродействие, которое можно получить при помощи принципа максимума, но невозможно получить методами классического вариационного исчисления. Рассмотрим математический маятник, т. е. движение по прямой некоторой точки, которая притягивается к некоторой фиксированной точке О этой прямой с силой, пропорциональной расстоянию до нее. Прямую, по которой движется точка, примем за ось абсцисс, а точку О — за начало координат. Координату движущейся точки обозначим через х. Тогда уравнение движения этой точки запишется в виде х + х = 0, (7) где х есть вторая производная координаты х по времени, т. е. ускорение движущейся точки. Однако уравнение (7) можно переписать в виде двух уравнений первого порядка х = У> У = —х- (8) Пусть x = x(t), y = y(t)—произвольное решение системы (8). Для геометрического его изображения рассмотрим на фазовой плоскости переменных (х, у) точку (x(t)yy(t))y движущуюся с течением времени t. Получаемая так в результате движения точки по фазовой плоскости траектория называется фазовой траекторией. Для системы (8) она представляет собой окружность с центром в начале координат, по которой точка движется с постоянной угловой скоростью, равной одному радиану в секунду, причем движение происходит по часовой стрелке. Допустим теперь, что на нашу движущуюся точку х воздействует внешняя сила величины и, которая не может превосходить по модулю единицы. Тогда уравнение движения точки записывается в виде х-\-х = и, или в виде системы уравнений х = У, у — — х+и. (9) Система уравнений (9) описывает движение управляемого объекта, где и есть управляющий параметр. Постараемся теперь привести точку, находящуюся в начальный момент времени в произвольном положении (х0,у0), в состояние покоя, т. е. в начало координат фазовой плоскости, за минимальное время, используя для этого управляющий параметр и.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 471 Из принципа максимума непосредственно следует, что оптимальное управление и может принимать только значения ±1. При Ц--+1 фазовой траекторией системы (9) является окружность с центром в точке (1,0), а при и = —1 фазовой траекторией системы (9) является окружность с центром в точке (—1,0). Зная, что оптимальное значение м---±1,мы должны теперь только указать, как меняется и между этими двумя значениями в процессе движения. Из принципа максимума легко вывести, что значение и за- виситлишьотположенияфазовойточки на фазовой плоскости, а именно вся фазовая плоскость разбивается на две части, водной из которых Рис. 13 и должно иметь значение +1, а в другой — значение —1. Разбиение фазовой плоскости на две части осуществляется линией, начерченной на рисунке. Она состоит из полуокружностей радиуса единица, опирающихся как на диаметры на отрезки оси абсцисс. Причем на положительной части абсциссы полуокружности обращены вниз, а на отрицательной части абсциссы полуокружности обращены вверх. Две полуокружности, примыкающие к началу координат, сами являются оптимальными траекториями, так что если начальная точка находится на одной из них, то движение в начало координат осуществляется по соответствующей полуокружности. Оказывается дальше, что если фазовая точка находится под начерченной линией раздела, то и должно иметь значение — 1, а если над линией раздела, то значение и должно быть равно — 1. Легко вычертить траекторию оптимального движения точки (см. рисунок), исходя из произвольного начального положения (х0, у0). Начиная с какой-либо точки плоскости (х0, у0), движение определяется уравнением (9) с определенным значением и----±1, причем значение это переключается на противоположное, когда соответствующая траектория доходит до линии раздела переключения. В конце концов точка попадает на одну из полуокружностей линии раздела, примыкающих к началу координат, после
472 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ чего точка движется по соответствующей полуокружности к началу координат. 5. Дифференциальные игры. Принцип максимума является всеобъемлющим универсальным методом для решения задач оптимизации. Он нашел многочисленные применения в различных областях знания и оказал существенное влияние на развитие вариационного исчисления. В игровых задачах достигнуть результатов столь общего характера нам не удалось. Ими занимается сейчас большое число математиков, среди которых следует отметить группу сотрудников Математического института им. В. А. Стек- лова и школу академика Н. Н. Красовского в Свердловске. Ими достигнуты значительные результаты. Здесь я ограничусь тем, что приведу два конкретных примера задачи преследования. I. В пространстве R произвольной размерности п, где п ^2, рассмотрим две точки х и у, каждую из которых мы можем одновременно трактовать как вектор. Точку х будем считать преследующей точкой, а точку у—убегающей точкой. Процесс преследования считается законченным, когда х совпадает с у. Движение этих точек описывается следующими уравнениями: х + ах = и, y + $y=v. (10) Здесь и и v — векторы пространства R. В нашей задаче они являются управляющими векторами. Их можно выбирать произвольными по направлению, но они ограничены по длине, а именно для них выполнены условия: |м|^р, |у|^ог. Числа а, |3, р, от положительные. Таким образом, уравнение (10) описывает движение точки с линейным трением а под действием внешней силы и, которая может быть выбрана произвольной по направлению, но не превосходит по величине числа р. Аналогичное верно и для точки у. Процесс преследования можно рассматривать с двух точек зрения. При первой точке зрения мы отождествляем себя с преследователем. Наша задача заключается тогда в завершении преследования путем выбора надлежащего управления и. При этом в процессе преследования мы все время наблюдаем за поведением уходящего объекта. При второй точке зрения мы отождествляем, себя с убегающим объектом, и наша задача состоит в том, чтобы уйти от преследования, выбирая надлежащим образом управление v. При этом мы все время наблюдаем за преследующим нас объектом. Основной результат, имеющийся здесь, следующий: 1) задача преследования всегда может быть решена положительно, т. е. преследование завершено, если выполнены два неравенства р/ахх/р, р>(т; (11) 2) задача убегания имеет всегда положительное решение, если выполнено неравенство а > р. Оказывается, что при решении задачи преследования в случае, когда выполнены условия (11), мы всегда имеем наилучший
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 473 способ поведения преследования, т.е. имеется единственное оптимальное управление преследователя u(t)y отклонение от которого неизбежно увеличивает время преследования. При этом оптимальное управление преследователя u(t) определяется постепенно с возрастанием времени t в зависимости от поведения убегающего объекта. II. В пространстве R произвольной размерности п^2 движение преследующей точки х и убегающей точки у описывается следующими уравнениями: х= и, | и\^ 1; y=--v, М<1. Этот пример был предложен Д. В. Аносовым, который назвал точку х крокодилом, а точку у—мальчиком. Интуитивно ясно, что задача убегания в этой игре должна решаться положительно. Позже это было выведено из одного нашего совместного с Е. Ф. Мищенко результата. 2. Оптимальные процессы регулирования Здесь я излагаю результаты, полученные моими учениками В. Г. Болтянским и Р. В. Гамкрелидзе и мною [1, 2, 3]. 1. Постановка задачи. Пусть Q — некоторое топологическое пространство. Будем говорить, что задан управляемый процесс, если имеется система обыкновенных дифференциальных уравнений х* = р(х\х*, ...,x»,u) = ft(x,u), (1) или в векторной форме х- Т(х, "). (2) где точкой обозначено дифференцирование по времени, х1, ... ,хп— действительные функции времени t\ х = (х1, ..., хп) — вектор п- мерного векторного пространства Rn, u£Q, a /*'(*, и) (i -1, ...,/i) — функции, заданные и непрерывные для всех значений пары (х, u)£Rnx£i. Предполагается также, что частные производные также определены и непрерывны на всем пространстве RnxQ. Для того чтобы найти решение уравнения (2), определенное па отрезке f»^/<[fi, достаточно указать функцию u(t) управления на отрезке /о^'/^/! и начальное значение х0 решения при
474 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ t = t0. В соответствии с этим мы будем говорить, что задано управление V-=(u(t), t0, tux0) (3) уравнения (2), если задана функция u(t), отрезок t0^:t^:t1 ее определения и начальное значение х0 решения x(t). В дальнейшем будут рассматриваться кусочно-непрерывные функции управления u(t), допускающие разрывы первого рода, и непрерывные решения уравнения (2). При этом управления u(t) будут предполагаться непрерывными в начальной точке /0 и полунепрерывными слева, т. е. удовлетворяющими условию u(t — 0) = u(t), t > t0. Мы будем говорить, что управление (3) переводит точку х0 в точку х1У если соответствующее решение x(t) уравнения (2), удовлетворяющее начальному условию x(t0)=^ x0, удовлетворяет еще конечному условию: *(?!) = *!. Пусть теперь /°(х\ . . ., хп, u) = fQ(x, и)—функция, определенная и непрерывная вместе со своими частными производными на всем пространстве Rnx&. Каждому управлению (3) соответствует тогда число L(U)=lf°(x(t),u(t))dt. Таким образом, L есть функционал управления (3). Управление будем называть оптимальным, если, каково бы ни было управление переводящее точку х0 в точку хи имеет место неравенство L(U)^L ([/*). Замечание 1. Если (3)—оптимальное управление уравнения (2), переводящее точку х0 в точку хг, а т—произвольное число, то U' = (u(t — т), t0 + 4, ^ + t, x0) — также оптимальное управление, переводящее точку х0 в хг. Замечание 2. Если (3)—оптимальное управление уравнения (2), x(t) — соответствующее ему решение уравнения (2), а ^2 < А—две точки отрезка t0^t^tly то U" =•- (u(t)y t2J ts, x(t2)) есть также оптимальное управление, переводящее точку x(tz)B точку x(U).
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 475 Важным частным случаем является тот, когда функция f°(x,u) определяется равенством /°(М)=1. (4) В этом случае имеем L(U) = tx-U, и оптимальность управления U означает минимальность времени перехода из положения х0 в положение хг. В применениях важен случай, когда Q является компактным подмножеством некоторого r-мерного евклидова пространства Е\ тогда и = (и1, . . ., иг) и один управляющий параметр и превращается в систему числовых параметров и1, . . ., иг. В случае, когда Q представляет собой открытое множество пространства £, сформулированная здесь вариационная задача является частным случаем задачи Лагранжа ([4, с. 225] и основной результат, приводимый ниже (принцип максимума), совпадает с известным критерием Вейерштрасса. Для приложений важен, однако, случай, когда управляющие параметры удовлетворяют неравенствам, включающим равенства, например |и'|<1 (/- 1 г). В этом случае критерий Вейерштрасса, очевидно, неверен, и приводимый ниже результат является новым. 2. Необходимые условия оптимальности (принцип максимума). Для формулировки необходимого условия оптимальности введем в рассмотрение вектор x-=(x°, х1, ..., хп) (п ; 1)-мерного евклидова пространства Sn + 1 и рассмотрим управляемый процесс х! = /' (х\ ..., х\ и) = /'• (х, и) - /'' (х, и), (5) или в векторной форме х = ](х,и), (6) где /°(х, и) есть функция, которая определяет функционал L. Для того чтобы, зная управление (3) уравнения (2), получить управление уравнения (6), достаточно исходя из начального значения задать начальное значение х0 уравнения (6). Мы определим вектор х0, положив хо = (U, X0j . • , ло).
476 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Этим способом управление (3) уравнения (2) однозначно определяет управление уравнения (6), и мы просто будем считать, что (3) есть управление уравнения (6). Если теперь управление (3) переводит начальное значение х0 уравнения (6) в конечное значение хг = (х1у х1у . .., хх), то мы имеем !(£/) = *!, и этим определяется связь уравнения (6) с формулированной ранее вариационной задачей. Наряду с контравариантным вектором х пространства Srt + 1 рассмотрим вспомогательный ковариантный вектор этого пространства и составим функцию К$, х, ы)=(ф, /(*, и)) (справа стоит скалярное произведение векторов -ф и /). При фиксированных значениях ij) и х функция К становится функцией параметра и; верхнюю грань значений этой функции обозначим через N(yjp, x). Составим, далее, гамильтонову систему уравнений: *Ч-| С-0,...,«); (7) i-~Ti (t = 0,...,n). (8)' OX1 Непосредственно видно, что система (7) совпадает с системой (5), система же (8) есть i = 0, ъ = -±ъ*Ы </-1, ...,»). (9) Теорема 1. Пусть (3) — оптимальное управление уравнения (2) и x(t)—соответствующее ему решение уравнения (2). Дополним вектор x(t) до вектора x(t)y положив t х? (t) = l f*(x(t), u(t))dt. to Существует тогда такая ненулевая непрерывная вектор-функция ^(t), что KtiVo), x(toh " Со))-0, iM'oXO, (Ю)
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 477 а функции *(0,*(0. u(t) составляют решение гамильтоновой системы (7), (8), причем *(*(<), *(*). u(t)) = Nti{t),x{t))\ (") яра этом* оказывается, что Kmt)9x(t)f u(t)) = 0. (12) Решение x(t), ty(t) системы (7), (8), удовлетворяющее условиям (11), (12), будем называть экстремальным, а соответствующую этому решению траекторию x(t)—экстремальной. Для формулировки необходимого условия в случае, когда речь идет о минимизации времени (см. (4)), составим гамильтонову функцию Hfa xyu) = (ty, J(x, и)). При фиксированных значениях г|э и х функция #0ф, х, и) становится функцией параметра и. Верхнюю грань значений этой функции обозначим через М (-ф, х). Составим, далее, гамильтонову систему У=Щ U = U...,n), (13) i=-f? (j=l"••'n)- (14) Очевидно, что система (13) совпадает с системой (1), а система (14) есть Ъ=-±ЪЩ£ (/-!,...,„). (15) /= 1 аХ Теорема 2. Пусть (3) — оптимальное для функционала (4) управления уравнения (2) и x(t)—соответствующее этому управлению решение уравнение (2). Существует тогда такая ненулевая непрерывная вектор-функция г|> (t) = (г^ (/), . . ., г|>. (/)), что Я(Ф('о),*('о), "(*o))>0, а функции Ф(0, J(0, и (О удовлетворяют гамильтоновой системе уравнений (13), (14), причем M(y(t),x(t),u(t)) -M($(t),x(t)). (16)
478 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Оказывается, кроме того, что функция Н (ty(t)> x(t)y и (t)) постоянна, так что Я(ф(0,*(0.и(0)>0. (17) Теорема 2 непосредственно вытекает из теоремы 1. Главным содержанием теорем 1 и 2 являются равенства (11) и (16). Поэтому теорема 2, первоначально опубликованная в качестве гипотезы в заметке [1], названа принципом максимума. В этом же смысле и теореме 1 естественно присвоить наименование принципа максимума. 3. Доказательство принципа максимума (теоремы 1 и 2). Докажем теорему 1. В доказательстве использованы вариации Мак- шейна [5]. Пусть (3) — некоторое управление уравнения (6) и x(t)—соответствующее ему решение уравнения (6). Система уравнений в вариациях для системы (5) вдоль решения x(t) записывается, как известно, в виде y^±^Al^Lyj (/ = 0.1 п). (18) /=о dxJ Записывая решение системы (18) в векторной форме, получаем вектор ~y(t) = (y°(t),.--,yn(t)). В дальнейшем будут рассматриваться только непрерывные решения y(t). Систему уравнений в вариациях, как известно, можно истолковать следующим образом. Пусть у0 — произвольный вектор пространства Sn+1. Зададимся начальным значением *о + еуо + 8° (8) для решения уравнения (6). Тогда само решение уравнения (6) с этим начальным значением записывается в форме £(0 + е£(0 + *О(е). (19) где y(t) есть решение системы (18), взятое с начальным значением у0. Мы будем говорить, что решение y(t) системы (18) является перенесением вектора у0, заданного в начальной точке х0 траектории x(t)y вдоль всей траектории. В том же смысле можно сказать, что решение y(t) является перенесением вектора */(т), заданного в точке х(х) траектории x(t), вдоль всей траектории. Наряду с контравариантным вектором y(t), являющимся решением системы (18), рассмотрим ковариантный вектор ty(t), яв-
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 479 ляющийся решением системы (8). Непосредственно проверяется, что так что (Ф (0. У (0) = const. Если истолковывать ковариантный вектор \jp (t) как ориентированную плоскость, проведенную через точку x(t), то можно сказать, что плоскость ty(l) является перенесением плоскости я])(т), заданной в точке х(т) траектории x(t)y вдоль всей траектории. Вариацией управления (3) будем называть управление 1/*-1/*(е,а)-=(и*(0, *0, *i + ae, *„), зависящее от параметра е и действительного числа а, определенное для всех достаточно малых положительных значений параметра е и удовлетворяющее следующему условию: Решение х* уравнения (6), соответствующее управлению U*, в точке t=-t1-\- га может быть записано в виде х(^)-\ еб ({/*)-| еО(е), где 8(U*) не зависит от е. Семейство Д вариаций одного и того же управления (3) будем называть допустимым, если наряду с каждыми двумя вариациями U\ (е, ах) и VI (е, а2) в нем найдется при любых неотрицательных Yi, y2 третья вариация i/*(e, Yi»i + 72аг)» удовлетворяющая условию §({/•)-YiW) J-Y*S(t/;). (20) Опишем теперь вариацию Макшейна U*(г, а)-У(е, а, т, а, а*), зависящую от точки т полуинтервала /0 < / <[ tY (причем при а ^ 0 должно быть т < t1)t неотрицательного числа а и точки и* пространства Q. Вариацию V (г, а, т, а, а*) определим, задав функцию u*(t) соотношениями ( u(t) при /()^/^т—еа, J и* при т — еа</^т, "*W r^ и(/) при x</<*lf (21) ( и(/х) при /^/^^-l-ea (если а > 0). Легко построить допустимое семейство Д, содержащее все вариации Макшейна. Это семейство Д и будет положено в основу дальнейших построений. Каждой вариации U* допустимого семейства Д соответствует вектор б(£/*), выходящий из точки х}. Совокупность всех этих
480 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ векторов заполняет выпуклый конус (см. (20)) П с вершиной в точке хх. Пусть £=(-1,0, ...,0) — вектор, выходящий из точки хг и идущий в направлении отрицательной оси х° в пространстве Sn+1. Если конус П содержит конец вектора v в качестве внутренней точки, то управление U не является оптимальным. Пусть, в самом деле, [/*gQ—та вариация управления U\ для которой б (!/•) = v. Обозначая через х\ точку, в которую переходит точка х0 при управлении U*9 получаем x[ = x1-\-ev + гО (е). Расщепляя это равенство на скалярное для нулевой координаты и векторное для остальных координат, получаем L (U*) = х°* = х\— г + гО (е) = L(U) — s -f еО (е), х{ = хг + гО (е). Таким образом, функционал уменьшен на величину порядка е, а конец траектории отличается от желательного на величину еО(е). Уточнение этого построения приводит нас к такой вариации [/#£Д, для которой конец я? траектории х# удовлетворяет точному равенству х* = x1 + ev, а это противоречит предположению об оптимальности управления U. Итак, предполагая, что управление V оптимально, мы будем считать в дальнейшем, что вектор v не является внутренним для конуса П. Так как конус П выпуклый, то для него существует такая опорная плоскость Г, что сам конус лежит в одном полупространстве (замкнутом), определяемом этой плоскостью, а вектор v—в другом. Обозначая через фх ковариантный вектор, соответствующий плоскости Г, выбранный с надлежащим знаком, мы получаем ft>lf б([/*))< 0 (£/*<ЕД), (22) (гЬ, 5)>0. (23) Из неравенства (23) сразу следует неравенство 4>i.o<0. (24) Обозначим через -ф(^) ковариантный вектор, получающийся перенесением вектора г^, заданного в точке х1У вдоль всей траектории x(t). Покажем, что вектор-функция ty(t) и есть та, существование которой утверждается в теореме 1.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 481 Пусть V(e, 0, т, а, и%) — произвольная вариация Макшейна (см. (21)) семейства Д и x*(t)—соответствующее ей решение уравнения (6). Простые вычисления дают х* (т) = х(т)+е[] (х (т), и*)—] (х (т), и (т))] + еО (б). Обозначим через y(t) вектор, получающийся из вектора у(т) = /(*(х), и*)-}(х(ч), и(х)), заданного в точке х(т), путем переноса вдоль траектории x(t). Тогда мы имеем i*(fi) = £i + e£(fi)+eO(e). Так как вектор у(/х) принадлежит конусу П, то в силу неравенства (22) получаем Их, y(*i))<0. В силу (19) отсюда получаем Переписывая последнее неравенство в обозначениях функции /С, получаем неравенство /Сгё(т), х(х), и(х))>/С(^(т), х(х), и*), эквивалентное равенству (11). Пусть теперь U* = V(e, а, х, 0, а*). Решение уравнения (6), соответствующее этому управлению U*, обозначим через x*(t). Мы имеем, очевидно, ~х* (t, Н- осе) = хг + еб ([/*) -| гО (е), где 8 ({/•) = а/&, и (/,)). Так как вектор 6(i/*) принадлежит конусу П, то в силу неравенства (22) получаем Ввиду того что а есть произвольное действительное число, последнее неравенство возможно лишь при условии т. е. при * №('i), *d). "(<i)) = 0. (25)
482 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Докажем, наконец, что функция K(t) = K(ty(t), x(t), u(t)) переменного t постоянна. Пусть ^0^^< ^з^^1> причем на полуинтервале t2<t^t3 функция u(t) непрерывна. Покажем, что на этом полуинтервале функция K(t) постоянна. Возьмем две произвольные точки т0 и тх полуинтервала t2 < ^^ t3. В силу (11) имеем /С(^(т0), х(т0), и(т0))—/С(Ч>(т0), х(%0), «ФО^О, Прибавляя к обеим частям этих неравенств разность К(хг)—/С(т0), получим неравенства — #(й(то), х(т0), и(т0)) + < WW, *Ы> "M-^№W, *W, и (то). (26) Наряду с системой (7), (8) рассмотрим аналогичную систему уравнений. Для того чтобы выявить более четко разницу между двумя этими системами, запишем систему (7), (8) в более развернутом виде: *' = ■§$*&№> *(<). "(0). (27) ^.= -±Kti(t), x(t), u(t)). (28) Наряду с этой системой рассмотрим систему *? = --£г*(*т'(0. *•<'>. «Ы) (30) (индексы т0 в уравнениях (29), (30) указывают на то, что соответствующие функции суть решение системы (7), (8) при фиксированном и = м(т0)). Наряду с векторами х, "ф введем векторы £(<) = «(<). <W> •••> *?.(')). Ф('ЫфЖ Ф?(0. •••> Ф?Симы будем рассматривать функцию /С(г£>(£), *(0» w(To))- Из системы (29), (30) следует непосредственно, что Легко показать, что функции K(\p(t), x{t), и(т0)) и K($(t), x(t), и(х0)) мало отличаются друг от друга, а именно имеет место
35 ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 483 неравенство |/сжа *(о. «Фо))-*жо. *(о. "Ы)ки-т0|т. (31) где lim у = 0. I /-т„ 1 —0 Так как функция u(t) непрерывна на рассматриваемом полуинтервале, то решения систем (27), (28) и (29), (30) мало отличаются друг от друга, а именно имеют место неравенства \x(t)-x(t)\^\t-T0\yu (32) I*(0-*(0KI'-*0|y.. (33) где lim уг= lim уо = 0. М-То1->0 |/-То|->о Из неравенств (32), (33) следует неравенство (31). Теперь, пользуясь неравенством (31), мы усилим неравенства (26) следующим образом: — fa—т0) V < К (хх)—/С (т0) < (тг—х0) у. Деля это неравенство на xt—т0 и переходя к пределу при |Ti—то| -^ 0) получаем окончательный результат Таким образом, на полуинтервале t2<^t^t3 функция К (t) постоянна. Докажем теперь, что функция N(tyy x) непрерывна по паре аргументов г}), х. Если это неверно, то существуют такие близкие между собой пары (грх, хх) и (г|)0, х0), что при сколь угодно малом расстоянии между ними имеет место неравенство W(*i. xJ—N^o, х0)>с>0. Пусть иг и и0—такие значения управления и, что #(U>. *o) = tf(U>. *о> "о)- Так как и0 дает максимум, то имеет место неравенство /C(^i, *i, "i) —#(Фо. *о> "i)>£, что противоречит непрерывности К по первым двум аргументам. Отсюда следует непрерывность функции K(ty(t)y x(t)y u(t)) и в точке разрыва функции u(t). Из доказанного вытекает (см. (25)) справедливость равенства (12) на всем отрезке t0^:t^:tl9 чем, в частности, доказано первое из
484 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ соотношений (10). Второе из соотношений (10) следует из неравенства (24) в силу первого уравнения (9). Итак, теорема 1 полностью доказана, а тем самым доказана и теорема 2. _____ Замечание 3. Если вместо условий x(t0) = x0j x{t1)=-x1 выдвинуты более общие условия *(*<>)€ М0, х^ОеЛГ!, (34) где М0 и Мх—два гладких многообразия произвольных размерностей из Rny то наряду с условиями (34) возникают условия трансверсальности, а именно гиперплоскость ty(t0)^касается многообразия М0 в точке x(t0), а гиперплоскость i|)(^i) касается многообразия Мг в точке х(^) (любое из многообразий М0, М1 может быть, в частности, точкой). Замечание 4. Теорема 1 и замечание 3 остаются верными и в случае, если функции u(t) измеримы и ограничены; только равенство (11) выполняется почти всюду. 4. Синтез оптимального по быстродействию управления. Из формулировки принципа максимума (теорема 2), дополненной замечанием 3, видно, что для нахождения оптимальной траектории и оптимального управления необходимо решить краевую задачу для систем обыкновенных дифференциальных уравнений, что является непростой задачей. Очень часто задача оптимизации ставится не совсем так, как в теореме 2 и замечании 3, а именно следующим образом. Известно то многообразие М1У на которое должна придти фазовая точка. В частности, это многообразие Мх может оказаться просто одной точкой х1У а исходное фазовое состояние х0 считается произвольным. Если мы решим задачу оптимизации по быстродействию для исходной точки х0 и конечного положения М1у то в начальный момент t0 определяется управление u(t0)> соответствующее точке х0 и которое естественно обозначить через и (хо). Поскольку мы хотим считать начальное состояние х0 произвольным, то естественно обозначить х0 через х, и мы получим тогда и как функцию и(х) положения точки в пространстве. Подставим теперь в уравнение, определяющее управляемую систему (3), вместо и функцию и(х). Тогда мы получим систему уравнений *=/(*, и(х)). Решая эту систему уравнений при начальном условии x(t0) = x0, мы получим экстремальную траекторию, идущую из состояния х0 на многообразие Мг. Нахождение управления и(х) как функции точки х пространства называется синтезом оптимального управления.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 485 Для нахождения синтезирующей функции и(х) можно использовать теорему 2 и замечание 3 следующим образом: на многообразии Мг зададимся произвольной точкой хг и произвольной ориентированной гиперплоскостью \р1, касающейся многообразия Мх в точке хг. Исходя из начальных данных хг и г^ при £ = 0 будем решать систему уравнений (13), (14), дополненную условием (16) при t, убывающем от 0 до некоторого t0 < 0. В результате этого попятного движения мы придем в положение x = x(t0). Ясно теперь, что, двигаясь из этого положения при t возрастающем от t0 до 0, мы получим экстремальную траекторию, причем х(0)= хх и выполнено условие трансверсальности на Мг. Точка x(t0) зависит от t0, которое является отрицательным числом, а также от начальных значений хг, г^. Таким образом, следует, написать x(t0) = (o(xu гр1э /0). Если размерность многообразия Mt равна v, то размерность совокупности всех ориентированных гиперплоскостей, касающихся многообразия Mt в точке х1У равна п—v—1. Так как размерность многообразия Мг равна v, то размерность многообразия всех пар (х1У i^j), т. е. размерность всех возможных начальных значений равна п—1, а функция со зависит еще от одного скалярного параметра t0 < 0. Если обозначить аргумент функции со через 5, т. е. положить ^> = (х1 г^, /0), то размерность многообразия S"- всех значений £ равна п. Таким образом, со есть отображение n-мерного многообразия Sn в евклидово пространство Rn. При построении экстремальной траектории с начальными значениями (хи г^), ведущей в точку x(t0), на всей траектории определяется управление u(t). Таким образом, оно определено и при t = t0, т. е. в точке х0, так что в этой точке мы нашли синтезирующее управление и(х0), где x0 = x(t0). Здесь мы не разбираем вопросов существования и единственности решения, но в некоторых случаях этот способ синтезирования оптимального управления удается. Синтезирующее управление, данное в п. 4 раздела 1, построено именно таким способом. 5. Линейные управляемые системы. Важным для приложений и хорошо иллюстрирующим общие результаты примером является линейная управляемая система п X1 = 2 а\х/ +и* (t = 1, . . . , П), /=1 где и=(и1, . .., ип) есть точка выпуклого замкнутого ограниченного многогранника Q произвольной размерности, расположенного в линейном пространстве Rn. В векторном виде эта система может
486 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ быть записана так: х z=Ax+ и, (35) где А—линейный оператор в пространстве Rn переменных х1, ... ..., хп. Мы будем рассматривать здесь только задачу о минима- лизации функционала \ dt, т. е. задачу минимизации времени и перехода. Для получения некоторых результатов характера единственности мы будем налагать на управляемую систему (35) нижеследующие условия (А), (В), роль которых выявится в дальнейшем: (A) Если w—некоторый вектор, имеющий направление какого- либо из ребер многогранника Q, то векторы w, Aw, ..., An^w (36) линейно независимы. (B) Начало координат пространства Rn является внутренней точкой многогранника Q. Функция #(г|;, х, и) в нашем случае имеет вид Я=(ф, Ах)+$, и), (37) а система (15) записывается в виде п Ф/ = — 2<Ф1>/ (/=*!. •••> л), или в векторной форме ^= —Л*ф, (38) где А*—транспонированная матрица А. Очевидно, что функция Я, рассматриваемая как функция переменного w£Q, достигает максимума одновременно с функцией (г|), и). В соответствии с этим обозначим через Р (г|э) макси: мум функции (г|), и), рассматриваемой как функция переменного wgQ. Из теоремы 2 следует, таким образом, что если есть оптимальное управление системы (35), то существует такое решение ty(t) уравнения (38), что (?(0.й(0)^(Ф(0). (39) Так как уравнение (38) не содержит неизвестных функций ~x{t) и u(t)y то все решения уравнения (38) легко могут быть найдены,
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 487 й тем самым по условию (39) легко могут быть найдены и все оптимальные управления u(t) системы (35). Вопрос о том, насколько однозначно условие (39) определяет управление u(t) через функцию ty(t), решается нижеследующей теоремой: Теорема 3. Если выполнено условие (А), то при заданном нетривиальном решении ty(t) уравнения (38) соотношение (39) однозначно определяет управляющую функцию u(t); при этом оказывается, что функция u(t) кусочно-постоянна и ее значениями являются лишь вершины многогранника Q. Доказательство. Так как функция (Ф(0. "), (40) рассматриваемая как функция вектора иу линейна, то она либо постоянна, либо достигает своего максимума на границе многогранника Q. Это же соображение применимо и к каждой грани многогранника Q. Таким образом, либо функция (40) достигает своего максимума лишь в одной вершине многогранника Q, либо же достигает его на целой грани многогранника Q. Покажем, что в силу условия (А) последнее возможно лишь для конечного числа значений t. Допустим, что функция (40) достигает своего максимума (и, следовательно, постоянна) на некоторой грани Г многогранника Q. Пусть w — вектор, имеющий направление некоторого ребра грани Г. В силу постоянства функции (40) на грани Г имеем (яКО, w) = 0. Если бы это соотношение имело место для бесконечного множества значений переменного t из отрезка [t0, ^], то оно выполнялось бы тождественно по t и, дифференцируя его последовательно по /, мы получили бы (\j>(f), w) = 0, (Л*ф(*), w) = №(t), Ли?) = 0, (Л*2ф(/), и;)- 0ф(*), A2w) = 0y (41) (A*n-lty(t), гс») = (г|>(0. An~1w) = 0, а так как в силу условия (А) векторы (36) образуют базис пространства Rn, то из соотношений (41) следовало бы г|э (/) = 0,_что противоречит предположению о нетривиальности решения ty(t). 6. Теоремы единственности для линейных управляемых систем. Решим уравнение (35) как неоднородное методом вариации постоянных. Для этого обозначим через Ф,(0. •••. ФЛО (42)
488 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ фундаментальную систему решений однородного уравнения удовлетворяющую начальным условиям (pj(t0) = 8j, а через — фундаментальную систему решений однородного уравнения (38), удовлетворяющую начальным условиям ^{^0)=-Ц. Будем искать общее решение уравнения (35) в виде подставляя это решение в уравнение (35), получим 2 Ф/(')*'(') = "(')- Умножая последнее соотношение скалярно на г|У и учитывая, что (ij5>(/), Ф/(0)=-б{» получаем ^(0 = (?(0. "(О)- (43) Таким образом, решение уравнения (35) при произвольном управлении U = (u(t), t0J tu x0) записывается в виде *(<) = 2 Ф,(t) (4 + I W (0. «(О)<«) • (44) Теорема 4. Допустим, что уравнение (35) удовлетворяет условию (А), и пусть U1 = (u1(t), t0, tly х0), U2=(u2(t), tQ, tt,~x0) — два ^оптимальных управления уравнения (35), переводящие точку х0 в одну и ту же точку хг\ тогда эти управления совпадают: Доказательство. Так как оба управления иг и U2 оптимальны, то t1 = t2, ибо если бы было, например, t± < fa, то управление U2 не было бы оптимальным. Мы имеем, таким образом, равенство *i= 2 ф,(<1)(4+ S (ф'(0. "i ('))<*< - 2 9,(/i)(4+ J (ф'(0. u2(t))dt\ i=\
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 489 Так как векторы ф1(/1), ..., <p"(^i) линейно независимы, то из последнего равенства следует tx и \ W (0. "i (0) *t = 5 W (*), и, (0) Л (/ = 1, ..., л). (45) Оптимальному управлению Ut в силу теоремы 3 соответствует вектор-функция \|>(f), являющаяся решением уравнения (38). Начальное значение этой функции при t = t0 обозначим через тогда решение ty(t) можно записать в виде *(0=Д*/о*'(0. (46) Умножая соотношения (45) на г|)/0 и суммируя по /, получаем Sfi(*), МО)* = S (*('>• МО)<«. (47) В силу теоремы 3 функция их (t) удовлетворяет условию Ж'), «i(0) = ^(?(0) и определяется этим условием однозначно. Если бы функция u2(t)'не совпадала с функцией МО» то она не удовлетворяла бы условию 6F(0> M0)-^6F(0), и_потому функция (г|)(0, МО)» нигде не превосходя функции (г|)(/), МО)» на некотором интервале была бы меньше ее. Таким образом, если на отрезке t0^t^t1 не имеет места тождество [^(0 —М0> то равенство (47) невозможно. Итак, теорема 4 доказана. Для нахождения всех оптимальных управлений, переводящих точку х0 в точку х1У можно найти сперва все экстремальные управления, переводящие точку х0 в точку х1% а затем выбрать из их числа то единственное, которое осуществляет этот переход в кратчайшее время. Возникает вопрос, может ли существовать несколько экстремальных управлений, переводящих точку х0 в точку *!? Вообще говоря, их может существовать несколько. Нижеследующая теорема указывает важный случай единственности. Теорема 5. Допустим, что уравнение (35) удовлетворяет условиям (А) и (В), и пусть ^1=(М0. 'о, <1, *о)» ^2= (МО» 'в. <1. *о)
490 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ — два экстремальных управления, переводящих точку х0 в начало координат хг = 0 пространства Rn\ тогда управления Ux и U2 совпадают: ti=-t2; ^(0 = МО- Доказательств о. По предположению мы имеем равенства — V '; J (48) я - / * _ - \ 2ф/(^2) 4+$м><(0> u%(t))dt)=o. Так как векторы (42) линейно независимы при любом t, то из равенств (48) следует равенство h _ и ___ -4=5(^(0, ut(t))dt=l№(t), u2(t))dt. (49) Допустим для определенности, что t1>t2i и пусть ^(t)—то решение уравнения (38), для которого имеет место тождество МО, 51(/)) = Р(^(0), определяющее функцию ^(t). Как и при доказательстве теоремы 4, функцию if (t) запишем в виде (46). Умножим соотношение (49) на г|)/0 и просуммируем по i. Мы получим '* _ - и _ Заметим теперь, что из условия (В) следует P№t))>0. (50) В самом деле, так как ноль является внутренней точкой выпуклого тела Q, то функция (i|>(f), и) как функция переменного и либо тождественно равна нулю, либо может принимать как отрицательные, так и положительные значения. В силу (50) мы имеем неравенство и - _ и S(*(0. "i(9)<«<S (+('>. u2{t))dt. to to Отсюда, так же как и при доказательстве теоремы 4, получаем М0 = М0 пРи *о<*<*2-
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 491 Далее, так как равенство Р (г|; (/))=- 0 может иметь место только для отдельных значений t, то должно быть t1=t2. Итак, теорема 5 доказана. 7. Существование оптимальных управлений для линейных систем. Теорема 6. Если существует хотя бы одно управление уравнения (35), переводящее точку х0 в точку х1У то существует и оптимальное управление уравнения (35), переводящее точку х0 в точку хг. Доказательство. При доказательстве будем считать, что выпуклый многогранник Q лежит в г-мерной плоскости, параллельной г-мерной координатной плоскости, так что каждая точка в нем имеет координаты вида (и1, ..., ury cr+1, ..., с11). Совокупность всех управлений вида г/ = Й0. о, t, 70), (51) переводящих точку х0 в точку хи обозначим через Aj-. Каждому управлению (51) соответствует время перехода /. Нижнюю грань всех таких времен при U g A- j обозначим через t* и докажем, что существует управление U*=^(u*(t), О, /*, х0), переводящее точку х0 в точку хг. Выберем из множества А-- бесконечную последовательность управлений Uk = (uk(t), О, tk,lc0) (й=1, 2, ...), для- которой имеет место равенство lim /л--- /*. Очевидно, имеет место равенство lim 2 ъ(Ых*.+ \ (ф'('). uk(t))dt\^ (52) Рассмотрим гильбертово пространство L2 всех измеримых функций с интегрируемым квадратом, заданных на отрезке 0^ <^t^t*. Управление uk(t) есть вектор-функция; i'-ю координату этой функции обозначим через ulk(t). Функция ulk(t), рассматриваемая на отрезке 0 ^ t ^ /*, принадлежит пространству L2. Совокупность всех функций иЪ(1), k-—\, 2, ..., очевидно, принадлежит некоторому шару пространства L2, и потому из нее можно выбрать слабо сходящуюся подпоследовательность. Мы будем просто считать, что сама последовательность и[, и12у ..., ulkJ ... слабо сходится к некоторой функции и1'(t), t=l, ..., г.
492 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Докажем, что вектор-функция u*(t) = (u1(t), ..., ur(t), cr+\ ..., с») (53) почти для всех значений t удовлетворяет условию u*(t)£Q. Пусть г Ь (и) = 2 Ь(и* = b, ur+1 = cr+1, ..., ип = сп, — уравнение (г—1)-мерной плоскости, несущей одну из (г—1)- мерных граней многогранника Q, причем многогранник Q расположен в полупространстве 6(и)<&. Пусть т—множество всех значений t отрезка [0, £*], для кото" рых b(u*(i))>by и v(t) — характеристическая функция множества т. Мы имеем тогда Km $ v(t)[b(u*(t))—b(uk(t))]dt = 0 k-+co 0 в силу слабой сходимости последовательностей (53), и так как 6(а*(^)) — b(ukXt)) > 0 на множестве m, to mes(m) = 0. Таким образом, изменяя вектор-функцию и* (t) на множестве меры нуль, мы получим новую функцию, которую снова обозначим через и*(t), удовлетворяющую условию u*(t)££i, O^t^t*. Из соотношения (52) в силу слабой сходимости последовательностей (53) следует / t* \ 2 ф,-(и(4+$ (?('). «•(<))# ) = *i- 1=1 \ О / Таким образом, U*=(u*(t), О, £*, я0) является измеримым оптимальным управлением, переводящим точку х0 в точку хг. В силу замечания 4, изменяя управление м*(£) на множестве меры нуль, мы можем превратить его в управление, удовлетворяющее принципу максимума, т. е. в нашем случае условию МО, *(t)) = P №(*)). Отсюда, при выполнении условия (А) следует, что функция u*(t) кусочно-постоянна. Итак, теорема 6 доказана. Теорема 7. Если уравнение (35) удовлетворяет условиям (А) и (В) и оператор А устойчив, т. е. все его собственные значения
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 493 имеют отрицательные действительные части, то для каждой точки x0£Rn существует оптимальное управление, переводящее эту точку в начало координат 0£Rn. Доказательство. Докажем прежде всего, что существует окрестность V точки 0 в Rn, каждая точка х0 которой может быть при помощи некоторого управления переведена в 0. Выберем в Q такой вектор v, параллельный одному из ребер многогранника Q, чтобы вектор—у также принадлежал Q. В силу условия (В) такой вектор v существует. При достаточно малом положительном е операторы А и е~еА имеют совпадающие инвариантные подпространства, и потому векторы e~eAv, e~2eAv, ..., е~пгА1) линейно независимы в силу условия (А). Пусть %(/) — произвольная действительная функция, определенная на некотором отрезке O^t ^:tl и не превосходящая по модулю единицы; тогда и = шъ о, t19 х0) есть управление уравнения (35), и управление это переводит точку х0 в точку (см. 44)) хг = е^А 1х0 + J e-tAv%(t))dt. (54) Выберем теперь функцию % (t) зависящей от параметров £\..., £» таким образом, чтобы точка (54)—обозначим ее через х1(х0; I1, ..., £п)—удовлетворяла следующим условиям: ^(О; о, ..., о) = о, а функциональный определитель д(х1 ...,*?)! д(1\ ..., 1п) |хо=о. V=o &*=o отличен от нуля. Построив такую функцию %(/), мы докажем, что уравнение х1(х0; I1, ..., £п) разрешимо относительно I1, ..., £п для всех значений х0, принадлежащих некоторой окрестности V начала 0. Определим прежде всего функцию a(t, т, £) переменного t, 0^t^.tu где 0<т </1э а £ — параметр. Функция a(t, т, I) как функция переменного / равна нулю всюду вне интервала [т, т+ £], а на этом интервале она равна sign |. Положим теперь Х(/)=2>С *«. 2*)- *»1
494 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Простые вычисления показывают, что точка хх (х0; £\ ..., 1п) при этом выборе функции %(t) удовлетворяет высказанным условиям. Пусть теперь х0 — произвольная точка пространства Rn. Пусть она сперва двигается при управлении и (t) = 0. Так как все собственные значения оператора А имеют отрицательные действительные части, то по истечении некоторого времени точка придет в окрестность У, после чего ее, по доказанному, можно перевести в начало координат. Отсюда в силу теоремы 6 вытекает существование оптимального управления, переводящего точку х0 в начало. Итак, теорема 7 доказана. 8. Дифференциальные включения. Дальнейшее изучение управляемых систем привело к новой проблематике—дифференциальным включениям. Рассмотрим управляемую систему x=f(x, и), (55) где х есть фазовый вектор из евклидова л-мерного пространства Еп, x = dx/dt — вектор скорости, t — время, а и есть управление, на которое наложено геометрическое ограничение u£Q, (56) Q — произвольное топологическое пространство. В фазовом пространстве Еп в точке х рассмотрим множество всех допустимых скоростей системы. Это множество f (x, Q) состоит из всех векторов f(xy и), где и — произвольная точка из пространства Q. Если теперь x(t) — некоторая траектория управляемой системы (55) с допустимым управлением u(t), то при почти всех t выполняется включение t{t) €/(7(0, Q). (57) Это приводит нас к понятию дифференциального включения *€/(*, Й). (58) Под решением дифференциального включения (58) понимается абсолютно непрерывная функция x(t), удовлетворяющая включению (57) при почти всех t. При довольно общих предположениях управляемая система (55) с ограничением (56) эквивалентна дифференциальному включению (58), т. е. для любого решения x(t) включения (58) существует такое управление u(t)£Q, что функция x(t) будет являться траекторией системы (55) с этим управлением u(t).
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 495 Рассмотрим теперь произвольное дифференциальное включение xSFfr), (59) где F (х)— некоторое заданное многозначное отображение, т. е. функция, которая каждой фазовой точке х£Еп ставит в соответствие множество F (х) из того же пространства Еп. В форме дифференциального включения (59) можно записать не только управляемую систему (55), (56), но также довольно широкий класс других объектов. Это могут быть управляемые системы с переменной областью управления x = f(xy u)y u£Q(x), система дифференциальных неравенств fj(x, x)<0, /g/, неявные дифференциальные уравнения, управляемые системы с фазовыми ограничениями и др. Дифференциальное включение (59) можно рассматривать как непосредственное обобщение обыкновенного дифференциального уравнения на случай, когда функция f (х) неоднозначна. Поэтому, естественно, в теории дифференциальных включений возникают все проблемы, присущие обыкновенным дифференциальным уравнениям. Это теоремы существования решен я, продолжимости решения, ограниченности, непрерывной зависимости от начальных условий и параметров и др. В то же вр i\ я у дифференциального включения из каждой начальной точки х0 выходит уже целое семейство траекторий. Эта многозначность порождает свои специфические вопросы, такие, как замкнутость, выпуклость семейства решений, существование граничных решений, выделение решений с заданными свойствами и многие другие (см. [6]). Теория дифференциальных включений в настоящее время достаточно хорошо изучена. Зародилась она в сороковых годах нашего века, когда формально были доказаны теоремы существования решения у обыкновенных уравнений с неоднозначной правой частью. Однако эти теоремы не нашли тогда никакого применения. Только после открытия принципа максимума Понт- рягина и появления математической теории оптимального управления вновь возник интерес к дифференциальным включениям. Оказалось, что в некоторых вопросах теории управления предположения на управляемую систему (55), (56) можно удобно записать через многозначную функцию f(x, Q). Так было в теореме
496 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ существования оптимального управления, доказанной А. Ф. Филипповым [7], и в достаточных условиях оптимальности, полученных В. И. Благодатских [8]. Для дифференциального включения (59), так же как и для управляемой системы (55), (56), можно рассматривать задачу оптимального управления. Рассмотрим здесь только задачу быстродействия. Пусть заданы начальная точка х0£Еп и конечная точка хг £ Еп. Задача быстродействия состоит в том, чтобы найти решение x(t) дифференциального включения (59), которое осуществляет переход из начальной точки х0 в конечную точку хг за наименьшее время, т. е. найти такое решение x(t), удовлетворяющее условиям % (to) ~ %о> X\ti) = Хц для которого время перехода t1 —10 минимально. На правую часть дифференциального включения (59) наложим ряд условий. Само множество F (х) может быть произвольным, но непустым. Наложим условия на его зависимость от точки х. Пусть существует такая постоянная &^0, что для любых двух точек х19 х2£Еп и любого вектора vx £ F (л^) найдется такой вектор v2£F(x2), что выполняется неравенство К—0а К ^11^1—^11. В случае, когда множество F (х) компактно, это условие эквивалентно тому, что хаусдорфово расстояние h удовлетворяет неравенству h{F(x1)i F{x^j)^k\x1—'x2\. Для произвольного множества FaEn определим опорную функцию c(Fy i|)) вектора ty£En соотношением c(F, я|>)= sup(/, г|)). Мы будем ^предполагать, что опорная функция c(F(x), г|)) множества F(x) непрерывно дифференцируема по ~х при каждом фиксированном векторе г|) и существует такая непрерывная скалярная функция k(x)^0> _что для любых двух векторов г|)1э у\)2£Еп вектор градиента dc(F(x), ty)/dx удовлетворяет неравенству Следующая теорема дает необходимые условия оптимальности в форме принципа максимума.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 497 Теорема 8. Пусть x(t) — оптимальное в смысле быстродействия решение дифференциального включения (59), которое осуществляет переход из начальной точки х0 в конечную точку хх на отрезке времени |70, tt]. Тогда существует такое нетривиальное решение ty(t) дифференциального уравнения tB_*(fHqn)| {60) дх которое мы будем называть сопряженным, что при почти всех ^€[^о> ^i] выполняется условие максимума (*(<), W)) = c{F{x(t)), *(*)). (61) Более того, функция с (F(x(t)), ty(t)) постоянная и неотрицательна. Отметим здесь, что уравнение (60) не является линейным по г|э. Доказательство. Дадим здесь только идею доказательства и принципиальные отличия от доказательства теоремы 1. Основная трудность состоит в том, что для дифференциального включения (59) нельзя написать линейную систему уравнений в вариациях. Однако можно построить дифференциальное включение в вариациях, которое все же обладает свойствами, нужными для доказательства теоремы 8. Для заданного решения x(t) дифференциального включения (59) построим множество #(/)={*: (x(t), *) = c(F{x(t)), if)}. Это будет выпуклый замкнутый конус в пространстве Еп. Пусть 8х£Еп— некоторый фиксированный вектор. Рассмотрим скалярную функцию Можно показать, что функция c(ty, x(t), 8х) является опорной функцией к некоторому замкнутому выпуклому множеству из пространства Еп. Обозначим его через P(x(t), 8х), оно зависит от решения x(t) и вектора 8х. Рассмотрим теперь дифференциальное включение в вариациях 8x£P(x(t), 8x). (62) Нетрудно проверить, что если функция F (х) будет однозначной, т. е. F(x) = f(x), то дифференциальное включение (62) превратится в классическую линейную систему уравнений в
498 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ вариациях дх Можно показать, что семейство всех решений 8x(t) дифференциального включения (62) с начальным условием 8x(t0) = 8х0 будет множеством выпуклым. Если 8x(t) — некоторое решение включения (62), то и функция y(t) = z8x(t), е^О, также будет решением. Более того, если 8x(t) — решение с начальным условием 8x(t0) =8x0j to существует такое решение x(t) дифференциального включения (59) с начальным условием x(t0) = x(t0) + &8x0 + + о(е), что при всех t£[t0, t±] справедливо равенство х (0 = х (0 + г8х (t) + о (е). (63) Последнее свойство и положено в основу вариации оптимальной траектории x(t). Пусть ^0<т^^ есть точка непрерывности производнойx(t), av—произвольный вектор из множества F(x(%)). Проварьированную траекторию x(i) определим так, что она совпадает с решением x(t) при t0^t^x—е. На отрезке времени [т—е, т] определим x(t) как непрерывно дифференцируемое решение включения (59) с начальными условиями X (Т — 8) = X (Т— 8), X (Т — 8) = V. Такое решение существует и удовлетворяет соотношению х(и) = х(т) + ev + о (е). Пусть теперь 8x(t) — произвольное решение дифференциального включения в вариациях (62) с начальным условием 8x(r) = v. На отрезке времени [т, t±] теперь выберем в качестве x(t) то решение включения (59), для которого справедливо представление (63). Перебирая все такие функции 8x(t), мы получим в момент времени tx выпуклый конус /С, состоящий из конечных точек х^г+ &8t) — x(t^). Поскольку решение x(t) оптимально, то конус К не совпадает со всем пространством Еп и существует такой опорный вектор -ф, что выполнено неравенство с (К, Ф)<0.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 499 Рассмотрим решение г|:(/) сопряженного дифференциального уравнения (60) с конечным условием ty(t1) = '$> Тогда из последнего неравенства можно доказать неравенство (i>, я|?(т))-Йт), г|>(т))<0. Поскольку вектор v£F(x(%)) был произвольным, то отсюда следует условие максимума (61). В остальном доказательство теоремы 8 совпадает с доказательством теоремы 1. Сформулируем теперь достаточные условия оптимальности в форме принципа максимума. Здесь возникают два основных вопроса. Во-первых, при каких условиях данное решение x(t) оптимально? Во-вторых, при каких предположениях на управляемую систему принцип максимума является необходимым и достаточным условием оптимальности? Ниже будет дан ответ на оба эти вопроса. Опорную функцию c(F(x), г|э) назовем вогнутой по х в точке х* при г|) = г|;*, если при всех х^Еп выполнено неравенство /dc(F(x*)9 Г)^ x — xA^c(F(x), ^*)—c(F(x*), г|>*). (64) Достаточные условия оптимальности решения x(t) дает следующая теорема. Теорема 9. Пусть x(t) — решение дифференциального включения (59), которое осуществляет переход из точки х0 в точку х1 на отрезке времени [/0, tj]. Предположим, что существует такое решение ty(t) сопряженного дифференциального уравнения (60), что выполнены следующие условия: 1) условие максимума (61) выполняется для почти всех t £ |70, /х]; 2) усиленное условие трансверсальности в точке хх: (*(*), -H>(0)X*i. -*(0) выполняется для всех t0 ^ t < tx\ 3) опорная функция c(F(x), г|э) вогнута по х в точке x(t) при "Ф^-чМО для всех t(z[t0> W\- Тогда решение x(t) оптимально. Доказательство этой теоремы имеется в работе [8]. Поясним здесь только его геометрический смысл. Для произвольного момента времени /0^^<^i проведем через точку x(t) гиперплоскость Tt в пространстве Ег\ ортогональную вектору i|)(/). Из условия максимума (61) и вогнутости опорной функции c(F(x), i|)) по х на решении x(t) следует, что любое другое решение y(t) включения (59), начинающееся в точке х0, удовлетворяет
500 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ неравенству (y(t)-x(t), г|>(*))<0, т. е. это решение не может попасть в положительное полупространство, определяемое гиперплоскостью 1\. В то же время конечная точка х1 в силу усиленного условия трансверсальности лежит в положительном полупространстве при всех t < t±.- Отсюда следует оптимальность решения x(t). Теорема 9 дает достаточные условия оптимальности одной данной траектории x(t). При этом в предположении теоремы 9 явно входит это решение x(t). Приведенные достаточные условия оптимальности близки к необходимым в том смысле, что для целого класса задач быстродействия они совпадают с необходимыми условиями оптимальности. Наложим на дифференциальное включение (59) два дополнительных условия. Будем говорить, что включение (59) является локально управляемым в точке хи если для любого отрезка времени [tu t2], t1=^6=t2, существует такая окрестность V точки хг в пространстве Еп, что для любой точки x0£V этой окрестности найдется решение x(t) дифференциального включения (59), осуществляющее переход из точки х0 в точку хг на отрезке времени [tu t2]. Опорную функцию c(F(x), if>) назовем вогнутой по х на множестве МаЕп, если выполнено неравенство при всех хи х2$М и всех ty£En. Следующая теорема является следствием теорем 8 и 9. Теорема 10. Пусть дифференциальное включение (59) является локально управляемым в точке хг. Далее, предположим, что все решения включения (59) с начальным условием x(t0)=-x0 на отрезке [t0, t^\ содержатся в некотором множестве М, а опорная функция c(F(x), \р) вогнута по х на этом множестве М. Пусть решение x(t) осуществляет переход из точки х0 в точку хг на отрезке времени [t0, t^]. Тогда принцип максимума является необходимым и достаточным условием оптимальности, т. е. для оптимальности решения х (t) необходимо и достаточно, чтобы существовало такое нетривиальное решение ty(t) сопряженного уравнения (60), что при почти всех t£[t0, t±] выполнено условие максимума (61).
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 501 Эта теорема применима и для управляемых систем, заданных в виде (55), (56), если опорная функция с (fix, Q), г|)) = sup (f (х, и), -ф) ueQ удовлетворяет нужным предположениям. Например, для линейной управляемой системы х=Ах+и, u^QdEny эта опорная функция имеет вид c(Ax+Q, ty) = (Ax, ^) + c(Q, i|)), т. е. линейна по х на всем пространстве Еп. Таким образом, для линейных систем в предположении локальной управляемости конечной точки хи принцип максимума Понтрягина является необходимым и достаточным условием оптимальности в задаче быстродействия. 3. Первое решение задачи преследования Здесь рассказывается о том, каким способом был получен мною первый результат по задаче преследования. Получение этого результата потребовало от меня напряженной двухлетней работы (примерно 1963—1964 гг.). Игровой характер задачи был очень нов и трудно поддавался математической обработке. При нащупывании путей решения я провел огромные вычисления. Описанию подхода к решению задачи я предпосылаю здесь четкую математическую формулировку игровой задачи преследования одного управляемого объекта другим управляемым объектом. К этой формулировке пришли много позже, в конце 70-х годов. Окончательно она сложилась к конгрессу в Ницце, так что в начале здесь приведена вводная часть моего доклада в Ницце. Приведенные в ней обозначения целесообразно использовать при описании первого подхода к решению задачи преследования. Попытки подступить хоть как-то к игровой задаче преследования делались с самого того момента, как она была перед нами поставлена, т. е. примерно с 1956 г. Но они были безуспешны. Об одной такой попытке стоит упомянуть. Еще до конгресса в Стокгольме (1962 г.) мы с Е. Ф. Мищенко попытались подойти к задаче преследования с вероятностной точки зрения и получили теоретико-вероятностный результат, быть может, имеющий некоторый интерес с точки зрения теории вероятностей, но не давший ничего теории дифференциальных игр. Этот наш совместный результат был доложен на конгрессе в Стокгольме в моем кратком 10-минутном сообщении.
502 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 1. Математическая формулировка игровой задачи процесса преследования. Постановка задачи. Теория дифференциальных игр возникла в результате математической идеализации технических задач. Идеализации возможны различные.. При выборе идеализации следует стремиться к тому, чтобы, отражая наиболее существенные черты технической проблемы, она в то же время была доступна для математической обработки. Таким образом, обзор теории не должен даваться в полном отрыве от технических задач. Для того чтобы иметь конкретный пример, вообразим, что один самолет преследует другой. Цель первого самолета—догнать второй, цель второго — уйти от преследования. Каждый пилот управляет своим самолетом, имея в виду свою цель и пользуясь информацией о ситуации. Информация состоит из двух частей, первая — это полное знание технических возможностей обоих самолетов, вторая—это сведения о поведении собственного самолета и самолета противника. Сведения о поведении самолетов могут включать в себя различные данные об их состоянии за период, предшествующий данному моменту, но ничего нельзя считать известным о будущем поведении самолетов, так как они управляемы, и в любой момент времени летчик может изменить положение рулей, изменив тем самым поведение самолета. В действительности каждый из пилотов может получить сведения о противнике лишь с некоторым запозданием, однако нет надобности включать это обстоятельство в идеализацию, более того, можно даже предполагать известным поведение противника с некоторым опережением и строить математическую идеализацию на этой основе, а затем уже показать, что полученная теория может быть использована для приближенного решения реальной задачи. Перейдем к математическому описанию процесса преследования. В этом процессе участвуют два управляемых объекта, преследующий объект и убегающий объект. Состояние каждого из объектов в любой момент времени определяется его фазовым вектором. Фазовый вектор преследователя обозначим через х, а фазовый вектор убегающего через у, уравнения управляемых объектов запишем в обычной форме: x=f(x, и); y = g(y, v), (1) где и и v суть управления, причем и принадлежит заданному топологическому пространству Р, a v—заданному топологическому пространству Q. Так как х и у является фазовыми векторами, то каждый из них распадается на две части: *=(*!. *■). У=(Уи У%)> где хх и уг определяют геометрические положения объектов, а х2
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 503 и у2— их скорости. Считается, что процесс преследования заканчивается в тот момент времени, когда наступает равенство А*,- /Ум (2) т. е. тогда, когда объекты геометрически совпадают. Упомянутая ранее первая часть информации состоит из уравнений (1). Эти уравнения дают не сами движения объектов, а описывают лишь их возможности, так как при различных управлениях и^- u(t) и v- v(t) мы получаем различные движения. Таким образом, в примере с самолетами уравнения (1) описывают технические возможности самолетов. Сам процесс преследования мы можем рассматривать с двух различных точек зрения: а) Мы можем отождествить себя с преследующим объектом. В этом случае наша цель заключается в завершении процесса преследования, и управление и находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени t мы должны конструировать значение u(t) управления и, зная уравнение (1), т. е. первую часть информации, и используя вторую ее часть в виде функций x(s), y(s), v(s) на о:резке t — 0^s^/, где 0 — подходящим образом выбранное положительное число. б) Мы можем отождествить себя с убегающим объектом. В этом случае наша цель состоит в предотвращении конца преследования, и управление v находится в нашем распоряжении для достижения этой цели. Таким образом, в каждый момент времени / мы должны конструировать значение v(i) управления и, зная уравнения (1), т. е. первую часть информации, и используя вторую ее часть в виде функций x(s), y(s)y u(s) на отрезке t—0^ Такова та математическая идеализация процесса преследования, которую я буду рассматривать и которая неизбежно расщепляет задачу на две различные задачи: задачу преследования и задачу убегания. Расщепление происходит из-за того, что при двух различных подходах мы используем различные информации. Существует и другая идеализация, принадлежащая Айзексу, при которой как в задаче преследования, так и в задаче убегания используется одна и та же информация, именно знание значений x(t) и y(t). При этой идеализации предполагается, что существует оптимальное управление и - и(хч у) преследования, определяющееся как функция х и у состояний объектов, и существует оптимальное управление v=v(xy у) убегания, определяющееся как функция х и у состояний объектов. При такой идеализации задача математически становится весьма определенной, она заключается в нахождении функций и (х, у) и v(x, у), называемых оптимальными стратегиями, но именно эта определенность чрезвычайно затрудняет ее решение. В частности, предполагая
504 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ существование оптимальных стратегий, мы резко сужаем класс рассматриваемых задач. 2. Дифференциальная игра. Дифференциальная игра из процесса преследования возникает в результате естественного стремления упростить обозначения, именно вместо двух фазовых векторов х и у мы вводим один вектор г = (ху у), образуя фазовое пространство R игры как прямую сумму фазовых пространств обоих объектов. Тогда пара уравнений (1) записывается в виде одного уравнения i--F(zy и, у), (3) а соотношение (2) определяет в векторном пространстве некоторое подмножество М. Теперь мы можем определить дифференциальную игру независимо от исходного процесса преследования. Дифференциальная игра задана, если задано ее фазовое векторное пространство Ry уравнение (3), где z£Ry a F—некоторая функция трех переменных, причем и — управление преследования, a v — управление убегания и, сверх того, в пространстве R задано некоторое множество Му на котором игра заканчивается. Как и в случае процесса преследования, мы связываем с дифференциальной игрой две различные задачи: а) Нашей целью является завершение игры, т. е. приведение точки z на множество Му при этом для осуществления этой цели в нашем распоряжении находится управление преследования и, так что в каждый момент времени t мы выбираем значение u(t) этого управления, используя функции z(s) и v(s) на отрезке t — 0^s^£. Таковы правила игры преследования. б) Нашей целью является предотвращение конца игры, т. е. предотвращение прихода точки z на множество М, при этом для осуществления этой цели в нашем распоряжении находится управление v убегания, так что в каждый момент времени t мы выбираем значение v(t) этого управления, используя функции z(s) и u(s) на отрезке t — Q^s^t. Таковы правила игры убегания. 3. Первый подход к задаче преследования. Занявшись задачей преследования в конце 1962 года, я сразу постарался подойти к ней с позиции принципа максимума. Уравнения дифференциальной игры для этого было записано мною в форме 2 = 7^(2, u) + F2(z, v). (4) Такая форма записи дифференциального уравнения (3) всегда возможна, если исходной задачей является рассмотрение процесса преследования одного управляемого объекта другим управляемым объектом. Я ввел в рассмотрение функцию #(z,i|), u, у), положив #(z, i|), uy v) = H1(zy ф, и)+Н2(г, ф, v),
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 505 где п Нг(г, а|>, и)=2ч>Л(2, "). (5) 1 = 1 п Я,(*. Ч>, »)=2Ч>«Я(2. »)• (6) i = 1 Я предположил, что множество УИ, на котором заканчивается игра, представляет собой многообразие, расположенное в Rny функции F1(zJ и), F2(z,v)—также аналитические, а гами л ьтонову систему уравнений *' = Щ?Н(г* *' "• у)' *' = — 1£ГЯ(*' *' "' у) (7> дополнил двумя условиями—одно условие максимума, другое условие минимума, а именно: Нг(гч г|), ^ = ^(2, ф), (8) #2(z, t, и) = #»(*, Ф), (9) где Л^(г. г|)) есть максимум функции Нх(г, i|), u) по и, а W2(z, г|э) есть минимум функции #2(z, г|), v) по у. Условие (8) выражает тот факт, что параметр и стремится минимизировать время прихода фазовой точки на М, а условие (9)—тот факт, что параметр v стремится максимизировать это время. Последнее является лишь эвристическим соображением. Пусть теперь z0—произвольная точка многообразия Му а -ф0 — произвольная ориентированная гиперплоскость пространства Rn, касающаяся многообразия М в точке г0. Если v есть размерность многообразия М, то размерность многообразия всех ориентированных гиперплоскостей -ф0, касающихся многообразия М в данной точке z0, равна п—v—1. Таким образом, многообразие всех пар (z0, г|)0) имеет размерность п—1. Пусть теперь *(/), гНО (Ю) — решение системы дифференциальных уравнений (7), дополненной соотношениями (8), (9), удовлетворяющее начальным условиям z(0) = z0f t|>(0) = 1>o. (П) которое мы будем рассматривать только при /<0 (12) (см. п. 4 раздела 2). Из функций (10) мы будем интересоваться только первой, т. е. функцией z(t). Так как решение (10) зависит от начальных условий z0, г|)0, то функция z(t) также зависит от них, и мы можем положить Z(t) = (u(209 ф0, 0. (13)
506 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ где t^O. Многообразие всех троек (z0, \p0, t) обозначим через Sn\ Sn представляет собой /2-мерное многообразие, являющееся прямым произведением многообразия всех пар (z0, г|;0) на полупрямую t^O. Таким образом, многообразие Sn имеет границу, состоящую из всех троек вида (z0, г|)0, 0), а о представляет собой аналитическое отображение многообразия Sn в пространство Rn. В многообразии всех пар (z0, ty0) введем некоторые локальные координаты. Обозначим их через s2, . . ., sn. Положив s1 = t, мы введем в многообразии Sn локальные координаты точки s: s-=(s\ s2, ..., sn). (14) Из тех дополнительных условий, которые были наложены мною на дифференциальную игру (4), вытекало, что отображение со"1, обратное к отображению со, не будучи, вообще говоря, взаимно однозначным, является конечнозначным, так что где точки Si (г), s2(z), ..., sk(z) суть точки многообразия Sn. Оказалось, что скалярные функции s\(z)y sl(z), . .., s\(z), или, что то же самое, t1(z), t2(z), ..., tk(z) являются корнями некоторого аналитического трансцендентного уравнения. Уравнение это можно записать в виде Ф(*. «) = 0, (15) так что функции t1(z), ..., tk(z) являются корнями этого уравнения. Будем считать, что t1(z) есть наименьший по модулю не положительный корень уравнения (15). Обозначим через u{z) то значение управления и, которое соответствует точке s1(z) многообразия Sn. Оказывается, что это управление дает наиболее выгодный способ преследования. Теперь дифференциальное уравнение, определяющее наиболее выгодное в смысле преследования движение точки z в пространстве Rny есть z = F(z, и (г), v(t)), (16) где v(t) — управление убегания, становящееся известным по мере роста t. Это правило верно, однако, только в случае, если t1(z) есть простой корень уравнения (15). Для кратного корня потребовалось более сложное рассмотрение. Было установлено, что приведенный в п. 5 раздела 1 пример преследования, который я позже стал называть контрольным, удовлетворяет всем тем требованиям, которые были наложены на рассматриваемую дифференциальную игру (4), так что задача преследования была для этого примера решена и были найдены, в частности, условия (11) в разделе 1, обеспечивающие окончание игры при любом исходном ее состоянии.
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 507 В конце 70-х годов мы вместе с Е. Ф. Мищенко применили построенную мною теорию к линейной дифференциальной игре, удовлетворяющей всем тем условиям, которые были наложены на игру (4). Полученный нами результат впервые наводил на мысль об условии (12) раздела 4, достаточном для завершения игры преследования. Таким сложным обходным путем пришли мы к решению линейной дифференциальной игры преследования, изложенному в разделе 4. На этом длинном и трудном пути не было почти никаких озарений, т. е. возникающих внезапно догадок. Все давалось чрезвычайно трудно. Еще более трудным был путь к решению задачи убегания даже для линейной дифференциальной игры. Этот путь мы проделали почти до конца вместе с Е. Ф. Мищенко. Все наши попытки связать игру убегания с игрой преследования оказались бесплодными. Обе эти задачи пришлось рассматривать совершенно независимо одну от другой. 4. Линейные дифференциальные игры Сравнительно конкретные результаты удается получить только для линейных дифференциальных игр. Изложению этих результатов посвящается настоящий раздел. 1. Линейная дифференциальная игра. Определение. Фазовое пространство R линейной игры мы будем считать евклидовым векторным пространством размерности п. Уравнение игры имеет вид г- Cz — u-\v\ (1) здесь z£R, С есть линейное отображение пространства R в себя, а управления и и v являются векторами пространства R. Эти векторы, однако, не произвольны, а удовлетворяют условиям и€Л f€Q, (2) где Р и Q суть выпуклые компактные подмножества пространства R (размерности множеств Р и Q произвольны). Как функции времени, управления и - u(t) и v v(t) являются измеримыми функциями /. Множество Му на котором игра заканчивается, мы будем считать векторным подпространством пространства R. Имеются результаты также и длн более общего случая, когда М есть произвольное выпуклое замкнутое подмножество пространства R. При обсуждении этого более общего случая указанная общность будет специально оговариваться. Ортогональное дополнение к М в пространстве R обозначим через L, а его размерность —v (dim L - v). Операцию ортогонального проектирования из пространства R на L обозначим через л. Так как С есть линейное отображение пространства R в себя, то £тС, где т—действительное число, есть линейное отображение про-
508 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ странства R на себя, а летС—линейное отображение пространства R на пространство L. Оба эти отображения аналитически зависят от действительного параметра т. Положим Рх=лехсР, Q^ne*cQ. (3) Множества Рх и QT являются выпуклыми компактными подмножествами пространства L, непрерывно зависящими от действительного параметра т. При помощи этих множеств в дальнейшем будут сформулированы условия положительного решения игры преследования и положительного решения игры убегания. 2. Операции над компактными выпуклыми подмножествами евклидова пространства Rn. Пусть А и В — два компактных выпуклых множества из I, а а и (3—действительные числа. Обозначим через аА -|- рй (4) совокупность всех векторов вида ах f Р#, где х£А, у£В. Очевидно, что множество (4) компактно и выпукло. Если одно из множеств А или В пусто, то и множество (4) пусто. Легко проверяется, что при неотрицательных а и р мы имеем дистрибутивность (а + р)Л = аЛ +рЛ. (5) Совокупность всех компактных выпуклых непустых множеств из L естественным образом составляет полное метрическое пространство Q. Таким образом, если ХХ^Х{%) есть компактное выпуклое множество из L, зависящее от действительного параметра т, иначе говоря, если X есть функция действительного параметра т со значениями в Q, то можно определить понятие измеримости этой функции и интеграл Лебега от нее: \x{x)dx (/x<g, (6) который также является элементом пространства Q. Будем считать, что при ti^t2 множество (6) состоит из нулевого элемента пространства L. Пусть А и В—два компактных выпуклых множества из L. Если существует такой вектор х произвольного евклидова пространства, что х |-ВсЛ, (7) то мы будем писать ВсЛ. (8)
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 509 Совокупность всех векторов ху удовлетворяющих условию (7), обозначим A-2LB (9) и будем называть геометрической разностью множеств А и В. Очевидно, что множество (9) компактно и выпукло; оно непусто тогда и только тогда, когда выполнено условие (8). 3. Игра преследования. Для игры (1) составим геометрическую разность Pi-*-Qr (Ю) Оказывается, что разность эта есть измеримая функция т, так что можно определить интеграл t \{PxJLQJd%. (11) о При / = 0 интеграл этот по условию состоит из вектора 0. Через / обозначим совокупность всех значений /, для которых (11) непусто. / состоит либо из числа 0, либо является отрезком 0</</0, либо совпадает с полупрямой 0</. Обозначим через Wt совокупность всех точек z£R, для которых имеет место включение t iu*cz$[(Px-*-Qx)dx, (12) о и через Т (z) — минимальное значение числа /, для которого имеет место включение (12). Очевидно, что W0 = M (13) и что Wt непусто для всех значений t£l. Имеет место следующая теорема о преследовании: Теорема 1. Если для начального значения z0 игры (1) определено число T(z0), mo игра преследования с начальным значением г0 может быть закончена за время, не превосходящее числа Т (z0). Эта теорема не вполне точна. В действительности за время /, не превосходящее числа Г(г0), точка z0 может быть приведена в положение z(t), отстоящее от М на расстояние, не большее чем число се, где с > 0 зависит от z0, а е > 0 — произвольно малое число, в зависимости от выбора которого мы ведем игру преследования. Чтобы дать указание на доказательство теоремы и на характер ее неточности, сформулируем основное свойстео функции Wt числа t. Пусть Zq^Wz и 0<е^т. Тогда для любого управления убе- гания v(t)y заданного на отрезке 0^/^е, можно найти такое
5Ю 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ управление преследования u(t), заданное на отрезке 0^£<е, что игра (1), в которой взяты указанные здесь управления u(t), v(t), переводит точку г0 за время е в точку z1=^z(e), принадлежащую множеству WX_B. Это свойство функции Wx будем называть свойством 9* (преследование). Свойство 9Ъ функции W (t) позволяет завершить игру преследования за время, не превосходящее Г(г0), используя в качестве информации управление v = v(s) с опережением, именно, на отрезке t^.s^t+ г, где е>0 произвольно мало. Использование информации с запаздыванием, например, значения функции v(s) на отрезке /—2e^s^/—е приводит к неточности попадания на М. Рассмотрим игру (1), финальное множество М для которой есть произвольное выпуклое замкнутое множество из R. Тогда существует и конструктивно описывается выпуклое замкнутое множество Мь зависящее от /, t^O, удовлетворяющее условию М0 = М и обладающее свойством 9*. При этом функция Mt является максимальной, обладающей этим свойством. Этот результат дает возможность доказать теорему, аналогичную теореме 1, но более сильную. Если для данного z£R существует такое т ^ 0, что г g Мт, то обозначим через Т (z) минимальное значение т, для которого это включение имеет место. Оказывается, что если для данного начального значения z0 число Т (z0) определено, то игра преследования с этим начальным значением может быть закончена за время, не превосходящее числа Т (г0). Следует отметить, что результат этот не дает полного решения задачи преследования. Именно, если для данного z0 число Т (г0) не определено, то может случиться, что игра преследования с начальным значением z0 все же может быть закончена за время, не превосходящее некоторого числа. Далее, если число Т (г0) определено, то оно может не давать наилучшей оценки для времени окончания игры преследования. Максимальная функция Mt была построена мною ([9—11]), но ее максимальность была отмечена Н. Красовским и А. Субботиным. Эти же авторы построили максимальную функцию Мь обладающую свойством 9* для нелинейной игры. 4. Игра убегания. Пусть L — некоторое двумерное векторное подпространство пространства L, взятого для игры (1). Обозначим через л операцию ортогонального проектирования из пространства R на L и положим Рх=ле*сРу Qx=n?cQ. (14) Тогда имеет место следующая теорема об убегании: Теорема 2. Допустим, что для игры (1) существует такое двумерное векторное подпространство L пространства L (см. п. 1), что выполнены следующие два условия:
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 511 а) Найдется такое действительное число \i > 1, что для всех достаточно малых положительных значений т выполнено включение (см. (14)) ^tcQt. (15) б) Не существует в плоскости L такой фиксированной пря- * мой L, чтобы для всех достаточно малых положительных значений т имело бы место включение &cZ. (16) Тогда для любого начального значения г0 игры, не принадлежащего М, можно так вести игру убегания, что точка z(t) никогда не достигнет пространства М (О ^ / < оо) и, кроме того, для расстояния точки г (/) до М имеет место оценка (18) (см. ниже). Для записи оценки (18) каждой точке z£R поставим в соответствие два неотрицательных числа: £(*). л W, где £(г) есть расстояние от точки г до М, а т] (г) — расстояние от г до L. Кажется вполне естественным, что при построении управления v(l) в момент времени /, нужного для доказательства теоремы 2, нет надобности использовать всю информацию, предусмотренную в п. 2 раздела 3, а достаточно знать лишь состояние игры z(t) в момент времени / и, быть может, еще управление u(t) также в момент времени /. В самом деле, знание того, что происходило до момента времени /, вряд ли может быть нужно, а важно лишь состояние в данный момент /. Самым естественным кажется использование некоторой функции, аналогичной функции Ляпунова. Проще всего было бы использовать в качестве такой функции функцию (£(z))2 и выбрать управление v(t) таким способом, чтобы производная этой функции в силу уравнения (1) была положительна, однако этот путь не удается. Была попытка использовать в качестве функции, аналогичной функции Ляпунова, функцию Т (г), но это также не удалось. После многочисленных неудачных попыток решить задачу убегания мне пришла в голову мысль о том, что расстояние l(z(/)) накапливается постепенно, с течением времени. Таким образом, и отгонять точку z (t) от множества М следует также постепенно, учитывая процесс накопления. Отсюда возникла мысль, что исходя из точки г0 следует построить управление v(t) сразу на некотором отрезке О^/^G, где G — некоторое положительное число, с тем, чтобы на этом отрезке времени постепенно отжимать точку *(/) от множества М. Именно так было построено специальное Управление v(t) убегания на отрезке времени О^^^б, причем
512 35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ управление это зависит от начальной точки z0, а также управления u(t). Зависимость управления v (t) от управления и (f) такова, что в момент времени t управление v(t) определяется управлением u(s)y заданным на отрезке 0^s<^. Так было построено специальное управление v(t) убегания и получена оценка l(z(t))^ctk, 0<*<9. (17) Здесь 0 и с—положительные числа, а к—натуральное число, причем все три числа зависят лишь от самой игры, а не от ее хода. Для того чтобы из оценки (17) получить нижеследующую оценку (18), следует разбить отрезок О</<0 на две части. На первом участке этого разбиения точка z(t) не может сильно приблизиться к М, потому в начальный момент она находится на положительном расстоянии от него; на второй части отрезка оценка (18) получается из оценки (17). Окончательная оценка дается формулой l(z(t))>c(l(z0))*/(l+r\(z(t)))* при £(z0)<e = ce*f (18) 1(г(в))>г. (19) Процесс игры убегания можно описать следующим образом: Обозначим через S совокупность всех точек z из R, для которых £^е, а через S' — совокупность точек г, для которых £=е. Если начальное состояние игры z0 принадлежит цилиндру S, то мы сразу же включаем специальное управление убегания на период времени 0 ^ t <! 0, в конце которого z (0) лежит вне цилиндра S (см. (19)), причем на отрезке 0<^^G выполнено неравенство (18). Если в начальный момент времени t = 0 или в какой-либо промежуточный момент времени t точка z(t) находится вне цилиндра S, то мы выбираем управление убегания v (t) произвольно и ждем того момента времени t0, в который точка z(t0) окажется на поверхности S', и, приняв точку z(t0) за начальную для отрезка времени t0 ^ / <! t0 -f 0, включаем на этот период времени специальное управление убегания. Тогда в силу (18) на этом отрезке времени имеет место неравенство l(t) > се*/( 1 + Л (0)*. 'о < t < U + в, (20) а в конце его точка оказывается вне цилиндра S, и рассмотрение игры возобновляется. Таким образом, на протяжении всей игры для точки z (t) всегда выполнено одно из неравенств (18), (20), или £(0^8- Если при конструировании специального управления убегания v(t) использовать управление u(t) с запаздыванием, а именно для вычисления значения v(t) употреблять функцию u(s), известную на отрезке —6^s^/ — б, где 0<6<^/(1 + г]0)<, (21)
35. ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 513 причем Ci > 0, / — натуральное число, то оценки (18), (20) сохраняются. Таким образом, в игре убегания можно использовать запаздывающую информацию. Первоначально теорема 2 об убегании была доказана в нашей совместной с Е. Ф. Мищенко работе [12], причем вместо условий а) и б) предполагались выполненными более сильные и более громоздко сформулированные условия. Пример. В евклидовом пространстве Е размерности v^2 рассмотрим движение двух точек х и у, где х—«преследователь», а у — убегающий объект. Процесс преследования заканчивается тогда, когда х = у. Движения точек х и у задаются уравнениями хш +a1x{k~1)+ ... + ak_1x+akx=u, yw+biyu-i)+ ...+bl_1y+bly = v. Здесь x{i) и yU) суть производные порядка i по времени t от векторов х и у\ ah i = l, ..., k\ by, /=1, .... /, суть линейные отображения пространства Е в себя, г и и v—управляющие векторы, принадлежащие пространству Е и удовлетворяющие условиям: u£P, v£Q, где Р и Q — выпуклые компактные подмножества пространства Еу имеющие размерность v. Будем говорить, что точка у имеет маневренное превосходство над точкой х, если выполнено одно из двух условий: 1) l<k\ * 2) при l=^k существует такое число |х>1, что jxPczQ. Оказывается, что если убегающий*объект у имеет маневренное превосходство над преследователем х, то этот процесс преследования удовлетворяет условиям а) и б), так что если в начальный момент точки х0 и у0 не совпадают, то процесс убегания продолжается неограниченно. В случае если маневренное превосходство имеет преследователь х, то, применяя теорему 1, мы сможем в фазовом пространстве этой игры обнаружить открытое множество начальных состояний, исходя из которых игра всегда заканчивается. Расчет этого примера провел А. Мезенцев. ЛИТЕРАТУРА 1. Болтянский В. Г., Гамкрелидзе Р. В., Понтрягин Л. С. К теории оптимальных процессов.— Докл. АН СССР, 1956, т. 110, № 1, с. 7—10. 2. Гамкрелидзе Р. В. К теории оптимальных процессов в линейных системах.—Докл. АН СССР, 1967, т. 116, № 1, с. 9—11. 3. Болтянский В. Г. Принцип максимума в теории оптимальных процессов.—Докл. АН СССР, 1958, т. 119, № б, с. 1070 — 1073. 4. Б лисе Г. А. Лекции по вариационному исчислению. М.: Изд-во иностр. лит., 1950. 5. McShane E. J. On multipliers for Lagrang problems.— Amer. J. Math., 1939, vol. 61, p. 809—819.
514 35, ОПТИМАЛЬНЫЕ ПРОЦЕССЫ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ 6. БлагодатскихВ. И. Некоторые результаты по теории дифференциаль ных включений: (Обзор). — In: Summer School on ordinary differentia equations. Brno, 1975, p. 29 —67. 7. Филиппов А. Ф. О некоторых вопросах теории оптимального регулирования.— Вестн. МГУ. Сер. 1. Математика, механика, 1959, № 2, с. 25—32. 8. БлагодатскихВ. И. Достаточные условия оптимальности для дифференциальных включений.— Изв. АН СССР. Сер. мат., 1974, т. 38, № 3, с. 615 — 624. 9. Понтрягин Л. С. Линейные дифференциальные игры. I.-—Докл. АН СССР, 1967, т. 174, № 6, с. 1278—1281. 10. Понтрягин Л. С. Линейные дифференциальные игры. II.— Докл. АН СССР, 1967, т. 175, № 4, с. 764 — 767. 11. Понтрягин Л. С. Линейные дифференциальные игры преследования.— Мат. сб., 1980, т. 112, вып. 3, с. 307—330. 12. ПонтрягинЛ. С, Мищенко Е. Ф. Задача об убегании одного управляемого объекта от другого.—Докл. АН СССР, 1969, т. 189, № 4, с. 721—723.
36 НЕКОТОРЫЕ ВОПРОСЫ ТЕОРИИ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ С МАЛЫМ ПАРАМЕТРОМ*) Совместно с Е. Ф. Мищенко 1. Введение К числу важных областей применения теории обыкновенных дифференциальных уравнений относится радиотехника. Система уравнений, описывающих работу любого радиотехнического прибора, всегда составляется на основе некоторой идеализации прибора. Радиотехнический прибор собирается из ряда деталей: электронных ламп, транзисторов, конденсаторов, сопротивлений, источников тока. Физические величины, характеризующие эти детали, как то: числовая величина емкости конденсатора, числовая величина индуктивности и т. д., называются параметрами прибора. Кроме деталей, предусмотренных конструкцией прибора, в него, как правило, входят «паразитные» детали; им соответствуют «паразитные», обычно малые, параметры. Таковы внутриламповые емкости, индуктивности коротких соединяющих проводов и т. п. При идеализации естественно пренебречь малыми паразитными параметрами. Обнаружилось, однако, что такое пренебрежение в ряде случаев дает не только неточное, но даже качественно неправильное описание работы прибора. Если составить систему дифференциальных уравнений с учетом малых паразитных параметров, то может случиться, что они входят коэффициентами при высших производных, так что, считая эти параметры равными нулю, мы получаем систему уравнений более низкого порядка, притом зачастую неразрешимую относительно оставшихся высших производных. Именно при этих обстоятельствах пренебрежение малыми паразитными параметрами может привести к неполному описанию физического явления. В серии наших работ [1—7], относящихся к 1955—1960 годам, мы рассматривали довольно общую систему дифференциальных уравнений с малыми параметрами при высших производных, которая в ряде важных случаев дала правильное объяснение работы соответствующего прибора, невозможное при пренебрежении малыми параметрами. Рассмотрение этой системы привело нас к постановке и решению некоторых новых задач, представляющих и чисто математический интерес. При этом в самом же начале мы обнаружили, что методы, разработанные ранее в этой ») Тр. МИАН.—1985.—Т. 169.— С. 99—118.
516 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ области другими авторами (см. [8—11]), не пригодны для решения этих задач, так как эти методы не охватывают и не объясняют наиболее интересных и тонких асимптотических явлений, которые связаны с переходными процессами. Пусть х = (х1, ..., хк), у = (у1, ..., у1), k+ l= n,— неизвестные вектор-функции времени t и ex=f(x, у), y = g(x9 у) (1.1) — система уравнений, управляющая их изменением, где е—малый положительный параметр. Говоря, что параметр е мал, мы имеем в виду приближенное изучение решений системы уравнений (1.1) с отбрасыванием величин той или иной степени малости относительно е. Пусть *=Ф(', е), y = $(t, e) (2.1) — некоторое решение системы (1.1). Можно поставить вопрос: стремится ли решение (2.1) к некоторому пределу при е-^0, т. е. может ли оно быть записано в виде x=<p1(t) + bi<P(t, е), #=яМ*) + Д1Ф('. е)> (ЗЛ) где функции Ai<p(^, е) и Д^^, е) стремятся к нулю при е —> 0. Возможно, что это происходит лишь на некотором интервале изменения времени t\ не исключено также, что это имеет место лишь для одной из функций ф(/, е) или ty(t, e). Если хотя бы одна из функций Ai<p(^, e) и Aii|)(/, e) стремится к нулю при е —> 0, то можно выяснить порядок величины этой функции относительно е, например может оказаться, что A^ff, 8)-е2/зф2(/) + А2ф(/, е), где А2ф(^, е) стремится к нулю уже быстрее, чем в*/», например, как е In е, и тогда ф(/, е) записывается в виде ф(*. е) = ф1(0 + е2/зф2(0 + е1пефз(0Н-АзФ(г, е), где функция А3ф(^, е) стремится к нулю уже быстрее, чем elne. Таким образом, речь будет идти об асимптотическом разложении решения (2.1) в ряд и о вычислении нескольких членов этого ряда. Может случиться, что на разных участках изменения времени t имеют место различные разложения. Особенный интерес может представлять нахождение периодических решений системы (1.1) и изучение их асимптотических разложений. Переменные х= (х1, ..., xk) и у = (у1, ..., у1) в системе уравнений (1.1) не равноправны: вектор v фазовой скорости в пространстве Rn(x9 у) распадается на две составляющие: о= ("7/(*>#)> g(x, У)),
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 517 причем вторая из них g(x, у) не зависит от е, а первая z~lf(x, у) стремится к бесконечности при е--0, если только /(х, у)фО. На основании этого переменный вектор х мы называем быстрым, а переменный вектор у—медленным. Наш основной подход к системе (1.1) заключается в том, что сперва изучается поведение быстрого вектора при постоянном значении медленного вектора. Таким образом, первоначально рассматривается система ei=/(*. У), (4.1) в которой вектор у есть постоянный параметр. Мы будем предполагать, что каждое интересующее нас решение системы (4.1) при /—>оо стремится к некоторому стационарному решению, и будем рассматривать лишь те случаи, когда этими стационарными решениями являются либо предельные циклы, либо положения равновесия. Естественно считать, что время, необходимое для того, чтобы решение системы (4.1) достаточно приблизилось к стационарному решению, стремится к нулю вместе с е, и поэтому в качестве приближенных решений системы (4.1) следует рассматривать стационарные решения. Если перейти к изучению решений системы (1.1), то естественно ожидать, что за время приближения решения системы (4.1) к стационарному решению переменные у успеют измениться мало, и потому нам нужно изучить поведение решений системы y = g(x. у), (5.1) в то время как переменные х в ней описывают стационарное решение системы (4.1). Таковы интуитивные соображения, указывающие путь отыскания приближенных решений системы (1.1). Уточним их. Пусть *=ф(*, У, е) (6.1) — некоторое стационарное решение системы (4.1), которое мы будем считать экспоненциально устойчивым. Решение это зависит от векторного пераметра у, и в некоторой области D изменения параметра у оно сохраняет свою экспоненциальную устойчивость. В силу сделанного предположения решение (6.1) есть либо положение равновесия, либо периодическое движение. Подставляя решение (6.1) в систему (5.1), мы получаем для переменных у систему y = g(<P(t, У* е), у). (7.1) Последняя уже не содержит неизвестных функций х, и нужно найти ее решение, хотя бы приближенное, отличающееся от точного на величину, которая стремится к нулю вместе с е. Пусть У==-*('. е) (8.1)
518 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ — такое решение системы (7.1). Подставляя величину у из формулы (8.1) в правую часть решения (6.1), мы получаем ■ * = Ф(*. Ф(*. е), 8), (9.1) и можно ожидать, что совокупность формул (9.1) и (8.1) дает нам приближенное решение системы (1.1). Вся описанная операция осуществима до тех пор, пока решение (8.1) при изменении t остается внутри области D. При приближении точки i|)(f, e) к границе области D стационарное решение (6.1) перестает существовать или, во всяком случае, теряет свою экспоненциальную устойчивость. Наступает переходный процесс, требующий особого, более тщательного изучения; в результате этого переходного процесса вновь возникает решение типа (9.1), (8.1), в основе которого лежит уже другое стационарное решение типа (6.1). В настоящем обзоре мы дадим изложение основных результатов, относящихся к системе (1.1), которые получены нами и некоторыми нашими учениками. В частности, мы особо остановимся на асимптотическом вычислении релаксационных колебаний — периодических решений системы (1.1), траектории которых содержат участки медленных изменений фазовых переменных и участки быстрых движений. Для релаксационных колебаний переходный процесс, о котором мы упоминали выше, является типичным периодически повторяющимся явлением. Мы начнем с двумерного случая k=-l= 1. Геометрически фазовая картина здесь сравнительно проста, однако получение полных асимптотических разложений решений на переходных участках требует довольно громоздких расчетов. Эти полные разложения к настоящему времени получены и исследование двумерного случая можно считать завершенным. 2. Системы второго порядка. Релаксационные колебания Простейшей классической моделью системы, в которой происходят релаксационные колебания, является уравнение Ван-дер-Поля 5~ Ч1-*)-£ + * = 0 (1.2) с большим параметром Я>0. Это уравнение описывает, при некоторой естественной идеализации, работу лампового генератора на триоде; величина Я > 0 характеризует параметры схемы (см., например, [12]). Известно, что при любом Я>0 уравнение (1.2) имеет в фазовой плоскости единственный устойчивый предельный цикл, соответствующий периодическим решениям (автоколебаниям), причем при малых К автоколебания в уравнении Ван-дер-Поля близки к простым гармоническим колебаниям, но по мере роста величины Я эти колебания все больше отличаются от гармонических и при больших значениях Я становятся релак-
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 5!9 сационными. Проще всего можно наблюдать это явление, если привести уравнение Ван-дер-Поля к виду (1.1). Для этого введем новую вспомогательную переменную у, новое время t и новый параметр е по формулам X О тогда уравнение (1.2) перейдет в систему гх = у—х*/3 + ху у =—х, (2.2) где е—малый положительный параметр. Системой уравнений быстрых движений для нее будет уравнение ех = у—х*/3 + х9 (3.2) и множеством его стационарных решений, которое в этом случае состоит лишь из положений равновесия, будет кривая Г, выделяемая в плоскости (ху у) уравнением у—х*/3 + х = 0. (4.2) При е=-0 система уравнений (2.2) становится вырожденной: у—х*/3 + х=09 у = —х, (5.2) и все ее траектории лежат на кубической параболе (4.2). Если говорить лишь о полных траекториях, то их, очевидно, всего Рис. 14 Рис. 15 пять (рис.14): (— оо, SJ, (+оо, S2), (О, Sx), (О, S2) и точка 0; направление движения по каждой из этих траекторий при возрастании t указано стрелками. Существенным обстоятельством является тот факт, что фазовая точка вырожденной системы (5.2), начав движение из некоторой точки Р0, лежащей, например, на ветви (—оо, Sx) кривой Г, за конечное время достигает точки Sx.
520 36- ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ Однако из точки Sx не выходит ни одна траектория системы (5.2), и поэтому из рассмотрения только вырожденной системы невозможно сделать какое-либо заключение о дальнейшем движении. С другой стороны, легко непосредственно построить векторное поле фазовых скоростей первоначальной невырожденной системы (2.2). Изф его анализа следует (рис. 15), что траектория системы (2.2), начинающаяся в произвольной точке Q0, не лежащей на кривой Г, сначала быстро входит в малую окрестность ветви (—оо, S±) (или ветви (+оо, S2)), а затем при всех значениях времени проходит вблизи контура Z0 = P2S1P1S2, состоящего из горизонтальных отрезков S^^ S2P2 и дуг P2Sly P±S2 кривой Г. Поэтому естественно ожидать, что вблизи контура Z0 существует замкнутая траектория Ze невырожденной системы, переходящая при е->0 в Z0. Для строгого доказательства этого факта можно, например, построить кольцеобразную р-окрестность контура Z0, причем р —* 0 при е —> О, границу которой все траектории системы (2.2) пересекают строго снаружи внутрь. Сам контур Z0 естественно считать траекторией разрывного периодического решения вырожденной системы (5.2), соответствующей системе Ван- цер-Поля (2.2). Как видно из уравнений (2.2), движение по участкам траектории Ze, расположенным вблизи дуг P2SX и PxS2, происходит с конечной скоростью. Участки же, расположенные вблизи отрезков S1P1 и S2P2, проходятся почти мгновенно, так как вдоль каждого из этих участков горизонтальная составляющая вектора фазовой скорости имеет величину порядка 1/е. Таким образом, при движении по траектории Z8 сравнительно медленные, плавные изменения состояния системы (2.2) чередуются с весьма быстрыми, скачкообразными. Периодические движения такого типа и называют релаксационными колебаниями. Такова, в общих чертах, фазовая картина уравнения Ван- дер-Поля. Ее специфической особенностью является наличие быстрых и медленных движений и переходов от одних к другим — срывов (вблизи точек Sx и S2, которые поэтому естественно назвать точками срыва) и падений (вблизи точек Р1 и Р2, которые естественно назвать точками падения). Эта специфика в полной мере присуща и фазовой картине произвольной системы второго порядка: ex = f(x, y)y y = g(x9 у). (6.2) Имея в виду дать полное асимптотическое разложение решений системы (6.2), мы будем предполагать, что функции f(x, у) и g(xy у) бесконечно дифференцируемы в области их определения. При е = 0 (6.2) становится вырожденной: f(x, y) = 0, y = g(x, у), (7.2)
36. ДИФФЕРЕНЦИАЛЬНЫЙ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ сгм и все ее траектории лежат на кривой Г, выделяемой уравнением /(*» #Н 0. Кривая Г, вообще говоря, распадается на устойчивые участки, для которых выполняется неравенство |/(*. У)<0, (8.2) и неустойчивые участки, для которых выполняется неравенство gj/(*. У)>0- (9-2) Устойчивые и неустойчивые участки разделяются между собой точками, в которых Txf(x, y) = 0; в дальнейшем мы будем для простоты считать, что такие точки расположены на кривой Г изолированно. Например, кривая Г для уравнения Ван-дер-Поля состоит из двух устойчивых участков (—оо, Sx), (+°°, S2) и одного неустойчивого (SiOS2), а разделяющих точек две: S± и S2. Рассмотрим теперь уравнение быстрых движений для системы (6.2): а*-/(х, у), (10.2) где у считается параметром. При фиксированном значении этого параметра, например при у = у19 уравнение (10.2) среди своих решений может иметь положение равновесия; пусть х = хх—одно из них. Тогда, очевидно, f (х1У уг)=^0, и, следовательно, точка (х1У уг) принадлежит кривой Г. Наоборот, если (хи ух)—какая- либо точка кривой Г, то х1 является положением равновесия уравнения (10.2) при значении у=^уг. Таким образом, кривая Г состоит из всех положений равновесия всех систем уравнений (10.2). При этом устойчивые участки кривой Г состоят из устойчивых положений равновесия, а неустойчивые из неустойчивых. Разделяющие же точки, т. е. точки кривой Г, в которых выполняется соотношение (9.2), являются, вообще говоря, точками слияния устойчивого и неустойчивого положений равновесия. Используя эти соображения, можно дать наглядное описание фазового движения в силу системы (6.2) из любой начальной точки. В каждой точке фазовой плоскости уравнения (6.2) определен вектор фазовой скорости Пусть Q(xly уг) — начальная точка движения. Если оно находится на конечном расстоянии от кривой Г, то вектор v в этой точке имеет большую первую компоненту при конечной второй компоненте. Следовательно, произойдет быстрое, почти мгновенное
522 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ изменение координаты х при почти неизменном значении координаты у> т. е. движение по траектории системы (6.2) будет близким к движению по прямой у = ух в силу уравнения ex = f(x, уг). Характер этого движения не изменится до тех пор, пока компоненты вектора v не станут сравнимыми по величине, т. е. пока фазовая точка не приблизится к кривой Г на расстояние порядка е, или пока точка х, перемещающаяся по закону ex = f(x, уг), не приблизится к одному из своих устойчивых положений равновесия (или не уйдет в бесконечность). После этого движение по траектории системы (6.2) будет происходить медленно, вблизи устойчивого участка кривой Г, сопровождая движущееся по кривой Г устойчивое положение равновесия уравнения (10.2) при меняющейся в силу вырожденной системы уравнений (7.2) переменной у. Если на рассматриваемом устойчивом участке кривой Г нет положений равновесия системы (6.2), то может случиться, что величина у достигнет некоторого бифуркационного значения у=--у2- При этом значении у сопровождаемое устойчивое положение равновесия исчезает, а фазовая точка системы (6.2) быстро (почти по прямой у = у2) устремится в окрестность другого устойчивого положения равновесия уравнения &x = f(x,y2) или, если такового нет, уйдет в бесконечность и т. д. Может случиться, что в результате последовательного чередования медленных и быстрых движений фазовая траектория системы (6.2) замкнется. Изложенные выше интуитивные соображения подсказывают, что этого можно ожидать, если на плоскости (х, у) существует замкнутый контур Z0 = (S1Ply PxS2y ... ..., SmPm, PmSx), где P^S2, ..., PJSX—устойчивые дуги кривой Г, a S^!, ..., SmPm—прямолинейные отрезки, паралельные оси х, причем дополнительно выполнены соотношения £(5,)*0, sing[/;(S/)/;(S/)er(S/)]=l, /=1, .... m.(11.2) Контур Z0 естественно считать траекторией разрывного периодического решения вырожденной системы (7.2); естественно также назвать эту траекторию устойчивой. Точки Su ..., Sm называются точками срыва, а точки Р19 ..., Рм—точками падения. Дуги PXS2, ..., i^Si проходятся представляющей точкой системы (7.2) за конечное время, отрезки же SXP1% ..., SmPm—мгновенно. Первое из соотношений (11.2) означает некоторую общность положения всех точек срыва на контуре Z0, второе соотношение обеспечивает нужное направление движения по кривой Г. Асимптотическое вычисление любой траектории системы (6.2), проходящей вблизи устойчивого участка кривой Г, является довольно простой задачей. Вдоль такого участка величина у может быть принята за независимую переменную, а величина х как
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 523 функция этой переменной будет меняться в силу уравнения гр^ЩЖ. (12.2) Легко доказать, что для произвольного целого числа N > О можно построить такую частичную сумму ряда х = х0(у)+ 2 г'%ЛУ)> а<У<Ь, (13.2) (коэффициенты которого рекуррентно определяются подстановкой ряда (13.2) в уравнение (12.2)), которая дает равномерное асимптотическое приближение этого участка с точностью до величин порядка 0(8^). Однако элементарные вычисления показывают, что при приближении траектории к точке срыва все коэффициенты ряда (13.2) неограниченно возрастают, а в самой этой точке теряют смысл. Поэтому окрестность точки срыва требует более тщательного рассмотрения. Для простоты мы ограничимся случаем точки срыва общего положения, т. е. точки S, для которой выполняются соотношения /;(S)=Of /;(S)^0. (14.2) Пусть S—такая точка. В ее окрестности можно ввести специальные локальные координаты с началом в S, в которых система уравнений (6.2) запишется в виде *~Шу л = Р(Е.л>. или в виде одного уравнения ^ = *-tf^. (15.2) где y(£> л) = a (g, т])Р(£, т|); -у (0* 0) > 0- Для этого уравнения строится единственное формальное решение в виде ряда со T|=-S,+ 2e"*l„U), -<7<i<0, (16.2) П- 1 коэффициенты которого вполне определенным образом находятся рекуррентным способом из вспомогательных дифференциальных уравнений, получающихся в результате подстановки ряда (16.2) в уравнение (15.2). Далее, после линейной подстановки ^=\ш, т) = ^2у, где \iz = = Y(0> О)8» вместо (15.2) рассматривается уравнение dv у (ри, [i2v) (17 2) cto Y(0, 0)(u2 + v)'
524 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ Для этого уравнения строится единственное формальное решение в виде ряда 00 o = Hg(«)'+ 2 |*Х(«). —оо <ы< оо, (18.2) /1= 1 коэффициенты которого вполне определенным образом находятся рекуррентным способом из вспомогательных дифференциальных уравнений, получающихся в результате подстановки ряда (18.2) в уравнение (15.2). В формуле (18.2) через Hg(u) обозначена некоторая специальная функция, а именно решение уравнения -£ = -ii-, (19-2) выделяемое условием lim [v (и) Н- и2] = 0. Наконец, возвращаясь к переменным £, г), на участке 0 < <£<д получим уравнение *L - из vfcq) (20 2^ dl'V 7(0, 0)(Е« + т|)" K^'L) Для этого уравнения строится единственное формальное решение в виде ряда 00 4 = Zl*^(Ui4), 0<£<д, (21.2) /1 = 2 V ** J где Я„(£> 1п(1/|л))—многочлен степени л(п—2) от In(1/|л) с коэффициентами, зависящими от £ и рекуррентно определяющимися из вспомогательных уравнений, которые получаются в результате подстановки ряда (21.2) в уравнение (20.2); п(п) — целочисленная функция целого аргумента п, определенная по формуле гп1 j 0, если пф\ (mod3), *И-к1+\ 1. если ii-l (mod3). (22*2) Внимательное изучение асимптотики коэффициентов формальных рядов (16.2), (18.2) и (21.2) показывает, что они не дают на указанных участках их определения асимптотических приближений истинных решений соответствующих уравнений. Однако доказано, что для произвольного числа Л > 0 можно подобрать такие числа \х > О, К2 > 0 и такие частичные суммы рядов (16.2), (18.2) и (21.2), которые согласуются между собой с нужной точностью в точках стыка и дают равномерные асимптотические приближения траектории системы (6.2) в окрестности точки срыва с точностью 0(еЛ) соответственно на отрезках
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 525 Доказательство этого факта не просто, требует довольно тщательного изучения асимптотики коэффициентов рядов (16.2), (18.2) и (21.2) и проведено в работах [13, 14]. Там же даны и асимптотические разложения для участка траектории быстрого движения и участка падения системы (6.2). Доказано, что для произвольного числа Л > 0 можно указать такую частичную сумму ряда вида y-yo+^L^Qnix, ln-M, oc<x<p; (23.2) л=2 (где Qn (х, 1п(1/е)) — многочлен от 1п(1/е) степени л (л — 2) с коэффициентами, зависящими от х и рекуррентно определяющимися из вспомогательных уравнений, которые получаются в результате подстановки ряда (23.2) в уравнение *У - с 8 (*. У) dx f (x, у) которая дает равномерное асимптотическое приближение участка быстрого движения с точностью до 0(еЛ). В окрестности точки падения Р вместо системы (6.2) рассматривается эквивалентное ей в некоторых специальных координатах z, w уравнение dz _h (z, w) dw w (24.2) и вполне определенным образом строится его формальное решение в виде ряда г = г0И + Хе"/3Я„(и>, In-M, 1<м;<оо, (25.2) л = 2 где Rn — многочлены от 1п(1/е) степени п(п — 2) с коэффициентами, зависящими от w. Кроме того, строится ряд 00 * = Хо(у)+ 2еяЯ,0/). «<</<£, (26.2) аналогичный ряду (13.2), но соответствующий той компоненте кривой Г, на которой лежит точка Р. Тогда для произвольного числа Л > 0 можно указать такое разбиение участка падения на два куска и такие частичные суммы рядов (25.2) и (26.2), которые дают равномерные асимптотические приближения участка падения с точностью до 0(еЛ). На базе всех этих результатов можно до конца решить вопрос об асимптотическом вычислении двумерных релаксационных колебаний. Именно, доказана следующая теорема (см. [13, 14]):
526 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ II. Пусть вырожденная система уравнений (7.2) имеет устойчивую замкнутую траекторию Z0. Тогда при любом достаточно малом е > О существует, причем только одна, замкнутая траектория Z8 невырожденной системы (6.2), переходящая в Z0 при е —> 0. Для периода Те соответствующего ей релаксационного колебания имеет место следующее асимптотическое разложение: 00 Fe = 7\, + I>/sr„(li4); (27.2) здесь Т0—период колебания Z0, Тп(\п(1/г))—многочлены степени л (п — 2) от In (1/е) с числовыми коэффициентами, которые вычисляются как вполне определенные функционалы от функций /(*> У), ё(*, У) и кривой Z0. Заметим, что в случае уравнения Ван-дер-Поля первые четыре слагаемых в формуле (27.2) дают в сумме период релаксационного колебания в уравнении (1.2) с точностью до величин порядка Я-5/^: 7,х=1,613706Я+7,01432и-1/._|1^1_ — 1,323297а,-1 Ь О (Я-5/»), (28.2) что, с некоторыми поправками, соответствует результату, впервые полученному А. А. Дородницыным [15]. 3. Системы произвольного порядка. Релаксационные колебания Рассмотрим теперь систему уравнений произвольного порядка п: ex = f(x, у), y = g(x, у), (1.3) где х = (х\ ...,**), У=(у\ . ..,#')> ft 4/ = л. В этом разделе мы будем предполагать, что правые части системы (1.3) имеют в области их определения непрерывные частные производные по совокупности всех своих аргументов до третьего порядка включительно. Наряду с системой (1.3) выпишем соответствующую ей вырожденную систему уравнений /(*,#) = 0, y = g{x,y), (2.3) получающуюся из (1.3) при 8 = 0, и систему уравнений быстрых движений ex = f(x, у), (3.3) в которой вектор у считается параметром.
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 527 Сделаем сначала несколько замечаний о решениях вырожденной системы (2.3). Очевидно, их траектории лежат на /-мерной поверхности Г, выделяемой в пространстве Rn уравнением /(*, У) = 0. (4.3) Совокупность точек поверхности Г, в которых все собственные значения матрицы df дх (5.3) имеют отрицательные действительные части, назовем устойчивой областью поверхности Г; будем обозначать ее через Г_. Совокупность тех точек поверхности Г, в которых выполняется соотношение Н£ -О, (6.3) обозначим через Г0; Г0 является (/—1)-мерной поверхностью и, вообще говоря, разбивает поверхность Г на две или несколько частей. Система уравнений (3.3) быстрых движений при фиксированном значении векторного параметра у, например при y = ylf среди своих решений может иметь положения равновесия: пусть хх — одно из них. Тогда точка (л^, уг) по самому определению положения равновесия принадлежит поверхности Г. Наоборот, если точка (хг, ух)— какая-либо точка поверхности Г, то х1 является положением равновесия системы (3.3), в которую вместо у подставлено значение уг. Таким образом, мы имеем взаимно однозначное соответствие между всеми точками поверхности Г и всеми положениями равновесия семейства уравнений (3.3) при всевозможных значениях вектора у. При этом в силу данного выше определения устойчивая область Г_ поверхности Г состоит из экспоненциально устойчивых положений равновесия. Чтобы решать вырожденную систему уравнений (2.3), достаточно, очевидно, сначала разрешить соотношение (4.3) относительно переменных х: *=Ф(у), (7.3) а затем решать следующую нормальную систему уравнений /-го порядка: y=g(<P(y)*y)- _ (8_3) Пусть (л:, у) — некоторая точка поверхности Г, так что х=у(у), и пусть y = ty(t) — решение системы (8.3), удовлетворяющее начальному условию ]/--i|?(/). Тогда ясно, что система функций *=Ф(Ф(0). y = V(t) (9.3)
528 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ будет решением вырожденной системы (2.3) с начальным значением (х, у) при t = t. Такой способ построения решения (9.3), очевидно, возможен для всех тех значений t^l, для которых соотношение f{x, * ((f) = О допускает однозначное разрешение относительно переменных х — = ср(а|)(£)), т. е. до того момента t=t0, когда И/(ф(Ч>(0Ы>(0)1 дх det (10.3) впервые обратится в нуль, т. е. до того момента t=-t0, когда траектория решения (9.3) впервые попадет на поверхность Г0. В общем случае никаких выводов о дальнейшем поведении решения (9.3) из рассмотрения только самой вырожденной системы (2.3) сделать нельзя. Однако если наряду с системой (2.3) привлечь к рассмотрению и полную систему (1.3) и рассматривать первую как результат вырождения системы (1.3), а ее траектории — как пределы траекторий системы (1.3) при е-* 0, то в ряде случаев можно доопределить решение (9.3) и при t > t0. Остановимся на одном из таких случаев. Пусть при /^/<?0 траектория решения (9.3) принадлежит поверхности Г_, а при t = t0 попадает в точку S(x0, у0)€Г0. Так как определитель (10.3) в этой точке обращается в нуль, то по крайней мере одно из собственных значений матрицы |д/(*о> Уо)\\ дх || равно нулю; предположим, что в нуль обращается только одно собственное значение, а все остальные k—1 собственных значений имеют отрицательные действительные части. Тогда (при некоторых дополнительных предположениях общего характера) у системы (3.3) при у = у0 имеется лишь одна траектория, входящая в положение равновесия х0 при t —* — оо. Мы предполагаем, что при движении по этой траектории при возрастании времени в подпространстве Х^оУ состоящем из всех пар (х> у0), представляющая точка попадает в новое устойчивое положение равновесия хг системы (3.3). Решение вырожденной системы (2.3) с начальными значениями t=t0, x = Xi, У^=У1 пусть будет * = <Pi(0> y = <bi(t); (Н.З) оно определено на некотором полуинтервале t0^t<.t. Будем считать, что решения (9.3) и (11.3) составляют разрывное решение вырожденной системы (2.3), определенное на полуинтервале t^t< t. При t=r t0 это решение претерпевает скачок, при котором переменное у меняется непрерывно, а скачку подвергается
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С. МАЛЫМ ПАРАМЕТРОМ 529 лишь переменное х. Здесь скачкообразный характер решения вырожденной системы и вид скачка выводятся из рассмотрения невырожденной системы (1.3). Такой подход к построению разрывного решения вырожденной системы впервые был дан в работе [16], где рассматривалась работа мультивибратора. Подчеркнем, что характерным для этого подхода является рассмотрение системы (2.3) как получающейся в результате вырождения системы (1.3). Ранее при составлении уравнений мультивибратора и аналогичных уравнений характер скачка выявлялся путем привлечения физических соображений [7J. Таким образом, при нашем подходе траекторию разрывного решения вырожденной системы (2.3) можно представлять себе как непрерывную кривую в фазовом пространстве R" (х, у), состоящую из чередующихся участков двух типов: а) участков, лежащих на поверхности Г и проходимых за конечное время; такие участки назовем устойчивыми, если они принадлежат области Г_; б) участков, лежащих в подпространствах Xkyj где у фиксировано, и проходимых представляющей точкой мгновенно. Если из чередующихся участков этих типов получается замкнутая траектория Z0, то будем говорить, что вырожденная система (2.3) имеет разрывное периодическое решение. Это периодическое решение назовем устойчивым, если его участки медленного движения устойчивы. Точки типа описанной выше точки S (х0У у0) назовем точками срыва, а точки типа Р (х1У у0)—точками падения. Для иллюстрации опишем картину появления устойчивого разрывного периодического решения на примере уравнения мультивибратора. При подходящем выборе переменных систему уравнений мультивибратора можно записать в виде гх1 - —а(у1 — у2)-\-ср(х1) — х21 гх* a(y1—yi) + V(xi)—x\ (12.3) У1 х\ у*~ х\ где а>0—константа, а ф (и)—функция вида, изображенного на рис. 16. Здесь &- 2, / 2 и, таким образом, фазовое пространство Х2у быстрых движений есть плоскость. В зависимости от различных значений у в фазовой плоскости Ху имеется либо три положения равновесия—два устойчивых узла и седло (рис. 17), либо только одно положение равновесия — устойчивый узел (рис. 18), либо два положения равновесия, из которых одно есть устойчивый узел, а второе — вырожденное положение равновесия, так называемый седлоузел (рис. 19). Стационарным решением системы быстрых движений всегда является один из устойчивых узлов. Пусть при некотором у имеются два устойчивых узла а и с и седло b и пусть стационарное решение системы быстрых движений есть х = а. При соответствующем этому стационарному решению изменении y=^ty(t) фазовая картина плоскости Ху меняется так,
530 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ f(U) что устойчивый узел а сближается с седлом Ь, и, когда фазовая точка попадает на границу области Г, узел а сливается с седлом Ьу образуя седлоузел. В этот момент происходит скачок вдоль решения, выходящего из седлоузла в узел с, так что стационарное решение перескакивает в узел с. После этого перескока при соответствующем изменении у седло- узел расщепляется в седло и узел, так что вновь имеет место начальная картина, но стационарное решение находится уже в узле с. При дальнейшем изменении у, соответствующем этому стационарному ^ решению, происходит сближение узла с с и седлом Ъ вплоть до их слияния в седлоузел. Этот процесс повторяется неограниченное число раз, так что получается разрывное решение с бесконечным числом скачков. Таких решений имеется бесконечное множество, и среди них есть одно периодическое, которое экспоненциально устойчиво и к которому асимптотически приближаются все решения вырожденной системы. Если некоторому состоянию у соответствует картина, изображенная на рис. 5, то стационарное решение системы быстрых движений есть единственный устойчивый узел фазовой плоскости Х2у, и при соответствующем изменении у обязательно возникает картина, изображенная на рис. 19, а затем и на рис. 17# Рис. 16 Рис. 17 Рис. 18 Рис, 19 Таким образом, все разрывные решения вырожденной системы асимптотически приближаются к ее единственному периодическому разрывному решению. Вернемся к общей системе уравнений (1.3) и предположим, что соответствующая ей вырожденная система (2.3) имеет разрывное периодическое решение с траекторией Z0. Относительно самого характера этого решения сделаем следующие общие и естественные предположения.
36. ДИФФЕРЕНЦИАЛЬНЫЕ VPARHFHHH С МАЛЫМ ПАРАМЕТРОМ 531 а) Цикл Z0 устойчив и асимптотически устойчив', последнее означает, что однократный обход по траекториям системы (2.3), близким к Z0, порождает сжатое в направлении Z0 отображение ф в себя любой достаточно малой (/—1)-мерной площадки, лежащей на поверхности Г и трансверсальной с Z0. Дополнительно предполагается, что сжато также отображение, получающееся из ф линеаризацией. б) Точки срыва, расположенные на цикле Z0, имеют «общий тип», т. е. для любой такой точки все собственные значения матрицы (5.3) имеют отрицательные действительные части, кроме одного, которое обращается в нуль. Тогда (при выполнении еще некоторых дополнительных условий невырожденности) справедлива следующая теорема: II. При любом достаточно малом е>0 существует замкнутая траектория Ze невырожденной системы (2.3), переходящая в Z0 при е - - 0. Для периода Т? соответствующего ей релаксационного колебания имеет место следующая асимптотическая формула: 7> 70 +Ле2/Ч 5е In 1/е4-0(е); (13.3) здесь Т0 — период разрывного колебания Z0, а коэффициенты А и В зависят от значений функций f(x, у) и g(x, у) и их нескольких производных в точках срыва и падения, лежащих на цикле Z0, а также от решения системы уравнений в вариациях, соответствующей вырожденной системе (2.3) и циклу Z0; эти коэффициенты эффективно вычисляются. Отметим,.что вопрос о единственности Ze до сих пор не решен. Доказательство теоремы II вместе с выводом формулы (13.3) базируется на весьма кропотливом исследовании асимптотического поведения решений невырожденной системы (1.3) на его различных участках; наибольшие трудности в этом исследовании появляются в окрестности точек срыва; они преодолены в работе [2]. Характер этих трудностей виден уже и в двумерном случае (см. раздел 2), однако в многомерном случае обнаруживаются новые более сложные явления. Одно из них заключается в том, что быстрое движение по траектории решения системы (1.3), уже миновавшей точку срыва S (*0, у0), происходит в подпространстве ^о+Ао» получающемся из подпространства Хуо смещением на некоторый /-мерный вектор Д0-- ае*>'*-' fee In (1/8)-! 0(e). (14.3) Этот вектор, который называется вектором смещения, соответствующим точке срыва S (х0, у0), вычислен в работе [2]. Его наличие делает существенно отличным по сравнению с двумерным случаем и все движение по траектории Ze. Так, например, оказывается, что вдоль участков медленного движения траектория £е идет не на расстоянии порядка 8 от соответствующих участков
532 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ кривой Z0, а на расстоянии порядка as2/* +|3sln(l/e). Поэтому для вычисления периода Ze с точностью до 0(e) требуется провести вычисление этого уклонения с той же точностью. Такое вычисление проведено в работе [5]. Остановимся на нем несколько подробнее. Без ограничения общности можно считать, что траектория Z0 разрывного периодического решения вырожденной системы (2.3) состоит из четырех участков: u1 = P2S1, u2 = P±S2—участков медленных движений, и vl = S1P1, v2 = S2P2—участков быстрых движений, так что Sx, S2—точки срыва, Р1Э Р2—точки падения. Обозначим через §1 и SJ касательные пространства к поверхности Г0 в точках S± и S2, а через Р\ и Р2— касательные пространства к поверхности Г в точках Р1 и Р3. Мы будем считать их векторными пространствами с нулями соответственно в точках Si, S2, Р1э Р2. Пусть t1— время перехода по участку иг. Для каждой точки SX + ^SU принадлежащей к Г0, найдется точка Р2 + 6Р2 на поверхности Г, переходящая в нее за время tt по некоторой траектории u1(8S1) системы (2.3), близкой к траектории иг. Таким образом, соответствие S1 + 6S1-^Pa + fiPa дает нам отображение (/—1)-мерной окрестности V (SJ точки S± в /-мерную окрестность W (Р2) точки Р2. Линеаризируя это отображение, получим отображение Ml векторного пространства S{ в Р2. Аналогично можно определить линейное отображение М2\ векторного пространства S2 в Р?. Перенесем теперь параллельно пространства SJ|, S2, PJ, Р2 так, чтобы их нули перешли в нуль пространства Rn, и затем спроектируем в направлении Хк в пространство Y1. Тогда пространства Р\ и Р2 отобразятся на У7, пространства SJ и S2)—на его (/—1)-мерные подпространства §! и S2, а отображения М{ и Ml перейдут в отображении Мх и М2 пространств S± и S2 в УК Отображение М1У заданное только на §1Э продолжим в отображение Nt всего пространства Y1 на себя, положив N1g(S1) = g(P2). Аналогично определим отображение Nt. Очевидно, отображения N± и N2 эффективно вычисляются с помощью решения системы уравнений в вариациях порядка /. Оказывается, что медленные движения по траектории Ze невырожденной системы (1.3) проходят с точностью до 0(e) не вблизи участков их и и2 цикла Z0, а вблизи участков u1(8S1) и a2(6S2), которые определяются следующим образом. Величины 8S± и 8S2 с точностью до малых второго порядка можно рассматривать как векторы пространств SI и SJ. Их образы в S± и S2 обозначим через 6t и б2. Тогда можно показать, что 6Х и б2 находятся из уравнений: вх = LXL2 (6Х + А2) + LA. б2 = ^i (в> + Да) + z-2^i. (15.3)
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 533 Здесь через Ах и Д2 мы обозначили векторы смещения, соответствующие точкам срыва S± и S2, а через Ьг и L2—линейные отображения пространства Y1 на пространства Sx и S2, опреде- лейные соответственно формулами Liy=N?y-(1w.N?y)g(Sl), L2y = N^y-(2w.N^y)g(S2y, {[0'*> в формулах (16.3) гт и 2w—должным образом пронормированные ковариантные векторы, определяющие подпространства Sx и§2 в Y1. 4. Усреднение быстрых периодических движений В этом разделе будет рассмотрен случай, когда система уравнений быстрых движений (4.1) имеет своим стационарным решением экспоненциально устойчивый предельный цикл x=--q>(t, у, е) (1.4) с периодом Т (у). Введем в системе (4.1) новое независимое переменное т, положив t = ет; тогда эта система перепишется в виде ■йИ(*.0) (2-4) и уже "не будет содержать параметра е. Стационарное решение системы (2.4), соответствующее решению (1.4), имеет вид х=ч(ЦгТ(у), у), (3.4) где ф — периодическая функция первого аргумента с периодом единица. Период решения (3.4) равен гТ (у). Решение (3.4) определено при y^D. Следует отметить, что запись решения (3.4) не определена однозначно: в самом деле, точка <р (0, */), лежащая на периодическом решении (3.4), представляет собой начало отсчета на соответствующем предельном цикле; эта точка может быть смещена по-разному для разных у. Таким образом, наряду со стационарным решением (3.4) система (2.4) имеет стационарное решение x^y(t/zT(y) + v(y, у), (4.4) вполне равноправное с решением (3.4). Уравнение (7.1) перепишется теперь в виде y-g(4(t/*T(y), у), у). (5.4) Правая часть этого уравнения периодически зависит от t с периодом гТ (у). Метод приближенного решения этого уравнения в случае, когда период гТ (у) не зависит от у, дан в книге [18]. Можно доказать, что этот метод распространяется и на случай переменного периода гТ (у). Этот метод заключается в следующем:
534 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ правая часть уравнения (5.4) осредняется по периоду, именно строится функция гТ(у) _ °(yy-ww) I g{v{wM'y)>y)dt> уже не зависящая от е и t, и рассматривается вспомогательная автономная система У = 0(у). (6.4) Оказывается, что точное решение У = М) (7-4) этого уравнения является приближенным решением (8.1) для уравнения (5.4), причем приближение имеет место с точностью до величин порядка е. Далее, оказывается, что приближенное решение системы (4.1) с точностью до величин порядка 8 может быть записано в виде t о где w(t) — некоторая функция. Таким образом, подбирая должным образом функцию v (у) в решении (4.4), мы можем записать приближенное решение системы (4.1) в виде * = <р(/, ф(/), е), y = ip(t), (9.4) исходя из стационарного решения (4.4). В работе [19] доказана следующая теорема: III. В случае, когда система (6.4) имеет экспоненциально устойчивое положение равновесия у = у0, система (4.1) имеет экспоненциально устойчивое периодическое решение, которое с точностью до величин порядка г может быть записано в виде x=-~~y(t/zT(y0), у0), у = у0. (10.4) Период этого решения отличается от е>Т(у0) на величину порядка е2. В работе [20] аналогичный результат распространен на более сложный случай. Непосредственно к изложенным результатам примыкает вопрос о том, каковы будут решения системы (4.1) в случае, если система (6.4) имеет экспоненциально устойчивое периодическое решение */-г|)(0- Можно ожидать, что тогда система (4.1) имеет, вообще говоря, квазипериодическое решение с двумя независимыми периодами,
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 535 и решение это расположено на поверхности тора, уравнение которого приближенно, с точностью до величин порядка 8, имеет вид * = 4>(s, г|?((Т)), */ = 1|>(а), где s и а—циклические координаты на торе. Насколько нам известно, доказательства такой теоремы до сих пор нет. 5. О приближении медленных периодических движений Остановимся кратко на случае, когда вырожденная система уравнений /(*, У) = 0, y = g(x,y) (1.5) имеет периодическое решение с периодом Т, траектория которого L0 целиком лежит на поверхности Г. Предположим, что матрица |<Э//дл;|| на этой траектории является грубой, т.е. не имеет чисто мнимых собственных значений. Пусть, кроме того, цикл L0 является невырожденным (что означает, что только один мультипликатор соответствующей ему системы уравнений в вариациях равен 1). Тогда имеет место следующая теорема: IV. Существует такое р > 0, что при всех достаточно малых е>0 система уравнений (1.1) имеет в ^-окрестности кривой L0 ровно одну замкнутую траекторию Le с периодом Те, переходящую в L0 при е—> 0. Если траектория L0 является грубой (т.е. соответствующие ей мультипликаторы не равны единице по модулю), то Le—тоже грубая. Если же L0—устойчивая грубая траектория, то Le—тоже устойчивая и грубая. Эта теорема была доказана в работе [21], а в более ограничительных предположениях—в работе [22]. Заметим, что факт существования периодического решения L8 вблизи решения L0 отнюдь не является тривиальным. В самом деле, можно привести пример (см. [21]) системы вида (1.1), для которой соответствующая вырожденная система имеет невырожденное периодическое решение и det|d//d.x;|| ^=0, но которая не при всяком е имеет периодическое решение. Такой является система двух уравнений с периодической правой частью ex=—y + q>(t), гу = х, (2.5) где ф(/)—достаточно гладкая периодическая функция с периодом 00 2л и такая, что в ее разложении в ряд Фурье ф(/)= 2 CL,fiint П= — QO все апФ0. (Систему (2.5) можно рассматривать как автономную систему вида (1.1), определенную на цилиндре.) Покажем, что при е= 1/т эта система не имеет периодических решений. Пусть (x(t), у (/)) — периодическое решение системы (2.5)
536 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ с периодом со. Разложим x(t) в ряд Фурье: x(t)--= 2 bneini П—-Ю и подставим это разложение в непосредственно вытекающее из (2.5) равенство ейя + х= еф(^). Получим 2 (— е2л2со2 + 1) bnein(0t= 2 tenaneini. П— — QO П— — CD Так как агфО и так как, вследствие единственности разложения в ряд Фурье, член isa1exp(it) справа должен сократиться с некоторым членом слева, то найдется целое k такое, что &со=1. Пусть теперь е= 1/т. Тогда множитель при exp (imt со/) = exp (imt) в левом ряду есть (—e2m2/Ao2+ l)bm = О, тогда как в правый ряд exp (imt) входит с отличным от нуля коэффициентом, что невозможно ввиду единственности разложения в ряд Фурье. В этом примере матрица ||д//<3*||, хотя и невырожденная, но не грубая. Вопрос об асимптотическом представлении траектории Le и ее периода Те в работах [21] и [22] не обсуждался. Однако он решается несравненно проще, чем аналогичные вопросы для циклов Ze и их периодов Те, рассмотренных в разделах 2 и 3. Так, легко доказать, что для периода Те колебания Ьг имеет место асимптотическое представление Однако для явного вычисления коэффициентов qk этого представления нужно располагать в явном виде матрицантом системы уравнений в вариациях для периодического решения L0 вырожденной системы (1.5) и выполнить некоторые интегрирования величин, выражающихся с участием этого матрицанта. 6. О переходном процессе при потере устойчивости фокуса В этом разделе мы остановимся на одном интересном и неожиданном явлении, которое было обнаружено при рассмотрении переходного процесса в случае, когда устойчивое положение равновесия системы уравнений быстрых движений при некотором значении параметра у теряет свою устойчивость. В разделах 2 и 3 мы рассмотрели случаи, когда стационарное решение системы уравнений быстрых движений (4.1) является экспоненциально устойчивым положением равновесия, а при некотором бифуркационном значении у = у* это положение равновесия исчезает, сливаясь с другим, неустойчивым положением равновесия, но у системы (4.1) при у = у* имеется другое экспоненциально устойчивое положение равновесия. В рассмотренном случае переходный процесс состоит в том, что траектория исход-
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 537 ной системы уравнений (1.1) за малое время перемещается вблизи подпространства Xky* из окрестности исчезнувшего положения равновесия в окрестность другого устойчивого положения равновесия. Естественно поставить следующий вопрос: пусть траектория системы (1.1) сопровождает экспоненциально устойчивое положение равновесия системы (4.1); как пойдет эта траектория, если при переходе через бифуркационное значение у ^ у* сопровождаемое положение равновесия превращается в неустойчивое? Естественно было бы ожидать, что такая траектория должна быстро (за время, малое вместе с е) уйти от положения равновесия, ставшего неустойчивым. Однако в работе [23], выполненной под руководством Л. С. Понтрягина, было обнаружено новое явление. Оказалось, что возможна ситуация, когда траектория системы (1.1), достаточно долго сопровождающая устойчивое положение равновесия системы (2.1), продолжает сопровождать его в течение некоторого конечного времени и после потери им устойчивости и лишь затем быстро уходит от него. В работе [23] построен конкретный пример системы дифференциальных уравнений типа (1.1), в которой реализуется это явление. Это система третьего порядка: ex1 -(*/ + YP2(*> У))(х1-у)-х2у (1 6) гх2 = (х1 —у) 4 (у 4 YP2 (х, у)) х\ где y = const, p2 (jc, у) — (х1—у)2 4 {х2)2. Соответствующая системе (1.6) система уравнений быстрых движений будет exi = (y + yp2)(xl-y)-x\ ^2 = (х1—у) + (у \-уР2)х2. Если y > О» то непосредственно проверяется, что при всяком фиксированном значении параметра у < 0 система (2.6) имеет в своей фазовой плоскости (л:1, х2) единственное положение равновесия (у, 0), являющееся устойчивым грубым фокусом, и единственный неустойчивый предельный цикл (х*-у)*±(х*)*=.-у/у; (3.6) при переходе через бифуркационное значение параметра у^-0 предельный цикл сливается с фокусом, который становится неустойчивым сложным кратности единица. При всяком фиксированном значении параметра у > 0 система (2.6) имеет в своей фазовой плоскости единственное положение равновесия (у, 0), являющееся неустойчивым грубым фокусом. Если константа у < 0, то при всяком у < 0 система (2.6) имеет устойчивый фокус (у, 0), при // = 0 происходит рождение устойчивого предельного цикла, при всяком у > 0 система (2.6) имеет неустойчивый фокус (у, 0) и устойчивый предельный цикл (3.6).
538 36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ Рассмотрим траекторию L системы (1.6), исходящую в начальный момент времени t0 = —1 — б из начальной точки (4, *о, Уо) такой, что у0 =— 1 — б, где б > 0—малое, не зависящее от е число, а точка (xj, х\) лежит внутри предельного цикла (3.6) при у = у0 на конечном расстоянии от него, если у > О, или на конечном расстоянии от устойчивого фокуса (у0, 0), если у < 0. Очевидно, что компонента у этой траектории будет y = t, t^t0. За малое (вместе с е) время траектория L попадет в е-окрест- ность множества Г, которое в нашем случае представляет собой прямую хг = у, х2 = 0; поэтому будут выполнены соотношения x1(-l) = — U 0(e), х«(-1)=0(е), у(_1) = _1; (4.6) другими словами, отвечающая моменту времени t — —1 точка траектории L лежит в плоскости у==—1 в е-окрестности устойчивого фокуса системы (2.6) при у = —1. I Положим £ = (£\ £2), 11 = х1—у> 12 = х2; тогда Щ при каждом фиксированном у означает расстояние от фазовой точки (х1, х2) системы (2.6) до ее положения равновесия — фокуса (у, 0). Соотношения (4.6) принимают вид R (-1)|| = 0(e). (5.6) Оказывается, что справедлива следующая теорема: V. Если траектория L удовлетворяет условию (5.6), то справедливы следующие оценки: || l (t) || = О (е) для всех — 1 < / < 1 — e5As || l (t) I = О fl/"e) для всех 1 —еб/12 < t < 1, (6.6) сК1 = ||£(1)||<СКё, ||£(1+ ае In (1/8))||>/е, где с, С, К—положительные константы, не зависящие от е. Другими словами, если траектория L удовлетворяет условию (5.6), то фазовая точка системы (1.6) сопровождает перемещающееся в пространстве R3 положение равновесия системы (2.6) на всем отрезке времени —l^^^l и лишь затем быстро уходит от него. Доказательство теоремы V проведено нестандартным методом и потребовало выхода в пространство комплексного времени. Отметим, что обнаруженное здесь явление может иметь место только при k^2, в то время как рассмотренные в разделах 2 и 3 переходные процессы полностью проявляются уже при k= 1. ЛИТЕРАТУРА 1. Мищенко Е. Ф., Понтрягин Л. С. Периодические решения систем дифференциальных уравнений, близких к разрывным.—Докл. АН СССР, 1955, т. 102, № 5, с. 889—891. 2. Понтрягин Л. С. Асимптотическое поведение решений систем дифференциальных уравнений с малым параметром при высших производных.— Изв. АН СССР. Сер. мат., 1957, т. 21, № 5, с. 605—626.
36. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ С МАЛЫМ ПАРАМЕТРОМ 539 3. Понтрягин Л. С. Системы обыкновенных дифференциальных уравнений с малыми параметрами при высших производных.— В кн.: Тр. 3-го Всесоюз. мат. съезда. М.: Изд-во АН СССР, 1958, т. 3, с. 570—577. 4. Мищенко Е. Ф. Асимптотическая теория релаксационных колебаний, описываемых системами второго порядка.— Мат. сб., 1958, т. 44, с. 457— 480. 5. Мищенко Е. Ф. Асимптотическое вычисление периодических решений систем дифференциальных уравнений, содержащих малые параметры при производных.—Изв. АН СССР. Сер. мат., 1957, т. 21, № 5, с. 627—654. 6. Мищенко Е. Ф., Понтрягин Л. С. Вывод некоторых асимптотических оценок для решений дифференциальных уравнений с малым параметром при производных.— Изв. АН СССР. Сер. мат., 1959, т. 23, № 5, с. 643—660. 7. М i s h с h e n k о Е. F., PontryaginL. S. Differential equations with a small parameter attached to the higher derivative and some problems in the theory of oscillation.— IEEE Trans. Circuit Theorv, 1960, vol. 7, N 4, p. 527—586. 8. T и x о н о в А. Н. О зависимости решений дифференциальных уравнений от малого параметра.—Мат. сб., 1948, т. 22, № 2, с. 193—204. 9. Тихонов А. Н. Системы дифференциальных уравнений, содержащие малые параметры при производных.— Мат. сб., 1952, т. 31, № 3, с. 575— 586. 10. Васильева А. Б. О дифференциальных уравнениях, содержащих малые параметры при производных.— Мат. сб., 1952, т. 31, № 3, с. 587—644. П.Васильева А. Б. Асимптотика решений некоторых задач для обыкновенных нелинейных дифференциальных уравнений с малым параметром при старших производных.— Успехи мат. наук, 1963, т. 18, № 3. с. 15—86. 12. Van der Pol В. On relaxation oscillations.— Philos. Mag. Ser. 7, 1926, vol. 2, № 11, p. 978—992. 13. Мищенко Е. Ф., Розов Н. X. Дифференциальные уравнения с малым параметром и релаксационные колебания. М.: Наука, 1975. 248 с. 14. Розов Н. X. Асимптотическая теория двумерных релаксационных автоколебательных систем: Автореф. дис. . . . д-ра физ.-мат. наук. Математический ин-т им. В. А. Стеклова АН СССР. М.: МИАН СССР, 1983. 16 с. 15. Д о р о д н и ц ы н А. А. Асимптотическое решение уравнения Ван-дер- Поля.— Прикл. математика и механика, 1947, т. 11, № 3, с. 313—328. 16. Железцов Н. А., Родыгин Л. В. К теории симметричного мультивибратора.—Докл. АН СССР, 1951, т. 81, № 3, с. 391—392. 17. Андронов А. А., Витт А. А. Разрывные периодические решения и теория мультивибратора Абрагама и Блоха.— Докл. АН СССР, 1930, № 8, с. 189—192. 18. Боголюбов Н. Н., Митропольский Ю. А. Асимптотические методы в теории нелинейных колебаний. 4-е изд. М.: Наука, 1974. 504 с. 19. Понтрягин Л. С, Родыгин Л. В. Приближенное решение одной системы обыкновенных дифференциальных уравнений с малым параметром при производных.—Докл. АН СССР, 1960, т. 131, № 2, с. 255—258. 20. Понтрягии Л. С, Родыгин Л. В. Периодическое решение одной системы обыкновенных дифференциальных уравнений с малым параметром при производных.—Докл. АН СССР, 1960, т. 132, № 3, с. 537—540. 21. Аносов Д. В. О предельных циклах систем дифференциальных уравнений с малым параметром при старших производных.— Мат. сб., 1960, т. 50, № 3, с. 299—334. 22. Флэтто Л., Левинсон Н. Периодические решения сингулярно возмущенных систем.— Математика, 1958, т. 2, № 2, с. 61—68. 23. Шишкова М. А. Рассмотрение одной системы дифференциальных уравнений с малым параметром при высших производных.— Докл. АН СССР, 1973, т. 209, № 3, с. 576—579.
37 ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ (АНАЛИТИЧЕСКАЯ ТЕОРИЯ)*) Совместно с А. С. Мищенко ГЛАВА 1 ПОСТАНОВКА ЗАДАЧИ 1) § 1. Дифференциальная игра Дифференциальная игра возникает при изучении процесса преследования одного управляемого объекта другим управляемым объектом. Для того чтобы иметь конкретный технический пример, представим себе, что один самолет преследует другой самолет. Целью первого самолета является догнать второй, целью второго— уйти от преследования. Каждый из пилотов выбирает управление, имея в виду свою цель, располагая информацией о ситуации. Информация состоит из двух существенно различных частей. Первая часть включает полное значение технических возможностей обоих самолетов. Вторая часть состоит из знания поведения обоих самолетов до настоящего момента. Никакие сведения о будущем поведении обоих самолетов использованы быть не могут. Это есть главная характеристика технической задачи. Математическую идеализацию мы должны дать. Займемся этой идеализацией. Прежде всего мы будем считать, что состояние управляемого объекта задается его фазовым вектором, который обозначим через х, а поведение управляемого объекта описывается уравнением * = /(*, и). (1) Здесь точка обозначает производную по времени [х = '£)у а и является управлением, т. е. некоторым вектором, который должен быть задан как функция времени t> u = u(t). Таким образом, уравнение (1) описывает не само движение, а возможности объекта, которые зависят от выбора управления *) Мат. сб.—1986.—Т. 13, № 2.—С. 131—158. J) Примечание Л. С. Понтрягина. В настоящей работе роль обоих авторов не вполне равноправна. В то время, как глава 1 является полностью совместной работой, вторая глава выполнена в основном А. С. Мищенко, который проделал все сложные громоздкие вычисления, приведенные в ней, использованные для доказательства основного результата работы.
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 54! u(t)> Обычно предполагается, что и (t) есть измеримая функция времени /. В процессе преследования участвуют два управляемых объекта. Управляемый объект, возможности которого описываются уравнением (1), будем считать преследующим объектом. Мы будем считать, что второй, убегающий объект определяется фазовым вектором у и его возможности описываются дифференциальным уравнением y = g(y> v). (2) Здесь v — управление убегающего объекта. Не входя в детали, мы можем считать, что процесс преследования заканчивается, когда выполнено некоторое соотношение Ф(*. У)=-0. (3) Для того чтобы упростить обозначения, мы вместо двух управляемых объектов х и у будем рассматривать дифференциальную игру, фазовый вектор которой есть z = (x, у), так что фазовое пространство дифференциальной игры состоит из векторов z, принадлежащих пространству R, которое представляет собой прямую сумму фазовых пространств обоих объектов х и у. Совокупность двух векторных уравнений (1) и (2) теперь можно записать в виде одного уравнения i = F(z, и, v), (4) где z есть фазовый вектор дифференциальной игры, принадлежащий фазовому пространству R, а и, v—два управления, и—управление преследования, a v—управление убегания. Соотношение (3) выделяет в пространстве R некоторое множество М, приход на которое вектора z означает окончание игры. Мы будем считать, что дифференциальная игра задана, если задано фазовое пространство R, уравнение (4) и множество в пространстве М, на котором игра заканчивается. Дифференциальную игру можно рассматривать с двух различных точек зрения. Первая. Мы можем отождествить себя с преследователем. В этом случае нашей целью является возможно быстрое окончание игры, которое мы должны осуществить, выбирая управление u{t) в каждый момент времени t, используя при этом знание функций z(s), u(s) и v (s) при s^/. Вторая. Мы можем отождествить себя с убегающим объектом. В этом случае целью является недопущение окончания игры, которое мы должны осуществить, выбирая управление v(t) в каждый момент времени t, используя знание функций z(s), u(s) и v (s) при s< /. Описанная здесь математическая задача является одной из возможных математических идеализации процесса преследования.
542 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Возможны, однако, и другие идеализации. Так, например, значения функций u(t), соответственно, v(t) можно строить из знания функций z(t) в момент времени /. Такая идеализация на первый взгляд кажется более естественной, так как весь процесс преследования должен зависеть от знания вектора z(t) в момент времени /, а знание предыдущего поведения кажется излишним. В действительности математическая идеализация, первоначально приведенная здесь, легче подвергается обработке. В настоящей работе мы будем рассматривать только процесс преследования, т. е. стоять на первой точке зрения. Сравнительно конкретные результаты удается получить лишь для линейных дифференциальных игр. § 2. Линейная дифференциальная игра Мы будем считать, что в линейной дифференциальной игре векторное пространство R является евклидовым, а дифференциальное уравнение (4) имеет вид z=Cz—и \-v, (5) где С представляет собой линейное преобразование векторного пространства R в себя или в координатной форме квадратную матрицу, а управления и и v представляют собой векторы пространства R, удовлетворяющие условиям и£Р, v£Q, (6) где Р, Q—компактные выпуклые подмножества пространства /?, размерности которых произвольны. Множество УИ, на котором заканчивается игра, представляет собой векторное подпространство пространства R, ортогональное дополнение к которому мы обозначим через L. § 3. Оценочная функция На первый взгляд кажется, что процесс решения игры преследования можно вести следующим образом. Обозначим через \{г) расстояние от точки z(t) до множества М. Будем стараться в каждый момент времени / выбрать управление u(t) таким образом, чтобы dt/dt имела максимальное отрицательное значение. Очень легко выясняется, что этот путь невозможен, так как производная d\ldt может быть положительной при любом выборе управления u(t). Таким образом, расстояние до конца игры приходится оценивать не функцией £ (г), а некоторой функцией Т (г), которая может быть сконструирована следующим образом. Для этого конструирования мы вводим некоторые операции над выпуклыми компактными множествами евклидового векторного
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 543 пространства, в нашем случае пространства L. Если X, Y—два компактных выпуклых множества пространства L, а а, |3—два действительных числа, то можно составить линейную комбинацию Z = aX + pr, (7) причем множество Z состоит из всех векторов z = ax+$y, (8) где *€*, У£У- (9) Пользуясь операцией (7) в совокупности компактных выпуклых подмножеств пространства L, можно ввести интегрирование. Именно, если X(t) есть компактное выпуклое подмножество пространства L, непрерывно зависящее от параметра t, to^t^t^ то можно определить интеграл tx \X{x)di. (10) 'о Если X, Y—два выпуклых компактных подмножества пространства L, то определяется геометрическая разность этих множеств Z^X^Y, (11) причем Z состоит из всех векторов г, удовлетворяющих условию z+YaX. (12) Таким образом, Z есть максимальное множество, удовлетворяющее условию Z+YcX. (13) Ясно, что формулы (7), (10), (11) определяют выпуклые множества. Сконструируем функцию Г (г) следующим образом. Пусть л есть операция ортогонального проектирования пространства R на его подпространство L. Так как С есть линейное отображение пространства R в себя, то пх = пехС (14) есть линейное отображение пространства R на пространство L. Отметим, что ^лт=^лтС. (15) Таким образом, определены компактные выпуклые подмножества Рх = пх(Р)\ Qx=MQ). (16)
544 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Составим теперь геометрическую разность SX = PX±QX. (17) Предполагаем, что эта разность непуста при всех достаточно малых неотрицательных значениях т и имеет размерность пространства L при достаточно малых значениях т >0. Составим интеграл (см. (10)) Wx=^S0da1 т>0. (18) о Множество Wx есть выпуклое множество, возрастающее с ростом т. Число Т (г) определим как минимальное положительное значение т, для которого выполнено включение nx(z)£Wx. (19) Если это включение выполнено хотя бы при одном значении т, то оценочная функция 7(г) = т определена для данного z, в противном случае она не определена. Равенство T(z) = 0 выполняется тогда и только тогда, когда z£M. Пусть u(t) и v(t) суть некоторые управления на отрезке 0^/^е и z(t) есть решение дифференциальной игры (5) при этих u(t) и v(t). Положим zt — z(e). В работе [3J управление u(t) на отрезке 0 ^ t ^ e выбирается таким образом, чтобы оценочная функция Т(гг) принимала бы наименьшее значение, и доказывается, что при этом выборе управления выполнено неравенство ТЫ^ТЫ-г. (20) Этот результат показывает, что дифференциальную игру можно вести шаг за шагом так, что на каждом шагу оценочная функция Т (г) убывает максимально возможным образом, причем на величину, не меньшую, чем е. Но при этом используется знание управления убегания v(t) с опережением на величину е. Это обстоятельство называется дискриминацией убегающего объекта и противоречит ранее сформулированному правилу. Такой подход к решению дифференциальной игры преследования естественно называть конечно-разностным. Он имеет тот недостаток, что управление u(t) на каждом шагу получается минимизацией некоторого функционала, что является малообозримой операцией, и, кроме того, имеет место дискриминация убегающего объекта. Попытки перейти к пределу при е, стремящемся к нулю, не привели к успеху. Наряду с оценочной функцией Т (г), построенной здесь, была построена в работе [3] другая, более совершенная оценочная функция при помощи так называемого альтернированного интеграла. Основные дефекты выбора управления при этом сохранились. В настоящей работе предлагается другой подход к решению диф-
37 ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 545 ференциальнои игры преследования, который естественно назвать дифференциальным, в отличие от описанного здесь конечно-разностного. Тот же подход годится к оценочной функции, строящейся при помощи альтернированного интеграла. § 4. Дифференциальный подход При дифференциальном подходе к дифференциальной игре на нее накладываются более жесткие ограничения, чем при конечно- разностном. В частности, на выпуклые множества Р и Q, так как при произвольных выпуклых множествах Р и Q дифференцирование возникающих функций, вообще говоря, невозможно. Прежде всего, мы будем искать оценочную функцию Т (г) как корень некоторой функции, зависящей от г. При этом будет использоваться опорная функция выпуклых множеств. Напомним определение опорной функции компактного выпуклого множества X, расположенного в пространстве L. А) Опорная функция с(Х, -ф), где ур—вектор пространства L, который, вообще говоря, произволен, но мы его будем считать единичным, определяется как максимум скалярного произведения с(Х, г|)) = Мах;(х, г|>). (21) Заметим, что если XcY, то имеет место неравенство с(Х, г|))<с(Г, ф). (22) Если начало координат 0 есть внутренняя точка выпуклого множества X, то имеет место неравенство с(Х, i|>)>0. (23) Если же начало координат 0 лежит вне множества X, то функция с (X, г|)) принимает как функция переменной г|) как положительные, так и отрицательные значения. Если начало координат О лежит на границе множества X, то имеет место неравенство с (X, г|)) ^ 0, причем значение 0 принимается при некотором значении г|). Те значения г|), для которых имеет место равенство с(Х, Ч>) = 0, (24) называются опорными к множеству X в точке 0. Все утверждения, высказанные в предложении А), известны из теории выпуклых множеств и легко проверяются. Б) Рассмотрим алгебраическую разность (см. (7)) Wx-nx(z). (25) Опорная функция c(Wx-zxx{z), ф) (26)
546 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ в силу предложения А) принимает как положительные, так и отрицательные значения, если точка nx(z) не принадлежит множеству Wx. Если точка лх(г) лежит внутри множества Wx, то опорная функция (26) принимает только положительные значения. Если точка nx(z) лежит на границе множества WX1 то функция (26) принимает значение 0. В дальнейшем мы будем считать, что граница множества Wx является аналитической поверхностью, и обозначим через —F(z, %) = Mmc(Wx—nx(z), <i|)). (27) Функция F(z, т) положительна, если точка nx(z) не принадлежит множеству Wx. Если точка ят(г) лежит внутри Wx, то функция F(z, т) отрицательна. Если точка nx(z) лежит на граница множества Wx, то F(z, т) = 0. Таким образом, значение оценочной функции Т (z) (см. (19)) определяется как минимальный неотрицательный корень уравнения F(zy т) = 0. (28) Отметим, что нулевой корень мы рассматривать не будем, так как при T(z) = 0 игра закончена. Обозначим через Ч>(*. т)> (29) то значение вектора т|?, где достигается минимум в формуле (27). Ясно, что если точка ят(г) не принадлежит множеству Wx или лежит в малой окрестности его границы, то значение (28) определяется как однозначная аналитическая функция аргументов гит. Обозначим через w(z, т) (30) точку границы множества Wx, на котором достигается максимум скалярного произведения (о;, i|)(z, r)). (31) Функция w(z, т) есть аналитическая функция аргументов гит. в той же области определения, где аналитична функция i|)(z, т), Гипотетическое включение лт (z) £ Wx наступает тогда, когда число т становится минимальным корнем уравнения (28), а включение наступает в точке nx(z) = w(z, т), х = Т(г). При этом значении т частная производная С (г, т) = -^(г, т)<0. (32) С) Допустим, что заданы управления u(t) и v(t). Пусть z(t) есть решение дифференциальной игры (5) при заданных управлениях.
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 547 Обозначим через T(t) = T(z(t)), (33) w(t) = w(z(t), т(0), (34) Ч>(/) = *(*('). *(<))• (35) Таким образом, мы имеем тождество по переменной t: F(z(t), т(/)) = 0. (36) Дифференцируя тождество (36) по переменной t, получаем . i£(*W. *(*))« X=-G(z(t), х(/))' (37> Из определений (29) и (30) вытекает, что F(2, т) = (ях(2)—ш(г, т), i|>(2, *))• (38) Тогда -^2 = (ят(г), ф(г, т)) — (-§^г, i|j(z, т)) + (лх(г) —ю(г, т), ^г). (39) Вектор -q-z есть производная функции оу(г, т) (при постоянном т) вдоль некоторого направления на границе множества WXJ а вектор г|)(г, т) ортогонален к этой поверхности. Поэтому следующее слагаемое обращается в нуль: [%'г, 4>(г, т)) = 0. (40) Поскольку F(z, т) = 0, то nT(z)=^w(z, т) и, значит, следующее слагаемое тоже обращается в нуль: (jb(z)-a»(z, т), %'г) = 0. (41) Таким образом, ^-2 = (ят(г), $ (г, T)) = (nx(Cz-u(t) + v(t)), $(г, т)). (42) Вычислим функцию G (2, т). Имеем G(z, т) = (щ(С2)—g, ф(г, т)) + (я.т(2)-И2, т). $)• (43) Второе слагаемое в формуле (43) обращается в нуль при F(z, т) = 0. Поэтому G(z, t) = (kt(Cz)-s(z, т), г|)(г, т)), (44) где в(г,,)в*£Д. (45)
548 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Таким образом, формула (37) принимает следующий вид: . _ (ят(С2-1/(0 + Р(0), 4>(z. *)) Т"" -^T(Cz)-s(z, т), г|)(г, т)) ' <4Ь) Поскольку w(z, т) есть граничная точка множества WXJ в которой г|)(г, т) есть опорный вектор множества Wx1 то s(z, т) есть граничная точка множества ST с тем же опорным вектором. Отметим, что знаменатель дроби (46) не зависит от управлений u(t) и v(t) и неотрицателен. Согласно определению (17) имеет место включение ST+QTczPT, (47) в частности, Sx+nx(v(t))czPT. (48) Это значит, что при заданном управлении v(t) всегда найдется такое управление u(t), что s(z, t) + nx(v(t)) = nx(u(t)). (49) При таком выборе управления u(t) имеем s(z, т) = ят(а(/))— — ttx(v(t)) и для значения т получаем . (ят(Сг-м(/) + р(0), 4>(г, т)) Т ' ~(лт(Сг-и(t) + v(t)),y(z9 т))~ 1в 1^ Таким образом, при любом заданном управлении v(t) можно выбрать управление u(t) так, что т = —1. Отсюда следует, что при других значениях управления u(t) производная т может оказаться и меньше, чем —1. Если знаменатель дроби (46) не равен нулю, то он положителен. Минимизируя значение т выбором управления u(t), мы можем получить неравенство т^ — 1. Для минимизации дроби (46) следует максимизировать член (nx(u(t)), г|?(г, т)). То значение и, которое дает максимум Мах(лт(и), г|?(2, т)), (51) и будем называть наилучшим управлением преследования и обозна чать через и (г, т). Будем предполагать, что множества Рт строго выпуклые и имеют гладкие границы при всех достаточно малых т > 0. Наилучшее управление преследования, определяемое условием (51), есть однозначная гладкая функция своих аргументов гит. Само определение наилучшего управления, данное здесь, не зависит от того, обращается знаменатель дроби (46) в нуль или нет. Аналогично введем понятие наилучшего управления убегания. Естественно считать, что управление v(t) является наилучшим,
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 549 если дробь (46) при знаменателе, отличном от нуля, достигает наибольшего возможного значения. Это происходит при условии, когда скалярное произведение (лт(и), г|)(г, т)) (52) достигает максимального значения. Наилучшее управление убегания тоже есть гладкая функция аргументов г и т, и мы ее будем обозначать через у (г, т). Итак, доказано, что при G (г, т)^=0 наилучшее управление u(t) = u(z (/), т(/)) дает нам значение т, меньшее или равное —1. Это значит, что оценочная функция T(z(t)) убывает не медленнее, чем растет время /. Дальнейшее рассмотрение должно быть сосредоточено на точках, где G (г, т) =-- 0. Сформулируем теперь ту задачу, которая подлежит решению. Рассматривается совместная система, состоящая из дифференциального уравнения z=-Cz—u(zy r)-\-v(t) (53) и конечного уравнения F(z, т) = 0. (54) Здесь функция и (г, т) задается формулой (51), a v(t) есть заданная кусочно-гладкая функция аргумента /, допускающая конечное число точек разрыва. Решением совместной системы (53), (54) будем называть совокупность функций z(t), т(/), удовлетворяющих следующим условиям: а) Функция z(t) есть непрерывная, кусочно-дифференцируемая функция; б) Функция x(t) есть дифференцируемая, за исключением конечного числа точек, функция; в) Функции z(t) и т(/) удовлетворяют уравнению (53) всюду, за исключением конечного числа точек; г) Значение т(/) есть минимальный положительный корень уравнения (54) при z = z(t). Решение системы (53), (54) ищется как функция времени t на отрезке /0^*^*i» c заданными начальными значениями z (*о)=- го> т(^о) — T(zQ). Конечное время tl определяется условием Т(г(Ъ)) = 0. Нами уже установлено, что если в точке (z0, т0) выполнено неравенство G (г0, т0) Ф0, то в окрестности этой точки существует гладкое решение z(t), т(/), удовлетворяющее системе (53), (54), причем т^—1. Таким образом, дальнейшее исследование посвящено нахождению решений вблизи точек (z0, т0), в которых 0(г0, т0) = 0. В настоящей работе доказана
550 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Теорема. Существует решение совместной системы (53), (54), удовлетворяющее условиям а), б), в), г), если выполнено ниже следующее ограничение (1), накладываемое на игру. При этом оказывается, что функция x(t) является монотонно убывающей, причем ее производная ■—■ во всех точках ее существования удов- летворяет неравенству dt ^ '* Условие 1. Поскольку выполнено включение (47), то всегда имеет место неравенство (s(z, т), i|)(z, т))<(ят(и(г, т)—v(t)), i|)(z, т)). (55) Это значит, что функция cp(z, т, /) = (ят(и(г, т)—v(t))—s(z, т), г|;(г, т)) как функция трех переменных z, т и ?, неотрицательна. Условие 1 заключается в том, что при ф (z, т, t) — 0 выполнено неравенство g-(z, т, *)>0. (56) Это условие есть ограничение, наложенное на игру, а не на выбор управления v(t), которое в нем участвует. § 5* План доказательства теоремы Перед нами стоит задача рассмотреть совместную систему уравнений (53), (54) в окрестности точки (z0, т0), где F(zQi т0) = 0 и G(z0i т0) = 0. Из этих двух соотношений следует, что т0 есть кратный корень уравнения F(z0,t). В силу теоремы Вейерштрасса аналитическая функция F(z, т) может быть разложена на два множителя вблизи этой точки F(z, x) = (D(z, т)Р»(г, т), (57) где F*(z0, т0) > 0 и Ф(г, т) есть многочлен относительно аргумента (т—т0): Ф(е, т) = (- 1)*(т-та)*+ 2 (ч-ъУан-/(*)(*-**)• (58) /=о Здесь ak_;(z)(z—z0) есть обозначение скалярного произведения вектор-функции ak_j(z) на вектор (z—z0). Положим И (г, т, t) = £(z9 t)(Cz-u(z, %) + v(t)). (59) Поскольку при F (z, т) = 0 имеет место равенство Н (z, т, t) = = (nx(Cz — u(z, x) + v(t)), \|;(z, т)), а градиент функции F отличен от нуля по совокупности переменных (z, т), то имеет место
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 551 тождество H(z, т, 0 = (ят(Сг—и (г, т)+ »(*)), i|>(z, x)) + F(z, x)F1(z, x, /), (60) где Fi(z, т, t) — некоторая гладкая функция. Рассмотрим случай, когда управление v (t0 + 0) Ф v (z0, т0), т. е. не совпадает с наилучшим. Тогда неравенство (55) является строгим, поскольку при наилучшем значении v нестрогое неравенство (55) все еще сохраняется. Следовательно, Н(г09 т0, д=^=0. (61) Этот случай будет рассматриваться в первую очередь. Далее будет рассматриваться случай, когда v (t0 + 0) = y(zo, т0). Пусть vn(t)—такая последовательность управлений, что lim vn(t) = v(t) (62) л-*оо равномерно по параметру ty и достаточно малой окрестности (t0, *о + б) точка nT(v(t)) является внутренней точкой множества QT. Следовательно, на любом интервале (tl9 t0+ б), где t0 < tx < tQ + б, существует решение системы (53), (54) при любых начальных данных. Пусть zn(t), tn(t)— последовательность решений системы (53), (54), каждое из которых определено на интервале (tni /0 + ^)> причем t0 < tn < t0 + б, lim tn = t0, lim тп (tn) = т0, lim zn (tn) = z0. (63) Число б > 0 можно выбрать настолько малым, чтобы последовательность zn (t) была равномерно ограничена. Тогда семейство функций zn(t) равностепенно непрерывно. Следовательно, существует подпоследовательность, которую мы будем по-прежнему обозначать через zn (/), хп (/), что гп (t) равномерно сходится к некоторой функции z(t), a in(t) сходится к некоторой функции т(/). Функции z(t) и т(/) определены на отрезке [/0, tQ+S), причем функция т(/) монотонно убывает. Тогда последовательность in (t) сходится к функции т (t) равномерно на множестве, мера которого сколь угодно мало отличается от длины отрезка [^о> ^о+б)1)- Функции zn(f),%n(f) удовлетворяют интегральному уравнению t zn{t)-zn{tr)^\{Czn{t)-u(zn{t), Tn(t)) + v(t)}dt. (64) tn Переходя к пределу в формуле (64) при п—> оо, получаем t z(t)-Zb=\{Cz{t) — u{z{t), T(t)) + v(t)}dt. (65) 'о х) См., например, [4, теорема 3, с. 360 и теорема 9, с. 284].
552 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Одновременно выполняется тождество F(z(t), т(/)) = 0. (66) При этом, очевидно, имеет место следующее свойство: если т(/) не есть минимальный корень уравнения F(z(t), т) = 0, (67) то всякий корень т уравнения (67), меньший, чем т(/), имеет кратность не меньше двух. Если решение системы (53), (54) уже существует, то из дифференциального уравнения (53) функцию z(t) можно записать в виде z(t) = z0+z1(t-t0) + o(t-t0). (68) Подставляя выражение (68) в уравнение Ф(*, т) = 0, (69) мы найдем асимптотическое поведение функции x(t) вблизи точки /0. Это асимптотическое поведение зависит от значений конкретных коэффициентов многочлена Ф. Заметим, прежде всего, что ak(z0)z1 = О, что эквивалентно условию, что управление v(t0 + 0) есть наилучшее. Асимптотическое поведение функции зависит от предыдущих коэффициентов, в частности от значений чисел ГЛАВА 2 ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ § 1. Сводка вспомогательных формул Итак, мы рассматриваем систему дифференциальных уравнений *--- Cz — u(z, x) + v(t), (1.1) где u(z, т) — гладкая функция своих переменных в окрестности некоторой точки (z0, т0), которая задается формулой (51) главы 1, a v(t) — гладкая функция переменной/ в окрестности значения tQ. Пусть F (г, т) — аналитическая функция в окрестности точки (г0,т0), задаваемая формулой (27) главы 1 и в окрестности точки (z0, т0) представляемая в виде F(z, х)=Ф(г, x)F*(z9 т), (1.2) где F*(z0j т0) > 0, а Ф(г, т) есть многочлен относительно переменной (т — т0) вида Ф(г, т). (-\)k(T-T0)k- 2>(*-*oYak-j(z)(z-z0), (1.3) / = о
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 553 где &> 1. Без ограничения общности будем считать, что F*(z0, т0) = = 1. Положим Н(г, т, 0-^(2, %)(Сг-и(г, x) + v(t)). (1.4) Согласно формуле (38) главы 1 имеем F(z, r) = (nT(z) — w(z, т), -ф(2, т)), (1.5) причем вектор г|)(г, т) коллинеарен вектору лт(г) — w(z, т). Тогда Н(г, т, t) = (nx(Cz—u + v), i|)) — ^(Сг-м + и), г|/) + (лх(г)-ш, -^-(Сг-и + и)' Два последних слагаемых обращаются в нуль, поэтому H(zt т, t) = (nx(Cz—u + v), я|>). Аналогично G(*, т)--(лт(С2)-^, ф (1.6) (1.7) (1.8) (1.9) (1.10) дт Отсюда, очевидно, получаем неравенство H(z9 т, *)<G(zf т), т. е. #(z, т, /)-G(z, т) —<p(z, т, 0» где ф(г, т, /) есть неотрицательная функция. В силу (1.2) и (1.3) функция F(z, т) разлагается в ряд по степеням (т—т0) в следующем виде k-\ F(z, x) = (-l)*fl0(2, т)(т-т0)* + 2 (т-То)'а*-/(г)(г-2о). (1.И) / = 0 где a0(z, т) есть аналитическая функция, причем Яо(2о, Т0)=1. (1.12) Неотрицательную функцию ф представим в виде <P(z, т, t) = {x—t0)2X(z, т) + (т—t0)B(z, t)(z — z0) + + (z — г0)Л(г, x)(z — z0) + (t—t0)h0 + (t — t0)(z — z0)hg(z9 т, /) + + (<—'о)(т—т0)Лт(2, т, t) + (t — t0)*ht(z, т, 0- (1.13) Дифференцируя (1.10) в точке (z0, т0, /0), получаем следующие соотношения: M*o)*i-0, (1.14) ak^1{z0)z1 — ak(z0)^(z09 т0)--0, (1.15) •» m» (111 "~ О /У 2a*_,(2o)Zi—2а*_1(20)-^-(20) т0)—a*(*o)-^2 (*о. т0) = —2Я. (1.16)
554 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Перейдем теперь к разложению решения уравнения (1.1) по степеням переменных (z — z0), (т—т0), (t—tQ). Функцию Z = Cz — — u(z, T) + v(t) представим в виде Z = z1+(C-^(zG, t0))(z-z0)--^(z0, т0)(т-т0) + — щ;(г<» To)(2—z0)(t—та)—i--g-(z0, т0)(т—То^Ч- Ч-у^-^+^г, *> t), (1.17) где функция £/3(z, x, t) есть однородный многочлен третьей степени переменных (z—z0), (т—т0), (t — /0) с переменными аналитическими коэффициентами. Интегрируя уравнение (1.1), получаем t г—z0 = *i{t—10) + (С—J- (z0, т0)) j (z—zQ) dt— to t ~l£(*o. ^^it-^dt + ^it-toY- u t t 1 д2и Г д2и С —2"^r(Zo, To)J (Z_Z^dt~dld^^ To)j(Z — zo)(x— r0)dt — to t0 t t ~T-^(zo, T0)j(T-T0)M/+lt;2(/-g3+^3(z,T, t)dt. (1.18) Формулу (1.18) представим в упрощенном виде t Z-Z^Zi(t-U)+\v^ т, t)dt, (1.19) а также в виде t z-Zo = Zi(t-t0) + (C-^(z0, T0)^(z-z0)dt- to t t —^(*o, ^o) j(x-T0)^ + i-yi(/-^+^2(Z) T> ^ (L20) где U1(zi t, /), £/2(z, t, t) — однородные многочлены первой и, соответственно, второй степени переменных (z—z0), (т—т0), (t—/0] с аналитическими коэффициентами. Подставим (1.19) в формул)
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 555 (1.20), получаем *-*o = *i(t-to) + ±[(c-%(zu, r0))z1+v1)(t-tor- 2 VV dz t t t ~l£(*o. т0) J(T—т0)Л+ jd/j(/;(z, т, f)df + + ${/.(*, т, f)d/. (1.21) и Подставляем (1.19) и (1.21) в формулу (1.18), получаем z-z0 = z1(t-^+4((c—J(z0, T0))z1+t;1)(/-g2- —^(го, то) J(t—t0)d/— —g^Sf^' *о)3('-'а)3-^(*<и TG)zJ(<-/§)(T-Ta)*. 1 д2ц 2 дт2 + У4(*> t, 0, (1.22) где V4 (z, x, ?) есть многочлен, каждый моном которого есть произведение повторных интегралов от однородных многочленов переменных (z—z0), (т—т0), (t—/0), причем сумма степеней этих многочленов и кратностей интегралов не меньше четырех. Обозначим через г1 = Сг0—и(г09 x0) + v(t0). (1.23) Из формулы (1.3) следует, что G(z0, т0) = 0. (1.24) Тогда из формулы (1.7) следует, что H(z0i т0, t0) = (s(z0, т0)—Ят0 ("(*<>. т0)—и (*<>)). *(20. *о)) = — Ф (*о> V *<>)• (1-25) С другой стороны, из формул (1.2), (1.3), (1.4) и (1.11) следует, что # (z0, т0, *0) = а*(г0)гг. (1.26)
f56 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ В дальнейшем будет рассматриваться два случая: Н(г09 т0, ^)Ф0 (1.27) и Н(г09 т0, /0) = 0. (1.28) Пусть выполняется условие (1.28). Из неотрицательности функции (1.13) вытекает, что Ч*о, т0)>0. (1.29) Условие 1 теоремы (см. (56) главы 1) означает, что Ч*о, т0)>0. (ЬЗО) § 2. Случай H(z0, т0, *0)¥=0 Из формулы (1.25) следует, что Н(г0, т0, /0)<0. (2.1) Следовательно, в некоторой окрестности точки (г0, т0, /0) выполняется такое же неравенство Я (г, т, *)<0. (2.2) Рассмотрим систему дифференциальных уравнений £-(»-. <«, г)+. и) йтШ • £ - щ!Н (2.з) где функции z(t), /(т) суть функции независимой переменной т. Правые части системы (2.3) являются гладкими функциями в окрестности точки (z0, т0, /0). Поэтому в некоторой окрестности точки (z0, To, ^о) существует гладкое решение z(t), t(x) с начальными данными z(t0)--z0, /(t0) t0. Найдем асимптотическое поведение функции zCt), t(x) в окрестности точки t0. Правые части системы (2.3) при z—z0 имеют следующий вид: (С«.-И(г..т) + О(0)^^ = 3F* (-0* * (т-то)*-1 F*+ (-1)* (т -то)*-^ = (Сг0—и(г0, т)+ »(*)) -Я(г„, т, 0 = + (т_То)*-1(^_/0)ф2(т( /), (2.4) — G (г0, т) _ . i4fe-i ft /, ~\k-ij_ Я(г0. т,0_( ' Я(г„,т, 0( °' + (т-т„)*Фз(*> 0+(т-т.)*~1(<-<о)Ф4(т. 0. (2-5)
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 557 где <plf ф2, фз, ф4—некоторые гладкие функции в окрестности точки (т0, /0). Следовательно, система (2.3) может быть представлена в виде + (т—То)*-1^— *.)ф,(т, t) + (z—г0)ф6(г, г, /), (2.6) 1 = я^'С"о)^-^-' + (*-*>)'Фз(т, 0 + 4-(т-т0)*-1('-'о)фЛт. 0+(г—г0)фв(2( т, *), (2-7) где ф5, фв—некоторые гладкие функции в окрестности точки (z0, т0, t0). Из формул (2.6) и (2.7) немедленно вытекает, что решения г (т), / (т) должны иметь вид г(т) = г,+ (т—г0)*г>), (2.8) /(т)=/0+(т-т0)*7(г), (2.9) где z, t—некоторые гладкие функции в окрестности точки т0. Подставляя (2.8), (2.9) в уравнение (2.7) при т —т0, получаем соотношение т. е. Если &— четное число, то в силу неравенства (2.2) имеем Г(т0)>0. (2.12) Тогда уравнение (2.9) разрешимо при t^t0 и одно из решений имеет вид т = т(/) = т0+(/-/0)1/лт((/-д^)> (2.13) где т = т(0) — гладкая функция, причем т(0)<0. (2.14) Если k—нечетное число, то Г(т0)<0. (2.15) Тогда уравнение (2.9) разрешимо в окрестности точки t0 и решение имеет такой же вид (2.13), для которого выполняется условие (2.14). Подставляя выражение (2.13) в формулу (2.8), находим решение в виде Z- г(/) = г0Ч (*-*0)5((*-*о)1/л), (2.16)
558 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ где z= z(0) — гладкая функция, причем г(0) = гг. (2.17) Функции (2.13), (2.16) удовлетворяют системе дифференциальных уравнений (1.1) и алгебраическому уравнению F(z(t), т(*)) = 0 (2.18) при t^ t0. Покажем, что в некоторой малой окрестности точки t0 число x(t) является минимальным корнем уравнения F(z(t), т) = 0. (2.19) При t=tQ значение т = т(/0) = т0 является минимальным корнем уравнения (2.19) по условию. Предположим, что число т(/) не является минимальным корнем уравнения (2.19), т.е. существует меньший корень тг (t) уравнения (2.19). Тогда найдется такое число тг(0» удовлетворяющее неравенству М'Х *»(')<* (9. (2.20) при котором обращается в нуль производная функции F(z, т) по переменной т: G(z(t), т1(0)=0. (2.21) Из неравенств (2.20) и (2.24) следует, что IMO-Tol^CxI*-^*, ci>°- (2-22) С другой стороны, из (1.2), (1.3) и (2.21) следует, что (-1)*k (т2 (0-ТоГ1 + .2 / (т2 (t) - т0)/-*ak4 (z (0) (г (0 - 20) = 0. (2.23) Из (2.23) следует оценка ЫО-^оГ^СаИО-го!. (2.24) Учитывая (2.16), получаем оценку ЫО-^оГ^Сз^-М. (2.25) Оценки (2.24) и (2.25) справедливы в некоторой достаточно малой окрестности точки t0. Оценка (2.25) противоречит оценке (2.22), что и доказывает минимальность корня х (t) уравнения (2.19). § 3. Промежуточные оценки Из формулы (1.5), (1.11) следует, что для любого вектора справедливо соотношение (ak (z0), у) = (яХо (*/), г|> (z0, т0)). Следовательно, Ч (zo) й (zo» *р)-0, э в силу (1.15) получаем a^fo)**^*-^) zx=Q.
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 559 Функции z(t)> %(t) удовлетворяют следующим соотношениям: t z{t)-zQ=\{Cz{t)~u(z{t)y %(t)) + v(t)}dt, (3.1) Ф(2(0, т(0) = 0. (3.2) Из построения функций z(t), x(t) следует, что lim z (t) = z0, lim т (t) = т0. (3.3) t -* (0 t-*t0 Тогда из (3.1) и (1.23) следует, что lim г1!)~г° = г1. (3.4) t-*t0 г — 1о Из (1.3) вытекает, что в достаточно малой окрестности точки /0 имеет место оценка NO-ToKCJZ-M1^, Сг>0. (3.5) Разлагаем подынтегральную функцию (3.1) по формуле Тейлора. Учитывая оценку (3.5) и формулу (3.4), получаем t z (t) — z0 = zx (t — t0) —^ (z0, т0) J (t (t) —т0) dt + + ('-'о)1+2/*Ы0> (3.6) где tyxit)—ограниченная функция. Подставляем выражение (3.6) в уравнение (3.2), учитывая вид (1.3) функции Ф(г, т). Получаем следующее соотношение: (_l)*(T(0-T0)* + (T(0-T0)flik.1(Zo)21(/-/o)- -ak(z0)^(zQy T0)J(T(0-T0)d/ + (/-/0)1 + T^(0-0, (3.7) 'о k где г|;2(/)—ограниченная функция. Разделим (3.7) на (t—tQ)k~l. При k^3 получаем <_ 1)* /_1£ЬЬ_\' + -Li^u а^ (2о) 21_ (<-/о)*-1/ (<-'о)'-1 J (т (0-то) dt k-2 -ak(z0)u£(z0, т.)'-* _Е__+(/_/в)*(*-г)ф1(/) = 0. (3.8) (<-<о)*-1
560 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Допустим, для некоторой последовательности t„--t0 имеет место равенство lim T <'">-" =00. -г 1 Разделим (3.8) на ———^- , получим (3.9) \(t,,-t0)k-1 dt k-2 du ak (го) Tjr (z0, т0) ^(t(O-To) (/„-<„) (т(*„)-т,) Г t(/b)-t» " U *°-lu' (<»-*e)*-1 Поскольку функция т(/) есть монотонно убывающая функция, то $(т(0-т,)Я <|т(о-т0|(<-д. (3.11) Значит, все слагаемые в формуле (3.10), кроме первого, ограничены, в то время как первое слагаемое стремится к бесконечности. Следовательно, предположение (3.9) не имеет места, т. е. найдется такая константа С2 > 0, что в достаточно малой окрестности точки /0 имеет место оценка Н0-т0|<Са(*—g*-i. (3.12) § 4. Случай Я(г0, т0, *0) = 0 Используем разложение (1.22) при подстановке в уравнение (3.2), с учетом вида (1.3), функции Ф(г, т) и неравенства (3.12). Получим k (— 1)к(т—т0)*+ 2 (х—Toy'ak_j(z)(z—г0) + (т—T0)2a*_2(z) (г-г0) + i з i 4- (т—т0) ак_! (г) < zx (t — t0) —^ (г0, т0) j (г (*) — т0) dt — -^w(z0,T(t))(T(t)-T0ydt+%(t)(t-t9)A + ak(z)izx(t-tn)
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 561 ■^■(г«, т.) J(T(0-T0)d*-Ja;(z0, x(t))(x(t)-x0)4t + + Ы0('-'о)*} = 0. (4.1) Положим е = . т— т0 (<-<оУ 1 fc-2 (4.2) Подставим (4.2) в выражение (4.1) и разделим на (/— t0)k~2. Получим (-i)*e* + £e/(/-*,)bifl (2)in£L+e4_2(2)2=£o + ._ о * f О * *0 / = 3 f + e<j-«ft_1(20)-gr(2o, т.)-Ь J(t(0-t0) d/ -a*-i(*)- 5»(20,t(0)(t(0 —т0)»Л $K>(z0, т(0)(т(0-То)2Л fe— 3 I ) k-i "M*.) — чЫО«-'.)*-* = о, (4.3) (/-/,)*-• где %(/), tye(t)—ограниченные функции. Допустим, что для некоторой последовательности tn —>- /0 имеет место равенство lira 6 (/„)=» — оо. (4.4) П -> GO Разделим уравнение (4.3) на 9 (/„)*. В результате в равенстве (4.3) все слагаемые, кроме первого, устремятся к нулю при п-+оо. Действительно, в силу монотонности функции r(t) имеют место неравенства t S(T(0-x0)d/ <(/-/о)|т(0-то|, (4.5) \w(z0, x(t))(x(t)-xoydt < С, |т(0-т0|2 (/-/„)• (4.6)
562 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Поэтому tn $(т(0-т0) dt (tn-h) k-2 k-1 (tn-t0)k~*Q(tn)k-* tn ^W(Z0, T(t))(T(t)-T0)*dt ^< Const, (4.7) ie(/„)|*-3(/„-/0)*-2 k \k-2 i (tn-t0)k~2Q(tn)b- < Cl (tn —10) k-2 \0(tn)\k~2(tn-t0) k_ k-2 < Const. (4.8) Из неравенств (4.7) и (4.8) следует искомое утверждение. Таким образом, условие (5.7) не выполняется, что означает, что существует константа С3 такая, что Ио-То|<Сз (*-*„)*-*. Положим 6(0 = -^- $ МО-то) dt (t-t0) k-i k-2 l(t) \(*(t)-x0)*dt J, k \k-2 V-t0)R Очевидно, имеет место неравенство 0(')2<£(О<е2(О- Допустим, что (4.9) (4.10) (4.11) (4.12) (4.13) Тогда вторая производная многочлена (4.3) по переменной 0 в достаточно малой окрестности точки t0 имеет не более одного отрицательного корня, ограниченного снизу константой С, не зависящей от значения переменной /. Причем при ak_2(z0)zx > 0 отрицательных корней на рассматриваемом участке вообще нет. Если для некоторой последовательности tn —► t0 значения т(/„) не являются минимальными корнями уравнения (4.1), то существует меньший корень %'п, причем кратность его не меньше двух. Тогда на интервале [6^, 9(/„)] у многочлена (4.3) есть точка перегиба. Следовательно, в'п< — С<0
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 563 для всех значений п. Поскольку кратность корня 9Л многочлена (4.3) не меньше двух, то производная многочлена (4.3) обращается в нуль при 9 = 0П. Тогда остаток отделения многочлена (4.3) на его производную тоже обращается в нуль при 9 = 0Л, т. е. /=3 ( г 1 J ^ (т — т0) dt i 1 t (t-U)k-* ) t ^w(z0, T)(x—T0)2dt k_^ -ah(z0)± х +%(t)(t-t0)—* = 0 (4.15) (t-t0)k~* при t = tn, 9 = 0Л. Устремляя л к бесконечности и переходя, если это необходимо, к подпоследовательности, получаем, что либо tn J (т—т0)Л lim -& — <° (4Л6) Л -* 00 ('„-'о)*"2 а*-1(г.)я(г„ т,)^0, (4.17) либо tn J (Х-То)2 Л lim £• — >0, (4Л8> Л-* оо т—- аА(г0)^-(20, т0)<0. (4.19) Из неравенства (4.12) следует, что (4.18) справедливо в обоих случаях. Если выполнено неравенство (4.19), то на отрезке [9Л, 0] должно быть не менее двух точек перегиба, что невозможно. Если выполнено равенство а*(*о)|£(2#.*о) = 0, (4.20)
564 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ то тогда имеет место случай (4.16), (4.17). Тогда при ak_2 (г0) гх < О имеет место неравенство ^ (т—т0)Л ('«-'о)*-а Из неравенства (4.12) и (4.16) следует, что 9(д<— Const. (4.22) Тогда из (4.21) и (4.22) следует, что у уравнения (4.3) нет корней, меньших, чем 9(/„). Таким образом, из (4.13) вытекает, что корень т(*) является минимальным корнем уравнения (4.1). Допустим теперь, что fl*-t(z0)2i = 0. (4.23) Тогда из (1.29) следует, что -^-1(г0)-^(г0, т0)<0. (4.24) Рассмотрим отношение t J(T-Te)tf (4.25) (т—т0)(/ — /о) ' Допустим, что для некоторого числа 0 < е < 1/2 выполнено неравенство о Интегрируя неравенство (4.26), получаем ti (т-то)(/-/о) > 1 > 2. (4.26) ^ (т—r0)dt t \(x-x0)dt J(T-t„)d/>(/-gi/e ^/o)1/8 . (4.27) 'о Поскольку (т—т0) ^ — (/ — t0), то j(T—T0)d/<—j (/-/,)•, (4.28)
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 565 что противоречит (4.27). Значит, существует такая последовательность tn —► /0, что 5(т-т0) dt >Т- (4-29) (т„-т0)(/„-/0)^ 3 Используя обозначения (4.2), (4.10), получаем неравенство Щ>^- (4-з°) В точке 9(/„) значение производной многочлена (4.3) должно быть неположительным. Значит, ft(-1)*9(*„)*-i + £ Mtay-4t«- tJ^ak4(z0)Z=$ + ±ш* ' tn — (о / = 3 ■^iWi(^t0)9(g + t10(g9(g(/„-gb4 2 1 + 1 + 20* (у ф, (*„) (tn- *,)*- * + 20 (/„) г|>„ (*„) (*„-/,)- + *u(<»)(<»-<.)"'*^<0. (4.31) Из (4.10) вытекает, что ISWIX'-'.)1"^"1. (4.32) Если для некоторой последовательности tn —>• i0 имеет место lim е(У =0, (4.33) Л -* 00 С«-'о)а ""2 то разделим (4.33) на (/„ — /о)1 /г~2- Тогда все члены неравенства (4.31) устремятся к нулю, кроме двух, которые имеют вид 9(<n) 1 f-<Wz)ojg-(20, т0) + гК0(Ш„-д*-Л (4. 34) (^-<о)1_*-2 Ч При п—* оо выражение (4.34) имеет положительный нижний предел, что противоречит (4.31). Значит, выполнено неравенство 1 1 |в(/)|>с(*—д2 *-». (4-35)
566 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Представим неравенство (4.31) в виде ( k i^± Ht„) U(-l)*9(^r2 + L jQ(t„y-4tn-to)k-2ak_/(z)^r + V /=з f" '• _L_ 1+*^- + 29 (t„) % (tn) (tn- Uf- »+ 2г|)9 «„) «„-10) + ф» (f„) (<"-^n) 1+ +§f$ [-fl*-i (z.)If (z., т.) + г|>10(<„) (*„- /вр*] j < 0. (4.36) Число Q(t„) строго отрицательно, поэтому выражение, стоящее в фигурых скобках (4.36), неотрицательно. Отсюда следует, что 10 (/„)|> Const >0. (4.37) Производная функции (4.10) вычисляется по формуле 4£~ Д~, • (4-38> Допустим, что существует последовательность tn —>■ t0, для которой lira в(г„) = 0. (4.39) Тогда из (4.36) следует, что lira f^ = 0. (4.40) Значит, 0>F(/„)>e9(/„) (4.41) для достаточно малого е > 0. Это значит, что dQ(tn) < 0. (4.42) dt Тогда найдутся такие точки t'n < tn, что 0>0(Q>9(U, (4.43) в которых функция 0(/) достигает локального максимума. Значит, в этих точках либо 0(q=|e19"(q. с4-44) либо °(>"-°)>§E|e(Q. (4-45>
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 567 Учитывая (4.43) и (4.47), находим такую последовательность /; -> t0, что 9(Q>|e(Q (4.46) и lim 9(Q = 0. (4.47) Неравенства (4.47) противоречат (4.37). Таким образом, существует такая константа С > О, что |6(01>С (4.48) для некоторой окрестности точки /0. С другой стороны, точки перегиба многочлена (4.3) при условии (4.23) стремятся к нулю при t —> t0. Это значит, что т(/) есть минимальный корень уравнения (4.1). Случай Н(z0, т0, t0)=0 доказан. § 5. Случай малых кратностей корня В предыдущих параграфах не рассмотрены случаи k=2 и k — 3, 4. Рассмотрим случай k = 2. В этом случае функция F(z, т) принимает вид F(z, т)=а0(г, т){х—г0)2+a1(z)(z—z0)(T—r0)+az(z)(z—z0)t (5.1) где Яо(2о» то)=1- (5.2) Оценка (3.5) для этого случая принимает следующий вид: |т(0-т0|<С1|/-/0|^, Сг>0. (5.3) В случае k=2 F„ = 2. (5.4) Поэтому формула (1.15) заменится на следующую: Я/7 fli (2o) z,—аг (z0) -^ (г0, т0) = 2. (5.5) Уравнение ^(г, т) = 0 имеет два решения, которые с учетом формул (1.21), (1.14) и (5.5) имеют следующий вид: Т~Т° = 2а0('г, т) 1~а» (2) (2_2о) ± аН2)(2 —г0)2 — — 4а0 (z, т) ( у а, (г.) гх + -J- а2 (г0) ух) (/ — /0)2 + + 4а2(г„)|1(г0, т.) J(x-x0)d/ +V, . (5.6) 'о J J
568 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ Покажем сначала, что |т-т,|< С (*-*,). В самом деле, оценка (5.7) следует из (5.3) и оценки ] (z—x^dt < С (*-*,)«. (5.7) (5.8) Поэтому достаточно доказать оценку (5.8). Допустим противное, т. е. что существует последовательность trl —► t0, для которой tn \j (т—-z0)dt lim -^ (tn-t0)2 = оо. Из неравенства следует, что $(т—т0) Л <\*(tn)-*o\(t-t0) lim *j'»>-*o = 00. (5.9) (5.10) (5.11) Разделим (5.6) на т(/я)—т0. Получим следующее соотношение: ди J(T-to) 1/2 Л 1 == a,(/„) ±^а2(*и) + а2(г0)4£(г0, т0) j;(/f|),To),/ . (5.12) где lim а1(/й)= lim а2(/„) = 0. Из соотношений (5.10) и (5.11) следует, что (5.13) tn $ (т—*о) i™ (т(<п)-то)2 = 0, (5.14) что противоречит (5.12). Таким образом, оценка (5.7) доказана. Если fli*i < 0, (5.15) то уравнение (5.1) имеет только один отрицательный корень. Если fll2i = 0f (5.16)
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 569 то из (5.6) следует, что t f u(t — t0) dt a« = oB(0-2A__i_f (5.17) где |a3(/)|<C|/-/0|, (5.18) МО = :4=7Г"- (5Л9) Из ограниченности (5.19) (см. (5.7)) следует, что lira u(t) = — l, (5.20) t-+t0 а уравнение (5.1) имеет только один отрицательный корень. В случае алХ) (5.21) подкоренное выражение (5.6) допускает следующую оценку: а\ (г) (г — г0)2 — 2а0 (г, т) (fll (г0) гх + я2 (г0) vx) (t — t0)2 + 4а2 (г0) х х >((a1z1-2)-2a2(z0) гг) (/— /0)2+^3. (5.22) 57 (г<>> то) f (т—т0)Л+ V, Поэтому при а1г1=^=2 (5.23) уравнение имеет не более двух корней. При а1г1 = 2 (5.24) существует предел lira 4Z=^ (5.25) м0 1 —г о и поэтому уравнение (5.1) имеет не более двух корней. Таким образом, показано, что во всех случаях т(() есть минимальный корень уравнения (5.1). Рассмотрим теперь случай k = 3 и ak_l (г0) z1 ^0. В этом случае функция F(zy т) принимает вид F(z, т)=-а„(г> r)(i — i:0y^a1(z)(z~-z0)(T — T0)2 + + я2 (г) (z—г0) (т—тв) + а3 (г) (z—z0). (5.26)
570 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ В этом случае соотношение (1.16) следует заменить на 2a1(z0)z1-2a2(z0)^(z0, T,)-aa(z,)-fJ£(z0> т,) = —6-2Х. (5.27) Подставляем формулы (1.19), (1.21) и (1.22) в уравнение (5.26). Получаем -a0(z, x)(%-x,)'+(x-T,yal(z)(zl(t-t9HVj + + (T-%Jat(z)-z1(t-t0)+±((c~(20, т.)) Zx + оЛ(/-/,)»- —% (z„ т0) С (т-т0) dt + V3) + а3 (z) (Zl (t-10) + t + t((C-|^o, ^z + vAit-toY-^iz», To)Ux-T0)dt- t t ~(C—IF^0' To))"ё"^0, xo)^dt ^(T—T^dt- t (z0, 4o)zl(t — toy—-^T(z0,x0)z1^(t — t0)(r—T0)dt — to t 2 л.-(2о. f0)J(T-x0)2^+i-t;2^-^)3 + + I(C—3T<Z" T»)) ((C—ё(20' *.))*!+ »i) (<-/o)3+ ^V°- (5.28) Оценка (3.12) справедлива в нашем случае, т. е. \x-x0\^C,(t-toy'K (5.29) Упростим уравнение (5.28), разлагая ak{z) по степеням (г — г0): -a0(z, x)(x-Tor+(T-xor(a1(z0)z1(t-to) + V2) + +(r-x0)((^((C-^r(z0,T0))z1+v1)a2(z<))+^-(Zo)z\)(t-t0y- 6 дг2 1 дги t ^ — a2(z9)-£-(zm x0)^(x—x0)dt+V3j + -^a3(zB)v1(t—t0y + + [{т^о)-и)г1 + ±^(го)г1(С-^(го,х0))г1 + + "ir (г») 21и1 + -J" аз (*о) »,](< — *о)3 —
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ 571 —a3(Zo)(C—|^(z0, x0))-^(z0, T0)§dt§(r—%0)dt — to t0 t д2и С — «3(^0)^-57(^0, Т0)^ j (/ —/0)(^ —^o)d/ — t 1 d2w (* —2аЛ^)-^г{^ *o)J (t—x0)2d/— 'о -2 -|L (*0) Zx -g- (*0, T0) (*,-/,) j (T-T0) rt + V4 = 0. (5.30) Из равенства (5.30) следует, что lim т~т° = 0. (5.31) ^e(/-/0)1/f Разделим уравнение (5.30) на (/—/0)2 и перейдем к пределу при t-+ t0. Получаем й.((йМ-^'(г>)0- (6-32) Если М*оК<0, (5.33) то уравнение (5.30) имеет единственное решение. Если a3(z0)v1 — = 0, то lim T~T° =0. (5.34) Тогда \t-to\<C(t-t0) (5.35) для некоторой константы С. Уравнение (5.30) имеет не более одной точки перегиба т в области |т—т0|^(/ — /0), которая удовлетворяет равенству HmJpJiL 'ai(ZD)Zl. (5.36) Вторая производная (5.30) по т имеет вид -6 (т—т0) + 2 {а, (20) z, (t-t0) + V2} + О (т-т0)2 > >(6+2а1(г0)г1)(<-д4 У24-О(т-т0)2. (5.37) Имеет место неравенство 6 + 2а, (20) Zj > 0. (5.38)
572 37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОВАНИЯ При строгом неравенстве (5.38) точка перегиба находится правее значения т(/), т. е. т(/) есть минимальный корень. Пусть теперь fli(2e)2i = —3. (5.39) Производная многочлена (5.30) имеет вид —392(1 + 0(/—д)—бв(1+0(*—t0))+(A+O(t—10)—ос9)<0, (5.40) где 9 = -^-, (5.41) t \ (т —т0) dt Л ^т((С~^(го> то))^И ^)^o)+-^(z0)z2i> (5.43) а = у «2 (гв) I7 (г°' *о) > 0. (5.44) Если для некоторой последовательности tn —> t0 число Q(tn) не есть минимальный корень, то Q(tn)—>■ — 1 и Нт(Л—aQ(tn))=-—3. Допустим, что lim 9 (/,,) = 90 <— 1. Тогда для всех достаточно гс-*оо больших значений п в окрестности точки tn график функции 0 (/) пересекает график функции a1(z)(z—z0)/(t — /0) трансверсально в одной точке t'n. Следовательно, слева от точки t'n корень 9(/) является однократным, а точка перегиба (5.30) находится правее корня 9(/). Справа от точки t'n многочлен (5.30) монотонно убывает. Значит, и в точке tn корень 9(/J минимален. Следовательно, 0о^-1. (5.45) Тогда А + а=—3, а неравенство (5.40) будет иметь нид —3(9+ 1)* —а(1 + в) + 0(* —*0)<0. (5.46) Отсюда получаем неравенство |9+1|> ]/||/|1 + 9|-О(/-/0). (5.47) Из (5.47) следует, что HmF= — 1. (5.48) t-+t0 Тогда в свободном члене (5.30) все слагаемые, кроме одного, при делении на (t—tf0)3 имеют предел. Следовательно, уравнение (5.30)
37. ЛИНЕЙНАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА ПРЕСЛЕДОСАхЧИЯ 573 имеет вид -(9+1)3 + В-[ а£+О(/-/0)-0, (5.49) $(т-т0)2^ где * = 3 (/_/0)з—. Если функция £ не имеет предела при t —> /0, то должны быть локальные экстремумы, в которых она совпадает с 02. Колебания максимумов и минимумов в силу (5.49) стремится к нулю. Значит, £ (t) имеет предел, а вместе с ней и функция 0 (f): lim 6 (t) = — 1. Тогда т—х0 = (/—/0) (—1 + вх (0), Пт 6,(0^0. (5.50) t-+to Подставляя (5.50) в (5.26), получаем уравнение на Qx (t) третьей степени. Вместо неравенства (5.38) используем неравенство 77—тт2 (аг (г) (г—z0) + 3(t—10))^0. В итоге получаем, что lim t.x K.\ = 0. Повторяя рассуждения, получим lim — A, = t-»t0 (r — h) t-+t0 (t—t0)N = 0 для любой степени N. Это значит в случае аналитической функции т(/), что т(/)== — (t—/0). В общем случае получаем, что все производные функции т(/) такие же, как и у функции — (t—/0) в точке t0. Значит, у функции i|)(z, т) все производные равны нулю. Значит, если v(t) — аналитическая функция, то у нее все производные такие же, как и у v(z, т) при т=т0—(t — /0) и постоянном i|)(z, т). Следовательно, т—т0е= е==— (t—/0), i|)(z, т)= Const, G(z, т) = 0, а это значит, что т — минимальный корень. При k = 4 достаточно заметить, что выполняется неравенство ^2 (го) ^i ^ 0- Следовательно, справедливы рассуждения, начиная с формулы (4.23), т. е. корень является минимальным. ЛИТЕРАТУРА 1. Понтрягин Л. С. Линейные дифференциальные игры, I. —ДАН СССР, 1967, т. 174, № 6, с. 1278—1280. 2. Понтрягин Л. С. Линейные дифференциальные игры, II. —ДАН СССР, 1967, т. 175, № 4, с. 764—766. 3. Понтрягин Л. С. Линейные дифференциальные игры преследования. — Матем. сб., 1980, т. 112 (154), с. 307—330. 4. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1968. 5. Понтрягин Л. С, Мищенко А. С. Решение линейной дифференциальной игры преследования без дискриминации убегающего объекта. — ДАН СССР, 1984, т. 277, № 5. с. 1063—1066. 6. Понтрягин Л. С, Мищенко А. С. Решение линейной дифференциальной игры преследования на основе альтернированного интегрирования без дискриминации убегающего объекта.—ДАН СССР, 1984, т. 277, № 6, с. 1330—1334.
СОДЕРЖАНИЕ От редакции 6 1. О статистическом рассмотрении динамических систем 7 2. О динамических системах, близких к гамильтоновым 27 3. Грубые системы 30 4. О нулях некоторых элементарных трансцендентных функций (добавление) 36 5. Эрмитовы операторы в пространстве с индефинитной метрикой ... 51 6. О нулях некоторых элементарных трансцендентных функций (добавление) 83 7. Периодические решения систем дифференциальных уравнений, близкие к разрывным 86 8. К теории оптимальных процессов 90 9. Асимптотическое поведение решений систем дифференциальных уравнений с малым параметром при высших производных 95 10. Системы обыкновенных дифференциальных уравнений с малыми параметрами при высших производных 119 11. Доказательство некоторых асимптотических формул для решений дифференциальных уравнений с малым параметром 129 12. Вывод некоторых асимптотических оценок для решений дифференциальных уравнений с малым параметром при производных .... 133 13. Одна статистическая задача оптимального управления 151 14. Оптимальные процессы регулирования 155 15. Теория оптимальных процессов. I. Принцип максимума 178 16. Приближенное решение одной системы обыкновенных дифференциальных уравнений с малым параметром при производных . . . . 225 17. Периодическое решение одной системы обыкновенных дифференциальных уравнений с малым параметром при производных .... 230 18. Об одной статистической задаче оптимального управления 235 19. Об одной вероятностной задаче оптимального управления 260 20. Математическая теория оптимальных процессов 264 21. О некоторых дифференциальных играх 270 22. К теории дифференциальных игр 275 23. Линейные дифференциальные игры 337 2 4. О линейных дифференциальных играх. 1 342 25. О линейных дифференциальных играх. 2 346 26. Задача об убегании одного управляемого объекта от другого .... 350 27. Линейная дифференциальная игра убегания 354
СОДЕРЖАНИЕ 575 28. Задача об уклонении от встречи в линейных дифференциальных играх 358 29. Линейная дифференциальная игра убегания 369 30. Линейные дифференциальные игры 407 31. Оптимизация и дифференциальные игры 417 32. Линейные дифференциальные игры преследования 427 33. Решение линейной дифференциальной игры преследования без дискриминации убегающего объекта 452 34. Решение линейной дифференциальной игры преследования на основе альтернированного интегрирования без дискриминации управления убегания 457 35. Математическая теория оптимальных процессов и дифференциальные игры 463 36. Некоторые вопросы теории дифференциальных уравнений с малым параметром 515 37. Линейная дифференциальная игра преследования (Аналитическая теория) 540
ББК 22.1 + 22.161.6 П56 УДК 51 + 517.9 Научное издание Понтрягин Лев Семенович ИЗБРАННЫЕ НАУЧНЫЕ ТРУДЫ Том II ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ. ТЕОРИЯ ОПЕРАТОРОВ. СПТИМАЛЬНОЕ УПРАВЛЕНИЕ. ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ Заведующий редакцией А. П. Баева Редактор В. В. Абгарян Оформление художника В. Я• Батищева Художественный редактор Т. Н. Кольченко Технический редактор В. Н. Кондакова Корректоры Л. И. Назарова, //. #. Кришталь ИБ № 32539 Сдано в набор 04.09.87. Подписано к печати 09.06.88. Формат 60X90/16- Бумага кн.-журн имп Гарнитура литературная. Печать высокая. Усл. печ. л. 36,06. Усл. кр.-отт. 36,32 Уч.-изд. л. 36,53. Тираж 4300 экз. Заказ № 1487. Цена 6 р. 60 к. Ордена Трудового Красного Знамени издательство «Наука» Главная редакция физико-математической литературы 117071 Москва В-71, Ленинский проспект 15, Ордена Октябрьской Революции и ордена Трудового Красного Знамени МПО «Первая Образцовая типографиях имени А. А. Жданова Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 113054 Москва, Валовая, 28 Отпечатано во 2-й типографии издательства «Наука» 121099 Москва Г-99, Шубинский пер. 6.. Заказ 1884 „ 1702050000-132 оп со П neo/л». ОЙ 39-88 © Издательство «Наука». U5o(UZ)-8o Главная редакция _^ . .. физико-математической ISBN 5-02-014410-Х (Т. II) литературы. 1988 ISBN 5-02-0I3754-5
ИЗБРАННЫЕ НАУЧНЫЕ ТРУДЫ