Автор: Понтрягин Л.С.  

Теги: математика  

Год: 1998

Текст
                    Л. С. Понтрягин
Принцип максимума
1Л

Л.С. Понтрягин Принцип максимума Москва Фонд математического образования и просвещения 1998
Издание осуществлено Фондом математического образования и просвещения в честь 90-летия со дня рождения Л.С.Понтрягина Научное издание Лев Семенович Понтрягин Принцип максимума Компьютерный набор: Н.Н.Бахтина. Корректура: С.И.Комаров, О.В.Никишкина. Ответственный за выпуск: В.М.Имайкин. Лицензия ЛР № 765763 от 26.03.98 г. Подписано в печать 20.06.98. Объем 4,5 п.л. Тираж 1500 экз. Заказ № 138 Отпечатано в ОАО ’’Оригинал” 101898, Москва, Центр, Хохловский пер., 7.
Оглавление Предисловие 4 Глава 1. Принцип максимума, формулировка 5 §1 . Управляемые системы 5 §2 . Задача оптимального управления 8 §3 . Основной результат: “Принцип максимума” 9 Глава 2. Некоторые вспомогательные сведения 11 §4 . Уравнение в вариациях 11 §5 . Выпуклые множества 14 Глава 3. Доказательство принципа максимума 20 §6 . Вариации Макшейна 20 §7 . Сложение вариаций Макшейна 26 §8 . Расширение класса рассматриваемых вариаций 28 Глава 4. Задача быстродействия 36 §9 . Линейная задача быстродействия 38 Глава 5. Синтез некоторых задач быстродействия 45 §10 . Быстрейшая остановка движущейся по инерции точки в заданном месте 45 §11 . Быстрейшая остановка математического маятника ограниченной по модулю силой 51 Приложение. Оптимизация и дифференциальные игры. Научное сообщение 59
Предисловие Настоящая книжка имеет целью изложить важнейшие результаты, входящие в книгу “Математическая теория оптимальных процес- сов” четырех авторов — Л. С. Понтрягина, В. Г. Болтянского, Р. В. Гамкрелидзе, Е. Ф. Мищенко, не нанося при этом ущерба полноте и точности изложения. При написании ее я старался дать наиболее простые доказательства всем излагаемым результатам. Не знаю, удалось ли мне упростить доказательства, имеющиеся в книге четырех авторов, но, во всяком случае, объем книги резко со- кращен — вместо двадцати печатных листов предлагаемая книжка содержит не более трех. В процессе написания книжки я часто встречался с трудно- стями при проведении доказательств. В этих случаях мне было достаточно обратиться за помощью к Р. В. Гамкрелидзе, который безотказно и немедленно давал разумный совет, за что я ему го- рячо благодарен. Выражаю также благодарность С. М. Асееву за помощь при редактировании рукописи. 3 сентября 1987 г. Л. Понтрягин
Глава 1 Принцип максимума, формулировка Всюду в дальнейшем будут употребляться сокращенные обозна- чения для суммирования: именно, если в одночлене два раза встре- чается греческий индекс — один раз вверху и один раз внизу, — то одночлен этот означает сумму тю всем значениям индекса. Так, например, Фо,Ха, а = о,1,...,п, означает сумму ^аХа = ФоХ° + V’lX1 + • • • + ФпХП- §1. Управляемые системы Работа многих физических процессов и технических приборов описывается обыкновенными дифференциальными уравнениями, в которых независимым переменным является время t. Осуществля- ется это следующим образом. Предполагается, что состояние технического прибора в данный момент времени определяется несколькими величинами. Обозна- чим их через х1, х2,..., хп. Величины эти называются фазовыми координатами прибора, а прЪстранство Rn, в котором они явля- ются координатами, называется фазовым пространством прибора. 5
Л. С. ПОНТРЯГИН В соответствии с этим вектор х = (я1,^,. . .,яп) (1.1) называется фазовым вектором прибора. Оказывается, что ско- рость изменения каждой фазовой координаты х' со временем, т. е. = £*, определяется фазовым вектором ж, так что мы имеем ^n)=m (1-2) at или, в векторной форме, , dX п/ \ f -а —, \ г = — = Л*). (1.3) at Система уравнений (1.2), записанная в векторной форме (1.3), определяет поведение прибора в процессе изменения времени. Для того, чтобы получить конкретное изменение вектора состояния x(t), достаточно задать начальное состояние х(/о) = в момент времени f0- Тогда решение x(t) системы (1.3) даст определенное поведение прибора во времени. В качестве примера рассмотрим движение материальной точки в трехмерном евклидовом пространстве. Механическое состояние этой точки в каждый момент времени определяется шестью вели- чинами: геометрическими координатами точки у1, у2, у3 и скоро- стями у\у2,у3. Совокупность у1,у2,у3 объединим в один вектор у = (т/1, з/2, г/3). Тогда совокупность скоростей будет со- ставлять векторную скорость у = (з/1,*/2,*/3). Движение точки в пространстве определяется следующим уравнением: ту = f(y)- (1-4) Здесь т — масса точки, у = — ее ускорение, a f(y) — сила, действующая на точку, которая предполагается здесь зависящей от положения у точки в пространстве. Для того, чтобы перепи- сать (1.4) в форме (1.2), (1.3), введем в рассмотрение вектор z, состоящий из двух частей: вектора Zi = у и вектора Z2 = у, т. е. z = (zi,z2) = (у, у). 6
ПРИНЦИП МАКСИМУМА Тогда уравнение (1.4) перепишется в виде Z = (Z1,Z2) = z2,--- y т Может случиться, что процесс изменения фазового вектора х в уравнении (1.3) зависит не только от фазового состояния объекта, но также от некоторых других величин. Наиболее ярким примером может служить самолет, в котором мы следим за движением его центра тяжести, так что здесь речь идет о движении точки в про- странстве. Однако в действительности движение самолета зависит от его ориентации в пространстве как твердого тела и тя1 дви- гателя. Ориентация твердого тела в пространстве определяется тремя числами z2, из, а тягу двигателя обозначим Z4. Правая часть дифференциального уравнения (1.4) определяется не только вектором положения у центра тяжести самолета, но и значениями параметров zi, z2, Z3, Z4. Объединяя эти параметры вместе, полу- чаем параметр и. Тогда уравнение (1.4) запишется в виде my = f(y,u). Величина и называется управлением. В общем случае мы можем уравнению (1.3) придать вид x = f(x,u). (1.5) Здесь и называется управлением и определяется несколькими ве- личинами. Предполагается, что функция f непрерывна по сово- купности всех переменных и имеет непрерывные производные по каждому хЛ Для того чтобы получить определенное решение уравнения (1.5), нужно задать не только начальное значение x(fo) = Хо, но также задать управление и как функцию времени t: u = u(Z). В дальней- шем будем считать, что управление u(Z) — кусочнонепрерывная функция со значениями в г-мерном пространстве 7Г, непрерывная слева в каждой точке разрыва и имеющая предел справа. В нашем примере с самолетом величина у определялась в за- висимости от ориентации самолета в пространстве и тяги дви- гателя. Утверждение, что ориентация самолета в пространстве 7
Л. С. ПОНТРЯГИН определяется тремя числами, неточно. Ориентация твердого тела в пространстве определяется тремя числами только локально. В действительности же совокупность всех положений твердого тела в пространстве при фиксированном центре тяжести представляет собой множество, являющееся естественным образом некоторым топологическим пространством. Таким образом, в случае самолета управление и не является просто числовой функцией, а принадле- жит некоторому топологическому пространству Я. Система (1.5) называется управляемой системой уравнений, а и — ее управлением. Как правило, управление и принадлежит не- которому множеству Я, которое будем считать подмножеством г- мерного евклидова пространства Rr. §2. Задача оптимального управления Пусть х = (х,и), и е я, (см. (1.5)) - управляемая система, заданная в n-мерном фазовом, пространстве Rn. Допустим, что существует такое управление и = и(/), которое переводит фазовое состояние xq в фазовое состояние Я1. Это значит, что существуют два таких значения времени /о < /1, что решение уравнения х = (х, u(t)) удовлетворяет условиям x(t0) = Хо, х(/1) = Х1. Здесь предполагаются фиксированными только точки х0 и Xi, но не моменты времени t0 и ti. Задача заключается в том, чтобы выбрать такое наиболее вы- годное управление u(f) G Я, которое также переводит фазовую точку Хо в фазовую точку Хр Выгодность управления u(f) описывается функционалом L. Упра- вление считается наиболее выгодным, если функционал L имеет минимальное значение. В нашем случае функционал L задается в виде интеграла h L = у J°(x(Z),u(t)) dt, (1.6) to 8
ПРИНЦИП МАКСИМУМА где Г(х,и) = Г(х1(г),...,^(О,и(/)) — заданная функция указанных переменных. Важным частным случаем является тот, когда /°(х, u) = 1. В этом случае L — — to, т. е. наиболее выгодным управлением считается такое, которое переводит фазовое состояние Хо в фазовое состояние Xi за наи- меньшее время. Это задача быстродействия. Математика обладает свойством универсальности. Именно, ре- шая конкретную задачу, мы получаем результат, пригодный для решения многих других задач. Так, например, функционал L мо- жет оценивать количество топлива для придания космическому объекту заданной ориентации. В виде задачи оптимального упра- вления могут быть сформулированы некоторые экономические за- дачи и задачи естествознания. §3. Основной результат: “Принцип максимума” Включим фазовое пространство Я71 в п+1-мерное пространство 5n+1, присоединив к координатам х1,..., хп координату х°. Вектор пространства 5n+1 будем обозначать х= .. ,хп). Наряду с вектором х рассмотрим вектор Ф = (Ml. и вспомогательную функцию jK(x, u) = u), a = 0,1,..., n, двух n 4- 1-мерных векторов x, и точки u множества fl. Для удобства номера координат векторов х и f будем писать вверху, а вектора - внизу. 9
Л. С. ПОНТРЯГИН Теорема 1. Рассмотрим систему уравнений дК(х,т/>,и) СХ ~ : • дК(х,^>,и) * =---------д^~~ (1-7) (1-8) Система уравнений (1.7), (1.8) содержит 2(n + 1) уравнений. Она неполна, так как наряду с 2(п + 1) неизвестными функциями хг, ifa, i = 0,1,..., п, содержит еще неизвестную точку u(t) € П’.‘ Система уравнений (1.7) содержит систему (1.5) управляемого объекта, а также определение функционала L (см. (1.6)). Оказывается, что для того чтобы управление u(t) было оптимальным при заданном функционале L, необходимо, чтобы существовала ненулевая век- торная функция удовлетворяющая системе уравнений (1.7), (1.8), и, кроме того, чтобы для любого t из отрезка ^<Л<ЛХ и для любой точки v 6 fl выполнялось неравенство ^(i), v). (1.9) Последнее неравенство так дополняет неполную систему (1.7), (1.8), что система уравнений (1.7^, (1.8) вместе с (1.9), вообще го- воря, определяет величины x(t), и u(t). Неравенство (1.9), составляющее центральный пункт теоремы 1, дало основание назвать теорему 1 принципом максимума. 10
Глава 2 Некоторые вспомогательные сведения В этой главе будут даны некоторые вспомогательные резуль- таты из математики, которые я буду использовать, но которые я не считаю общеизвестными. §4. Уравнение в вариациях ЗдеСь мы рассмотрим систему уравнений = = (2.1) Здесь х= (яо,*1,---,яп) есть вектор n +1- мерного векторного пространства Sn+1, так что систему (2.1) в векторной форме можно записать в виде x = f(x,t). (2.2) В дальнейшем нам придется рассматривать частную производ- ную от функции /*(х, t) по Поэтому мы введем для нее обозна- чение. Именно, положим 11
Л. С. ПОНТРЯГИН Система уравнений (2.1) имеет бесконечное множество реше- ний; для того чтобы выделить одно определенное решение x(t), нужно задать начальное значение. Именно, для заданного значе- ния to задать начальное значение функции x(f). Это начальное значение обозначим fj. Тогда начальным условием х(*о) = fj решение х(<) однозначно определяется. Поскольку решение x(t) определяется величинами to и т?о, выпишем зависимость функции х(£) от этих величин в явном виде, положив х(<) = Функция <р, состоящая в правой части последнего равенства, удо- влетворяет условию $(jj,to,to) = fj- Допустим, что в момент t = to функция x(t) имеет начальное значение х0- Заменим теперь это начальное значение начальным значением 77 = х0 + е6) + б(е), где е — малое положительное число, £о — некоторый вектор, а о(е) — величина более высокого порядка малости, чем б, т. е. Посмотрим, как будет себя вести решение х(/) с этим начальным значением. Мы имеем q ^£(х0 + efo + б(е), to, t) = = f(£(xo + ££o + 6(eoMo,0,f) (2.3) (см. (2.2)). Разложим обе части последнего равенства по степеням б. 12
ПРИНЦИП МАКСИМУМА Разлагая левую часть равенства (2.3) по степеням е, получим |U‘(x0 + 4о + 6(e), t0, t) = ot = + +6(е). Разлагая правую часть равенства (2.3) по степеням е, получим /*(£(х0 + 4о + 6(e), to, t) = /*(£(х0, to,«), <)+ Положим Тогда функции £*(£) удовлетворяют системе f =£Г, г = 0,1,...,п, (2.4) и начальным условиям е м = %. Решение уравнения (2.2) с начальным значением х0 + е£о + о(е) записывается в виде х(*) + б£(/) + о(б), где £(/) — решение уравнения (2.4) с начальным значением = £о. Здесь б (б) непрерывно зависит от £0, и равномерно стре- мится к 0 при б 0. Уравнение (2.4) называется уравнением в вариациях для уравнения (2.2). А) Если в точке t = т начальное значение управляемой вели- чины равно х(т) + е£(т) + б(е), то в любой точке t отрезка t0<t</i значение управляемой величины x(f), по доказанному ранее, будет иметь вид х(/) + е^(/) + о(б), н вектор будем считать переносом вектора £(т) из момента времени т в момент времени t. Перенося вектор £(т) из момента времени т в момент времени £, мы получим вектор Будем считать, что вектор £(т) задан в точке х(т), а вектор £(£) — в точке х(/). 13
Л. С. ПОНТРЯГИН Положим &) = А,Л(т). В силу линейности и однородности уравнения в вариациях (2.4) оператор А<|Т — линейный, АТ|Т есть тождественное преобразова- ние и, кроме того, выполнено соотношение At,sAs,T Af|T, где 5, т — точки отрезка to<t<ti. Вектор V>(£), являющийся решением системы (1.8) главы 1 с на- чальным условием в момент времени т, будем считать пере- носом вектора ^(т) из момента времени т в момент времени L В) Если £(t) — вектор, являющийся решением уравнения в вари- ациях (2.4), а ^(£) — вектор, являющийся решением системы (1.8) главы 1, то скалярное произведение этих векторов постоянно: (£(*), ^(*)) = CGhMO =const- Для доказательства последнего соотношения покажем, что про- изводная по t скалярного произведения (£, есть нуль, используя при этом уравнение (2.4) и уравнение (1.8) из главы 1: = ГФа + ГК = fp^K ~ Fffyp = О- §5. Выпуклые множества С) Множество М точек евклидова пространства Я” называется выпуклым, если вместе с двумя точками а и Ь, принадлежащими множеству М, множеству М принадлежит и весь отрезок, соеди- няющий точки а и Ь. Точка а 6 Дп называется граничной для множества М, если она является предельной для М и для множества №\М, дополни- тельного к М в пространстве Я71. Здесь под предельной точкой некоторого множества А подразу- мевается точка, к которой сходится последовательность точек из А. 14
ПРИНЦИП МАКСИМУМА Совокупность всех точек множества Л/, не являющихся его гра- ничными точками, называется внутренностью М, а совокупность всех граничных точек М называется границей. D) Координаты вектора Е ff1 естественно считать координа- тами гиперплоскости, проходящей через начало координат в про- странстве Rn. Именно, вектору Ф = (V>l,...,^n) ставится в соответствие гиперплоскость Г из й”, определяемая уравнением = V’crX" = 0, О=1,...,П. (2.5) Так поставленная в соответствии вектору гиперплоскость Г раз- бивает пространство Rn на две части: отрицательную, состоящую из тех точек х, для которых 0М)<0, (2.6) и положительную, для которой (V-,x)>0, (2.7) Каждая гиперплоскость Г пространства Я”, проходящая через на- чало координат, может быть задана уравнением вида (2.5). Будем считать, что два множества А, В пространства Л71 отде- лены друг от друга гиперплоскостью Г, если одно из этих множеств находится в отрицательном полупространстве (2.6), а другое - в по- ложительном (2.7). В смысле этого определения два множества А и В, лежащие в гиперплоскости Г, отделены друг от друга этой ги- перплоскостью, даже если они пересекаются или совпадают. Так что слово “отделены” не имеет здесь того интуитивного смысла, который ему естественно приписать. Если некоторая гиперплоскость Г' не проходит через начало ко- ординат, то она может быть задана гиперплоскостью Г, параллель- ной ей, проходящей через начало координат, и некоторой точкой а, через которую она проходит. Произвольная гиперплоскость Г' также разбивает пространство Rn на две части - положительную 15
Л. С. ПОНТРЯГИН и отрицательную, и в отношении нее также можно говорить, что она отделяет друг от друга два множества А и В из Я". Е) Пусть а — граничная точка выпуклого множества М. Ги- перплоскость Г пространства называется опорной гиперплоско- стью к множеству М в точке а, если она проходит через точку а и множество М лежит целиком по одну сторону от гиперплоскости Г. Докажем, что для каждой граничной точки а выпуклого мно- жества М существует опорная гиперплоскость. Пусть с — некоторая точка пространства Я”, не принадлежа- щая ни множеству Af, ни его границе. Пусть, далее, b — точка из множества М или его границы, ближайшая к с. Проведем че- рез точку Ь гиперплоскость Г, перпендикулярную отрезку cb, и покажем, что все множество М лежит по одну сторону (“слева”) от гиперплоскости Г. Для этого спроектируем ортогонально мно- жество М на прямую, содержащую отрезок cb, и покажем, что все точки этой проекции Af* лежат по одну сторону (“слева”) от точки b Если это не так, то найдется точка d из множества М, про- екция которой на прямую, содержащую отрезок cb, лежит правее точки Ь, и в этом случае точка d лежит правее гиперплоскости Г. Проведем через точки с, b, d двумерную плоскость Р и будем рас- сматривать чертежи в этой плоскости. Геометрически ясно, что угол cbd — острый и на отрезке db найдется точка Ь', лежащая к с ближе, чем Ь, что противоречит предположению. Пусть теперь а — произвольная граничная точка выпуклого множества М. Пусть ai, аг,..., а*,... — последовательность то- чек из Я”, не принадлежащих ни Af, ни его границе, сходящаяся к точке а, и пусть Ь* — точка из М или его границы, ближайшая к а&. По доказанному через точку Ь* проходит опорная гипер- плоскость Г*. Из последовательности гиперплоскостей Г* можно выбрать подпоследовательность, сходящуюся к некоторой гипер- плоскости Г, и эта гиперплоскость является опорной к множеству М в точке а. Итак, через каждую граничную точку а выпуклого множества М можно провести опорную гиперплоскость. F) Конусом С в пространстве Я” с вершиной о называется та- 16
ПРИНЦИП МАКСИМУМА кое множество, которое наряду с любой точкой а из множества С I содержит весь луч /, выходящий из о и проходящий через точку а. Конус С называется выпуклым, если он является выпуклым множеством. Если выпуклый конус С не совпадает со всем пространством 7?п, то его вершина о является граничной точкой выпуклого множе- ства С, По доказанному ранее через нее можно провести опорную гиперплоскость Г к выпуклому конусу С. G) Конус С является выпуклым, если наряду с любыми двумя своими точками а, Ь он содержит точку а + Ь. Действительно, если точки а, Ь входят в конус С, то лучи, ве- дущие в эти точки, также входят в конус и точки аа, (1 — а)Ь, 0<а<1 входят в (7. Следовательно, наряду с двумя точками а и b в конус С входит точка аа + (1 — а)Ъ, 0<а<1. А это означает, что конус С является выпуклым множеством. Н) Пусть С - выпуклый конус из пространства Sn+1 с вершиной о и I — некоторый луч, выходящий из вершины о конуса С и не проходящий во внутренности С. Тогда существует опорная гипер- плоскость Г в точке о к конусу С такая, что луч I И конус С лежат по разные стороны от гиперплоскости Г. Для доказательства утверждения Н) рассмотрим разность С — 1 конуса С и луча /, т. е. множество точек вида а — Ь, где точка а принадлежит (7, а точка Ь —лучу /. Непосредственно видно, что множество С — 1 — выпуклый ко- нус с вершиной в начале координат. Далее, луч I не пересекается с внутренностью конуса С и, следовательно, начало координат не является внутренней точкой конуса С — /, а лежит на его границе. Отсюда, в силу предложения Е) получим, чТб через начало коор- динат можно провести гиперплоскость Г\ опорнук) к конусу С — 1. Тогда луч I и конус С лежат по разные Стороны от гиперплоскости Г, параллельной гиперплоскости Г' и проходящей через точку о. Опишем простейшее выпуклое множество — n-мерный симплекс. 1)Пусть хо, Xi,..., хп — n +1 точек евклидова пространства /Г, г>п. Предположим, что векторы Xi - х0,..., хп - Хо 2438 17
Л. С. ПОНТРЯГИН линейдо независимуы.' .В каждую точку х: поместим груз А*>0. То- гда. центра-тяжести ^определяется формулой и: А°хв «= -— 1=1 П^ДЙола^ ай- Ию' " ь.-.-* * 0‘7’jG'O'I. Н < ’ -"о;./! < • - .> .?. •' Е А’ = 1> »=1 пк d\ - г< -<‘г к - : формула (2.8) принимает вцд . (2,8) (2.-9) X \ -Г..4 к .-:Х^ А*хаГ г , ' (2.10) ; . • * v‘ ' .Л.С „< . - ; . Совокупность всех точек видаД2,10), где А0, ..Ап — неотрица- тельные числа, удовлетворяющие услорию (2.9), называется сим- плексом. Из самого определения симплекса видно, что он пред- ставляет собой выпуклое множество. Числа А0,..., Ап называются барицентрическими координатами точки х симплекса, который мы обозначим через Trt. Точку симплекса, для которой все барицен- трические координаты равны собой, будем называть цен- тром симплекса. ’ ’ Если одна из координат }А* равна нулю, то формула (2.10) опи- сывает 'п'—’1-мернЪ1Й симплекс, составляющий п — 1-мерную грань *п-мерногд симплекса Тп. Совокупность всех п — 1-мерных граней симплекса Тп будем называть границей симплекса Тп. ®СЛи У> =’п, то каждую точку к = (я1,. /.',яп) пространства Rn цмо^й0 ЬапйЬаТь в виде ' ! J ;’н " — Аах*, где Х\ — уже необязательно, неотрицательные числа, но сротноше- дие (2.9)? сохраняется., Для доказательства этого достаточно раз- ^рещитн относительно А°, А1,,, ,, Ап систему уравнений .:>Я:)Г.П’ЛгГ« 'J г -zwA^Xc^ X.- ‘ •/’ ' <• Ч / Рассмотрйм матрйцу системы (2.11). Она имеет вид < . . - • г. . i 5 I 1 1 ... 1 \ ХхохХ! ,. ... XnJ’ 18
ПРИНЦИП МАКСИМУМА Вычтем из всех столбцов этой матрицы ее первый столбец. Мы {ЮСТ^ства, Ж л^, .’.., / опредёлЯе— получим 1 0 ... О Хо Х1 - Хо ... хп - Хо Так как векторы Xi — х0,... ,хп — х0 линейно неза^симы, то рацц, последней матрицы равен n + 1. Следовательно, м<трн^О1^гЬМь| (2.11) имеет определитель, отличный от 0, а система (2.11) имеет, причем единственное, решение. Таким об^аз<|М,;:а ^ro|f ,гду чае ^а^доу^ соотвётствуёт последовательность чисел мая из системы уравнений (2.11). Числа барицентрическими координатами точки х/ Координаты эти не-' прерывно зависят от точки х. Если точка х принадлежит границе симплекса Тп, то к ней схо- дится некоторая последовательность точек из Тп, а также неко- торая последовательность из %гб^азоМ ^граница сим- плекса Тпг состоит из всех граничных /го^е^. вьщукдорр множества Тп в пространстве Rn. ; ; . J)। Пусть /Зе(х) — непрерывная функция, заданца^>ца.п-^ерцдм? симплексе Тп со значениями в Rn (х.^гТ”?/>0).ч,Прд.е,= 0 отобра- жение — тождественное и. Д(х) ^нр^ернр.;стремится к.^ нулю при б —> 0. Тогда при достаточно мадых б цецтр .симпдекра Тп принадлежит множеству (Зе(Тп). Это утверждение я привожу здесь бет Доказательства.
Глава 3 Доказательство принципа максимума §6. Вариации Макшейна Если Величина принимает числовые значения, то малое ее из- менение принято называть приращением. Аналогично малое изме- нение функции Принято Называть ее вариацией. Здесь мы будем заниматься вариациями управления u(t) Обычно счита- ется, что замена управления u(t) управлением u*(t) является вари- ацией, если выполнено условие |u‘(i) - u(t)| < е, Рис. 1 где £ — малое положительное число. Макшейн предложил изменить u(t) не на всем протяжении на малую величину е, а на 20
ПРИНЦИП МАКСИМУМА малом промежутке значении t на конечную величину. В этом его главное, на мой взгляд, нововведение. Дадим точное определение вариации Макшейна. А) Пусть т — некоторое значение /, принадлежащее интервалу I: являющееся точкой непрерывности управления u(f), и а — некоторое неотрицательное число, е — малое положительное число. Изменим теперь управление u(f) на отрезке J = J(t; а, б): т — еа < t <т, заменив функцию и(/) на этом отрезке некоторым постоянным зна- чением v € П (см. § 1 А)). Говорят, что так полученное управление u*(f) получается из u(t) при помощи одночленной вариации Мак- шейна, которую обозначим через Af(r;a;v;e) (рис. 1). Выясним теперь, как изменится управляемая величина x(t), опре- деляемая уравнением х = f(x,u(t)) при замене управления u(f) управлением u*(t) и при сохранении начального значения, т. е. при условии Xq = x(t0)- Именно, мы хотим сравнить значения х*(т) и х(т), т. е. сравнить обе управля- емые величины, после прохождения отрезка J. В) Оказывается, что х*(т) - х(т) = eff(f(x(r), v) - f(х(т), u(r))) + о(е). (3.1) Докажем соотношение (3.1). Ясно, что £ = х*(т) - х(т) = j (f(x‘(t),v)-f(x(i),u(<)))di. (3.2) т—е<7 Далее, ; f(x‘(t), v) - f(x‘(r), v) = 6(e), где б(б)стремится к нулю вместе с е. Аналогично при т — еа < t<r и в силу непрерывности й(£) в точке т f(x(t),u(t)) — f (х(т), и(т)) = 6(e). 3-138 21
Л. С. ПОНТРЯГИН Таким образом, f(x’(Z);v)-f(x(<),u(t)) = = ?(х*(г),v) - f(x(T)> u(r)) + 5(e)- Следовательно, интеграл (3.2) может быть записан в виде т 1= / (f(x*(t),v)-f(x(t),u(Z)))dt = т— т = / (f(x*(T),v)-f(x(T),u(r)))dt + eCTo(e). т—еа Таким образом, I = eo(f(x*(r), v) - f(х(т), u(r))) + 6(e). (3.3) В силу формул (3.2) и (3.3) имеем х*(т) — х(т) = eo-(f(x*(r), v) — f(x(r),u(r))) + б(е). (3.4) Заменяя в первом члене правой части формулы (3.4) f(x*(r), v) на f(x(r), v), получим изменение правой части этого равенства на ве- личину о(б). Таким образом, будем иметь f = eo(f(x(r), v) - f (x(r), u(r))) + 6(e). Следовательно, х*(т) - х(т) = ea(f(х(т), v) - f(х(т), u(r))) + 6(e). (3.5) Эта последняя формула (3.5) дает ответ на вопрос, сформули- рованный перед предложением В). Усложним несколько одночленную вариацию Макшейна (см. А)), изменив управление u(t) не на одном отрезке времени J вблизи т, а на нескольких отрезках «Д, J2, • • •> близких к т. С) На отрезке времени выберем момент времени т, t0 < т < ti, являющийся точкой непрерывности управления u(t), а затем 22
ПРИНЦИП МАКСИМУМА s отрезков времени Ji, Л,..., Л слева от момента времени т так, чтобы эти отрезки шли, примыкая друг другу в направлении возрастания времени, причем так, чтобы 5-й отрезок заканчивался в момент времени т. Длина отрезка Л, к = 1,..., s, равна где е — малое поло- жительное число, a ak — неотрицательное число. На отрезке Л управление u(f) заменим постоянным управлением vjt 6 П. Вне от- резков Л,..., Л управление u(t) менять не будем. В результате этой операции получим новое управление u*(f). Будем говорить, что новое управление u*(t) получено из управления u(f) при по- мощи вариации Макшейна, которую обозначим через (3.6) (рис. 2). D) Сравним теперь управляемую величину х, заданную уравне- нием x = f(x,u(f)), с управляемой величиной х*, определяемой уравнением X* = f(x*,u*(t)), в момент времени т, т. е. после прохождения времени t через от- резки Л, Л,--, Л, где u*(Z) получается из u(t) вариацией (3.6). Так же, как в предложении В), доказывается формула х*(т) - х(т) = e£a,(f(x(r), V,) - f(x(r),u(r))) + о(е). (3.7) i=i 23
Л. С. ПОНТРЯГИН Е) Определим теперь многочленную вариацию Макшейна М как вариацию, полученную в результате последовательного при- менения конечного числа вариаций Рис. 3 Afi, М2,..., Мг, где каждое Mt представляет собой вариацию, опи- санную в пункте С) с т = rt, при этом to < Ti < т2 < • •• <тг <ti — точки непрерывности управления u(t) (рис. 3). F) Сравним управляемую величину х, заданную уравнением i = f(x,u(t)), с управляемой величиной х*, определяемой уравнением X = f(x’,u*(t)), в момент времени т = тг, т. е. после прохождения времени t всех отрезков, на которых u(t) подвергалось изменению, где u*(t) полу- чается из и(/) многочленной вариацией Макшейна М, описанной в пункте Е). Пусть Mi, М2,..., Мг — вариации Макшейна, описанные в пунк- те С), последовательное применение которых образует вариацию М. Для простоты изложения рассмотрим только случай г = 2. Обозначим через e£i 4- о(б) и + б(б) те приращения, которые получает управляемая величина x(t) в результате применения ва- риаций Mi и М2 в точках Ti и т2 соответственно (см. D)). В ре- зультате последовательного применения вариаций Макшейна Mi и 24
ПРИНЦИП МАКСИМУМА Мг управляемая величина получит в точке т = т2 приращение (см. пункт А) § 4) б^т2,тЛ1 + 6^2 + 5(e). G) Если управление u(Z) подвергается вариации Макшейна М (см. А), С), Е)), то мы получаем новое управление и*(/). Если ис- ходная управляемая величина х(/) задавалась управлением и(/), а новая управляемая величина х*(£) задается управлением u*(t), то в момент времени т, взятый после прохождения всех отрезков вре- мени, на которых и(£) подверглось изменению, управляемые вели- чины x(f) и х*(/) имеют, вообще говоря, разные значения. Именно, Х*(т) - х(т) = е£(т) + о(е). Если примененная вариация Макшейна была одночленной, то f(r) = <7(f(x(r),v) -f(x(r),u(r))) (см. В)). В случае вариации Макшейна, описанной в предложении С), c(r) = La<(^(T)>v«) -^(х(т), «(’•))) г=1 (см. D)). В случае многочленной вариации Макшейна т = тг и е(т) = Ат,т& + Ат,т/2 + ••• + +£ (3.8) (см. F)). Если вектор £(т), заданный в точке х(т), перенести из момента времени т в момент времени (см. А) § 4), то обозначим получен- ный в точке x(fi) вектор через у?(М), т. е. положим Так что в конце отрезка времени tQ<t<ti мы имеем x*(ti) - х(/1) = еу>(М) + 6(e). 25
Л. С. ПОНТРЯГИН §7. Сложение вариаций Макшейна Определим прежде всего сумму двух одночленных вариаций Макшейна, описанных в предложении А). Н) Пусть М = М(т;а;у;б) (3.9) и М' = Af'(r';a';v,;e) (3.10) — две ( одночленных вариаций Макшейна, описанных в предложе- нии А). Если т = г', то их сумму определим следующим образом: М(т; a; v; б) + М'(т'; а'; v'; б) = М (т; а, а'; v, v'; б) (см. С)). Если г' т, то сумму М + М' вариаций (3.9), (3.10) определим как многочленную вариацию, получающуюся в резуль- тате последовательного применения вариаций М и М' (см. Е)). Из формул (3.7), (3.8) следует, что ^(М) + ^(М') = ^(М4-М'). I) Определим сумму двух вариаций Макшейна, описанных в пункте С), М = M(r;ai,a2,...,^;vi,v2,...,va;6), при т' т как последовательное применение этих двух вариаций. Если же т' = т, то сумму определим следующим образом: М 4- М1 = Так же как в предложении Н), ясно, что <р(М 4-М') = ^(М)4-</>(М'). Заметим, что многочленная вариация Макшейна М (см. Е)) может быть представлена в виде суммы М = Mi + • • • 4- Мг, 26
ПРИНЦИП МАКСИМУМА где М — вариация, описанная в пункте С). J) Определим теперь сумму двух многочленных вариаций Мак- шейна, описанных в предложении Е). Для этого прежде всего заме- тим, что можно считать встречающиеся в этих вариациях т одина- ковым, так как в каждую вариацию можно ввести дополнительное т, считая, что соответствующие а = 0. Пусть м = л/1 + ... + л/г, (3.11) м' = м; + ... + мг' (з.12) — две такие вариации, где Л/, и М- — вариации, описанные в пункте С). Сумму этих двух вариаций зададим формулой м + м' = + (3.13) 1=1 где первоначально суммируются вариации Макшейна, описанные в пункте С) с одинаковым т: (см. I)), а затем берется сумма всех парных сумм. Сумма парных сумм получается в результате последователь- ного применения каждой парной суммы и поэтому является мно- гочленной вариацией Макшейна. Для каждой парной суммы имеет место формула (см. I)) у?(М- + м;) = 9?(м) + Для суммы же парных сумм (3.13) имеет место формула (см. F)) ч> few, + м;)) = + л/'). \i=l / i=l Таким образом, для суммы двух многочленных вариаций Макшейна (3.11) и (3.12) получаем <р(М + ЛГ) = 9?(М) + <^(М'). Определим теперь умножение вариации Макшейна на действи- тельное неотрицательное число. 27
Л. С. ПОНТРЯГИН К) Для того чтобы умножить некоторую вариацию Макшейна М на действительное неотрицательное число А, следует каждое чи- сло а, входящее в определение вариации Макшейна, умножить на А. В результате этой операции мы получим новую вариацию Мак- шейна. Так, умножение одночленной вариации Макшейна (см. А)) на А описывается формулой АЛ/(т; ст; v; е) = М (т; Act; v; б), а умножение на А вариаций Макшейна, описанных в предложении С), задается формулой АЛ/(т; <Ti,... ,as; vb v2,..., v,;e) = = Л/(т; A(Ti,..., Aas; vb v2,..., vs; e). Аналогично определяется произведение многочленной вариации Мак- шейна М на число А. Далее, непосредственно видно, что если М есть вариация Мак- шейна, то <р(АЛ/) = А^(Л/), А>0. Таким образом, отображение 9? является линейным отображе- нием при неотрицательных коэффициентах. И потому множество всех векторов </?(Л/), где М — произвольная многочленная вариа- ция Макшейна, представляет собой выпуклый конус С вершиной x(tl). §8. Расширение класса рассматриваемых вариаций Расширим класс рассматриваемых вариаций Макшейна, присо- единив к ним еще один действительный параметр а, который мо- жет быть как положительным, так и отрицательным. Новую ва- риацию управления u(Z) мы обозначим У(Л/,а) в знак того, что она зависит от вариации Макшейна М и действительного числа а. Применяя эту вариацию к заданному управлению u(t), iQ<t<ti, по- лучим новое управление u*(t), которое будет задано не на отрезке 28
ПРИНЦИП МАКСИМУМА t0<t<ti , а на новом отрезке to<t<ti +ба. На отрезке fo<f <f i будем считать, что u*(f) получено из u(f) вариацией Макшейна Л/, а за- тем вблизи t = 11 определено в зависимости от а. При положитель- ном а управление u*(f) задано на большем отрезке, чем исходное управление u(f), а при отрицательном а — на меньшем отрезке. При определении вариации У(ЛГ,а) надо внимательно различать случаи положительного и отрицательного а. При а > 0 мы опре- делим управление u*(f) на отрезке t\ < t<ti + ба, положив u*(f) = u(fi), ti < t<ti + ea, так что на этом отрезке времени управляемая величина x*(f) зада- ется формулой x*(i) = х*(<1) + (t - ti)f(x(ti),u(/i)) + 6(e). При а < 0 мы определим u*(f) на отрезке t^+ea < t<t^ положив u*(f) = u(f), а < 0, fi + еа < f<fP Так что при f i + ба < t<t 1 имеем x*(t) = x*(ti) + J f(x*(/),u*(t))<ft = <1 = x’(*i) + У = «1 = x*(/i) + (t - ii)f(x(ti), u(fi)) + 6(e). Таким образом, при t = f i + еа имеем x*(ti + ea) = x*(fi) + eaf (x(ti), u(fi)) + б(б) (как при положительном, так и отрицательном а). Итак, новое управление u*(f) определено на отрезке fo<f<fj = fi + ба, и мы имеем x*(fj) = x*(fi) + eat (x(fi), u(fi)) + 6(б). (3.14) 29
Л. С. ПОНТРЯГИН Определим теперь сумму двух вариаций и V(M2,a2), положив V^ai) + V(M2,a2) = V(M. + + а2). Далее, определим умножение вариаций V(M, а) на неотрицатель- ное число А>0, положив XV(M.a) = V(AM,Aa). Определим, далее, линейное отображение применительно к вари- ации V(M, а), положив y?(V(M, а)) = y?(Af) + of (x(/i), u(ti)). Здесь есть вектор, выходящий из точки х(й) (см. G)), a f(x(fi), u(fi)) мы будем рассматривать как вектор, также выходя- щий из точки x(ti). Таким образом, все векторы выходят из точки x(fi) и совокупность их образует выпуклый ко- нус С с вершиной в точке x(/i) (см. К) § 7). Если к управлению u(i) применяется вариация У(Л/, а), то пер- воначально применяется вариация М к управлению u(t) на отрезке При этом (см. G)) для соответствующих управляемых ве- личин выполнено соотношение х*(<1) - х(/1) = б(/?(М) + б(е). (3.15) Если, далее, в окрестности точки ti применить вариацию, соответ- ствующую числу а, то мы получим соотношение (3.14). Таким образом, применяя к управлению u(t) вариацию V(М, а), получим новое управление u*(i), заданное на отрезке tQ^t^h+ea = ip причем для управляемой величины x*(i) имеет место соотноше- ние (3.14). Сопоставляя соотношения (3.15) и (3.14), получаем х*(Ф - x(tj = МV(M, а)) 4- о(е). (3.16) Перенесем теперь начало координат пространства Sn+1 в точку x(ii). При этом ось, полученную перенесением х\ обозначим у'. 30
ПРИНЦИП МАКСИМУМА Координатную гиперплоскость, в которой лежат оси t/1,..., t/n обо- значим Yn. L) Оказывается, что если отрицательное направление оси у0 проходит внутри конуса (7, то взятое нами управление u(Z) не опти- мально. Для доказательства этого в гиперплоскости Yn выберем п-мер- ный симплекс Тп с вершинами, ао, Hi,..., а„, с центром в начале координат. Оператор проектирования в направлении оси у® на ги- перплоскость Yn обозначим X- Параллельно переместим симплекс Тп в направлении отрицательной полуоси у° на некоторую вели- чину Л. Тогда для достаточно большого h получим симплекс с вершинами Ьо = Ьп = , лежащими в конусе С, причем at = x(bt). Кроме того, все точки Б, имеют ненулевую координату Ь° = —h. Пусть а — произвольная точка симплекса Тп. Тогда точка а может быть записана в виде а = £АЧ, А’>0, £Л’ = 1, t=0 t=0 где А* — барицентрические координаты точки а (см. I) § 5). Точка а € Тп является проекцией точки Ь = £А’К t=0 из симплекса Для каждой вершины Б, выберем такую вариацию V(Aft,at), что Тогда b = Е AV(V(M,a,)) = (Е A*V(Mt,at)) - 1=1 \t=i / Таким образом, точке а поставлена в соответствие вариация V(M,a) ='£iXiV(Mi,ai) = V (£а‘ХЕА%) . t=l \t=l 1=1 / 31
Л. С. ПОНТРЯГИН Конец траектории соответствующей вариации V(M, а) записыва- ется в виде (см. (3.16)) x*(tj) =x(fi) + eb + 6(e). Тогда отображение Л(а) = - x(fi)) = а + е > О, /?о(а) = а, где а — произвольная точка симплекса Тп, определено для ма- лых неотрицательных е, непрерывно и /?е(а) — а равномерно стре- мится к нулю при б 0. Следовательно, при достаточно малых е среди точек вида /?с(а) содержится начало координат простран- ства Yn (см. J) § 5). Таким образом, найдется такая вариация У(Л/*,а*), что соответствующая траектория x*(t) удовлетворяет условию x(x*(ti) — x(fi)) = 0. При этом разность x*°(fJ) — x°(£i) = —eh + о(б) — отрицательная величина порядка е. Следовательно, функционал L для управляемой траектории x*(f) с управлением u*(t) имеет меньшее значение, чем для управляемой величины x(f) с управлением u(t). Следовательно, управление u(f) не является оптимальным в от- ношении функционала L. Итак, оказывается, что если отрицатель- ное направление оси у° содержится внутри конуса С, то управление u(f) не оптимально. Теперь мы рассмотрим случай, когда отрицательное направле- ние оси у® не лежит внутри конуса С. М) Предположим, что отрицательное направление оси yQ не ле- жит внутри конуса С. Тогда существует гиперплоскость Г, отделя- ющая конус С от отрицательной полуоси у° (см. Н) § 5). Пусть ^0, • •., 'Фп — координаты гиперплоскости Г, причем знак их выбран так, что конус С лежит в отрицательном полупространстве этой гиперплоскости Г, а отрицательная полуось у° — в положительной части. Пусть М - некоторая вариация Макшейна и а — некоторое дей- ствительное число такие, что, применяя вариацию V(Af, а), мы по- лучаем управление u*(f), для которого c/?(V(M, а)) лежит в конусе 32
ПРИНЦИП МАКСИМУМА (7. Тогда (c/?(V(Af, а)), ^)<0. Перенося вектор ф из момента времени ti в момент времени t, явля- ющийся точкой непрерывности управления u(t) (см. А), В) § 4), получим (a(f(x(Z), v) - f(x(t),u(t))),^(t))<0. для одночленной вариации Макшейна сг; v; е). Переписывая последнее соотношение в терминах функции К, получим #(*(*)> $(t), v)<K(x(t), ^(t), u(t)), т. e. tf(x(t), ^(i), u(f))> ^(f), v). Таким образом, мы доказали принцип максимума для точек не- прерывности управления u(f). Для точек разрыва управления u(f) принцип максимума получается при помощи предельного перехода. Таким образом, теорема 1 доказана. Сформулируем теперь допол- нение к принципу максимума. Дополнение к принципу максимума.Для оптимального упра- вления u(f) и соответствующей ему траектории x(t) существует такая гиперплоскость Г (см. М))7 (проходящая через точку x(fx)7 с координатами V>(ti) = (V>o(^i)> • • •, что <f(x(fi),u(M),’MM)= о, A”(x(/i); u(ii)) = 0. Последнее равенство выполняется для произвольного t, т. е. K(x(t)7 V>(/),u(f)) = 0. Кроме того, ^о(^) — неположительная постоянная величина. Докажем это утверждение. Поскольку вектор af(x(fx), u(fx)) лежит в конусе С, то выполняется неравенство (см. М)) (of (х(*1), u(f 1)), = a(f (х(*1), u(ti)), ^(<1))<0, 33
Л. С. ПОНТРЯГИН а так как а может принимать значения обоих знаков, то (f(x(ti),u(/i)),^(ti)) = 0, т. е. /f(x(<i),^(ti),u(ti)) = 0. Покажем теперь, что функция K(t) = K(x(t),^(<),u(<)) постоянна. Пусть ^о<^2 < причем на полуинтервале t2 < t<f3 функция u(t) непрерывна. Докажем, что на этом полуинтервале функция K(t) постоянна. Возьмем две произвольные точки т0 и ту полуин- тервала t2 < t<t3, В силу (1.9) гл. 1 имеем К(х(то),^(то),и(то)) - А'(х(то),^(то),и(т1))>0, - - А'(х(т1),^(п),и(то))<0. Прибавляя к обеим частям этих неравенств разность A'(ri) — А'(то), получим неравенства —К(х(т0), 0(то), и(т0)) + К(х(т1), и(т0))< <К(Т1) - A'(t0)<A'(x(t1),^(ti),u(ti)) - -АГ(х(т0),^(то),и(т1)). (3.17) Далее, так как функция K(x(t),^(/),u(/)) переменного t на от- резке t2 < t < 1з непрерывна и имеет производную, равную нулю в точке t = т в силу (1.7), (1.8) гл. 1, то стремится к нулю при и — то -> 0. Следовательно, функция K(t) имеет производную, равную нулю в каждой точке т интервала t2 < t < f3, и потому K(t) = const на полуинтервале t2 < t<t3. Пусть то — точка разрыва функции и(/). Докажем, что, тем не менее, функция K(t) непрерывна в ней, т. е. докажем, что К(то) = Л"(т0 — 0) = А"(то 4-0). (Величины К(т0 — 0), К(т0 4- 0) существуют, так как по условию существуют пределы слева и справа и(то — 0), и(то 4-0).) Равенство Л^то) = K(tq — 0) выполняется в силу определения из А) § 1. Дока- жем равенство К(т0) = K(tq 4- 0). Из условия (1.9) гл. 1 вытекает /фо) = /ффо),<фо),и(то))> >А'(х(то),^(то),и(то + 0)) = К(т0 + 0). 34
ПРИНЦИП МАКСИМУМА Для доказательства обратного неравенства предположим, что точка Г1 стремится к т0 справа. Тогда -» #(7-0+ 0), K(x(ti),^(ti),u(t0-0)) -> А'(то-О), причем для всех Ti в силу условия (1.9) гл. 1 имеем ^(х(п),^(п),и(т1))>/!Г(х(т1),^(т1),и(то-0)) следовательно, К(то + 0)>К(то-0). Из доказанного вытекает постоянство функции К(х(/), V>(£), u(t)) на всем отрезке£о<£<^1, а так как в конце отрезка она равна нулю, то функция эта равна нулю всюду. Из системы уравнений (1.8) гл. 1 следует, что = 0, так как К(х, 0, и) не зависит от гг°, так что V’o — постоянная величина. Пусть ё = (—1,0,... ,0) — вектор, направленный по оси у° в отрицательном направлении. Тогда произведение (ё, ф) неотрица- тельно, (ё,^)>0 так как вектор ф разделяет отрицательную полуось у° и конус С и направлен в противоположную от С сторону. Следовательно, V*o(^i)>0- 35
Глава 4 Задача быстродействия Пусть R1 — n-мерное евклидово векторное пространство, так что вектор х 6 записывается в виде v /^1 ^2 „п\ Допустим, что в пространстве 1?” задана управляемая система, (см. § 1) х' = /*(ж1,ж2,... ,zn,u), u € П, или, в векторной записи, x = f(x,u), uefi. (4.1) Предположим, что существует управление u(f), переводящее век- тор Хо в вектор Xi, т. е. уравнение X = f(x, 11(f)) имеет решение x(t), удовлетворяющее условиям x(t0) = Хо, x(tj) = Xi для некоторых значений Тогда возникает задача: найти такое управление u*(f), для ко- торого переход из состояния Хо в состояние Xi происходит за крат- чайшее время. Это и есть задача быстродействия. 36
ПРИНЦИП МАКСИМУМА Для задачи быстродействия функционал L записывается в виде ti L = J dt, to т. e. функция /°(х, u) определяется соотношением /°(x,u) = 1. Таким образом, функция и) в задаче быстродействия запи- сывается в виде Я(х,^,и) = + а = 1,...,п. А) Положим Я(х, и) = i/>Qfa(x, и), а = 1,..., п. Тогда функция К записывается в форме К (х, u) = V’o + Я(х, и), условие максимума (см. (1.9) гл. 1) принимает вид Я(х(0, Щ), у)<Я(х(0, Щ), u(f)), а системы уравнений (1.7) и (1.8) (см. гл. 1) получают вид *• = вд, (4.2) л = (4.з) ОХ* Из дополнения к принципу максимума следует, что функция — ненулевая. Это и есть принцип максимума для задачи быстродействия. 37
Л. С. ПОНТРЯГИН §9. Линейная задача быстродействия Задача быстродействия называется линейной, если управляемая система (4.1) записывается в следующем простом виде: х = Ах + и, (4.4) а множество Q, которому принадлежит управление и, является вы- пуклым многогранником пространства йп. Здесь А есть линейное отображение пространства в себя или, в случае координатной записи, А является квадратной матрицей порядка п, а х — одно- столбцовая матрица высоты п, В линейном случае уравнение (4.3) переписывается в виде ф = — фА, (4.5) где справа стоит произведение однострочной матрицы ф длины п на квадратную матрицу А порядка п. Для получения некоторых результатов характера единственно- сти мы будем налагать на управляемую систему (4.4) нижеследую- щие условия В) и С), роль которых выяснится в дальнейшем. В) Пусть ш — некоторый вектор из 7?п, имеющий направление какого-либо из ребер многогранника Q; тогда вектор ш не принад- лежит никакому истинному подпространству пространства Яп, ин- вариантному относительно оператора А. Условие это равносильно тому, что векторы и, Ао>,..., Ап-1и; (4.6) линейно независимы. В самом деле, если бы существовало истинное подпространство R пространства Я”, инвариантное относительно А, то все векторы (4.6) принадлежали бы пространству R и, следовательно, были бы линейно зависимы, так как R имеет размерность меньше п. Напро- тив, если бы векторы (4.6) были бы линейно зависимы, т. е. если бы имело место соотношение cqc*; + ciAcu + • • • + cn-i An = 0, (4-7) 38
ПРИНЦИП МАКСИМУМА то, выбирая наименьшую степень р, входящую в соотношение (4.7), мы из последнего соотношения (4.7) получили бы Арш = +----1- Ьоо>, и векторы и, Аи,..., Ар-1си все содержались бы в некотором ис- тинном подпространстве R размерности р, инвариантном относи- тельно оператора А. С) Выпуклый многогранник Q содержит начало координат О Э Rn и не состоит только из нуля. В линейном случае функция Н(х,^,и) записывается в виде Н(х, ф, и) = фАх + (ф, и). (4.8) Здесь ф Ах представляет собой произведение трех матриц, где V’ есть однострочная матрица длины п, А — квадратная матрица по- рядка п, х — одностолбцовая матрица высоты п, а скалярное про- изведение (Vs и) = фи есть произведение однострочной матрицы ф на одностолбцовую матрицу и. Из формулы (4.8) следует, что функция Я(х,^,и) переменного и достигает своего максимума вместе с функцией (фуи). Мак- симум функции {ф,и) переменного и при заданном ф обозначим Р(ф). Из условия С) следует, что величина Р(ф) неотрицательна: Р(ф)>0. В силу принципа максимума (см. А) ) оптимальное управление u(t) должно быть выбрано так, чтобы функция ff(x(t),V(^),u), как функг^ия переменного и, достигала своего максимума при u = u(t). А это значит, что оптимальное управление u(f) удовлетворяет усло- вию ^(t),u(t)) = P(^)). (4.9) D) Рассмотрим линейные системы уравнений х = Ах (4.10) и ф = -фА. (4-11) 39
Л. С. ПОНТРЯГИН Решения уравнений (4.10) и (4.11) тесно связаны между собой. Именно, если х = bx(t) есть решение уравнения (4.10), а i/> = ^(<) — решение уравнения (4.11), то скалярное произведение x(t)) постоянно: (V>W,x(^)) = 0(t),x(Z) = const. (4.12) Для доказательства этого продифференцируем скалярное про- изведение (V>(/),x(/)). В силу уравнений (4.10) и (4.11) получаем ^(V>(t),x(t)) = (i/>(t),x(t)) + (V>(t),x(t)) = = — + V>(t)4x(t) = 0. Пусть y.W = (У,(*)>•i = (4.13) — фундаментальная система решений уравнения (4.10), удовлетво- ряющая начальным условиям yiM = & а v>*(t) = (V>l(f), • • •, <(*)), г = 1,2,..., п — фундаментальная система решений уравнения (4.11), удовлетво- ряющая начальным условиям V’j^o) = s}- Тогда мы имеем V’WiW = (4-14) при произвольном L Действительно, при t = tQ равенство (4.14) имеет место, а, сле- довательно, в силу соотношения (4.12) оно выполняется для произ- вольного t. Е) Решим уравнение x = Ax + u(t) (4.15) 40
ПРИНЦИП МАКСИМУМА при помощи вариации постоянных, исходя из фундаментальной си- стемы (4.13). Именно, пусть XW = ya(t)ca(t), а = 1,..., п, — решение уравнения (4.15). Подставляя это решение в уравнение (4.15), получаем ya(t)c“(t) = u(t). Умножая это соотношение слева на (см. (4.14)), получаем c’-(t) = ^(t)u“(i). Интегрируя это соотношение от tQ до получаем t сЦ*) = сЦЛ)) + У il^a)ua(a)da. to откуда (t \ я“(<о) + У I . to / F) Управление u(t) называется экстремальным, если оно удовле- творяет принципу максимума, т. е. если существует такое нерав- ное нулю решение уравнения (4.11), для которого выполняется условие (muw)=m=w (4.16) Ясно, что всякое оптимальное правление является экстремаль- ным. Теорема 2. Экстремальное управление u(t) для линейной за- дачи быстродействия (4.4), в которой множество допустимых упра- влений О представляет собой выпуклый многогранник, для кото- рого выполнено условие В), представляет собой кусочно-постоянную функцию, значения которой равны вершинам многогранника Q; бо- лее точно, экстремальное управление u(t), за исключением конеч- ного числа значений t, однозначно определяется условием макси- мума как некоторая вершина многогранника Q. 41
Л. С. ПОНТРЯГИН Доказательство. В силу F) значение управления u(f) определя- ется как величина и, дающая максимум произведения (^(^),и) при u Е fi, или, в виде формулы, (V>(t),u(t)) = max(V>(f),u(t)), u € П. (4.17) Если соотношение (4.17) не определяет u(f) как некоторую вер- шину многогранника П, то это значит, что при заданном значении t скалярное произведение (^(0>и) Достигает своего максимума на некоторой грани Г многогранника 9. Если есть некоторое ре- бро грани Г, а о; — вектор, имеющий направление этого ребра, то (^(t),cu)=O. (4.18) Действительно, если щ, и2 — вершины многогранника 9, образу- ющие ребро си*, то (^>(f),Ui - u2) = - W), u2) = °- Если формула (4.17) не определяет u(f) как вершину многогран- ника 9 для бесконечного множества значений t, то существует та- кой вектор си, имеющий направление некоторого ребра си* много- гранника 9, что равенство (4.18) имеет место для бесконечного множества значений t, расположенных на конечном отрезке пере- менного t Так как ф(1) является решением линейной системы с постоян- ными коэффициентами, то есть аналитическая функция £, и (V>G),<u)=0 (4.19) для целого интервала значений t, а потому соотношение (4.19) можно дифференцировать по f, и мы получаем последовательность ра- венств (^(t),cu) = 0, (V>(t)A,cu) = 0, (^(f)An-1,cu) = 0. Так как в силу предположения В) векторы ^(*), Аси, Ап-1си (4.20) 42
ПРИНЦИП МАКСИМУМА составляют базис пространства Яп, то оказывается, что вектор ортогонален каждому вектору базиса (4.20), т. е. любому век- тору пространства 7?п, а отсюда следует ip(t) = 0, что противоре- чит предположению о том, что ^(t) есть ненулевое решение урав- нения (4.11). Итак, доказательство теоремы 2 закончено. G) Экстремальное управление u(t) для линейной задачи быстро- действия (4.4), в которой многогранник П удовлетворяет условиям В), С), и переводящее точку Хо в начало координат 0 пространства 7?п, единственно в той мере, в какой оно определяется равенством (4.16). Докажем это утверждение. Выпишем прежде всего решение управляемой системы (4.15) для произвольного управления u(t) (см. Е)): (t \ я“(<о) + У ^д(<7)ид(<т)</а I . «о / Из этого равенства видно, что если начальное значение x(to) есть начало координат пространства Яп, то нулевое управление н(/) = 0 не выводит из начала координат. Допустим теперь, что существуют два экстремальных управле- ния Ui(f), и u2(t), переводящих точку х0 в точку 0. Допустим для определенности, что Доопределим управление Ui(t) на отрезок ti < t<t2l положив Ui(t) = 0 при ti < t<t2. Тогда управление Ui(Z) определено на отрезке и переводит точку Хо в начало координат 0. Действительно, x(fi) = 0 является начальным условием для нулевого управления Ui(f) = 0 на отрезке /1<£<£2 и, следовательно, не смещает начало координат. Так как векторы yi(t),..., yn(t) линейно независимы, (<2 \ я“(*о) + У I , to ' 43
Л. С. ПОНТРЯГИН О = x(t2) = Уа(^) ®в(<о) + У фр(<т)и%(а)<10 . to то мы имеем *2 «2 S*(*o) + У^(а)и?(<т)Лт = 1’(<о) + to to откуда h i2 У = У ^(<T)U2(<T)^T- (4-21) to to Пусть — то решение однородной системы (4.11), для которого управление u2(f) удовлетворяет равенству (4.16), т. е. ^*(«)u2(t) ='Р(^*(0). Умножим соотношение (4.21) слева на ^J(fo) и просуммируем по j. Тогда получим Так как P(^*(f)) > 0, кроме, быть может, конечного числа точек f, то ti = f2. Действительно, если — направление некоторого ребра многогранника Я, то так же, как в доказательстве теоремы 2, (^*(0»^) может равняться нулю только в конечном числе точек f. Далее, из равенства (4.22) получаем Таким образом, экстремальное управление u(f) единственно в той мере, в какой оно определяется равенством (4.16). 44
Глава 5 Синтез некоторых задач быстродействия В этой главе мы рассмотрим применение принципа максимума к решению некоторых простых задач быстродействия. Из рассмо- трения этих задач выяснится новая важная постановка задачи об оптимальных процессах — задача синтеза оптимальных управле- ний. §10. Быстрейшая остановка движущейся по инерции точки в заданном месте Пусть по прямой движется по инерции точка. Задача состоит в том, чтобы наискорейшим образом остановить движение этой точки в заданном месте прямой, которое мы примем за начало координат, применением к ней силы, ограниченной по модулю. В виде дифференциального уравнения движение точки описывается следующим образом: х = и, |и|<1. В фазовых координатах 45
Л. С. ПОНТРЯГИН это уравнение переписывается в виде следующей системы: i1 = х2, х2 = и. (5.1) Мы рассматриваем задачу быстродействия из заданного началь- ного состояния Хо в конечное положение хь которым служит на- чало координат: Xi = 0. Функция Н в рассматриваемом случае имеет вид Я = фгХ2 + 02^« а матрица А записывается в виде А = 1 \ 0 ) ’ Далее, для вспомогательного вектора ф мы получаем уравнение Ф = -фА, или, в координатном виде, Ф1 = о, Ф1 = ~Ф1, откуда ф1 = ci, ф2 = с2 — Cit (сх, с2 — постоянные). Соотношение (4.9) главы 4 записывается тогда в виде ф2и = (с2 — cit)u = |с2 — erf |, откуда получаем u(t) = sign^2(^) = sign(c2 — cit). (5.2) Из этого следует, что каждое оптимальное управление u(t), является кусочно-постоянной функцией, принимающей значения ±1 и имеющей не более двух интервалов постоянства (ибо линейная функция с2 — erf не более одного раза меняет знак на отрезке 46
ПРИНЦИП МАКСИМУМА Обратно, любая такая функция u(f) может быть полу- чена из соотношения (5.2) при надлежащем выборе констант ci, с2. Для отрезка времени, на котором u = 1, мы имеем (в силу системы (5.1)) х2 = t + 52, _ £+Л+,> = |((+,»)’ где s1, s2 — константы; отсюда получаем = 1(®2)2 + 8, (5-3) где s — константа. Таким образом, кусок фазовой траектории, для которого u = 1, представляет собой дугу параболы (5.3) (рис. 4, а). Аналогично, для отрезка времени, на котором и = — 1, мы имеем X2 = -t + г2, х1 = —122 + r2t + г1 = —1(—t + г2)2 4- (г1 + (г1, г2 — константы), откуда получаем X1 = -^(х2)2 + г, (5.4) где г — константа (см. рис. 4, 6). По параболам (5.3) фазовые точки движутся снизу вверх (ибо = и = +1), а по параболам (5.4) — сверху вниз (^ = u = —1). Как было указано выше, каждое оптимальное управление u(t) является кусочно-постоянной функцией /, 47
Л. С. ПОНТРЯГИН принимающей значения ±1 и имеющей не более двух интервалов постоянства. Если управление u(t) сначала, в течение некоторого времени, равно +1, а затем равно —1, то фазовая траектория со- стоит из двух кусков парабол (рис. 5), примыкающих друг к другу, причем второй из этих кусков лежит на той из парабол (5.4), ко- торая проходит через начало координат (ибо искомая траектория должна вести в начало координат). Если же, наоборот, сначала и = — 1, а затем и = +1, то фазовая траектория заменяется центрально- симметричной (см. рис. 5). 48
ПРИНЦИП МАКСИМУМА На рис. 5 написаны на дугах парабол соответствующие значения управляющего параметра и. Рис. 6 На рис. 6 изображено все семейство полученных таким образом фа- зовых траекторий (АО — дуга параболы х1 = |(х2)2, расположен- ная в нижней полуплоскости; ВО — дуга параболы ж1 = — |(я2)2, расположенная в верхней полуплоскости). На плоскости чертежа (рис. 6) выделена линия переключения АОВ, Выше этой линии управление и = —1, а ниже и = 4-1. Если начальное положение х0 расположено выше линии АОВ, то фазовая точка должна двигаться под воздействием управления 49
Л. С. ПОНТРЯГИН и — —1 до тех пор, пока она не попадет на дугу АО; в момент попа- дания на дугу АО значение и переключается и становится равным 4-1 вплоть до момента попадания в начало координат. Если же на- чальное положение Хо расположено ниже линии АОВ, то п должно быть равным 4-1 до момента попадания на дугу ВО, а в момент попадания на дугу ВО значение и переключается и становится рав- ным —1. Итак, согласно принципу максимума (см. теорему 1) только описанные траектории могут быть оптимальными. Из проведен- ного построения видно, что через каждую точку фазовой плоско- сти проходит одна и только одна траектория описанного вида. Из некоторых дополнительных соображений следует, что все получен- ные траектории оптимальны. Полученное здесь решение задачи можно истолковать следую- щим образом. Обозначим v(xl,x2) = v(x) функцию, заданную на плоскости х1, х2 следующим образом: ✓ х _ Г 4-1 ниже линии АОВ и на дуге АО, ' ' ~ | — 1 выше линии АОВ и на дуге ВО. Тогда на каждой оптимальной траектории значение u(t) управля- ющего параметра (в произвольный момент t) равно v(x(/)), т. е. равно значению функции v в точке x(t). Это означает, что, заменив в системе (5.1) величину и функцией и(х), мы получим систему £ = v(S <5-5) решение которой (при произвольном начальном состоянии Хо) дает оптимальную фазовую траекторию, ведущую в начало координат. Иначе говоря, система (5.5) представляет собой систему дифферен- циальных уравнений (с разрывной правой частью) для нахождения оптимальных траекторий, ведущих в начало координат. В данном случае мы получили возможность определить управле- ние как функцию и(х) точки х фазовой плоскости. Такое решение задачи называется синтезом оптимального управления. 50
ПРИНЦИП МАКСИМУМА §11. Быстрейшая остановка математического маятника ограниченной по модулю силой В виде дифференциального уравнения сформулированная за- дача описывается следующим образом: х 4- х = щ |и|<1, Это уравнение эквивалентно системе i1 = х2, • 2 1 । (5*6) х* = —xx + u, v 7 для которой мы, как и в предыдущем параграфе, изучим задачу о быстрейшем попадании в начало координат. Функция Н здесь имеет вид Н = ф^х2 — fax1 + Vw а матрица А имеет вид Далее, для вспомогательного вектора ф имеем уравнение ф — —фА, или, в координатном виде, = *02, V>2 = откуда = asin(i — а0), где а > 0 и а0 — некоторые постоянные. Условие максимума (см. (4.9) гл. 4) записывается в виде V>2U = asin(t — a0)w = |asin(t — ao)|? откуда получаем u = sign^2 = sign(asin(/ — o0)) = sign(sin(f - a0)). 51
Л. С. ПОНТРЯГИН Отсюда следует, что управление и(/) получается из функции sign(sinf), равной поочередно +1 и —1 на интервалах длины тг, при помощи сдвига на некоторый отрезок а0 (рис. 7). Для изучения куска траекторий, соответствующих значениям и = ±1, рассмотрим вспомогательную однородную систему х1 = х2, х2 = —х1. (5.7) Произвольное решение этой системы может быть записано в виде я1 = — rcos(t + 7), х2 = rsin(Z + 7)j (5-8) где г, 7 — константы (г>0, 0<7 < 2тг). Таким образом, фазовыми траекториями системы (5.7) являются окружности с центром в на- чале координат: (z1)2 + (я2)2 = г2 (5.9) (рис. 8, а). Из (5.8) видно, что движение фазовой точки по окруж- ности (5.9) совершается по часовой стрелке, причем равномерно, с линейной скоростью 2тгг (один оборот за время 2тг). Рис. 7 Отметим, в частности, что за промежуток времени, имеющий длину 7г, фазовая точка, двигаясь по часовой стрелке, описывает половину окружности (5.9). При и = 1 система (5.6) принимает вид i1 = ж2, х2 = —т1 4-1, (5.10) или, иначе, — т2 dt ~ Х ' < = -С*1"!)- (5.П) 52
ПРИНЦИП МАКСИМУМА Вспоминая соотношения (5.7) и (5.9), находим, что фазовые траек- тории системы (5.11) (или, что то же самое, системы (5.10)) пред- ставляют собой окружности с центром в точке (1,0): (х1 - I)2 + (х2)2 = г2. (5.12) Эти окружности фазовая точка, движущаяся по закону (5.10), про- бегает по часовой стрелке, обходя за время тг ровно половину окруж- ности (см. рис. 8,6). Аналогично при и = — 1 система (5.6) принимает вид Oz — Лг , •2 _ 1 -1. •Г ““ X ““ X, ее фазовыми траекториями являются окружности (^ + 1)2 + (х2)2 = г2 с центром в точке (—1,0). По этим окружностям фазовая точка движется по часовой стрелке, проходя ровно половину окружности за время тг (см. рис. 8,в). Как было указано выше, каждое оптимальное управление u(f) является кусочно-постоянной функцией, получающейся из функ- ции sign(sint), равной поочередно +1 и —1 на интервалах длины 7г, при помощи сдвига на некоторый отрезок а0 (рис. 9). Если оптимальное управление u(t) имеет вид, показанный на рис. 9, т. е. поочередно равно 4-1 и -1 на интервалах (а,тг + а), (тг + а, 2тг + а),... и, в заключение, на некотором интервале длины /3 < я- равно +1, то соответствующая оптимальная траектория мо- жет быть построена следующим образом. 53
,Л. С. ПОНТРЯГИН.; В течение заключительного отрезка времени длины /3 фазовая точка движется по окружности вида (5.12) (ибо и = 1 на этом отрезке времени), причем по той из этик окружностей, которая проходит через начало координат (ибо искомая траектория должна вести в начало координат). Такой окружностью является окруж- ность радиуса 1 с центром в точке OJ (рис. 10).. По этой окруж- ности фазрвая точка попадает в начало координат, проходя дугу, меньшую половины окружности (ибо (3 < тг). 54
ПРИНЦИПМАКСИМУМА Таким образом, обозначив нижнюю полуокружность этой окруж- ности через Mi О, мы найдем, что заключительный кусок опти- мальной траектории представляет собой некоторую дугу АО по- луокружности Mi С. ? Далее, в положение А фазовая ^точка попала, двигаясь в тече- ние отрезка времени длины тг под воздействием управления и = — 1 (рис. И), т. е. предыдущий кусок фазовой Траектории предста- вляет собой полуокружность В А с центром в точке O-i, закан- чивающуюся в точке А (см. рислП): Так как дуга В А равна полуокружности, то точка В симметрична А относительно О А х2 Of JM1 '-^А Рис. 10 Рис. 11 ... центра O-i, и потому Фочка В лежит на полуокружности симметричной полуокружности СМХ относителен©;центра О_х. Точ- но так же предшествующая дуге В А дуга СВ, соответствующая отрезку времени длины тг, на котором u = 1, есть полуокружность с центром Ci, и потому точка С лежит на полуокружности М2М3, которая симметрична полуокружности относительно центра 01 (рис. 12) и т. д. Таким образом, соответствующая фазовая тра- ектория имеет вид, показанный на рис. 12 (начальный кусок фазо- вой траектории будет меньше половины» окружности, если толъко^ О < о — £0 < тг; см. рис. 9); ' л Фазовая траектория, соответствующая оптимальному управлё* нию u(f), которое на заключительном отрезке длины /3 равно —1 (а не 4-1), получается из траектории, 55
Л. С. ПОНТРЯГИН изображенной на рис. 12 с помощью центральной симметрии (рис. 13). Для такой траектории точка “стыка” дуг окружностей будут ле- жать на полуокружностях ONi, MiM2, N2N2,...) симметричных (относительно начала координат) полуокружностям OAfi, NiN2> М2М3,.... 56
ПРИНЦИП МАКСИМУМА Объединяя оба эти случая (см. рис. 12, 13), получаем всю кар- тину поведения фазовых траектории (рис. 14). На рис. 14 над- писаны на дугах фазовых траектории соответствующие значения управляющего параметра и. Из рис. 14 видно, что если начальная точка расположена выше линии ... M3M2M1ON1N2N3..., Рис. 14 составленной из бесконечного числа полуокружностей радиуса 1, то фазовая точка должна двигаться под воздействием управления и = —1 до тех пор, пока она не попадет на дугу ... М3М2М1О] в момент попадания на эту дугу значение и переключается и оста- ется равным 4-1 (фазовая точка при этом движется ниже линии ... M3M2M1ON1 N2N3... до момента попадания на дугу 0NY N2N3.. затем точка снова движется выше линии ... M3M2MiCWi7V2N3 • • • под воздействием управления и = — 1 т. д. Последний кусок фа- зовой траектории (ведущий в начало координат) представляет со- бой дугу полуокружности М\0 или полуокружности NiO. Совер- шенно аналогично движется точка и в том случае, если начальная точка х0 расположена ниже линии ... M3M2M1ON1N2N3...: выше этой линии фазовая точка движется под воздействием управления и = — 1, а ниже этой линии — под воздействием управления и = +1. 57
Л. С. ПОНТРЯГИН Итак, согласно теореме 1 только указанные траектории мргут быть оптимальными. Из проведенного построения видно, что че- рез каждую точку плоскости проходит одна и только одна траекто- рия описанного вида, ведущая в начале координат, которая Может быть оптимальной. Из некоторых дополнительных соображений следует, что все описанные нами траектории оптимальны. Как и в предыдущем § 10, полученное решение задачи можно истолковать следующим образом. Обозначим через и(х\ х2) = и(х) функцию, заданную на плоскости х1, х2 соотношениями и(х) = ниже линии и на дуге выше линии и на дуге M3M2M1ON1N2N3, М3М2М1О; M3M2M1ON1N2N3... ОМадз... Тогда вдоль каждой оптимальной траектории x(t) соответствую- щее оптимальное управление u(t) имеет вид u(i) = v(x(i)). Это, как и в § 10, означает, что, заменив в системе (5.6) величину и функцией и (х), мы получим систему (с разрывной правой частью) х1 = х2, •2 1 * { 1 2\ (5.13) X2 = —X + v(x\x2), v 7 решение которой (при произвольном начальном состоянии х0) дает оптимальную в смысле быстродействия траекторию, ведущую в на- чало координат. Иначе говоря, система (5.13) представляет со- бой систему дифференциальных уравнений (с разрывной правой частью) для нахождения оптимальных в смысле быстродействия траекторий, ведущих в начало координат. 58
ПРИНЦИП МАКСИМУМА V Приложение Оптимизация и дифференциальные игры Научное сообщение1 Вопрос о том, чем следует заниматься, стоит для математи- ков, быть может, острее, чем для специалистов в других областях знания. Математика, возникшая как чисто прикладная наука, и в настоящее время имеет своей основной задачей изучение окру- жающего нас материального мира с целью использования его для нужд человечества. В то же время она имеет свою внутреннюю логику развития, следуя которой математики создают понятия и даже целые разделы, являющиеся продуктом чисто умственной де- ятельности, которые никак не связаны с окружающей нас матери- альной действительностью и не имеют в настоящее время никаких приложений. Эти разделы зачастую обладают большой стройно- стью и некоторого рода красотой. Однако такого рода красота не может служить оправданием их существования. Математика — не музыка, красоты которой доступны большому количеству людей. Математические красоты могут быть поняты лишь немногими спе- циалистами. Создавая такие красоты, математики практически работают только на себя. Невозможно, однако, утверждать, что обладающие внутренней стройностью, но лишенные приложений разделы математики не имеют права на существование. Они составляют внутреннюю ткань науки, иссечение которой могло бы привести к нарушению всего организма в целом. Кроме того, оказывается, что некоторые от- делы математики, лишенные приложений в течение многих веков, позже находят эти приложения. Классическим примером служат кривые второго порядка, созданные в древности из внутренних потребностей науки и нашедшие лишь позже очень важное приме- нение. С другой стороны, некоторые разделы математики, занима- 1 Впервые опубликовано в “Вестнйке АН СССР”, 1978, К«7, с. 10-17. 59
Л. С. ПОНТРЯГИН ющиеся лишь внутренними проблемами, постепенно вырождаются и почти наверняка оказываются ни для чего не нужными. / В этой обстановке вопрос о выборе тематики исследований ста- новится для математиков весьма тревожным. Я считаю, что если не все, то во всяком случае многие математики должны в своей ра- боте обращаться к первоисточникам, то есть к приложениям ма- тематики. Это необходимо как для того, чтобы оправдать свое существование, так и для того, чтобы влить новую свежую струю в научные исследования. Исходя из этих соображений, а также находясь под некоторым давлением руководства Математического института им. В. А. Сте- клова, я и три моих сотрудника Е. Ф. Мищейко, Р. В. Гамкрели- дзе и В. Г. Болтянский решили заняться поиском прикладных тем для своих исследований в теории колебаний, точнее, в математиче- ском изучении электронных приборов и в теории регулирования, которую более общо теперь разумнее назвать теорией управления. Мы заранее исключили из своего рассмотрения математические задачи, уже сформулированные техниками. А основали свой поиск на ознакомлении с техническими проблемами, устанавливая кон- такты с многими специалистами в области техники. При этом мы не просто стремились найти приложения математики, но стара- лись найти новые постановки математических задач, интересные с точки зрения самой математики. Среди многих технических задач, с которыми мы ознакоми- лись, была следующая. Некий специалист в области авиации сказал: “Если один самолет преследует другой самолет, то пилот пресле- дователя, конечно, умеет это делать, но интересно было бы иметь теорию, быть может, даже такую, которая позволяла бы осуще- ствлять преследование при помощи автомата”. Мы все понаслышке знаем, что существуют самонаводящиеся ракеты. Но ракета обла- дает такими преимуществами в скорости и маневренности перед самолетом, что теория, на которой основано ее поведение, может быть очень грубой. Хочу сразу обратить внимание на странность этой задачи, ко- торая на первых порах показалась нам совершенно неприступной. В самом деле, самолет-преследователь очевидным образом не дол- жен лететь в то место, где в настоящее время находится убегаю- 60
ПРИНЦИП МАКСИМУМА щий самолет, так как последний, конечно же, уйдет с того места, где он сейчас находится. В то же время бессмысленно предпо- лагать, что убегающий самолет движется по прямой: он может повернуть, причем неизвестно куда. Задача о преследовании одного самолета другим самолетом, на- сколько я знаю, до сих пор не решена. Рассмотрены упрощенные модели преследования, которые составляют предмет так называ- емой теории дифференциальных игр. Слово “игра” указывает на то обстоятельство, что будущее поведение каждого из самолетов неизвестно: оно зависит от воли пилота. Дифференциальной эта игра называется потому,что закон движения самолета описывается дифференциальными уравнениями. Для того чтобы применить математику к решению какой-либо технической задачи, прежде всего надо дать ее математическое описание. В данном случае мы начнем с математического описания движения самолета. При этом, как всегда это делают математики, мы будем отвлекаться от излишней конкретности, стремясь уло- вить лишь главные характерные черты технической задачи, под- лежащей решению. Мы будем рассматривать самолет как точку, движущуюся в пространстве. Известно, что положение точки в пространстве определяется тремя координатами. Их мы обозна- чим через Xi, х2, х3. Так как точка (самолет) движется, то она имеет и некоторую скорость — вектор. Компоненты этого вектора мы обозначим через х4, х5, xG. Величины а?1? х2,..., хб определяют состояние движущейся точки в данный момент времени и называ- ются ее фазовыми координатами. Для того чтобы отвлечься от излишней конкретности, мы будем рассматривать объект, состоя- ние которого в данный момент времени определяется не шестью, а произвольным числом фазовых координат. Их мы обозначим че- рез «1, х2,..., хп. Совокупность всех этих величин вместе принято обозначать одной буквой, так что мы полагаем х = (#i, х2,..., хп). Здесь х есть точка фазового пространства нашего объекта, или фазовый вектор нашего объекта. Произвольную фазовую коорди- нату объекта обозначим через ж,, где г может принимать любое значение г = 1,2, ...,п. Так как состояние объекта меняется со временем, то величина Х{ также меняется со временем, и скорость ее изменения обозначается обычно через £:. Это есть производ- 61
Л. С. ПОНТРЯГИН ная величины х, по времени t. Физическая закономерность по- ведения объекта, как правило, заключается в том, что скорость ii изменения фазовой координаты Х{ нашего объекта однозначно определяется фазовыми координатами объекта xi,x2,^ .,хп, что математически записывается в виде формулы Xi = fi(xux2,...,xn) = t = l,2,...,n. (1) Это значит, что i, есть функция величин х2, х2,..., хп, то есть мо- жет быть вычислена, если величины xi, х2,..., хп известны. Здесь мы имеем п неизвестных величин Xi, х2,.. •, хп, которые меняются со временем, то есть являются функциями времени х,- = x,(t), и п дифференциальных уравнений, так что задачу можно решать ма- тематически, то есть получить закономерность изменения состоя- ния объекта со временем, найти х как функцию времени: х = х(£). При помощи уравнений вида (1) могут быть описаны весьма разнообразные объекты. Объекты могут быть не только механи- ческими, но и другого рода, например, химический процесс может быть описан уравнениями типа (1). В этом случае массы различ- ных веществ, входящих в реакцию, являются фазовыми координа- тами Xi, х2,..., хп нашего объекта. Такими же уравнениями может быть описан и биологический процесс, например сосуществование на острове волков, зайцев и травы. Экономические закономерности также допускают описание при помощи системы уравнений типа (1)- Приведенное здесь описание движения самолета не содержит главного для нас элемента. В самолете сидит пилот, который по своей воле может менять закономерность его движения, приводя в действие рули управления. Так, пилот может менять тягу дви- гателя, положение хвостового руля, положение закрылков. Поло- жение каждого из элементов управления определяется некоторым числом. Все эти числа мы обозначим через ui,u2,...,ur, а их со- вокупность обозначим одной буквой, положив и = Ui,и2,... ,иг. Здесь и есть вектор, компоненты которого определяют положение рулей. Таким образом, движение самолета описывается не уравне- ниями (1), а уравнениями xt=/(x,u), г = 1,2, ...,п, (2) 62
ПРИНЦИП МАКСИМУМА где в правую часть входит вектор управления и. Вектор упра- влений и меняется со временем по воле пилота самолета и потому являемся заданной функцией времени: и = иЦ). Таким образом, уравнения (2) в действительности имеют вид ii = /[x,u(f)], i = 1,2,... ,n, (3) где u(t) есть конкретно осуществляемое в течение времени упра- вление объектом. Систему уравнений (3) уже можно решать. Следует отметить одно очень важное обстоятельство. Вели- чины Ui, U2,..., иг, определяющие положение рулей, не могут быть произвольными. Так, если щ есть величина тяги двигателя, то ясно, что она может меняться лишь в некоторых пределах от 0 до некоторой величины а, 0<щ<а. Точно так же и хвостовой руль мо- жет поворачиваться лишь в определенных пределах, так что если и2 есть угол его поворота, то он удовлетворяет некоторым нера- венствам: —Ь<и2<Ь. Чтобы отвлечься от излишней конкретности, мы может просто сказать, что вектор и не есть произвольный вектор r-мерного про- странства, а принадлежит некоторому заданному множеству этого пространства. Система дифференциальных уравнений (2) вместе с заданным множеством П дает математическое описание возмож- ностей поведения управляемого объекта. Такой объект мы будем называть управляемым, поскольку поведение его зависит от того, какой функцией u(f) времени t является управление и объекта. Для того чтобы начать решать задачу о преследовании одного самолета другим самолетом, мы должны были бы и второй самолет описать в виде управляемого объекта, а затем точно сформулиро- вать задачу преследования. Но, как я уже сказал раньше, сама игровая постановка задачи содержит в себе настолько большую странность, что мы предпочли вначале попытаться решить другую задачу, в которой элемент игры отсутствует. Мы предположили, что второй объект неподвижен, или, говоря в терминах самолета, речь стала идти о том, чтобы перевести самолет из одного состо- яния в другое в кратчайшее время. Математически эта задача формулируется так. В начальный момент времени задается некое исходное фазовое состояние объ- 63
Л. С. ПОНТРЯГИН екта, которое мы обозначаем через х°. Кроме того, имеется какое- то другое фазовое состояние объекта — х1. Если, управляя объек- том каким-нибудь способом, мы можем перевести его из фазового состояния х° в фазовое состояние х1, то возникает задача о том, каково должно быть управление, которое переводит объект из фа- зового состояния х° в фазовое состояние х1 в кратчайшее время. Это есть задача оптимизации на быстродействие. Получаемое в результате решения этой задачи управление u(t) называется опти- мальным в смысле быстродействия, а само движение объекта — оптимальным движением в смысле быстродействия. Если в процессе движения объекта меняется не только время, но и какая-либо другая величина, представляющая для нас особый ин- терес, например, расходуется топливо, то можно поставить вопрос об оптимизации расхода топлива при переходе из состояния х° в состояние х1. Такая задача весьма важна, например, при рассмо- трении перехода космического корабля с одной орбиты на другую, где минимальность расхода топлива играет огромную роль. Так сформулированную задачу оптимизации могло бы решать вариационное исчисление, если бы не было ограничения на упра- вляющий вектор и, то есть если бы вектор и был произвольным вектором. То обстоятельство, что вектор и принадлежит к за- данному множеству П, сразу выводит сформулированную задачу оптимизации из круга тех, которые способно решать классическое вариационное исчисление. Если вектор и произволен, то сформу- лированная задача является задачей классического вариационного исчисления. Но следует отметить, что она никогда не решалась в вариационном исчислении в той постановке, в какой она приведена здесь. Формулированные в классическом вариационном исчисле- нии задачи носят более общий характер, чем приведенная здесь, и лишены той конкретности, которая возникла у нас благодаря рассмотрению технического объекта. Оказалось, что этот более конкретный характер вариационной задачи, связанный с тем, что мы рассматриваем управляемый объект, привел к новым возможно- стям решения самой задачи, дал возможность прийти к догадкам, к которым в обшей вариационной задаче прийти было бы чрезвы- чайно трудно. Формулирую теперь то решение, которое было получено нами 64
ПРИНЦИП МАКСИМУМА для задачи на быстродействие. Вводятся вспомогательные вели- чины V’i, ^2? • • •, Фп числом п, совокупность которых обозначается ф = (0Ь ^2, • • •,0п)> гДе Ф — вектор с компонентами ^i, • • •,Фп- Составляется вспомогательная величина Я = V>i/i(x, и) + V>2/2(x, и) + ... + v>„/n(x, и) = , = Я(^,х,и). Сразу видно, что величина Н завит от трех векторов: х и и. Но- вая вспомогательная величина (4) была обозначена через Н потому, что нужные для нас уравнения, получаемые из нее, очень похожи на уравнения Гамильтона, всем известные из механики. Они суть следующие: • _ = ЭН(^,х,и) _ ад^,х,и) (5) V' ~ дщ Полученная система дифференциальных уравнений (5) состоит из 2п уравнений. В них входят неизвестные функции ггг,..., хП1 ^2? • • •> Фп> ^1, U2,..., ur, то есть число неизвестных функций равно 2п + г. Таким образом, система эта неполна. Решать ее невозможно. Однако эта система уравнений дополняется одним условием. Управляющий вектор и должен выбираться так, чтобы при любых фиксированных значениях ф, х функция H(V>,x, и) до- стигала своего максимума при этом значении и. Дополненная этим условием система уравнений (5) уже является полной, и именно эта система соотношений должна решаться при отыскании оптималь- ного по быстродействию решения задачи. Этот результат был назван принципом максимума. Задачи на оптимизацию какой-либо другой величины, а не времени, напри- мер, расхода горючего, решаются очень похожим образом. Здесь я не формулирую ее решения. Целью движения объекта мы считаем определенное его фазовое состояние х1, то есть прибытие точки в определенное место с определенной скоростью. Принцип макси- мума годен, однако, и для решения других задач, например, целью может служить прибытие в определенное место с произвольной ско- ростью. Если управляющий вектор и может принимать произвольные значения, а не связан условием принадлежности к множеству П, то 65
Л. С. ПОНТРЯГИН на условия максимальности функции Н(^,х,и) по переменному и следует, что все частные производные этой функции по перемен- ным щ, и2, ♦ • •, иг равны нулю, то есть должны быть выполнены г соотношений дН(ф,х,и) ----------= 0, .7 = 1,2,....г. (6) Этот результат вытекает из общих результатов классического ва- риационного исчисления, но в такой форме он никогда не был сфор- мулирован, так как в классическом вариационном исчислении во- обще не рассматривались управляемые объекты. Следует отме- тить также, что и в случае произвольно меняющегося и соотноше- ние (6) слабее, чем условие максимальности Н по и. Дадим теперь решение одной очень простой задачи оптими- зации на быстродействие, которое можно получить при помощи принципа максимума, но невозможно получить методами класси- ческого вариационного исчисления. Рассмотрим математический маятник, то есть движение неко- торой точки по прямой, которая притягивается к некоторой фик- сированной точке 0 этой прямой с силой, пропорциональной рас- стоянию до нее. Прямую, по которой движется точка, примем за ось абсцисс, а точку 0 — за начало координат. Координату движу- щейся точки обозначим через х. Тогда уравнение движения этой точки запишется в виде х 4- х = 0, (7) где х есть вторая производная координаты х по времени, то есть ускорение движущейся точки. Одно уравнение (7) можно перепи- сать в виде двух уравнений первого порядка i = Уч У = -х. (8) Пусть х = z(/), у = y(t) — произвольное решение системы (8). Для геометрического его изображения рассмотрим на фазовой плоскости переменных (х,у) точку [z(£), i/(£)], движущуюся с тече- нием времени t. Получаемая так в результате движения точки по фазовой плоскости траектория называется фазовой траекторией. 66
ПРИНЦИП МАКСИМУМА Для системы (8) она представляет собой окружность с центром в начале координат, по которой точка движется с постоянной угло- вой скоростью, равной одному радиану в секунду, причем движе- ние происходит по часовой стрелке. Допустим теперь, что на нашу движущуюся точку х воздействует внешняя сила величины и, ко- торая не может превосходить по модулю 1. Тогда уравнение дви- жения точки записывается в виде х + х = и или в виде системы уравнений i = у, у = —х + и. (9) Система уравнений (9) описывает движение управляемого объекта, где и есть управляющий параметр. Постараемся теперь привести точку, находящуюся в начальный момент времени в произволь- ном положении (х°,у°), в состояние покоя, то есть в начало ко- ординат фазовой плоскости за минимальное время, используя для этого управляющий параметр и. Из принципа максимума непо- средственно следует, что оптимальное управление и может при- нимать только значения ±1. При и = +1 фазовой траекторией системы (9) является окружность с центром в точке (1,0), а при и = — 1 фазовой траекторией системы (9) является окружность с центром в точке (—1,0). Зная, что оптимальное значение и = ±1, мы должны теперь только указать, как меняется и между этими двумя значениями в процессе движения. Из принципа максимума легко вывести, что значение и зависит лишь от положения фазо- вой точки на фазовой плоскости, а именно, вся фазовая плоскость разбивается на две части, в одной из которых и должно иметь зна- чение +1, 67
Л. С. ПОНТРЯГИН а в другой — значение —1. Разбиение фазовой плоскости на две части осуществляется линией, начерченной на рис. 15. Она со- стоит из полуокружностей радиуса единица, опирающихся как на диаметры на отрезки оси абсцисс. Причем на положительной ча- сти абсциссы полуокружности обращены вниз, а на отрицательной части абсциссы полуокружности обращены вверх. Две полуокруж- ности, примыкающие к началу координат, сами являются опти- мальными траекториями, так что если начальная точка находится на одной из них, то движение в начало координат осуществляется по соответствующей полуокружности. Оказывается дальше, что если фазовая точка находится под начерченной линией раздела, то и должно иметь значение +1, а если над линией раздела, то значение и должно быть равно — 1. Легко вычертить траекторию оптимального движения точки (см. рис. 15), исходя из произволь- ного начального движения (ж0,?/0). Начиная с какой-либо точки плоскости (х°,г/°), движение определяется уравнением (9) с опре- деленным значением и = ±1, причем значение это переключается на противоположное, когда соответствующая траектория доходит до линии раздела переключения. В конце концов точка попадает на одну из полуокружностей линии раздела, примыкающих к на- 68
ПРИНЦИП МАКСИМУМА чалу координат, после чего точка движется по соответствующей полуокружности к началу координат. Принцип максимума является всеобъемлющим универсальным методом для решения задач оптимизации. Он нашел многочислен- ные применения в различных областях знания и оказал существен- ное влияние на развитие вариационного исчисления. В игровых за- дачах достигнуть результатов столь общего характера нам не уда- лось. Ими занимается сейчас большое число математиков, среди которых следует отметить группу сотрудников Математического института им. В. А. Стеклова и школу академика Н. Н. Красов- ского в Свердловске. Ими достигнуты значительные результаты. Здесь я ограничусь тем, что приведу один конкретный пример за- дачи преследования. В пространстве R произвольной размерности п, где п>2, рас- смотрим две точки х и у, каждую из которых мы можем одновре- менно трактовать как вектор. Точку х будем считать преследую- щей точкой, а точку у — убегающей точкой. Процесс преследо- вания считается законченным, когда х совпадает с у. Движение этих точек описывается следующими уравнениями i + = y + /3y = v. (10) Здесь и и v — векторы пространства R. В нашей задаче они являются управляющими векторами. Их можно выбирать произ- вольными по направлению, но они ограничены по длине, а именно, для них выполнены условия: |u|<p, |v|<a. Числа а, /?, р, а по- ложительны. Таким образом, уравнение (10) описывает движение точки с линейным трением а под действием внешней силы и, кото- рая может быть выбрана произвольной по направлению, но не пре- восходит по величине числа р. Аналогичное верно и для точки у. Процесс преследования можно рассматривать с двух точек зрения. При первой точке зрения мы отождествляем себя с преследовате- лем. Наша задача заключается тогда в завершении преследования путем выбора надлежащего управления и. При этом в процессе преследования мы все время наблюдаем за поведением уходящего объекта. При второй точке зрения мы отождествляем себя с убега- ющим объектом и наша задача состоит в том, чтобы уйти от пре- следования, выбирая надлежащим образом управление V. При этом 69
Л. С. ПОНТРЯГИН мы все время наблюдаем за преследующим нас объектом. Основ- ной результат, имеющийся здесь, следующий. 1. Задача преследования всегда может быть решена положи- тельно, то есть преследование завершено, если выполнены два не- равенства р>а. (11) а р 2. Задача убегания имеет всегда положительное решение, если выполнено неравенство а > р. Оказывается, что при решении за- дачи преследования в случае, когда выполнены условия (11), мы всегда имеем наилучший способ поведения преследователя, то есть имеется единственное оптимальное управление преследователя u(Z) отклонение от которого неизбежно увеличивает время преследова- ния. При этом оптимальное управление преследователя u(f) опре- деляется постепенно с возрастанием времени t в зависимости от поведения убегающего объекта.
для 3 А И Е Т О К