Текст
                    ФИЗИКО-МАТЕМАТИЧЕСКАЯ БИБЛИОТЕКА ИНЖЕНЕРА
В. Г. БОЛТЯНСКИЙ
МАТЕМАТИЧЕСКИЕ
МЕТОДЫ
ОПТИМАЛЬНОГО
УПРАВЛЕНИЯ
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 1966


518 Б 79 УДК 519.9 АННОТАЦИЯ Среди крупных достижений современной матема¬ тики, получивших наибольшую популярность и одоб¬ рение в инженерных кругах, особое место занимает математическая теория оптимального управления, со¬ зданная коллективом советских ученых во главе с ака¬ демиком Л. С. Понтрягиным. Основы этой теории были изложены в изданной в 1961 году монографии Л. С. Понтрягина, В. Г. Болтянского, Р. В. Гамкре- лидзе, Е. Ф. Мищенко «Математическая теория опти¬ мальных процессов», удостоенной Ленинской премии за 1962 год. В настоящей книге математическая теория оптималь¬ ного управления излагается в форме, доступной инже¬ неру, имеющему метематическую подготовку в объеме технического вуза. Особое внимание автор уделяет вычислительным методам, а также тем задачам, кото¬ рые к моменту написания книги удалось решить пол¬ ностью. Стремясь к максимальной простоте изложения, автор нигде не жертвовал строгостью. Тем самым, доступная и нужная инженеру, эта книга будет интересна и ма¬ тематику. 2-2-3 65-66
ОГЛАВЛЕНИЕ Предисловие 0 Глава I. Введение 9 § 1. Задача об оптимальном быстродействии 9 1. Понятие об управляемых объектах 9 2. Задача управления 13 3. Уравнения движения объекта 16 4. Допустимые управления 19 § 2. Об основных направлениях в теории оптимальных процессов 24 5. Метод динамического программирования .... 24 6. Принципы максимума 30 7. Обсуждение принципа максимума 35 § 3. Пример. Задача синтеза 38 8. Пример применения принципа максимума ... 38 9. Доказательство оптимальности полученных трае¬ кторий 42 10. О дифференцируемости функции Веллмана . . 45 11 Проблема синтеза оптимальных управлений . . 49 Глава II. Принцип максимума — необходимое условие опти¬ мальности 54 § 4. Некоторые сведения из геометрии и теории обыкно¬ венных дифференциальных уравнений 54 12. Простейшие понятия и-мерной геометрии ... 54 13. Некоторые свойства выпуклых множеств ... 59 14. Теорема существования и единственности ... 63 15. Система уравнений в вариациях 70 16. Сопряженные линейные системы 75 § 5. Принцип максимума (случай оптимальности по бы¬ стродействию) 77 17. Вариации управлений 77 18. Вариации траекторий 79 19. Основная лемма 86 20. Доказательство основной леммы 90 21. Принцип максимума 100 22. Постоянство функции Н 105 1*
4 ОГЛАВЛЕНИЕ Глава III. Линейные оптимальные быстродействия .... 109 § 6. Выпуклые многогранники 109 23. Определение выпуклых многогранников .... 109 24. Граница выпуклого многогранника 112 25. Выпуклая оболочка 114 26. Опорные свойства выпуклых многогранников 117 § 7. Линейная задача оптимального управления .... 120 27. Формулировка задачи 120 28. Принцип максимума — необходимое и достаточ¬ ное условие оптимальности 124 29. План решения линейной задачи оптимального управления 130 § 8. Основные теоремы о линейных оптимальных быстро¬ действиях . .... 134 30. Теоремы о числе переключений 134 31. Моделирование оптимальных процессов релей¬ ными схемами . 140 32. Теорема единственности 147 33. Теорема существования 151 34. Доказательства лемм 158 § 9. Вычислительные методы 162 35. Нахождение начальных значений для вспомога¬ тельных неизвестных: дифференциальное уравне¬ ние Нейштадта 162 36. Нахождение начальных значений для вспомога¬ тельных неизвестных: итерационный процесс Итона 171 § 10. Решение задачи синтеза для линейных систем вто¬ рого порядка 180 37. Упрощение уравнений линейного управляемого объекта 180 38. Решение задачи синтеза в случае комплексных собственных значений 185 39. Решение задачи синтеза в случае действитель¬ ных собственных значений 200 40. Синтез оптимальных управлений для уравнения второго порядка 213 Глава IV. Обоснование метода динамического программиро¬ вания и достаточные условия оптимальности . . 220 § 11. Оценка времени переходного процесса 220 41. Идея метода 220 42. Достаточные условия оптимальности в форме принципа динамического программирования . . 222 43. Кусочно-гладкие множества ... . . 226 44. Доказательство основной леммы 228 § 12. Достаточное условие оптимальности в форме прин¬ ципа максимума 235
ОГЛАВЛЕНИЕ 5 45. Регулярный синтез и формулировка достаточ¬ ного условия 235 46 Доказательство достаточности 238 § 13. Примеры синтеза оптимальных управлений в нели¬ нейных системах второго порядка 247 47. Первый пример . 247 48. Описание синтеза 249 49. Доказательство 252 50. Второй пример 258 Глава V. Другие постановки задач оптимального управле¬ ния 261 § 14. Задача с подвижными концами 261 51. Предварительное обсуждение 261 52. Многообразия и их касательные плоскости . . 263 53. Условия трансверсальности и формулировка теоремы 266 54. Доказательство (случай подвижного правого конца) 269 55. Доказательство (общий случай) 273 56. Осцилляционная теорема 275 § 15. Общий принцип максимума 281 57. Постановка задачи 281 58. Основная теорема 282 59. Задача с подвижными концами 287 60. Уравнение Веллмана и достаточные условия опти¬ мальности . 287 § 16. Разные обобщения 290 61. Принцип максимума для неавтономных систем 290 62. Оптимальные процессы с параметрами 295 63. Изопериметрическая задача и задача с закреп¬ ленным временем 300 Предметный указатель 305
ПРЕДИСЛОВИЕ Эта книга посвящена изучению управляемых объектов и нахождению наилучших способов управления ими. Управ¬ ляемые объекты прочно вошли в нашу повседневную жизнь и стали обиходными, обыденными явлениями. Мы видим их буквально на каждом шагу: автомобиль, самолет, всевоз¬ можные электроприборы, снабженные регуляторами (напри¬ мер, электрохолодильник), и т. п. Общим во всех этих случаях является то, что мы можем «управлять» объектом, можем в той или иной степени влиять на его поведение. Обычно переход управляемого объекта из одного состояния в другое может быть осуществлен многими раз¬ личными способами. Поэтому возникает вопрос о выборе такого пути, который с некоторой (но вполне определен¬ ной) точки зрения окажется наиболее выгодным. Это и есть (несколько расплывчато сформулированная) задача об опти¬ мальном управлении. Следует с самого начала четко оговорить, что никаких конкретных инженерных указаний по конструированию или эксплуатации систем управления читатель в книге не найдет. В книге рассматриваются математические методы, при¬ меняемые для расчета оптимальных управлений. Математика же имеет дело не с реальным объектом, а с некоторой его математической моделью. Какова математическая модель управляемого объекта, читатель узнает из первых страниц книги. Дело практика — решить, можно ли инте¬ ресующий его конкретный объект «подогнать» под рас¬ сматриваемую здесь математическую схему и какие упро¬ щения,’ какую идеализацию допустимо для этого произве¬ сти. Если объект подпадает под рассматриваемую здесь математическую схему, то можно попытаться применить излагаемую в книге теорию.
ПРЕДИСЛОВИЕ 7 Математическая теория оптимального управления воз¬ никла недавно. Центральным ее стержнем служит круг результатов, которые получены в 1956—1961 годах кол¬ лективом математиков, возглавляемым академиком Львом Семеновичем Понтрягиным. Важные результаты были полу¬ чены в Америке Л. Нейштадтом, Ж. Ласалем и группой математиков, возглавляемой Р. Веллманом. Следует также отметить интересные работы советского математика Н. Н. Красовского, чехословацкого математика Я. Курц- вейля и др. Наконец, нужно вспомнить об исследованиях А. А. Фельдбаума, одного из пионеров и энтузиастов этой новой области. В 1962 году вышла монография, содержащая изложе¬ ние основных результатов теории оптимального управле¬ ния*). Она приобрела известную популярность не только среди математиков, но и инженерных работников. Основ¬ ные результаты были сформулированы в монографии срав¬ нительно просто и доступно, но понимание доказательств требовало немалой математической культуры. Достаточно сказать, что в них использовалось понятие интеграла Лебега, дифференциальные уравнения с измеримыми правыми частя¬ ми, теорема о слабой компактности сферы в пространстве линейных функционалов и т. п. В связи с этим у автора этих строк давно возник замысел написать более простую книгу по тем же вопросам. Замысел этот становился все яснее, так как не раз приходилось читать лекции по тео¬ рии оптимальных управлений. Наконец, мне удалось найти доказательство теоремы существования оптимальных управ¬ лений, не использующее слабой компактности сферы. Это позволило отказаться от использования измеримых функций и интеграла Лебега и вернуться к моему первоначальному доказательству принципа максимума, использующему лишь кусочно-непрерывные функции. Изложение сразу стало за¬ метно более простым. Благодаря произведенным упрощениям книга доступна, например, студенту, овладевшему курсом математики втуза. Кроме значительного упрощения изложения, книга отли- чается от цитированной выше монографии и по содержа¬ *)Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гам- крелидзе, Е. Ф. Мищенко, Математическая теория опти¬ мальных процессов, Физматгиз, 1961.
8 ПРЕДИСЛОВИЕ нию. Я не включил задачу о преследовании стохастически движущегося объекта и задачу с ограничениями на фазо¬ вые координаты, поскольку они сложны (по характеру получаемого результата) и имеют, скорее, теоретическую ценность, чем практическую направленность. Кроме того, в книгу включены некоторые новые результаты, из кото¬ рых в первую очередь следует упомянуть очень интерес¬ ные и изящные результаты Нейпггадта (и дополняющие их результаты Итона) о приближенном вычислении линей¬ ных оптимальных быстродействий, полученные автором достаточные условия оптимальности и обоснование метода динамического программирования, ряд новых примеров и т. д. О целесообразности такого отбора материала пре¬ доставляется судить читателю. В заключение мне хотелось бы выразить искреннюю благодарность моему учителю и другу Льву Семеновичу Понтрягину, постоянное творческое общение с которым было основным стимулом моих скромных успехов, а также всем тем, кто своим вниманием и поддержкой помог появлению этой книги, в первую очередь моим друзьям и коллегам Евгению Фроловичу Мищенко и Ревазу Валериа¬ новичу Гамкрелидзе. 5 декабря 1965 г. Г. Болтянский
мы разъясним смысл математическом иссле- с самими реальными ГЛАВА I ВВЕДЕНИЕ § 1. Задача об оптимальном быстродействии 1. Понятие об управляемых объектах. Изучение управ¬ ляемых объектов и нахождение наилучших способов управ¬ ления составляют основную цель всех последующих рас¬ смотрений. Поэтому прежде всего этих понятий. Разумеется, в проводимом ниже довании мы будем иметь дело не объектами, а с некоторой матема¬ тической моделью, которую сейчас опишем. Рассмотрим, например, прямо¬ линейное движение автомобиля. В каждый момент времени состоя¬ ние автомобиля характеризуется двумя числами: пройденным расстоя¬ нием $и скоростью движения v. Эти две величины меняются с течением времени, но не самопроизвольно, а сообразно воле водителя, который может по своему желанию управлять работой двигателя, увеличивая или уменьшая развиваемую этим двигателем силу Z7. Таким образом, мы имеем три связанных между собой параметра: $, -у, F, показанных на схеме (рис. 1). Величины s, v, характеризующие состоя¬ ние автомобиля, называют фазовыми координатами, а вели¬ чину F—управляющим параметром. Если мы будем рас¬ сматривать движение автомобиля по плоскости (а не по прямой), то фазовых координат будет четыре (две «гео¬ графические» координаты и две компоненты скорости), а управляющих параметров—два (например, сила тяги
10 ВВЕДЕНИЕ [ГЛ. Т двигателя и угол поворота руля). У летящего самолета можно рассматривать шесть фазовых координат (три про¬ странственные координаты и три компоненты скорости) и несколько управляющих параметров (тяга двигателя, вели¬ чины, характеризующие положение рулей высоты и направ¬ ления, эл.еронов). В электрическом утюге с терморегуля¬ тором фазовыми координатами будут сила тока и темпе¬ ратура нагрева, а управляющим параметром — положение регулятора. Сказанное выше делает естественным следующее мате¬ матическое описание управляемого объекта. Состояние объекта задается (в каждый момент времени) п числами х1, х2, ..., хп, которые называются фазовыми координа¬ тами объекта. Движение объекта заключается с математи¬ ческой точки зрения в том, что его состояние с течением времени изменяется, т. е. х1, х2, ..., хп являются пере¬ менными величинами (функциями времени). Это движение объекта происходит не самопроизвольно, им можно управ¬ лять', для этого объект снабжен «рулями», положение которых характеризуется (в каждый момент времени) г числами и1, и2, ..., иг; эти числа называются управ¬ ляющими параметрами. Рулями можно «манипулировать», т. е. по своему желанию менять управляющие параметры и1, и2, ..., иг с течением времени. Иначе говоря, мы можем по желанию выбрать функции и1 (t), и2 (t), . .., ur(t), описывающие изменение управляющих параметров с течением времени. Что же касается функций х1 (/), х2 (f), xr(t), то они уже не в полной мере зависят от нашего желания; мы будем предполагать (как это обычно и бывает), что, зная фазовое состояние объекта в началь¬ ный момент времени /0 и выбрав управляющие функции и1 (/), и2 (/), . . ., ur (t) (для t Z> tQ), мы сможем математически точно рассчитать поведение объекта для всех т. е. сможем найти функции х1 (/), х2 (/), xn(t), характе¬ ризующие изменение фазовых координат с течением вре¬ мени. Таким образом, на изменение фазовых координат мы можем в той или иной мере воздействовать, выбирая по своему желанию управляющие функции w1(/), ..., ur(t). Объект, о котором выше шла речь, в теории автома¬ тического управления принято обозначать так, как это показано на рис. 2. Величины и1, . .., иг (управляющие
ЗАДАЧА ОБ ОПТИМАЛЬНОМ БЫСТРОДЕЙСТВИИ Ц параметры) часто называют также «входными переменными», а величины х1, . . *п (фазовые координаты)-«выходными переменными». Говорят еще, что «на вход» объекта поданы величины и1, . .., иг, а «на выходе» мы получаем. вели¬ чины х1, ...» хп. Разумеется, на рис. 2 показано лишь условное обозначение управляемого объекта и никак не отражено его «внутреннее устройство», знание которого необходимо, чтобы выяс¬ нить, каким, образом, зная управляющие функции — и1 (t), . .., можно вычислить изменение фазо- : вых координат х1 (/), ... г г — Величины и1, ..., и удобно считать координа¬ тами некоторого вектора и = (и1, и2,. . ., иг), который также называют управляющим параметром (векторным). Точно так же величины х1, ..., хп удобно рассматривать как координаты некоторого вектора (или точки) х = (х±, . .., хп)\ эту точку и называют фазовым состоянием объекта. Каждое фазовое состояние х = (х\ хп) является точкой /z-мерного пространства с координатами х1, ..., хп. Это л-мерное пространство, в котором в виде точек изображаются фазовые состояния объекта, назы¬ вается фазовым пространством рассматриваемого объекта. Если объект таков, что его фазовое состояние характеризу¬ ется только двумя фазовыми координатами х1, х2 (ср. рис. 1), то мы будем говорить о фазовой плоскости, а не о фазо¬ вом «пространстве». В этом случае фазовые состояния объекта изображаются особенно наглядно. В связи с этим для большей наглядности изложения мы будем в дальней¬ шем выполнять все чертежи и проводить ряд доказа¬ тельств для п = 2 (т. е. на фазовой плоскости); напротив, в формулировках теорем мы будем число п (число фазо¬ вых координат) предполагать произвольным. Итак, в векторных обозначениях рассматриваемый управляемый объект можно изобразить так, как показано на рис. 3. Входная величина и = (и\ и2, ..., иг) пред¬ ставляет собой управляющий параметр, а выходная вели¬
12 ВВЕДЕНИЕ [ГЛ. I чина х = (х*, . .., хп) представляет собой точку фазового пространства (или, иначе, фазовое состояние объекта). Как мы говорили выше, чтобы полностью задать дви¬ жение объекта, надо задать его фазовое состояние в на¬ чальный момент времени /0 и выбрать управляющие функ¬ ции п1 (/), w2 (/), ..., ur (t) (для />>/0), т. е. выбрать векторную функцию = urW). Эту функцию и (/) мы будем называть управлением. Зада¬ ние начального фазового состояния х0 и управления и (/) Рис. 3. Рис. 4. однозначно определяет дальнейшее движение объекта. Это движение заключается в том, что фазовая точка х(/) = (х1(0, Х2(О, х"(0), изображающая состояние объекта, с течением времени перемещается, описывая в фазовом пространстве некото¬ рую линию, называемую фазовой траекторией рассматри¬ ваемого движения объекта (рис. 4). Пару векторных функ¬ ций (н(/), x(t)), т. е. управление и (t) и соответствую¬ щую фазовую траекторию х (/), мы будем называть в дальнейшем процессом управления или просто процессом. Итак, резюмируем. Состояние управляемого объекта в каждый момент времени характеризуется фазовой точкой х = (х\ х2, ..., хп). На движение объекта можно воздей¬ ствовать при помощи управляющего параметра и = (и\ и2, . . ., иг). Изменение величин н, х с течением времени мы называем процессом; процесс (и (/), х (/)) составляется из управле-
§ 11 задача об о П Т И м А Л Ь Н О М БЫС Т Р О Д Б й с т в и и 13 ния u(t\ И фазовой траектории х (t). Процесс полностью определяется, если задано управление и (/) (при f>/0) и начальное фазовое состояние x0—x(i0). 2. Задача управления. Часто встречается следующая задача, связанная с управляемыми объектами. В начальный момент времени t0 объект находится в фазовом состоянии О» переведет заданное состояние рис. 5). управление u(t), которое требуется выбрать такое объект в заранее конечное фазовое х± (отличное от х0; , При этом обычно требуется, чтобы переходный процесс (т. е. процесс пере¬ хода из начального фазового состояния х0 в предписан¬ ное конечное состояние хх) был в определенном смысле «наилучшим», например, что¬ бы время перехода было наи¬ меньшим или чтобы энергия, : ходного процесса, была минимальной лучший» переходный процесс называется оптимальным про¬ цессом. Мы видим, что термин «оптимальный процесс» тре¬ бует уточнения, так как необходимо разъяснить, в каком смысле понимается оптимальность. Если речь идет о наи¬ затраченная в течение пере- и т. п. Такой «наи- меньшем времени перехода, то такие процессы назы¬ ваются оптимальными в смысле быстродействия. Иначе говоря, процесс, в результате которого объект переходит из точки х0 в точку х± (рис. 5), называется оптимальным в смысле быстродействия, если не существует процесса, переводящего объект из х0 в хг за меньшее время (здесь и далее предполагается, что хА=^=х0). Изучение оптимальных процессов является основной темой всей книги. Ниже мы укажем весьма общее и точ¬ ное понимание термина «оптимальные процессы». Однако наибольшее число результатов и примеров будет отно¬ ситься к случаю оптимальности в смысле быстродействия. В поставленной выше задаче (найти управление, пере¬ водящее объект из начального состояния х0 в предписан¬ ное конечное состояние хх) весьма часто начальное состоя-
14 ВВЕДЕНИЕ [ГЛ. I ние xQ заранее неизвестно. Рассмотрим один из наиболее типичных примеров. Объект должен устойчиво работать в некотором режиме (т. е. находиться в фазовом состоя¬ нии Ху). В результате тех или иных причин объект может выйти из рабочего состояния Ху и оказаться в некотором другом состоянии х0. В этом случае нужно так управлять объектом, чтобы вернуть его из состояния х0 в требуемое рабочее состояние хг При этом точка х0, в которую может попасть объект (в результате неожиданного толчка или по какой-либо иной причине), заранее неизвестна, и мы должны уметь так управлять объектом, чтобы из любой точки xQ вернуть его в рабочее состояние (рис. 6). Такое управление часто осуществляется человеком (оператором), который следит за приборами и старается поддерживать объект в требуемом рабочем режиме. Однако в современных условиях высокого развития техники опе¬ ратор зачастую не может успешно справиться с этой зада¬ чей ввиду сложности поведения объекта, большой быст¬ роты протекания процессов и т. п. Поэтому чрезвычайно важно создать такие приборы, которые сами, без участия человека, управляли бы работой объекта (например, в слу¬ чае выхода объекта из рабочего состояния возвращали бы его в это рабочее состояние). Такие приборы («регуля¬ торы», «автоматические управляющие устройства» и т. п.) сейчас очень распространены в технике, их изучением занимается теория автоматического управления. Первым
§ I] ЗАДАЧА ОБ ОПТИМАЛЬНОМ БЫСТРОДЕЙСТВИИ 15 регулятором этого рода был центробежный регулятор Уатта сконструированный для управления работой паро¬ вой машины (рис. 7). Грубо говоря, этот регулятор рабо¬ тает следующим образом. Вертикальный стержень связан с валом паровой машины и вращается с некоторой угло¬ вой скоростью со. Под воздействием центробежной силы шары регулятора расходятся в стороны, так что стержни, на которых укреплены шары, отклоняются от вертикаль¬ ного стержня на некоторый угол ф. При. расхождении шаров в стороны поднимается связанная с ними муфта А4, надетая на вертикальный стержень; в свою очередь муфта /И с помощью специального стержня связана с заслонкой паропровода, так что при перемещении муфты уменьшается или увеличивается подача пара в цилиндры машины. Если скорость машины, находившейся в устойчивом рабочем режиме, почему-либо уменьшилась, то шары опадают, муфта опускается и приоткрывает заслонку; в результате подача пара увеличивается, и скорость машины начинает нара¬ стать. Наоборот, если угловая скорость станет больше рабочей скорости, то шары разойдутся в стороны, муфта поднимется и прикроет заслонку; в результате подача пара уменьшится, и скорость машины начнет убывать. Схема этого регулятора показана на рис. 8. Входной величиной для паровой машины является подача пара; ее можно характеризовать углом ф (рис. 7), так как подача пара определяется положением заслонки, а заслонка жестко связана с муфтой. Выходной величиной паровой машины является угловая скорость со. Эта угловая скорость со подается на вход регулятора, который сконструирован таким образом, что он «вырабатывает» величину ф, управ¬ ляющую подачей пара. Схема, показанная на рис. 8, является достаточно общей. В общем случае (рис. 9) на вход регулятора подаются фазовые координаты объекта. Регулятор конст¬ руируется так, что его выходная величина и, поданная на вход объекта, нужным образом управляет работой объек¬ та (т. е. возвращает объект в рабочее состояние, если он почему-либо вышел из этого состояния). Вспомним теперь, что регулятор должен не просто воз¬ вращать объект в рабочее состояние, а должен делать это наилучшим образом, например, в смысле быстродействия
16 ВВЕДЕНИЕ [ГЛ. I (т. е. должен возвращать объект в рабочее состояние за кратчайшее время). В связи с этим в теории автоматиче¬ ского управления рассматриваются весьма различные (по устройству и степени сложности) регуляторы. Изучение регуляторов, которые до сих пор применялись, приводит, по-видимому, к выводу, что уменьшения времени переход¬ ного процесса можно добиться только за счет усложнения конструкции регулятора; поэтому, усложняя конструкцию регулятора, можно лишь приближаться к «идеальному», Рис. 8. Рис. 9. «оптимальному» регулятору, который во всех случаях осуществляет переходный процесс за кратчайшее время. В точности же «оптимального» регулятора, по-видимому, осуществить нельзя. Однако такой вывод является оши¬ бочным. Одной из важных заслуг теории оптимальных про¬ цессов является установление существования оптимальных регуляторов и создание математического аппарата, позво¬ ляющего рассчитывать такие регуляторы. Оптимальные регуляторы существенно отличаются от тех, которые до сих пор изучались в теории автоматического управления. Сейчас в инженерной и вычислительной практике делаются первые шаги по созданию и внедрению таких «оптималь¬ ных» регуляторов. Можно предполагать, что оптимальные регуляторы будут играть важную роль в технике буду¬ щего. 3. Уравнения движения объекта. Начнем с рассмотре¬ ния одного простого примера. Пусть G—материальная точка, которая может совершать прямолинейное движение (рис. 10). Массу этой точки будем предполагать постоян¬ ной и равной т\ координату тела G (отсчитываемую от некоторой точки О той прямой, по которой оно движется)
§ 1] ЗАДАЧА ОБ ОПТИМАЛЬНОМ БЫСТРОДЕЙСТВИИ 17 будем обозначать через х1. При движении тела G его координата х1 меняется с течением времени. Производная х1 представляет собой скорость движения тела О. Будем предполагать, что на тело О действуют две внешние силы: сила трения— b'x1 и упругая сила — kxl и что, кроме того, тело G снабжено двигателем. Развиваемую двигателем силу воздействия на тело G обозначим через и. Таким образом, Рис. 10. Рис. 11. по второму закону Ньютона движение тела G с течением времени будет описываться дифференциальным уравнением тх1 = —Ьх1 — kxl-\-u. Обозначив скорость движения через х2 (т. е. положив х1 — х2), мы сможем записать этот закон движения в виде следующей системы дифференциальных уравнений: ( г1 = г2 (1.1) Здесь величины х1, х2 являются фазовыми координатами тела G, а величина и — управляющим параметром, т. е. мы имеем объект, схематически изображенный на рис. 11. Уравнения (1.1) представляют собой закон изменения фазовых координат с течением времени, т. е. закон дви¬ жения фазовой точки в фазовой плоскости. Мы рассмотрели лишь один частный случай, но можно было бы указать целый ряд других примеров, в которых закон движения объекта описывается дифференциальными уравнениями. Чаще всего (ср. (1.1)) эти уравнения дают выражения производных от фазовых координат через сами фазовые координаты и управляющие параметры, т. е.
18 ВВЕДЕНИЕ [ГЛ. I имеют вид Г X1 (х1, . . . , х\ и\ ... , иг), I х2=/2(х\ ... ,хп, и\ ... , иг\ I xn=fn(x\ ... ,х\ и\ ... , иг), где У1,/2,...,/”— некоторые функции, определяемые внутренним устройством объекта. В дальнейшем мы сосре¬ доточим свое внимание именно на таких объектах (рис. 2), закон движения которых описывается системой дифферен¬ циальных уравнений вида (1.2). В векторной форме систему (1.2) можно записать в виде *=/(*, и), (1.3) где х — вектор с координатами х1, х2, . . . , х", и — вектор с координатами и1, . . . , иг и, наконец, /(х, и) — вектор, координатами которого служат правые части системы (L2). Разумеется, невозможно решить систему дифференциаль¬ ных уравнений (1.2) (т. е. найти закон движения объекта), не зная, каким образом будут меняться с течением времени управляющие параметры д1, .. . , иг. Напротив, зная пове¬ дение величин zz1, . . . , иг, т. е. зная управляющие функции и1 (/), и2 (/), ... , ur (t) для t > f0, мы сможем с помощью системы уравнений [ Х1=/1(Х\ ... ,хп, I (О, .... I xn=fn(x\ ... ,x", u1 (/),... , ur(i)) или, что то же самое, с помощью векторного уравнения x=f(x1 u(t)) (1.5) однозначно определить движение объекта (при t > /0), если нам известно начальное фазовое состояние объекта (в мо¬ мент t = tQ). Иначе говоря, задание управления и (t) и на¬ чального фазового состояния х0 однозначно определяет фазовую траекторию х (t) при t > tQ, что согласуется со сделанными ранее предположениями о свойствах объекта.
S И ЗАДАЧА ОБ ОПТИМАЛЬНОМ БЫСТРОДЕЙСТВИИ 19 и управление и (/) = (и1 (/) «г(0). мы определили ас 2 7 О Тот Факт что задание начального фазового состояния , момент \ = /0) позволяет однозначно определить фазовую траекторию x(t), t > t0, с помощью системы (1.4), вытекает из теоремы о существовании и единственности решений системы дифференциальных уравнений. Формулировка этой теоремы будет приведена ниже (стр. 65). Предположим, что, зная начальное фазовое состояние х0 1 „ х фазовую траекторию х (t) (с помощью системы (1.4)). Если мы изменим управление и (t) (сохранив то же начальное состояние х0), то получим не¬ которую другую траекторию, исходящую из той же точки х0; вновь изменим управление и (t) — получим еще одну тра¬ екторию и т. д. Таким образом, рассматривая различные управ¬ ления u(t), мы получим много траекторий, исходящих из точ¬ ки xQ (рис. 12). (Разумеется, это не противоречит теореме единственности в теории дифференциальных уравнений, так как, заменяя функции и1 (f), . . . , ur (t) другими функциями, мы переходим от системы (1.4) к другой системе дифференциальных урав¬ нений относительно фазовых координат х1, . . . , хп.) Напо¬ мним, что задача оптимального быстродействия заключается в отыскании такого управления и (/), для которого соот¬ ветствующая фазовая траектория х (/) проходит через точку х± и переход из х0 в хх осуществляется за кратчайшее время. Такое управление u(t) будем называть оптималь¬ ным управлением; точно так же соответствующую траекто¬ рию х (/), по которой фазовая точка за кратчайшее время переходит из состояния х0 в состояние хх, будем называть оптимальной траекторией. 4. Допустимые управления. Обычно управляющие пара¬ метры и1, . . . , иг не могут принимать совершенно произ¬ вольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 16,
20 ВВЕДЕНИЕ [ГЛ Т естественно предположить, что сила и, развиваемая двига¬ телем, не может быть как угодно большой по величине, а подчинена ограничениям а и р, где а и Р — некоторые постоянные, характеризующие дви¬ гатель. В частности, при а =— 1, Р— 1 мы получаем огра¬ ничение — 1 1, которое означает, что двигатель может развивать силу, направленную в любую сторону, но не превосходящую единицы по величине. Аналогичный смысл имеют ограничения и в других случаях: управляющими параметрами могут быть количество подаваемого в двигатель топлива, температура, сила тока, напряжение и т. п., которые не могут принимать сколь угодно больших значений. Для объекта, содержащего г управляющих параметров и1, и2, . .., иг, в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следую¬ щих пределах: а2О2<|32,..., агСнгСРг. Иначе говоря, каждая из величин и1, и2, . . . , иг в урав¬ нениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от зна¬ чений остальных управляющих параметров и задается неравенствами а'^Сп'^Ср', /=1,...,г. (1.6) Заметим, что при г =■ 2 точки и = (и11 и2), координаты которых подчинены неравенствам (1.6), заполняют прямо¬ угольник (рис. 13); при г = 3 неравенства (1.6) определяют в пространстве переменных и1, и2, и3 некоторый параллеле¬ пипед; в случае произвольного г говорят, что неравенства (1.6) определяют г-мерный параллелепипед. В общем случае будем считать, что в соответствии с кон¬ струкцией объекта и условиями его эксплуатации задано в пространстве переменных и1., . . . , иг некоторое множество U (рис. 14) и управляющие параметры и1, и2. . . . , иг должны
ЗАДАЧА ОБ ОПТИМАЛЬНОМ БЫСТРОДЕЙСТВИИ 21 а мпмрнт времени принимать лишь такие значения, “чка\=(«‘. «■ «Т пр™™.! ИНО- - U Иначе говоря, разрешается рассматривать лишь так^е управления «(/), что и (/) € U для любого / .(символ с означает, что точка принадлежит множеству). Множество 5 будем в дальнейшем называть областью управления. Обла’сть управления U не обязательно будет параллелепипе¬ дом- она может иметь геометрически более или менее сложный характер, так как в силу конструкции управля¬ ющей части объекта между управляющими параметрами и1, и2, . . . , иг могут существовать связи, выражаемые урав¬ нениями вида ср (и1, и2,..., иг) = 0 или неравенствами ^(п1, и2,..., иг)^0. Например, если параметры и1, и2 характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произ¬ вольно, то эти параметры подчинены только одному условию (И1)г+ («»)’— 1 <0 (1.7) и область управления U представляет собой круг (рис. 15). В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания объекта надо указать закон его движения (1.2) и область управления U. Заметим, что для технических задач особенно важен и характерен случай замкнутого множества U, т. е. случай, когда точка и ~ (и1, и2, . . . , иг) может находиться не только внутри множества U, но и на его границе (см. неравен¬ ства (1.6) и (1.7)). Это условие означает, что для «рулей»
22 ВВЕДЕНИЕ [ГЛ. Т допустимы и их крайние положения (значения и1—а1 или и1 = (З1 в неравенствах (1.6) или граничные точки круга (1.7)). Наконец, сделаем еще одно, весьма существенное для дальнейшего, предположение о характере управлений. Именно, будем предполагать, что «рули», положения которых характеризуются управляющими параметрами и1, н2, . . . , иг, безынерционны, так что мы можем, если нужно, мгновенно переключать эти «рули» из одного поло¬ жения в другое, т. е. мгновенно менять (скачком) значения управляющих параметров и1, и2, . . . , иг. В соответствии с этим будем рассматривать не только непрерывные, но и произвольные кусочно-непрерывные управления u(t), т. е. управления, состоящие из конечного числа непрерывных кусков (рис. 16). Класе кусочно-непрерывных управлений, по-видимому, наиболее интересен для технических приме¬ нений рассматриваемых здесь теорий. Во избежание недоразумений уточним, что функция и (t) (со значениями в области управления 17) называется кусочно¬ непрерывной, если она непрерывна для всех рассматривае¬ мых I, за исключением лишь конечного числа моментов времени, где функция и (t) может терпеть разрывы первого рода; последнее означает, что в каждой точке разрыва т предполагается существование конечных пределов слева и справа: и (т — 0) = lim и (/), t -* т и (т + 0) — lim и (/). t -> т ' t > т
и ЗАДАЧА ОБ ОПТИМАЛЬНОМ БЫСТРОДЕЙСТВИИ 23 Значение кусочно-непрерывного управления и (t) в точке пячпыва не играет сколько-нибудь существенной роли в даль¬ нейшем Однако для определенности нам будет удобно предполагать, что в каждой точке разрыва т значение управления u(t) равно пределу справа: и (т) = и (т 4" 0), и что каждое рассматриваемое управление и (t) непрерывно в концах отрезка на КОТОРОМ оно. задано, т. е. что все его точки разрыва, если они есть, расположены на интервале t0 < t < tr (рис. 16). Для удобства условимся называть допустимым управ¬ лением всякую кусочно-непрерывную функцию н(/), /0 Z со значениями в области управления U, непрерыв¬ ную в концах отрезка tQ t на котором она задана. Задача об оптимальных быстродействиях уточняется теперь следующим образом: Среди всех допустимых управлений u = u(t), под воздей¬ ствием которых объект переходит из заданного начального состояния xQ в предписанное конечное состояние xlf найти такое, для которого этот переход осуществляется за крат¬ чайшее время. В заключение сделаем несколько замечаний, связанных с предположением о «безынерционности рулей». Это пред¬ положение иногда встречает возражения. Отмечают, на¬ пример, то обстоятельство, что если обозначить через и угол поворота руля направления (самолета или корабля), то «управляющий параметр» и не может меняться скачком, так как руль находится во встречном потоке, и потому мотор, имеющий конечную мощность, может поворачивать руль лишь с ограниченной скоростью. Однако это возра¬ жение основано, очевидно, лишь на недоразумении. Дейст¬ вительно, достаточно написать где v — скорость поворота руля, чтобы понять, что более правильно считать величину и не управляющим параметром, а еще одной фазовой координатой и принять за управляю¬ щий параметр величину v (которая может меняться в ко¬ нечных пределах). Разумеется, всякий реальный процесс обладает некоторой «инерционностью», но во всяком реаль¬
24 ВВЕДЕНИЕ [ГЛ. I ном управляемом объекте всегда можно найти такие управ¬ ляющие параметры, которые, в пределах разумной точности, можно считать безынерционными. Несмотря на это объяснение, естественно, возникает вопрос: зачем все ж*е нужны кусочно-непрерывные управ¬ ления? Нельзя ли ограничиться рассмотрением только непрерывных управлений? На этот вопрос следует дать отрицательный ответ. Дело в том, что, как мы увидим и 1 1 / Z 1 О /1 —1 Рис. 17. ниже на самых простых примерах, оптимальные управления оказывают¬ ся, как. правило, разрыв¬ ными (т. е. содержащими мгновенные скачки, пе¬ реключения). Если, нап¬ ример, разрывная функ¬ ция, график которой изображен на рис. 17 сплошной линией, пред¬ ставляет собой оптималь¬ ное управление, то, «сгладив» эту функцию (пунктир на рис. 17), мы получим близкую к ней непрерывную функцию. Но какую бы непрерывную функцию мы ни взяли, всегда можно выбрать «сглаживающий» кусок еще более крутым и по¬ лучить непрерывную функцию, еще более близкую к опти¬ мальному управлению. Таким образом, в классе непре¬ рывных функций просто не будет наилучшего, опти¬ мального управления. Кусочно-непрерывные управления хороши тем, что, во-первых, они позволяют получить для достаточно широкого класса примеров точное математиче¬ ское решение оптимальной задачи и, во-вторых, достаточно наглядны и удобны для технической реализации. § 2. Об основных направлениях в теории оптимальных процессов 5. Метод динамического программирования. Для управ¬ ляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе — в смысле быстродействия — из фазового состояния х в фазовое со¬ стояние При этом конечную фазовую точку xL будем
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 25 § гинтать фиксированной, а в качестве начальной точки х будем рассматривать различные точки фазового поостранства. Мы будем в этом пункте предполагать, что для рассматриваемого управляемого объекта выполняется следующая , Гипотеза 1. Какова бы ни была отличная от х, точка х фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки х в точку х, (рис. 6). Время, в течение которого осуществляется оптимальный переход из точки х в точку обозначим через Т(х). Иначе говоря, для каждой точки х существует допустимое управление u = ux(t), под воздействием которого объект переходит за время, равное Т (х), из точки х в точку хг, но за меньшее чем Т (х) время перейти из точки х в точку х± невозможно. Так как каждая точка х фазового пространства имеет п координат х\ х2, . . . , хп, то Т(х) является функцией от п переменных'. Г(х)=Г(х\ х2, ... ,xnY Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных х1, . . . , хп) ио диф¬ ференцируемости этой функции по каждому из переменных х1, . . . , хп. Мы будем в этом пункте также предполагать, что для рассматриваемого управляемого объекта выполняется следующая Гипотеза 2. Функция Т(х) непрерывна и всюду, кроме точки имеет непрерывные частные производные дТ_ дТ_ дТ дх1 ' дх2 ’ • • • ’ • В дальнейших рассуждениях будет удобно вместо Т (х) ввести функцию со (х), отличающуюся от нее знаком: со (ат) = — Т(х). (1.8) Поскольку мы предполагаем выполненными гипотезы 1 и 2, функция со(х) определена во всем фазовом пространстве, непрерывна и всюду, кроме точки х±, имеет непрерывные частные производные^, ... , .
26 ВВЕДЕНИЕ [ГЛ. I Пусть теперь х0 — произвольная отличная от точка фазового пространства, а и0 — произвольная точка области управления U. Предположим, что объект находится в мо¬ мент t0 в фазовом состоянии xQ и движется под воздей¬ ствием постоянного управления и = и0. Фазовую траекторию объекта при этом движении обозначим через у(О = (у1(О, у*У),... ,упУ)). Таким образом, фазовая траектория у (t) при t > t0 удов¬ летворяет уравнениям ?(0==/‘(Я0, “о), /=1, 2, ... ,л (1.9) (см. формулы (1.2), (1.3)), и начальному условию J(U=XO. (1.10) Если мы будем двигаться из точки х0 до точки у (t) (по рассматриваемой фазовой траектории), то затратим на это движение время t —t0. Двигаясь затем из точки у (I) оптимально (рис. 18), мы затратим на движение от точки у (t) до точки хг время T(y(t)). В результате мы совершим переход из точки х0 в точку xlt затратив на этот переход время (t — /0) + + F(j(f)). Но так как опти¬ мальное время движения от точки х0 до Xj равно Т(х0), т. е. равно Г(_у(*о))> то T(y(t0))^(t-t0) + T(y(t)). Заменяя функцию Т через ® (см. (1.8)) и разделив обе части неравенства на положительную величину t —10, по¬ лучаем отсюда со ({/(О) —и (У , t-tQ и потому, переходя к пределу при t—>-tQ, находим fit» (У (0) < 1- При t = t0 (1.11)
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 27 § 2] По формуле полной производной имеем 1 = 1 и потому, согласно (1.9) и (1.10), неравенство (1.11) при¬ нимает вид «.XI. / = 1 Точки х0, uQ здесь были произвольными. Таким образом, Для любой (отличной от хх) точки х фазового простран¬ ства и любой точки и области управления U выполнено соотношение а)<1. (1.12) Пусть теперь (и(/), х (t)) — оптимальный процесс, переводящий объект из фазового состояния xQ в состоя¬ ние xv и /0 t tL — отрезок времени, в течение которого это оптимальное движение происходит, так что х(^0)=х0, x(Z1)=x1 и tx = tQ + T(xq)- В силу уравнений движения объекта мы имеем ^’(f)=/(x(0, „(/)), (1.13) Движение по рассматриваемой оптимальной траектории от точки х0 до точки х (/) осуществляется в течение времени — /0, а движение от точки х (t) до точки хг — в течение времени т. е. в течение времени (хо) (t — U- Быстрее, чем за время T(xQ)— (i— /0), из точки х (0 попасть в хг невозможно; действительно, если бы такое более быстрое движение существовало (пунктир на рис. 19), то, переместившись из точки точку х (t) за время t — tQ, а затем из точки х (/) быстрее, 1— - - бы переход из xQ в х± что невозможно. Итак, T(xQ)— (t — tQ) есть время опти- х0 в в х± чем за время T(xQ)— (t — /0), мы осуществили за время, меньшее чем Т(х0),
28 ВВЕДЕНИЕ [ГЛ. I мального движения из точки х (t) в точку хх: Т(х (t))=T (х0) —— Заменив здесь Т через со: (О (х (/)) = (0 (х0) + < —10; и взяв производную по t, получаем V» да> (х (/)) (0=1. т. е. (см. (1.13)) н(0)=1 (1.14) Таким образом, для каждого оптимального процесса в течение всего движения выполняется равенство (1.14). Если мы теперь введем в рассмотрение функцию B(x,u) = y^f\x, и), дх1 1-1 (1-15) то соотношения (1.12) и (1.14) могут быть записаны сле¬ дующим образом: В(х, и)^Л для всех точек х=^хг и и\ (1.16) В(х (/), а (0) == 1 для любого оптимального процесса (х (f), f U-l?) Итак, доказана следующая Теорема 1.1. Если для рассматриваемого управляемого объекта и предписанного конечного состояния хх выполнены гипотезы 1 и 2, то имеют место соотношения (1.16) и (1.17) (оптимальность понимается в смысле быстродействия). Эта теорема и составляет сущность метода динамиче¬ ского программирования для рассматриваемой задачи. Ее можно сформулировать и несколько иначе. Написав соот¬ ношение (1.17) для t — t^, получим Щхй, U(ta)) - 1,
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 29 § 2] ^ля любой точки xQ (отличной от хг) найдется в U такая точка и (а именно u = u(t0)), что 5(х0, и)=1. В сопоставлении с неравенством (1.16) получаем соотно- шение тахВ(х, и) — 1 для любой точки х^хг иеи или, что то же самое, max У. ^Х- f (х, и) = 1 для любой точки х=^хх. (1.18) uiu дх' Итак, при выполнении гипотез 1 и 2 функция со удовлет¬ воряет уравнению (1.18), причем для оптимальных про¬ цессов максимум в соотношении (1.18) достигается (см.(1.17)). Это утверждение представляет собой иную формулировку метода динамического программирования; соотношение (1.18) называется уравнением Веллмана. Метод динамического программирования (1.16), (1.17) (или, что то же самое, (1.18), (1.17)) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода тре¬ бует нахождения не только оптимальных управлений, но и функции со (х), так как эта функция входит в соотно¬ шения (1.16)—(1.18). Во-вторых, уравнение Веллмана (1.18) (или соотношения (1.16)—(1.17)) представляет собой урав¬ нение в частных производных относительно функ¬ ции со, осложненное к тому же знаком максимума. Ука¬ занные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов. Но самым главным недостатком этого метода является предположение о вы¬ полнении гипотез 1 и 2. Ведь оптимальные управления и функция со нам заранее не известны, так что гипотезы 1 и 2 содержат предположения о неизвестной функции, и проверить выполнение этих гипотез по урав¬ нениям движения объекта невозможно. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи методом динами¬ ческого программирования оказалось, что функция со (х) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших,
30 ВВЕДЕНИЕ [ГЛ. I линейных задачах оптимального управления функция со, как мы увидим ниже, не является, как правило, всюду дифференцируемой, и применение изложенного метода становится необоснованным. Тем не менее, хотя метод динамического программиро¬ вания и не имеет строгого логического обоснования во всех случаях, им можно нередко пользоваться как ценным эвристическим средством. Ниже (в главе IV) мы приведем более тонкие теоремы, которые по форме весьма близки к принципу динамического программирования, но имеют широкую область применимости. Отметим также, что в случае разностных (а не дифференциальных) урав¬ нений метод динамического программирования вполне обоснован и является наиболее действенным методом. 6. Принцип максимума. Продолжим теперь рассуждения предыдущего пункта, предположив функцию со (х) уже дважды непрерывно дифференцируемой. Итак, будем предполагать, что выполнена следующая Гипотеза 3. Функция со (х) имеет вторые непрерывные производные » h j= L 2, . . ., л, а функции fl (x, и) — первые непрерывные производные -- , /, / = 1, 2,. . ., п. dxJ Пусть («(/), x(t))> —оптимальный процесс, переводящий объект из фазового состояния х0 в состоя¬ ние xv Фиксируем некоторый момент времени t, /0 t tly и рассмотрим функцию В(х, u(t)) переменного х. Из вы¬ ражения функции В (см. (1.15)) вытекает, в силу гипотезы 3, что функция В(х, u(t)) имеет непрерывные производные по переменным х1, х2, ..., хп: дВ (х, и (/)) __ дх* ~ д2со (х) dxldxk Е 1 = 1 уч да (х) . dfl (х, и (0) "1" 2-1 дх< ’ dxk z = l k = 1, . . ., п. (1.19) Далее, мы имеем, в силу (1.16), (1.17), В(х, и(/))^1 для любого х^хх; В(х, и (/))=! при х = х(0‘
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 31 § 2] частные производные по в этой точке: Следовательно, функция В(х, и (t)) достигает приi х = х (t) максимума, и потому ее „1 хп обращаются в нуль у d2C0 {X (0) А u(i)) + 2-4 дх1дхк i = i ^5 й.(х (0) др (Х (0* и (0) — Q + 2и дх‘ ' ” 1-1 k= 1, . . ., п (1.20) дхк (см. (1.19)). Кроме того, дифференцируя функцию по t и учитывая соотношение (1.13), находим а /дю (х (о)\ _ vr д2® (* (0) / а _ Si { дх* дх*дх‘ ( ) ~ 4 z 1 = 1 дхк МО). 1 = 1 в сле- Поэтому соотношение (1.20) может быть переписано дующем виде: d /да (х (/)) \ \ дхк / ■ у до (* (0) dfl (х (t), и (/)) дх1 i=i (следует отметить, что ложения о непрерывности вторых производных). Заметим теперь, что в формулы (1.16), (1.17), (1.21) сама функция со не входит, а входят только ее dkk = 0, k= 1, .. ., п д2со дх[ дхк дхкдх1 д2со в силу (1.21) сама функция со не входит, а входят частные производные . Поэтому Для удобства следующие обозначения: =ч>1 ю. от - дхп (1.21) предпо- (1.18) и мы введем ЧМ0.(1.22) Тогда функция В (см. (1.15)) записывается следующим
32 ВВЕДЕНИЕ [ГЛ. I (1.23) образом: i= 1 и соотношение (1.17) принимает вид п ф,- (t)f (х (/), и (t)) ~ 1 для оптимального i = 1 процесса (х (t), u(t)), tQ^t где функции ф1 (/), . .., (/) определяются равенствами (1.22). Кроме того, согласно (1.16) п ф, (t)fl (х (/), и) 1 для любой точки и g U (tQ t (1.24) Наконец, соотношения (1.21) записываются следующим образом: (Z)+Z(/) -дГ{х=0’ ft=1- •••’”• (1-25) Итак, если (х (/), и (/)), tQ^ t —оптимальный про¬ цесс, то существуют такие функции ф1 (/), ф2 (О, •••> фп(/) (они определяются равенствами (1.22)), что имеют место соотношения (1.23), (1.24), (1.25). Рассмотрение левых частей соотношений (1.23), (1.24) подсказывает нам, что целесообразно ввести в рассмотрение следующую функцию: х, И) = ^'ф,/' (х, «) = = WJ(*, + “)+••• +Wn(*. и), (1-26) зависящую от 2п-}-г аргументов фх, ф2, . . фл) х1, . . ., х", и1, ..., ur. С помощью этой функции соотношения (1.23), (1.24) записываются в следующем виде: /7(ф(0, x(t), и (/)) =Ч1 для оптимального процесса (х (/), и (t)), /0 } (1.27)
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 33 § 21 где ф (/) (ф! (/), • • • ,Ф„ (0) определяется равенствами (1.22); Н(ф(/), *(/), и) 1 для любой точки и £ U (1.28) Вместо неравенства (1.28) мы можем, в написать следующее соотношение: силу (1.27), max Н (УС), x(t), u) — H(y(t), х (t), u(f)), ueU tQ 'C t C ty. (1.29) Наконец, соотношения (1.25) можно, очевидно, переписать так: дН W (0, х(/), «(/)) dxk (1.30) 1, .. ., л. ф* С) = Итак, если (х(/), и (t)) —оптимальный процесс, то су¬ ществует такая функция ф (/) = (фг (/), фп (/)), что выполняются соотношения (1.27), (1.29), (1.30), где функ¬ ция Н определяется равенством (1.26). Так как в соотно¬ шениях (1.26), (1-27), (1.29), (1.30) нигде не участвует явно функция со (а;), то равенства (1.22), выражающие функции фх (/), ..., фп (/) через со, никаких добавочных сведений не дают, и о них можно забыть, ограничившись утверждением, что какие-то функции фг(/), ..., ф„ (/), удовлетворяющие перечисленным соотношениям (1.27), (1.29), (1.30), существуют. Соотношения (1.30) представляют собой систему уравнений, которым эти функции удовлетворяют. Заметим, что функции Ф1(0> ••., ф„ (t) составляют нетривиальное решение этой системы (т. е. ни в какой момент времени t все эти функции одновременно в нуль не обращаются); действи¬ тельно, если бы было фх (£) ==ф2 (f) = . . . =фл (/) =0, то, в силу (1.26), мы получили бы Н(ф(/), х (t), u(t)) = O, что противоречит равенству (1.27). Таким образом, мы получаем следующую теорему, которая носит название принципа максимума. Теорема 1.2. Предположим, что для рассматриваемого управляемого объекта, описываемого уравнением (в вектор¬ ной форме) x=f(xt и), u£U, (А) 2 В. Г. Болтянский
34 ВВЕДЕНИЕ [ГЛ. I и предписанного конечного состояния х± выполнены гипотезы 1,2 и 3. Пусть (u(i), х (/)),/0 — некоторый процесс, переводящий объект из состояния х0 в состояние хГ Введем в рассмотрение функцию Н, зависящую от переменных х1, . . ., х", и1, . . ., иг и некоторых вспомогательных пе¬ ременных ф1, (ср. (1.26)): п х, и) = У :(Х, и). (В) 1=1 С помощью этой функции Н запишем следующую систему дифференциальных уравнений для вспомогательных перемен¬ ных дН (i|), х (Г), и (/)) dxk k= 1, . . ., Л, (С) где х (/))—рассматриваемый процесс (ср. (1.30)). Тогда, если процесс x(t)) является оптимальным, то существует такое нет ривиальное решение^(/) = ('^1^)1. .; ,ф„(^)), t0 t системы (С), что для любого момента t, f0 t выполнено условие максимума x(t), u(t)) = max.H (^(/), x(i), и) (D) И6С/ (cp. (1.29)) и условие x(t), = Эта теорема значительно удобнее для отыскания опти¬ мальных процессов, чем метод динамического программи¬ рования,— мы увидим это ниже на примерах. Однако в приведенной здесь форме принцип максимума страдает тем же недостатком, что и метод динамического програм¬ мирования: он выведен в предположении дифференцируе¬ мости (и даже двукратной) функции со (х), а эта функция, как мы уже упоминали, в действительности не является (в обычно встречающихся случаях) всюду дифференцируе¬ мой. Благодаря предположению о выполнении сделанных гипотез (о функции со (х)) метод динамического програм¬ мирования и принцип максимума в том виде, в каком они сформулированы выше, не являются удобными условиями оптимальности. По форме они выведены как необходи-
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 35 § 2] мЫе условия оптимальности: если процесс оптимален, то выполнены соотношения (1.18) и, соответственно, (D), т. е. выполнение этих условий необходимо для оптималь¬ ности. Однако эти условия выведены лишь в предполо¬ жении выполнения гипотез 1, 2, 3, а их выполнение отнюдь не необходимо для оптимальности. Вот почему сформулированные выше теоремы не могут считаться необходимыми условиями оптимальности. Замечательным, однако, является тот факт, что если заменить заключительное условие //(ф (f), х (/), и (t)) = 1 более слабым требованием ШУУт), «(f1))^0, (Е) то в этой форме принцип максимума будет справедлив без каких бы то ни было предположений о функции со, т. е. принцип максимума станет весьма удобным и широко при¬ менимым необходимым условием оптимальности. В этой форме принцип максимума будет доказан ниже (в § 5). Его доказательство совершенно отлично от приведенных выше рассуждений; оно является довольно сложным и не использует предположения даже о существовании функ¬ ции со(х). Но эта сложность неизбежная и вполне оправ¬ данная: если теоремы 1.1 и 1.2, доказанные выше, практи¬ чески почти не имеют возможности применения (в силу излишне жестких требований, заключающихся в гипотезах h 2, 3), то теорема, доказанная в § 5 (принцип максимума), имеет достаточно широкую возможность применений. Ниже мы увидим это на многих примерах. 7. Обсуждение принципа максимума. Принцип макси¬ мума, как мы видели, формулируется довольно сложно. Кроме основных переменных (т. е. фазовых координат) а;2, . .., хп и управляющих параметров и1, и2, ...,иг, в его формулировке участвуют еще «вспомогательные» переменные фх, ф2, ..., ф„, никакого отношения не имею¬ щие к формулировке поставленной задачи оптимального управления. Однако, как мы покажем в этом пункте, принцип максимума доставляет «достаточную» информацию Для решения поставленной задачи оптимального управления. Рассуждения этого пункта не претендуют на строгость и нигде в дальнейшем не используются. Цель этих рас¬ 2*
36 ВВЕДЕНИЕ (ГЛ,- Г суждений—показать, что из всех траекторий, начинающихся в точке и приходящих в точку х±, принцип максимума позволяет выделить лишь отдельные, вообще говоря, изоли¬ рованные траектории, удовлетворяющие сформулированным, необходимым условиям (А) — (Е). Лишь эти отдельные, изолированные траектории и могут оказаться оптимальными (ибо принцип максимума дает необходимые условия Рис. 20. оптимальности). Положение вещей здесь до некоторой степени ана¬ логично тому, которое наблюдается при отыскании максимумов и мини¬ мумов функций с помощью первой производной: необходимое условие достижения максимума или мини¬ мума функции (обращение в нуль первой производной, если точка не концевая) выполняется, вообще го- ванных точках, воря, лишь в отдельных, изолиро- и лишь в этих точках функция может достигать максимума или минимума. Итак, рассмотрим соотношения (А) — (Е) в принципе максимума. Всего в формулировке принципа максимума име¬ ется 2/z -|- г неизвестных функций: х1,. . ., х", . ., фп, и1,. . ., иг. Сколько же имеется соотношений для опреде¬ ления этих неизвестных функций? Рассмотрим прежде всего соотношение (D). Нетрудно понять, что оно дает г соотношений между неизвестными функциями. Дей¬ ствительно, если точка и (t) является внутренней точкой области управления U (рис. 20), то для выполнения условия максимума (D) необходимо обращение в нуль г частных производных дН х (/), и) ди1' при и = и (/) = 0, г, (1.31) что дает г соотношений между неизвестными функциями; Если же точка и (t) лежит, например, на (г—1)-мерной «грани» области управления U, то должно выполняться условие принадлежности точки и (t) этой грани (это дает одно соотношение) и для выполнения условия максимума (D) должны обращаться в нуль частные производные функции /7(ф (£), x(f), и) по всем направлениям в этой грани, (это
ОСНОВНЫЕ НАПРАВЛЕНИЯ ТЕОРИИ 37 § 2] дает еще г—1 соотношений). Аналогичное положение вещей имеет место и на гранях меньшего числа измерений (или на искривленных частях границы области управления (7, см. рис. 21). Таким образом, во всех случаях можно счи¬ тать, что если область управления U является г-мерной, то условие максимума (D) дает г соотношений между не¬ известными функциями. Эти соотно¬ шения являются конечными (т. е. не содержат производ¬ ных от неизвестных функций, ср. u(t) (1.31)). Кроме уже рассмотренного со¬ отношения (D),Mbi имеем в прин¬ ципе максимума соотношения (А) и (С), которые представляют со¬ бой систему из 2/z дифференци¬ альных уравнений. Итак, мы имеем 2л4-г соотношений (А), (С), (D) для отыскания 2/z-j-r неизвестных функ¬ ций х1, . .., хп, фх, ..., фл, п1, ..., иг, т. е. число соотношений равно числу неизвестных функций. При этом г соотношений (D) конечны, а 2п соотношений (А), (С) являются обыкновенными дифференциальными уравнениями. Поэтому можно ожидать, что из соотношений (А), (С), (D) все неизвестные функции могут быть найдены, если только известны начальные условия хЧ^о), .... Xn(t0), 1]?! (t0), (/0) (1.32) для дифференциальных уравнений (А), (С). Таким образом, все решения x(t), ф(/), и (/) системы уравнений (А), (С), (D) зависят от 2п числовых параметров (1.32). Нетрудно понять, однако, что один из этих параметров является несущественным. В самом деле, так как функция Н является линейной и однородной функцией переменных Ч>2. • • ■ . % (см. (В)), то справедливость соотношений (С), (D), (Е) не нарушается, если все величины ф1, ф2,. . . ,фп умножить на один и тот же постоянный положительный мно¬ житель. Иначе говоря, величины ф1 (/0), ..., ф„ (/0) опреде¬ лены лишь с точностью до общего постоянного положи¬ тельного множителя, и потому среди параметров (1.32) один является несущественным.
38 ВВЕДЕНИЕ [ГЛ. I Итак, все многообразие решений системы (А), (С), «(D) зависит от 2п—1 числовых параметров. Этими 2/z—1 параметрами следует распорядиться так, чтобы траекто¬ рия х (t) проходила при заданном i = tQ через точку х0, а при каком-нибудь tx > tQ — через точку xv Число — /0 (заранее неизвестное) также является параметром, так что всего у нас имеется 2п существенных параметров. Условие прохождения траектории через точки х0 и хг дает 2п соотношений. Итак, в конечном итоге у нас имеется 2п соотношений для нахождения 2п свободных параметров. Поэтому можно ожидать, что имеются лишь отдельные, изолированные траектории, проходящие через обе точки х0, хг и удовлетворяющие условиям, указан¬ ным в принципе максимума. § 3. Пример. Задача синтеза 8. Пример применения принципа максимума. В этом пункте мы разберем один пример вычисления оптимальных процессов. Именно рассмотрим управляемый объект, упо¬ мянутый в п. 3 (см. уравнения (1.1)), при условии, что сила трения и упругая сила отсутствуют (т. е. Ь = 0, & = 0), масса т равна единице а управляющий параметр подчинен ограничениям |н|^1. Иначе говоря, мы рассматриваем материальную точку G массы т=1 (см. рис. 10), свободно и без трения движущуюся по горизонтальной прямой и снабженную двигателем, разви¬ вающим силу и, где | и | 1. Согласно (1.1), уравнения движения этого объекта имеют вид — 1 1. (1.33) (1.34) Для этого объекта рассмотрим задачу о быстрейшем попа¬ дании в начало координат (0, 0) из заданного начального состояния х0. Иначе говоря, будем рассматривать задачу об оптимальном быстродействии в случае, когда конечным положением служит начало координат: хх = (0, 0). Меха¬ нически это означает, что материальную точку, имеющую заданное начальное положение и заданную начальную ско¬
§ 3] ПРИМЕР. ЗАДАЧА СИНТЕЗА 39 рость, мы хотим за кратчайшее время привести в начало отсчета с нулевой скоростью (т. е. добиться того, чтобы точка пришла в начало отсчета и остановилась там). Функция Н в рассматриваемом случае имеет вид Н = фрГ2 + ф2и (1.35) (см. (1.33) и (В)). Далее, для вспомогательных переменных Фг мы получаем систему уравнений •ф1 = 0, ф2 = —1|)г Из этой системы уравнений легко находим: = dx\ ф2 = — + где ~ постоянные интегрирования. Далее, в силу соотношения максимума (D) мы находим, учитывая (1.35) и (1.34): u(t)= + \, если ф2 (/) > 0; и (t) = —1, если г|)2 (f) < 0. Иначе говоря, и (t) = sign ф2 (t) = sign (—6f1/4-^2). Отсюда следует, что каждое оптимальное управление u(t), / «С /х, является кусочно-постоянной функцией, принимаю¬ щей значения ± 1 и имеющей не более двух интервалов постоянства (ибо линейная функция —d^t^-d^ не более одного раза меняет знак на отрезке tQ^t ^/х). Для отрезка времени, на котором и=1, мы имеем (в силу системы (1.33)) х2 (0 = 14- с2, х1 (Г) = у х2 (/) dt = у (t + с2)2 + с1, где с1 и с2 — постоянные интегрирования, откуда находим х1 = ^(х2)2 + с1. (1.36) Таким образом, кусок фазовой траектории, для которого w—1, представляет собой дугу параболы (1.36). Семейство парабол (1.36) показано на рис. 22 (они получаются друг из друга сдвигом в направлении оси х1). По этим пара¬ болам фазовые точки движутся снизу вверх (ибо х2 =» = «= 1, т. е. х2 > 0).
40 ВВЕДЕНИЕ [ГЛ. I Аналогично, для отрезка времени, на котором и =— 1, мы имеем X2(t)= — t + с'2, X1 (/) = у X2 (/) di = — у (— t + с'2)2 + с'1, откуда находим ХХ = — у (Х2)2 + с'Х. (1.37) т. е. Семейство парабол (1.37) (также получающихся друг из друга сдвигом в направлении оси х1) показано на рис. 23. По параболам (1.37) фазовые точки движутся сверху вниз (ибо х2 = и = —1, т. е. х2 < 0). Как было указано выше, каждое оптимальное управ¬ ление и (0 является кусочно-постоянной функцией, прини¬ мающей значения ± 1 и имеющей не более двух интервалов постоянства. Если управление и (t) сначала, в течение неко¬ торого времени, равно + 1, а затем равно—1, то фазовая траектория состоит из двух кусков парабол (рис. 24), при¬ мыкающих друг к другу, причем второй из этих кусков лежит на той из парабол (1.37), которая (ибо искомая траектория проходит через начало координат должна вести в начало координат). Если же, наоборот, сначала и——1, а затем и = -f-1, то фазовая траектория, изображенная на рис. 24, заменяется центрально симмет¬ ричной (рис. 25). На рис. 24, 25 надписаны на дугах парабол соответствующие значения управляющего пара¬ метра и. На рис. 26 изображено все семейство получен¬ ных таким образом фазовых траекторий ^здесь АО—дуга параболы х1 = у(х2)2, расположенная в нижней полуплос-
§ 3] ПРИМЕР. ЗАДАЧА СИНТЕЗА 41 кости; ВО —дуга параболы х1 =— у(х2)2, расположенная в верхней полуплоскости) . Если начальная точка х0 рас¬ положена выше линии АОВ, то фазовая точка движется по дуге параболы (1.37), проходящей через х0; если же точка расположена ниже линии АОВ, то фазовая точка движется по дуге параболы (1.36), проходящей через х0. Иначе говоря, если начальное положение х0 расположено выше линии АОВ, то фазовая точка должна двигаться переключается и ста- равным +1 вплоть до попадания в начало ко- Если же начальное х0 расположено н и- АОВ, то и должно +1 до момента по- дугу ВО, а в момент на дугу ВО значе- и под воздействием управления и = —1 до тех пор, пока она не попадет на дугу АО; в мо¬ мент попадания на дугу АО зна¬ чение и новится момента ординат, положение ж е линии быть равно падания на попадания ние и переключается и становится равным —1. Итак, согласно принципу максимума только изображен¬ ие на рис. 26 траектории могут быть оптимальными, при¬ чем из проведенного исследования видно, что из каждой
42 ВВЕДЕНИЕ [ГЛ. I точки фазовой плоскости исходит только одна траек-* тория, ведущая в начало координат, которая может быть оптимальной (т. е. задание начальной точки xQ однозначно определяет соответствующую траекторию). 9. Доказательство оптимальности полученных траек¬ торий. Сказанное, однако, еще не дает нам полной уве¬ ренности в том, что изображенные на рис. 26 траектории действительно являются оптимальными (ибо принцип мак¬ симума является лишь необходимым условием опти¬ мальности). Ведь могло бы оказаться, что оптимальных траекторий вовсе не существует, т. е. что не только никакие траектории, кроме изображенных на рис. 26, не являются оптимальными, но и сами эти траектории тоже не оптимальны. (Например, из того, что никто, кроме ученика А, не в состоянии справиться с предложенной трудной задачей, еще не вытекает, что ученик А непре¬ менно с этой задачей справится!) В действительности все траектории, изображенные на рис. 26, являются оптимальными, и мы сейчас это строго докажем. Рассмотрим процесс, изображенный на рис. 25, и обозначим через tQ t время, в течение которого этот процесс происходит, а через а — момент переключе¬ ния. Таким образом, при рассматриваемом процессе управ¬ ляющий параметр и принимает следующие значения: u(t) =—1 при и (t) = 4" 1 ПРИ а t *4- (1.38)
§3] ПРИМЕР. ЗАДАЧА СИНТЕЗА 43 координат в момент Предположим, что этот процесс не оптимален. Тогда су¬ ществует управление и (t) (удовлетворяющее условиям (1.34)), под воздействием которого фазовая точка, выхо¬ дящая в момент /0 из положения х0, попадет в начало координат в момент времени 0 < tY (т. е. р а н ь ш е, чем при движении по траектории, изоб¬ раженной на рис. 25). Фазовую траекторию, изображенную на рис. 25, мы обозначим через х (t) (х1 (t), х2(/)), а фазовую траекторию, исходящую из той же точки xQ и соответствующую управлению и(7),— через х (t) = = (x1(t), x2(t)) (рис. 27). Сог¬ ласно предположению, в момент времени 0 траектория х (t) при¬ ходит в начало координат, т. е. х1 (0) = 0, х2 (0) = 0. Траек¬ тория же х (/) приходит в нач tlt т. е. x1(f1) = 0, х2(/1) = 0. Кроме того, обе траектории подчиняются уравнениям (1.33): = (t), (1.39) Рассмотрим теперь следующие две функции*. Ф (/) = _х1 (t)+x2 (t) (t—a), ¥ (t) = —x1 (t)+x2 (t) (/—a). Так как обе траектории х (t) и х (t) выходят в момент t9 из одной и той же точки х0 (т. е. х (tQ) = х (/0) — х0), то Ф(и = ^(и- Кроме того, очевидно, Ф(О = 0, Т(0) = О. (1.40) (1.41)
44 ВВЕДЕНИЕ [ГЛ. Т Вычисляя производные, получаем (в силу соотноше¬ ний (1.39)) Ф (t) = и (t) (t— a), W(t) = u(t) (t—a). Согласно (1.38) первое . из этих равенств можно перепи¬ сать в виде Ф(/) = |/ — а|, и потому (учитывая, что |н(/)|^1, см. (1.34)) мы имеем Ф (/) > IT (t) I > V (/). Интегрируя это неравенство в пределах от tQ до 0, находим е е J(t) J Ф(/) dt, to to Ф(0)-Ф(/о)>Т(0)-ЧЧ/о). В силу (1.40) и (1.41) последнее неравенство принимает вид Ф (0) 0. С другой стороны, мы имеем — Ф(0)=Ф(/1)—Ф(0)= Jd>(/) J |/ — >0 0 0 (так как tx > 0, а подынтегральная функция положительна). Таким образом, Ф(0) < 0, что противоречит полученному ранее неравенству Ф(0)^О. Полученное противоречие показывает, что неравенство 0 < tr не может выполняться, т. е., выйдя в момент /0 из точки х0, невозможно попасть в начало координат раньше чем в момент tr. Иначе говоря, процесс (и (/), х (/)), опти¬ мален. Итак, все траектории, изображенные на рис. 26, опти¬ мальны. Заметим, что этот факт здесь строго доказан, и притом без использования каких бы то ни было предпо¬ ложений о функции со (х). Ведь, в конце концов, совер¬ шенно безразлично, как мы догадались взять именно те траектории, которые изображены на рис. 26. Мы пришли к этим траекториям с помощью принципа максимума. Но никто нам не мешает считать, что эти траектории взяты,
ПРИМЕР. ЗАДАЧА СИНТЕЗА 45 § 31 что называется, «с потолка», а затем к ним применены рассуждения, проведенные на двух предыдущих страни¬ цах,— а в этих рассуждениях ни о принципе максимума, ни о методе динамического программирования, ни о функ¬ ции со (х) ничего не говорится. Напротив, зная, что все траектории, изображенные на рис. 26, оптимальны, мы теперь можем вычислить функцию со (х); это мы' сей¬ час и сделаем. 10. О дифференцируемости функции Веллмана. Пусть точка х0 лежит выше линии АОВ (как на рис. 25). Обозначим координаты этой точки через (а\ Ь). Для того чтобы парабола (1.37) проходила через точку х0, необхо¬ димо, чтобы координаты этой точки удовлетворяли урав¬ нению (1.37): а = —у^ + с'1. Отсюда находим с'1 = а-\- Таким образом, парабола (1.37), проходящая через точку х0, имеет уравнение х1 = — у(х2)2 + а + |^. (1.42) Точка переключения С, указанная на рис. 25, может быть найдена как точка пересечения параболы (1.42) с линией АО (см. рис. 26), уравнение которой имеет вид xi = l(x2)2. 0-43) Для нахождения точки пересечения нужно решить соот¬ ношения (1.42) и (1.43) совместно, как систему уравнений. Вычитая соотношение (1.43) из (1.42), находим (х2)2 = = а + откуда х2 = ± j/*a-\-^-b2. Для точки С сле¬ дует взять знак минус, поскольку точка С лежит на линии АО, т. е. ниже оси абсцисс. Итак, мы нашли ординату точки С: Хс = — а (абсцисса точки С нам не понадобится).
46 ВВЕДЕНИЕ [ГЛ. I Так как при движении от точки х0 до точки С мы имеем и = — 1, то второе из уравнений (1.33) имеет вид х2 = —1, и потому, интегрируя, получаем (через а по- прежнему обозначается момент переключения, т. е. момент прохождения траектории через точку С) xc — b= J х2 dt= J (—1) dt = t0—а. to t0 Аналогично, при движении от точки С до начала коорди¬ нат мы имеем и=\, т. е. х2=1, и потому — хс = 0 —Хс — х2 dt = dt = t1 —а. а а Вычитая первое соотношение из второго, находим b—2xc = t1 — tQ. Но t± —10 есть время движения по рассматриваемой опти¬ мальной траектории от точки xQ до начала координат, т. е. время T(xQ) оптимального движения. Итак, Т(х0) = Ь-2х2с =Ь + 2 у^а+^Ь^ (1.44) (если точка х0 = (я; Ь) лежит выше самой этой линии). Если же линии АОВ или на точка xQ лежит ниже линии АОВ, то время оптимального движения T(xQ) может быть вычислено аналогично. Одна¬ ко еще проще заметить, что если точка xQ = (a; b) лежит ниже линии АОВ (рис. 28), то точка xQ с координатами (—а\ —Ь), симметричная точке xQ относительно нача¬ ла координат, лежит выше линии АОВ, а время опти¬ мального движения для точек xQ и xq одинаково: Т(xQ) — T(xq). Поэтому, заменив в формуле (1.44) а и b на —а и —Ь, мы получим функ¬
§3] ПРИМЕР. ЗАДАЧА СИНТЕЗА 47 цию T(xQ) для точек х0, лежащих ниже линии АОВ: 7’(x0) = -Z> + 2 + (1.45) (если точка xQ = (a; b) лежит ниже линии АОВ или на самой этой линии). Итак, # + 2 я 4~у Ь2, если точка х0 = (й; Ь) лежит выше АОВ или на этой линии; Т(Х0)= Д|П-|/ I 1 А2 / д\ — Ь-^2 у —а-^-^Ь2, если точка х0 = (а; о) лежит ниже АОВ или на этой ли¬ нии. Заметим, что если точка х0 = (а; Ь) лежит на дуге АО ^т. е. а = ^-Ь2, причем £><о), то выражение (1.44) при¬ нимает вид Т (xQ) = b-\~ 2 VI)2 = b-[-2\b 1=^+2 (—Ь) =—Ь, а выражение (1.45) тоже, очевидно, дает Т(х0) = — Ь. Иначе говоря, на дуге АО обе формулы (1.44), (1.45) дают одинаковые значения для T(xQ). То же выполняется и на дуге ВО. Это показывает, что, хотя выше и ниже линии ИОВ функция Т(Хц) определяется двумя разными фор¬ мулами (1.44), (1.45), на самой линии АОВ эти две фор¬ мулы совпадают, и потому функция T(xQ) сохраняет непрерывность на всей плоскости. Имея выражение для функции T(xQ), мы можем теперь решить вопрос о ее дифференцируемости. Ясно прежде всего, что вне линии АОВ функция T(xQ) имеет непре¬ рывные производные по а и Ь, так как вблизи любой точки, не лежащей на линии АОВ, функция Т(х0) опреде¬ ляется какой-либо одной формулой (1.44) или (1.45) и легко может быть продифференцирована. Что же будет в точках самой линии АОВ? Мы сейчас увидим, что ни в одной точке этой линии функция Т (х0) не имеет непре¬ рывных производных по а и Ь. В самом деле, пусть С—• некоторая точка дуги АО и (я0; bQ) — ее координаты, так что aQ = у (#0)2, причем bQ < 0. В этой точке У co+4(v=/(v=im=-^-
48 ВВЕДЕНИЕ [ГЛ. I Теперь легко найти в точке С производные функции (1.44): дТ да с /“ + > 1 1 дТ дЬ с с и производные дТ да функции (1.45): — 1 = —оо, с с дТ дЬ — оо. с с Таким образом (рис. 29), смещаясь из точки С вверх, мы ОТ дТ найдем -57- = 0, а смещаясь вниз, найдем -^- =— оо, т. е. до оо дТ производной в точке С не существует. Точно так же дТ не существует в точке С и производной . Совершенно аналогичное вычисление можно провести и в точках дуги ВО. Итак, в точках линии АОВ функция T(xQ) (озна¬ чит, и функция G) (х0) = = — Т (х0)) не имеет про¬ изводных по координатам точки х0. Несмотря на то, что функция со (х) является не- Дифференцируемой только в точках линии АОВ, а в остальных точках плоско¬ сти имеет производные, все рассуждения п. 5 сразу же теряют почву. Ведь каждая оптимальная траекто¬ рия (рис. 26) в течение некоторого отрезка вре¬ мени проходит вдоль линии АОВ, и потому предпо¬
§ з] ПРИМЕР. ЗАДАЧА СИНТЕЗА 49 ложение о дифференцируемости функции со (х) (гипотеза 2) не выполняется ни на одной траектории. Дело не только в том, что доказательство, приведенное в п. 5, не проходит: нельзя даже написать уравнение Веллмана (1.18), поскольку в него входят производные , а на каж¬ дой оптимальной траектории в течение целого отрезка времени эти. производные не существуют. Разумеется, то же (и даже в еще большей степени) относится к рассуждениям и. 6. Однако большой удачей в отношении принципа максимума является то, что в его формулировке нигде не участвуют производные ~ (и сама функция со), благодаря чему его формулировка не стано¬ вится беспредметной даже при недифференцируемости функции со. Конечно, доказательство, приведенное в п. 6, полностью рушится, но, как мы отмечали выше, другое доказательство, построенное на совершенно иных прин¬ ципах, позволяет установить справедливость принципа максимума во всех случаях. Отметим еще, что некоторое видоизменение формулировки метода динамического про¬ граммирования позволяет также сделать его весьма широко применимым, но не как необходимое, а как доста¬ точное условие оптимальности. Об этом мы поговорим в § И. И. Проблема синтеза оптимальных управлений. Взгля¬ нем на разобранный в предыдущих пунктах пример с несколько иной точки зрения. Найденное выше решение оптимальной задачи можно истолковать следующим обра¬ зом. Обозначим через v (х) •— v (х1, х2) функцию, заданную на фазовой плоскости, следующим образом: -|- 1 ниже линии АОВ и на дуге ДО, — 1 выше линии АОВ и на дуге ВО. Тогда (см. рис. 26) на каждой оптимальной траектории значение и (t) управляющего параметра (в произвольный момент t) равно v(x(f)), т. е. равно значению функции v в той точке, в которой в момент t находится движущаяся фазовая точка, пробегающая оптимальную траекторию: u(t) -v(x (t)).
50 ВВЕДЕНИЕ [ГЛ. I Это означает, что, заменив в системе (1.33) ^величину и функцией 'n(Z), мы получим систему ( х' = х\ < . (1.46) I х2 = и (х1, х2), решение которой (при произвольном начальном состоянии х0) дает оптимальную фазовую траекторию, ведущую в начало координат. Иначе говоря, система (1.46) представляет со¬ бой систему дифференциальных уравнений (с разрывной правой частью) для нахождения оптимальных траекторий, ведущих в начало координат. Это же можно выразить еще и следующим образом. Предположим, например, что начальное фазовое состояние х0 находится выше линии АОВ. Тогда мы полагаем и = —1 и при этом значении управляющего параметра совершаем движение; как только движущаяся фазовая точка попадает на линию АО (ср. рис. 25, 26), мы переключаем управляю¬ щий параметр и и делаем его равным 4~ 1 вплоть до конца движения (т. е. до попадания в начало координат). Таким об¬ разом, нужно только «не прозевать» момент, когда дви¬ жущаяся фазовая точка попадает на линию переклю¬ чения АОВ. Указанная выше функция v (х) позволяет легко представить себе такой прибор, который автомати¬ чески осуществляет требуемые переключения. Этот прибор, который мы назовем нелинейным реле и обозначим схематически так, как показано на рис. 30, должен обла¬ дать следующим свойством. Он замеряет фазовое состоя¬ ние х объекта (т. е. его координату х1 и скорость х2); иначе говоря, входной величиной нелинейного реле является фазовое состояние х объекта. Выходной величиной служит функция u = v(x). Иначе говоря, если замеренное фазовое состояние х окажется расположенным ниже линии АОВ или на дуге ДО, то на выходе реле мы должны получить 4- 1, а если фазовая точка х расположена выше линии АОВ или на дуге ВО, то на выходе реле мы должны получить — 1. Если такое реле мы присоединим к объекту, поведение которого описывается системой (1.33), то получим замкну¬ тую систему (рис. 31), к-оторая, как легко понять, авто¬ матически будет работать в оптимальном режиме. Действи¬ тельно, если, например, начальное фазовое состояние
§ 3] ПРИМЕР. ЗАДАЧА СИНТЕЗА 51 находится выше линии АОВ, то реле подаст на вход объекта значение и = —1 и будет поддерживать это зна¬ чение управляющего параметра состояние объекта не окажется переключения АОВ. Начиная с до окончания движения реле будет подавать на вход объек¬ та значение и = 4-1- В резуль¬ тате объект будет двигаться до тех пор, пока фазовое расположенным на линии этого момента и вплоть по траектории, изображенной на рис. 25, т. е. реле авто¬ матически осуществит оптимальный режим. Иначе говоря, указанное нелинейное реле (рис. 30) и является (для рас¬ сматриваемого объекта) тем оптимальным регулятором, о котором шла речь в конце п. 2. Можно еще заметить, что так как объект описывается уравнениями (1.33), а нелинейное реле (рис. 30) имеет характерис¬ тику u = v(x), то работа замкну¬ той системы, изображенной на рис. 31, будет описываться систе¬ мой уравнений (1.46); но это и означает, что система, изображенная на рис. 31, будет автоматически совершать оптимальное движение. Название «нелинейное реле» объясняется следующими причинами. В инженерной практике довольно широко рас¬ пространены «обычные» реле (рис. 32), характеристика которых (в математически идеальном случае) записывается соотношением и = sign х, где х—скалярная величина, подаваемая на вход реле. Например, в случае, когда на вход реле подана сумма хг4-х2 двух фазовых координат (рис. 33), величина и будет равна 4-1, если фазовая точка располо¬ жена справа от биссектрисы второго и четвертого коорди¬ натных углов, и будет равна —1, если фазовая точка
52 ВВЕДЕНИЕ [ГЛ. Т расположена слева от этой биссектрисы. Иначе говоря,# линией переключения в этом случае будет на фа¬ зовой плоскости переменных х1, х2 прямая линия, указан¬ ная на рис. 33. Аналогичное положение вещей имеет место и для прибора, схематически показанного на рис. 30, только здесь линией переключения будет не прямая, как на рис. 33, а кривая линия, составленная из двух полупарабол (рис. 34, ср. рис. 26). Приведенные рассуждения имеют общий характер. Рас¬ смотренный пример показывает, что решение задачи об оп¬ тимальных управлениях естественно ожидать в следующей форме. Будем решать оптимальную задачу в общей поста¬ новке: х = f(x, и) (см. п. 3), рассматривая всевозможные начальные состоя¬ ния xQ и каждый раз предписывая в качестве конечного состояния начало координат О фазового пространства. Тогда (насколько можно судить по разобранному выше примеру) существует такая функция v(x), заданная в фа¬ зовом пространстве и принимающая значения в области управления U, что уравнение x=f(x, v(x)) (1.47) (ср. (1.46)) определяет все оптимальные траектории, ведущие в начало координат. Иначе говоря, оптимальное управле¬ ние оказывается естественным искать не в форме u = u(t), а в форме и — v(x), т. е. искомое оптимальное управление
ПРИМЕР. ЗАДАЧА СИНТЕЗА 53 § 3] в каждый момент зависит лишь от того, в какой точке пространства находится в данный момент фазовая точка. Это и понятно: ведь если мы уже попали в фазовую точку х, то и дальнейшее движение (из точки х в О) должно быть оптимальным (ср. рис. 19). Поэтому значение оптимального управления и (/) в момент прохождения фазовой точкой положения х зависит только от х, а не от того, в какой точке начиналось движение и сколько времени фазовая точка уже двигалась, прежде чем попала в положение х. Функцию 'У(х), дающую уравнение оптимальных траек¬ торий в форме (1.47), называют синтезирующей функцией, а задачу нахождения синтезирующей функции — задачей синтеза оптимальных управлений. В разобранном примере синтезирующая функция была к у с о ч н о-н епрерывной. Знание синтезирующей функции v(х) позволяет считать задачу оптимального попадания в начало координат м а- тематически решенной до конца. В самом деле, если рассматриваемый управляемый объект будет снабжен не¬ линейным реле с характеристикой v (х) (т. е. измеритель¬ ным прибором, замеряющим фазовые состояния, и испол¬ нительным механизмом, ставящим рули в положение и = v(x))> то интересующий нас объект будет двигаться оптимально. Иначе говоря, указанное нелинейное реле будет требуемым оптимальным регулятором (рис. 31). Для линейных систем второго порядка синтез оптималь¬ ных (по быстродействию) управлений будет осуществлен в § 10. В общем случае вопрос о синтезе является очень сложным (ср. § 9).
ГЛАВА II ПРИНЦИП МАКСИМУМА — НЕОБХОДИМОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ § 4. Некоторые сведения из геометрии и теории обыкновенных дифференциальных уравнений 12. Простейшие понятия л-мерной геометрии. В этом пункте мы рассмотрим понятия отрезка, луча и гиперпло¬ скости, нужные для проведения доказательств в следую¬ щем параграфе. Все рассмотрения будем проводить в л-мер- ном пространстве с координатами х1, .. ., хп (т. е. в фа¬ зовом пространстве рассматриваемого управляемого объекта); это пространство будем обозначать через X. Система координат х1, ..., хп сохраняется в процессе рассуждений неизменной. Мы будем пользоваться векторными обозначениями. Напомним, что вектор PQ с началом в точке /^(х1, . .., хп) и концом в точке Q(yx, ...» уп) имеет координаты у1—X1, у2— X2, ..., уп— хп, В частности, вектор, идущий из начала координат 0= (0, 0, . .., 0) в точку М с координатами (х1, х2, ..., х"), имеет те же координаты (х1, х2, .. ., х"). В связи с этим нередко не различают точки и векторы, считая точку 7И совпадающей с вектором х = 0М. Напомним, далее, что векторы можно складывать между собой и умножать на действительные числа: если х = (х', хп), у = (У У)
НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 55 §41 два вектора и X — действительное число, то сумма и произведение определяются формулами: = Ar2+j2, ХП+УП\ Хх = (Хх1, Хх2, ..\хп). Для любых трех точек Л1, N, Р пространства X справед¬ ливо соотношение MN+NP = MP. Кроме того, MN = _ДМ4 для любых точек Л4, N. Введем теперь понятие отрезка. П различные точки пространства X. Гов лежит на отрезке АВ, если векторы АВ и АС связаны соотношением (рис. 35) АС - К АВ, (2.1) где 1—действительное число, удов¬ летворяющее неравенствам 0 X 1. Если кроме точек А, В, С мы возьмем произвольную точку Q пространства X, AC = QC—QA, AB-^QB—QA^ и потому соотношение (2.1) принимает вид QC—ОЛ_Х(ОВ— Q4) или, иначе, QC=(1 — X)Q4 + XQ£. (2.2) Проводя вычисления в обратном порядке, мы из соотноше¬ ния (2.2) получим соотношение (2.1). Таким образом, соотно¬ шения (2.1) и (2.2) эквивалентны, и потому справедливо следующее предложение: Точка С в том и только в том случае лежит на отрезке АВ, если имеет место соотношение (2.2), где X— действительное число, удовлетворяющее неравенствам 0 X 1 (при этом точка Q произвольна). стъ А и В—две Рис. 35. то можем написать
56 ПРИНЦИП МАКСИМУМА [ГЛ. II Рассмотрим еще понятие луча. Пусть Q и А — две раз¬ личные точки пространства X Лучом, исходящим из точки Q и проходящим через точку А, называется множество, состоящее из всех таких то¬ чек В, для которых QB —ХОД где Х^О (рис. 36). Скалярным произведением ху двух векторов х — (х1, ..X ), У = (у\ •••. Уп) будем называть действительное число ху = х^1 + х2у2 + ... + х”уп. Непосредственно проверяется, что скалярное произведение обладает свойствами коммутативности и дистрибутивности: ху = ух, х (у + г) - ху + xz для любых трех векторов х, у, z. Скалярное произведение вектора х на самого себя обозначается через х2: х2 =хх = (х1)2 + (х2)2 + . . . + (хп)2, и называется скалярным квадратом вектора х. Скалярный квадрат любого вектора является неотрицательным числом; квадратный корень из этого числа (взятый со знаком 4-) обозначается через | х | и называется длиной вектора х: | х | = |/х2 — (X1)2 + (X2)2 + . . . + (хп)2. Длина любого отличного от нуля вектора является положи¬ тельным числом. В геометрии доказывается*), что скаляр¬ ное произведение двух векторов не превосходит (по аб¬ солютной величине) произведения их длин: |ху|<ИИ- *) См. Г. Е Ш и л о в, ’ Введение в теорию линейных про¬ странств, Гостехиздат, 1952, стр. 175, 176.
§41 НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 57 Следовательно, для любых двух отличных от нуля ров х, у справедливы неравенства -1 <1, И1г/1 и потому существует такой угол ф, заключенный делах векто- в пре- 0=Сф^Сл, что xw , , , = cos ф. 1*11 у I угол ф называется углом между векторами образом, ху = | х 11 у | cos ф, -V, у. Этот Таким что согласуется с обычным определением скалярного про¬ изведения для векторов на плоскости или в пространстве. Из последнего соотношения следует, что угол между двумя отличными от нуля векторами будет острым, если xj/>0, прямым, если ху = Ъ, тупым, если ху<0. Если этот угол прямой, т. е. если ху = 0, то векторы х и у называются ортогональными между собой. Гиперплоскостью пространства X называется множество всех точек х = (хх, ..., х”), удовлетворяющих линейному уравнению а^1 + а2х2 + . . . 4-апх" + р = 0, (2.3) в котором хотя бы один из коэффициентов 04, а2, . . ., ап отличен от нуля. Соотношение (2.3) называется уравнением этой гиперплоскости. При /г —2 (т. е. на плоскости пе¬ ременных х1, х2) уравнение (2.3) принимает вид о^х1 + а2х2 + Р = О, т. е. представляет собой уравнение прямой; таким об¬ разом, при п = 2 (на плоскости) гиперплоскостями являются обычные прямые. Далее, при п = 3 уравнение (2.3) при¬ нимает вид (ZjX1 + а2х2 + ct3x3 + р = О, т- е. представляет собой уравнение плоскости
58 ПРИНЦИП МАКСИМУМА [ГЛ. II в трехмерном пространстве; таким образом, при п — 3 (в трехмерном пространстве) гиперплоскостями являются обычные плоскости. Подобно тому, как прямая разбивает плоскость на две полуплоскости или как плоскость разбивает трехмерное пространство на два полупространства, так и при произволь¬ ном п всякая гиперплоскость разбивает пространство X на два полупространства. Именно, гиперплоскость (2.3) разбивает пространство X на два полупространства, одно из которых состоит из точек, удовлетворяющих неравенству а^Ч-агх2 + ... + а„хп + 0 Ss О, (2.4) а другое — из точек, удовлетворяющих неравенству а1х1 + а2х2+... + апхп+^^0. (2.5) Полупространство (2.4) называется положительным полупро¬ странством, а полупространство (2.5)—отрицательным. Это различение полупространств на положительное и отрица¬ тельное, разумеется, условно: ведь если в уравнении (2.3) поменять знаки у всех коэффициентов ах, а2, ..., ап, 0, то сама гиперплоскость от этого не изменится, в то время как положительное и отрицательное полупространства поменяются ролями. Это замечание позволяет, по желанию, считать отрицательным любое из двух полупространств, на которые гиперплоскость (2.3) разбивает пространство X. Укажем теперь векторную запись соотношений (2.3), (2.4), (2.5). Пусть Q — произвольная точка, лежащая в ги¬ перплоскости (2.3), и а1, а2, ..., ап—координаты этой точки; тогда 04а1 + а2а2 + ... + ^паП + Р — 0- (2-6) Пусть, далее, М (х1, ..., хп) — произвольная точка про¬ странства X. Рассмотрим сумму с^х1 + а2х2 сспхп + 0, стоящую в левых частях соотношений (2.3), (2.4), (2.5). Учитывая соотношение (2.6), мы можем написать -J- а2х2 4-... + апхп 4~ Р == = а1х14-а2х2 4- ... +апхп + 0 —... -|- апап + 0) = — ах (х1 — а1) + а2 (х2 — а2) И- ... (хл — ап). (2.7)
НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 59 § 4] Числа х1 — а1, х2 — а2, . .., хп — ап являются координа¬ тами вектора QM. Обозначим теперь через п вектор с координатами ах, а2, а„. Тогда в правой части соотношения (2.7) написано, очевидно, скалярное произве¬ дение векторов п и QM, и потому о^х1 + ос2х2 + . . . + апхп + Р = п QM. Теперь соотношения (2.3), (2.4), (2.5) переписываются соответственно в виде (2.8) Иначе говоря, гиперплоскость (2.3) состоит из всех тех точек М (х1, ..., хп), для которых nQM=0, т. е. из точек М, для которых векторы (рис. 37). В связи с этим вектор п с координатами ах, . . ., ап на¬ зывается вектором, ортогональ¬ ным к гиперплоскости (2.3),. или, иначе, нормальным вектором ги¬ перплоскости (2.3). Второе и тре¬ тье из соотношений (2.8) озна¬ чает теперь, что положительное полупространство (2.4) состоит из всех тех точек М (х1, . . . ,хп), для которых скалярное произ¬ ведение п QM неотрицательно, а отрицательное полупространство (2.5) — из всех тех точек, для ко- п и QM ортогональны торых это скалярное произведение неположительно. Здесь Q — произвольная точка, лежащая в гиперплоскости (2.3), а я — нормальный вектор этой гиперплоскости. 13. Некоторые свойства выпуклых множеств. Пусть Л4—некоторое множество точек пространства X. Множе¬ ство М называется выпуклым, если для любых двух точек ^4 и В этого множества отрезок АВ целиком принадлежит множеству М (рис. 38). При п — 2 (т. е. в случае, когда X представляет собой плоскость) можно указать следующие
60 ПРИНЦИП МАКСИМУМА [ГЛ. II примеры выпуклых множеств: треугольник, параллелограмм, трапеция, круг, эллипс (рис. 39). Фигура, изображенная на рис. 40, не является выпуклой. Множество /И, расположенное в пространстве X, назы¬ вается конусом, с вершиной в точке Q, если вместе с каждой отличной от Q точкой А множество М содержит и весь Рис. 39. Рис. 38. луч, исходящий из точки Q и проходящий через А. Если' множество М выпукло и, кроме того, является конусом с вершиной в точке Q, то оно называется выпуклым, ко¬ нусом (с вершиной в точке Q). Легко понять, что на плоскости (т. е. при п = 2) вы¬ пуклыми конусами являются только следующие множества: существует такая прямая, весь конус М расположен один луч; прямая; угол, не пре¬ восходящий л; полуплоскость; вся плоскость (рис. 41). (Угол, больший л, выпуклой фигурой не является, рис. 42.) Рассмат¬ ривая рис. 41, легко понять, что для всякого выпуклого кону¬ са М с вершиной Q на плоскости справедливо одно из двух об¬ стоятельств: либо конус М сов¬ падает со всей плоскостью, либо проходящая через точку Q, что целиком в одной из двух полу¬ плоскостей, на которые эта прямая разбивает плоскость. В пространствах более высокого числа измерений (даже при л —3) выпуклые конусы могут иметь значительно более сложное строение, однако, как мы сейчас увидим, и в этом случае всякий выпуклый конус либо совпадает
НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 61 со всем пространством X, либо же лежит целиком в неко¬ тором «полупространстве». Напомним, что точка А называется внутренней точкой множества /И, если все достаточно близкие к ней точки принадлежат множеству М (т. е. если существует такое 8 > О, что всякая точка Р, для которой длина вектора АР Рис. 41. меньше е, принадлежит множеству Л4, рис. 43). Точка В называется граничной точкой множества /Й, если как угодно близко к ней имеются и точки, принадлежащие множеству Л4, и точки, не принадлежащие множеству Л4. сгва X и Q — его граничная точка. Гиперплоскость, прохо¬ дящая через точку Q, называется опорной гиперплоскостью множества Л1, если все множество М расположено целиком в одном из двух полупространств, на которые эта гипер¬ плоскость разбивает пространство X. На рис. 44 показаны (в случае /2—2) опорные гиперплоскости к различным выпуклым множествам.
62 ПРИНЦИП МАКСИМУМА [ГЛ. II В геометрии доказывается, что через всякую граничную точку выпуклого множества М в пространстве X можно провести опорную гиперплоскость к этому множеству. Заме¬ тим, что в этой теореме утверждается существование Рис. 44. хотя бы одной опорной гиперплоскости, проходящей через заданную граничную точку; может случиться, что через некоторые граничные точки можно провести более одной опорной гиперплоскости (рис. 45). Пусть теперь /<—выпуклый конус пространства X с вершиной Q. Если конус К не совпадает со всем про¬ странством X, то существует точка А, не принадлежащая этому конусу, и потому никакая точка луча, исходящего из точки Q и проходящего через А, не принадлежит ко¬ нусу К (рис. 46); следовательно, как угодно близко к точке Q
НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 63 точки, не принадлежащие конусу К, т. е. точка Q граничной точкой выпуклого конуса /С если конус К не совпадает со всем пространст- к следующей найдутся является Итак, вом X, то вершина Q является граничной точкой этого конуса, и потому через точку Q можно провести опорную гиперплоскость Г, т. е. такую гиперплоскость, что (рис. 47) весь конус К целиком располо¬ жен в одном из двух полупро¬ странств, определяемых этой ги¬ перплоскостью (ср.стр. 60). Будем считать, что конус К лежит в отрицательном полупрост¬ ранстве, и обозначим через п нормальный вектор гиперплос¬ кости Г. Так как для любой точки Р, лежащей в отрицатель¬ ном полупространстве, скаляр¬ ное произведение nQP неполо¬ жительно, то мы приходим теореме: Пусть К—выпуклый конус пространства X с вершиной Q. Если конус К не совпадает со всем пространством X, то существует такой отличный от нуля вектор п, что для любой точки Р конуса К выполнено соотношение nQP^ 0. 14. Теорема существования и единственности. Мы усло¬ вились выше рассматривать такие объекты, поведение которых описывается системами обыкновенных дифферен¬ циальных уравнений (см. (1.2)). В связи с этим нам при¬ дется далее иметь дело с системами дифференциальных уравнений и их решениями. Для удобства читателя здесь собраны те сведения о решениях систем дифференциальных уравнений, которыми нам придется пользоваться в даль¬ нейшем. В этом пункте мы сформулируем теорему существования и единственности решений в том виде, в котором она будет удобна для дальнейшего использования. Доказательства приведенных ниже теорем II.1 и II.2 можно найти в книге Л. С. Понтрягина «Обыкновенные дифференциальные урав¬ нения» («Наука», 1965, стр. 152—172).
64 ПРИНЦИП МАКСИМУМА [ГЛ. и Рассмотрим систему дифференциальных уравнений {X1 = ср1 (х1, . . . , ХЛ, О» х2 = ср2 (X1, .... хп, /), (2.9) хч = (р'’(х1, ... , х", t), относительно которой будем предполагать, что ее правые части ср1, i = 1, . . . , /г, определены на некотором открытом множестве Г пространства переменных х1, . . . , х", t. Напомним, что множество Г называется открытым, если любая его точка является внутренней, т. е. для любой точки (xj, ... , Хо, /0) € Г можно подобрать такое число е > 0, что всякая точка (х1, . . . , х", /), координаты которой удовлетворяют условиям | х1—xj | < е, . \хп — Хо|<е, |/ — /0 | < е, принадлежит множеству Г. Геометрически можно представлять себе открытое множество как некото¬ рую область без границы (область, к которой не причи¬ сляются граничные точки, т. е. точки ограничивающей ее линии или поверхности). Например, соотношение (Х,)2 + (х2)2 < 1 определяет в плоскости переменных х1, х2 открытое мно¬ жество (круг без границы, или, как говорят, открытый круг); соотношения а1 < х1 < Р1, а2 < х2 < Р2 также определяют в плоскости переменных х1, х2 открытое множество (открытый прямоугольник). Вообще, всякое множество, определенное в пространстве переменных х1, ...» хп, t конечной системой неравенств gi (х1, ... , х", 0 < 0, gs (х1, ... , х”, t) < О, где gx, . . . , gs—некоторые непрерывные функции, задан¬ ные в пространстве переменных х1, . .. , х", /, представ¬ ляет собой открытое множество. Напомним, далее, что система функций х1 (/), . . . , хп (/), заданных на некотором интервале 0О < t < 01, называется решением системы (2.9), если эти функции дифференци¬ руемы и каждое из уравнений (2.9) при подстановке в него
§ 4] НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 65 этих функций обращается в тождество (при любом 0О < t < 0Х). Последнее означает, в частности, что при любом 0, Оо < 0 < 0Х, точка (хг(0), х2(0), ..., хп (0), 0) принадлежит множеству Г. Иначе говоря, линия, опреде¬ ляемая в пространстве переменных х1, х2, . .. , х", t параметрическими уравнениями х^хЧО), ... , х"-хл(0), Г-0 (0О < 0 < 0J, целиком расположена в открытом множестве Г. Эта линия называется интегральной кривой системы (2.9). Очевидно, рассмотрение решения x1(f), ..., хп (t) системы (2.9) эквивалентно рассмотрению соответствующей интегральной кривой. Пусть Yo— некоторая точка множества Г и (xj, Xq, ... , Хо, Iq) — ее координаты. Очевидно, что ин¬ тегральная кривая в том и только в том случае проходит через точку Yo> если соответствующее решение xx(f), ... ... , хп (t) системы (2.9) удовлетворяет условиям xx(U=^» х2 (tQ) =х20, ..., xn(tQ)=x”. (2.10) Эти соотношения часто называют начальными условиями. Теорема II. 1. Если правые части ср* (х1, . .., х", /) хп t) уравнений (2.9) и их частные производные ——-——■—-—- , dxJ i, J= 1, ... , л, существуют и непрерывны (по совокупности переменных х1, . . . , xn, t) на множестве Г, то через каждую точку у0 = (xj, . . . , Хо, ^о) множества Г проходит интег¬ ральная кривая системы (2.9) и. притом только одна (рис. 48). Иначе говоря, существует такое решение х1 (?), .. . ,х"(/), определенное на некото¬ ром интервале 0О < < 0ц содержащем точку tQ, что выполнены начальные условия (2.10); это решение определено что любые два решения, удовлетворяющие одним и тем же начальным условиям (2.10), совпадают между собой на общей части тех интервалов, на которых они определены. однозначно — в том смысле. 3 В. Г. Болтянский
66 ПРИНЦИП МАКСИМУМА [ГЛ. II Следствие 11.2. Пусть правые части <pz (х1, . . ., хп, t) определены для всех удовлетворяющих неравенствам a^t<Zb (где а и b — некоторые числа), и произвольных х1, . . . , хп и для всех этих значений аргументов х1, х2, . . . . . . , хп, t функции ф1 непрерывны и обладают непрерывными производными —г, /=1, . . . , п. Тогда, каковы бы ни dxJ были числа xj, Хо, . . . , х”, существуют такие непрерывные функции xT(f), х2 (t), ... , хп (/), определенные на некото¬ ром отрезке (где 0^/>), что, рассматриваемые на интервале а < t < 0, эти функции являются решением системы (2.9) и, кроме того, выполнены условия хг(а)=х}, .. . , хп(а) =х". (2.И) Эти функции х1(/), ... , хп (t) определяются (если заданы числа Хо, . . . , Хо) однозначно. Для доказательства достаточно распространить функции ф1 на все значения t <Zb, положив . Ф* (х1, . .. , хп, t) = tyl (х1, . . . , хп, а) при t < а. Тогда функции ф1 и их производные —. оказываются не- dxJ прерывными во всем открытом полупространстве t <Zb пере¬ менных х1, ... , хп, t, и потому применима теорема II.1. Определяя в силу теоремы II.1 решение, удовлетворяющее начальным условиям (2.11), мы и получаем искомые функ¬ ции xT(f), ... , хп (/). Единственность этих функций дока¬ зывается дословно так же, как доказывается единственность решения в теореме II.1 (см. цитированную книгу Л. С. Пон¬ трягина, стр. 168, 169). Весьма важную роль в дальнейшем будут играть линейные системы дифференциальных уравнений, т. е. системы вида ' х1 = а\ (t) х1 + а * (0 х2 + . .. + а\ (t) хп + b1 (t), < хг ai (f) х1 + al (f) х2 + . .. +a„(t)xn+ b2(t), (2.12) 4 xn = a" (t) x1 + an2 (/) x2 + . . . + ann (/) xn + bn (/).
§ 4] НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 67 Для таких систем теорема существования и единственности может быть значительно усилена. Именно, если в теоре¬ ме II. 1 утверждалось существование решения, определен¬ ного на каком-то (возможно, малом) интервале 0О < t < 9Х, то для линейных систем можно утверждать, что решение определено на всем интервале, на котором определены коэффициенты а] (/) и bl (t). Более точно, имеет место следующая Теорема II.3. Если функции alj(t)' и Ь1 (/), z, /=1, . . . , я, определены и непрерывны на интервале a < #, то, каково бы ни было число tQ, удовлетворяю¬ щее неравенствам а < /0 < и каковы бы ни были числа xl, ...» Хо, существуют функции хх(/), ... , x"(f), опре¬ деленные на всем интервале a <tt <Ь, представляющие собой решение системы (2.12) и удовлетворяющие начальным условиям (2.10) (эти функции определены начальными усло¬ виями (2.10) однозначно в силу теоремы II. 1). Из этой теоремы вытекает следующее предложение (доказываемое так же, как и следствие II.2). Следствие II.4. Если функции alj(t) и bl (t), i, j=\, . . . , /z, определены и непрерывны на некотором отрезке a^.t^.b, то, каковы бы ни были числа xj, Xq, . . ., Xq , существуют такие непрерывные функции х1 (/), ... , хп (i), определенные на всем отрезке a^t ^Ь, что, рассматривае¬ мые на интервале a<^t <Zb, эти функции являются решением системы (2.12) и, кроме того, выполнены условия (2.11). Эти функции х1 (/), . . . , х" (/) определяются (если заданы числа xj, . . . , Xq) однозначно. Применим теперь сформулированные предложения к рас¬ смотрению процессов управления. Именно, будем предпола¬ гать, что закон движения объекта задается уравнениями (1.2), правые части которых и их частные производные dfi * —. мы будем предполагать существующими и непрерывными dx.J по совокупности аргументов х1, . . . , хп, и1, . . . , иг. Эти предположения о функциях fl мы будем всегда в дальней¬ шем считать выполненными (не всегда указывая это). Пусть теперь и (t) = (и1 (/), . .. , иг (/)) — произвольное допустимое управление, заданное на некотором отрезке 3*
68 ПРИНЦИП МАКСИМУМА [ГЛ. II и хо = (Хо, , х”) — некоторая точка фазового простран¬ ства. Пусть 0Х, 02, ..., Gk — все точки, в которых хотя бы одна из функций и1 (t), ... , ur (t) терпит разрыв (на¬ помним, что всякое допустимое управление кусочно-непре¬ рывно), причем /о<01<02< • • • Подставив функции нх(/), ..., в правые части системы (1.2), мы придем к системе уравнений (1.4). Эту систему (1.4) мы рассмотрим сначала для значений /, удовлетворяющих неравенствам Zo < 0Г Так как функции я1 (/), ..., ur (t) непрерывны при fo^f<0x, то при этих значениях (и произвольных х1, . . . , хп) правые части уравнений (1.4) и их частные производные по xJ непрерывны по сово¬ купности переменных х1, х2, . . . , хп, /, и потому к си¬ стеме (1.4) при ^О^/<С0Х применимо следствие 11.2. Таким образом, на некотором отрезке t0 t < 0 (где 0 0г) определено (однозначно) решение х (/) = (х1 (О, . . . , хп (t)) системы (1.4) с начальным условием (2.10), т. е. условием х(/0)=х0. Совсем не всегда решение х (t) можно продол¬ жить на весь отрезок <.$1- например, это решение может уйти в бесконечность для /, меньших чем 0Г (рис. 49). Предположим, однако, что это решение х (/) определено на всем отрезке /О^/<С0Х и что существует определенный (конечный) предел lim х (t). t -> Тогда, обозначив этот предел через х (0Х), мы увидим, что функция х (t) определена уже на всем отрезке /О^/^0Х, причем она непрерывна на всем этом отрезке, а на интер¬ вале /0 <; / <0Х удовлетворяет системе (1.4) (рис. 50).
§ 4] НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 69 Теперь мы можем рассмотреть уравнения (1.4) на отрезке 01</<92, воспользовавшись точкой х (0Х) в качестве начального значения. Здесь (т. е. при 0Х t < 02) снова применимо следствие II.2, так как при 0г^/<С02 функции и1 (iY ... , иг (/) непрерывны (в силу соотношения xz (0Х) = = и (0Х + О)} см. стр. 23). Следовательно, на некотором отрезке 0Х t < 0' определено решение с начальным зна¬ чением х (0Х). Это решение мы снова обозначим через х (/); таким образом, построенное решение x(t), непрерывно во всех точках своего определения и, в част¬ ности, в «точке сопряжения» 0Х (рис. 51). Если теперь решение х (/) определено на всем отрезке /о^/<02 и имеет при t—> 02 определенный (конечный) предел lim х(/), t —► то мы обозначим этот предел через х (02), и тогда функция х (t) будет определена и непрерывна на всем отрезке Теперь мы можем рассматривать уравнения (1.4) на отрезке 02 t <Z 03, воспользовавшись точкой х (02) в качестве начального значения (так как при 02=с+<03 снова применимо следствие II.2), что позволит нам про¬ должить решение х (t) за точку 02 (рис. 52), и т. д. Полученная функция х (t) непрерывна и является кусочно¬ дифференцируемой; именно, во всех точках, кроме 0П 02, ..., 0^» функция х (t) (там, где она определена) является непрерывно дифференцируемой. Построенную Функцию х (t) мы будем называть решением системы (1.2), соответствующим управлению и (/), при начальном условии х (^о) — Это решение может не быть определено навеем
70 ПРИНЦИП МАКСИМУМА [ГЛ. II отрезке /0 t задания управления и (/) (оно может уйти в бесконечность). Наконец, мы будем говорить, что допустимое управление и(/), переводит фазовую точку из состояния х0 в состояние х± (в силу закона движения (.1.2)), если соот¬ ветствующее ему решение х (/) системы (1.2), удовлетво¬ ряющее начальному условию х (/0) = х0, определено на всем отрезке tg^t и проходит в момент tr через точку xv т. е. удовлетворяет также конечному условию х(/1)=х1. Напомним, что на стр. 23, формулируя задачу об опти¬ мальных быстродействиях, мы уже говорили о том, что управление и (t) «переводит» объект из состояния х0 в состояние xv Здесь этот термин получил четкое опре¬ деление. 15. Система уравнений в вариациях. Рассмотрим снова систему уравнений (2.9), относительно которой предположим, i дф1 что правые части ф и их частные производные —опре- дх7 делены и непрерывны (по совокупности переменных х1, х2, . . . , /, /) в некотором открытом множестве Г про¬ странства переменных х1, х2, . . . , х", t. Пусть, далее, xx(f), х2 (/), ..., х" (/) — решение системы (2.9), удовле¬ творяющее начальным условиям (2.10) и определенное на некотором интервале, содержащем отрезок Пусть теперь yQ=(y^ . . . , у”)— такая точка, что (yj, . .. , У", ШГ. Обозначим через У Уо) = (J1 (Л Уо), У2 (*, Jo)> yn(f, Jo)) решение системы (2.9) с начальным условием J (^0. Jo)=Jo (т. е. у (/, У д') — интегральная кривая, проходящая в момент t = tQ через точку у0). При этих условиях справедлива следующая Теорема II.5. Если точка у0 достаточно близка к точке х0, т. е. выполнены соотношения |xj — jJ|<6, I-to — >0 1 < 5, |.to— Jo|<6,
§ 4] НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 71 где 6 — достаточно малое положительное число, то решение y(t, yQ) определено на всем отрезке непрерывно по совокупности переменных /, j/J, 7J, . . . , у^ и имеет не¬ прерывные частные производные по переменным у*, у*, • • • . . . , у”. Обозначим через Ц (/) значение производной V’. при у0=х0. Полученные функции gz. (t) удовлетво- ду!0 7 ряют следующей линейной системе уравнений (называемой системой уравнений в вариациях): & ^dcp' (xl(O х"(0. /)ta * ~ 2- 1 a=i /, /=1, 2, ... , п. (2.13) Доказательство этой теоремы приведено, например, в книге Л. С. Понтрягина «Обыкновенные дифференциаль¬ ные уравнения» (см. стр. 194, предложение В)). Из приведенной теоремы мы выведем следствие, кото¬ рое и будет использоваться в дальнейшем. Предположим, что мы рассматриваем некоторый параметр е, являющийся бесконечно малой величиной, и пусть точка yQ следующим образом зависит от е: Jo =Jo (е) = х0 + ей + о (е), где h — некоторый вектор (пространства переменных х1, ... , хп), а о (е) — векторная величина, имеющая более высокий порядок малости, чем е (т. е. lim — — 0, где \ 8 —► 0 ® |о(е)| — длина вектора о(е)). Иначе говоря, Jo = Jo(e) = Д + ей‘ + о(&), Z=l, 2, (2,14) где о (е) — величина более высокого порядка малости, чем е. (Мы будем в дальнейшем для различных величин более высокого порядка малости, чем е, применять один и тот же символ о (е), так что, например, о (е) -}- о (е) = о (е).) Тогда, в силу теоремы II.5, решение y(t, yQ) =у (t, j/0 (е)) также будет зависеть от е, причем оно будет определено на отрезке tQ t tr для всех достаточно малых е (ибо при достаточно малом е точка у0 (е) близка к точке х0).
72 принцип максимума (гл. п Легко видеть, что dylo (е) de = h' при е=о (см. (2.14)), и потому решение у (t, yQ (е)) имеет по 8 производную j/o (е)) I de I при е=о д/(*, Уо) Эту производную мы обозначим через Ьх1 (/): fix'(О = = 2l₽W / = 1, (2.15) е=о 3=1 Из соотношения (2.13) непосредственно вытекает теперь, что функции дх1 (i) удовлетворяют следующей системе линейных дифференциальных уравнений: dt 2* дх* ' ' а= 1 / = 1, . . ., П. Далее, из соотношения (2.15) непосредственно вытекает (по самому смыслу производной), что lim У‘(/. Уо(«))-^«) = бл./(О е-> о е или иначе: Ит У^, j/0(e))—xz(0 — едхЧО Q е -> о е Но это означает, что выражение, стоящее в числителе, представляет собой о (е), т. е. мы имеем Л(8)) = л,(0 + е6х/(0 + о(8), Z=l, или, в векторной форме, У (Л У0 (6)) = X (0 + е fix (/) + о (в). Итак, мы пришли к- следующему предложению.
§ 4J НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 73 Следствие II.6. Пусть х (t) == (х1 (/), . . ., хп (/)) — решение системы (2.9), удовлетворяющее начальным усло¬ виям (2.10) и определенное на отрезке t0^t Пусть, далее, у (t)— решение этой системы с начальным условием У(Ч)=Уо = хо + &к + 0^^ (2.16) где h = (h1, . .., hn) — некоторый вектор. Тогда решение у (f) при достаточно малом е определено на отрезке и имеет вид y(t) = x(t) + e.6x(t) + o^)> (2.17) где Ьх (/) = (бх1 (/), . . ., бх” (f)) — решение системы ли¬ нейных уравнений d (бх*) = Л <W4Q, ..., х”(0, 0 бл.« dt дхЛ а=1 i = 1, . . ., л, (2.18) с начальным условием бх(/0) —А. Заметим, что величина о (е) в формуле (2.17) зависит, конечно, и от f, т. е. имеет вид ot (е). Однако она равно¬ мерно по t имеет более, высокий порядок малости, чем е, т. е. дробь ^51 равномерно по f, стремится к нулю при е—>0. (Иначе говоря, если б — произвольное положительное число, то существует такое е0 > 0, что при е < е0 и при любом /0 t выполнено нера¬ венство |°t~‘ [ < б.) Далее, если предположить, что вели¬ чины h = AV1, v2, ..., V., и о (е) = oV1, v2, ... , vA (e) в формуле (2.16) зависят непрерывно от параметров vx, v2, ..., v?, изменяющихся на некоторых отрезках ai^vi^bi, Z=l, . причем величина oVlt Vz уДе) равномерно по vp . . ., Vy имеет более высокий порядок малости, чем е ^т. е. дробь °v--- ’ v- равномерно по vx, . . ., vs стре¬ мится к нулю при 8—то формула (2.17) остается справедливой, причем бх (/) = 6xV1, ... , v, (^) зависит теперь и от параметров vx, . . ., v5, а величина о (е) = oVlf ... t Va (е) в формуле (2.17), зависящая теперь не только от 8, но и от t, . .., v5, имеет равномерно по параметрам tr Vx, •••» более высокий порядок малости, чем е,
и ПРИНЦИП МАКСИМУМА [ГЛ. II (Эти факты легко выводятся из того, что решение имеет непрерывные производные по переменным Уо, Уо, см- теорему II.5.) Применим следствие II.6 к управляемому объекту (1.2). Предположим, что заданы начальное фазовое состояние х0 и допустимое управление и(Т), определенное на отрезке Обозначим через 0Х, ..., 9k все точки раз¬ рыва управления и (/). Наконец, обозначим через х (t) фа¬ зовую траекторию объекта (1.2), соответствующую управ¬ лению и (/) и исходящую (в момент /0) из точки х0, а через у (/) — фазовую траекторию этого объекта, соответ¬ ствующую тому же управлению и (/), но исходящую (в момент /0) из точки (2.16). Траекторию х (t) мы будем считать определенной на всем отрезке Тогда х (t) и у (t) являются решениями одной и той же системы уравнений (1.4) (напомним, что управление и (/) взято одним и тем же для обеих траекторий). Правые части этой системы непрерывно дифференцируемы по х1, ..., х", но от t зависят разрывным образом (они и их производные терпят разрывы в точках / = 0Х, f = 0fe). Однако следствие 11.6 можно применять к системе (1.4) на всем отрезке — достаточно применить это следствие, рассматривая систему (1.4) сначала на отрезке затем на отрезке 0х^/^02 и т. д. В резуль¬ тате мы получаем следующее утверждение. Следствие II.7. Пусть x(t) —фазовая траектория объекта (1.2), определенная на отрезке t0 t /х и соот¬ ветствующая начальному условию х(/0)=х0 и управлению u(t). Пусть, далее, у (t) — фазовая траектория объекта (1.2), соответствующая тому же управлению и (/) и начальному условию Д'(/о)=Л=л:о + ей + <’(8)- (2.19) Тогда траектория у (/) при достаточно малом е определена на всем отрезке i0 t /х и имеет вид ^(/)=-х(/) + е6х(0 + о(е), (2.20) где бх (/) = (бх1 (/), . . ., бх” (/)) — решение системы линейных
НЕКОТОРЫЕ НЕОБХОДИМЫЕ СВЕДЕНИЯ 75 § 4] уравнений dt 2+ дх* Х ’ z = 1, . .., п, (2.21) с начальным условием Ьх (/0) — h. Как и прежде, величина о (е) в формуле (2.20) зависит от f, но имеет равномерно по t более высокий порядок малости, чем в. Точно так же, если в формуле (2.19) ве¬ личины h и о (е) зависят непрерывно от параметров vx, ..., vs, изменяющихся на некоторых отрезках, то величина о (е) в формуле (2.20) зависит также от пере¬ менных /, vx, ..., v5, но равномерно по всем этим пере¬ менным имеет более высокий порядок малости, чем е. 16. Сопряженные линейные системы. Рассмотрим ли¬ нейную однородную систему х1 = а\ (f) хт4~ а\ (t) х2 + • . • + ап (0 х2 = а\ [t)x1-\-al (i)x2+ . . . +а„ (t)xn, хп = а[ (t) х14- а2 (t) х2 4- . . . 4- а'п (t) хп, коэффициенты а/(/) которой заданы и непрерывны на некотором отрезке Линейная однородная си¬ стема, матрица которой получается из матрицы (a/(f)) си¬ стемы (2.22) транспонированием и изменением знака, на¬ зывается сопряженной системе (2.22). Иначе говоря, со¬ пряженная система имеет вид (для отличия мы обозначаем неизвестные в сопряженной системе другими символами: ^2, • • •> Я’л) ■ф’1 = —а} (/) -ф!— al (i) i|>2 — ... —а" (/)а|>„, ■ф2 = — а[ (0 — а2 (0 1|?2 — .. . — а2 (t) а|>„, = — ап (0 ^1 —«л V) Я’г — • • • ~ (^■фп- (2.23)
76 ПРИНЦИП МАКСИМУМА [ГЛ. I Пользуясь знаком суммирования, можно записать системы (2.22) и (2.23) в виде х*'= 2 а'№х1> г = 1) /=1 /=1 /= 1, . . ., п. Теорема II.8. Пусть x(t) = (x1(t)1 ..., хп (t)) — произвольное решение линейной системы (2.22), a ф (?) = — (Ф1 (0, • • • > фп (О) — произвольное решение сопряженной системы (2.23) (оба решения определены на всем отрезке Тогда скалярное произведение X (/) -Ф (0 = X1 (О Фх (/)+х2 (01|>2 (/)+...+ х" (о % (О является величиной постоянной (т. е. не зависит от t). Доказательство этой теоремы сводится к очень про¬ стому вычислению. В самом деле, так как функции х (/) и ф (t) непрерывны, то непрерывно и скалярное произве¬ дение х(/)ф(/), причем при tQ < t < оно имеет непре¬ рывную производную. Поэтому нужно лишь убедиться, что при tQ < t < производная этого скалярного произ¬ ведения равна нулюи Действительно, а=1 а=1 = 2 а1 (0*/(0'Ф«(0+ 2 ха (О (— а'« (0 % (О) = о. а. /=1 а, / = 1 Теорема II.8 (и приведенное ее доказательство) сохра¬ няет силу и в случае, если коэффициенты a'j(t) являются не непрерывными, а кусочно-непрерывными функ¬ циями от t. В самом деле, скалярное произведение х (t) ф(/) и в этом случае оказывается непрерывной функцией (так как каждое из решений х (Z), ф (t) непрерывно), а его производная (х (t) ф(/)) обращается в нуль всюду, кроме, может быть, конечного числа значений /, в кото¬ рых коэффициенты a} (t) терпят разрыв.
§ б] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 77 Это замечание позволяет применить теорему II.8 к си¬ стеме уравнений в вариациях (2.21). В самом деле, эта система является линейной, причем ее коэффициенты, т. е. функции dff (х1 (t), ..., xn(t), u'(t), ...» “r(0) дх* кусочно-непрерывны на отрезке t0 t Система урав¬ нений, сопряженная системе (2.21), имеет следующий вид: 5П дГ(хЩ), x”(t), u'(t), ..., </(0) . i = 1, . . ., п. (2.24) Таким образом, мы получаем следующее предложение. Следствие II.9. Пусть дх (t) = (Sx1 (t), . . ., 8хп (/)) —• произвольное решение системы уравнений в вариациях (2.21), а ф (/) — (фх (f), . . ., фп (t)) — произвольное решение сопря¬ женной системы (2.24). Тогда скалярное произведение ip (0 бх (0 = (/) бх1 (/) + 4>2 (О бх2 (/)+...+ 4>„ (0 бх" (о постоянно (на всем отрезке, на котором заданы оба реше¬ ния ф (/), 8х (t)). В дальнейшем система (2.24) будет играть весьма важную роль для изучения оптимальных процессов объекта (1.2). § 5. Принцип максимума (случай оптимальности по быстродействию) 17. Вариации управлений. Предположим, что выбрано некоторое допустимое управление u(t), под воздействием которого фазовая точка, движущаяся по закону (1.2), переходит из заданного начального состояния х0 в пред¬ писанное конечное состояние хг. Пусть, далее, имеется подозрение, что именно это управление u(t) оптимально в смысле быстродействия, т. е. осуществляет переход из состояния xQ в х± за кратчайшее время. Как проверить, что это управление действительно является оптимальным? Конечно, лучше всего было бы убедиться в том, что любое другое управление может быть только хуже,
78 ПРИНЦИП МАКСИМУМА [ГЛ. II т. е. что под действием другого управления фазовая точка если и попадет в предписанное конечное состояние, то за большее время. Однако сравнивать выбранное управление и (t) с любыми другими управлениями очень трудно. Поэтому мы выведем лишь необходимое усло¬ вие оптимальности, сравнивая управление и (t) не со всеми, а только с «близкими» к нему управлениями, т. е. мы найдем условия, которым должно . удовлетворять управле- . ние и (/) для того, чтобы оно было лучше любых «близких» к нему управ¬ лений. Ясно, что опти¬ мальное управление (ко¬ торое лучше любых, а не только «близких» уп- ► равлений) должно удов¬ летворять условию, ко¬ торое таким путем будет получено. Понятию «близкие» управления можно придавать раз¬ личный смысл. Мы уточним это понятие следующим обра¬ зом. Возьмем внутри отрезка времени t0 t fx, на ко¬ тором рассматривается управление u(t}, некоторую точку т, не являющуюся точкой разрыва управления и(/), а в об¬ ласти управления U — некоторую точку v. Далее, выберем положительное число I и будем рассматривать положи¬ тельный параметр е, являющийся бесконечно малой вели¬ чиной. Обозначим, наконец, через / отрезок длины /е с правым концом в точке т (т. е. отрезок т — Теперь заменим управление и (t) на отрезке 7 постоян¬ ным управлением v, оставив вне отрезка 7 управление u(t) без изменения (рис. 53). Иначе говоря, рассмотрим новое управление «*(0 = { и (/) вне отрезка 7, v на отрезке I. Такое видоизменение управления и (t) (т. е. переход от управления u(t) к управлению будем называть ва¬ риацией этого управления, а именно вариацией вблизи точки т. Можно также производить вариацию управления и (t) не вблизи одной точки т, а вблизи двух или боль-
§5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 79 - ih и заменим управление и (t) на отрезке I- оставив вне отрезков /х, /2, /3 (рис. 54). Построенное управ- шего числа точек. Например, можно выбрать три точки т2> тз внутри отрезка Zo^f^fx (не являющиеся точками разрыва управления и(/)), три точки vlf v2, v3 в области управления U и три положительных числа Zx, /2, /3. Обозначим теперь через /z отрезок длины Zze с пра¬ вым концом в точке tz (т. е. отрезок xz — Zze t tz), где i = 1, 2, 3, постоянным значением управление и (t) неизменным ление и* (/) получается из управления и (/) варь¬ ированием вблизи трех точек тх, т2, т3. Анало¬ гично определяется варь¬ ирование управления u(t) вблизи любого (ко¬ нечного) числа различ¬ ных точек,взятых внутри отрезка t /х. Проведенное построе¬ ние и дает уточнение термина «близкие» управления. Именно, «близкими» к и (/) мы будем считать управления н* (/), получающиеся варьировани¬ ем управления и (/) вблизи нескольких точек отрезка /0 Заметим, что управление и* (/), получающееся варьированием, зависит от параметра е. Заметим еще, что варьирование управления и (t) (см. рис. 54) может быть произведено лишь в том случае, если отрезки /х, /2, /3 друг с другом не пересекаются и располагаются целиком на основном отрезке Но эти требования можно всегда предполагать выполненными, так как точки тх, т2, т3 различны и расположены внутри отрезка а длины отрезков /х, /2, /3 являются бесконечно малыми (т. е., иначе говоря, в дальнейшем будут рассматриваться значения е, достаточно близкие к нулю). 18. Вариации траекторий. Обозначим через х (t) = = (х1 (/), . . ., хп (/)) решение системы (1.2), соответствующее Управлению и (t) и исходящее (в момент /0) из начальной точки х0. Мы предположим, что это решение х (t) опре¬ делено на всем отрезке на котором задано
80 ПРИНЦИП МАКСИМУМА [ГЛ. II управление и (/). Если заменить управление и (/) некото¬ рым варьированным управлением и* (/), то фазовая траек¬ тория х (/) заменится «близкой» к ней фазовой траекто¬ рией x*(f), начинающейся в той же точке х0, но оканчи¬ вающейся в точке х* (fx), возможно, не совпадающей с точкой х (/х). Мы рассмотрим множество тех точек фазо¬ вого пространства X, в которые можно попасть за то же время t1 — tQ или за несколько меньшее время, если исхо¬ дить из начальной фазовой точки х0 и использовать все¬ возможные варьированные управления и* (/). Точнее говоря, мы рассмотрим точки вида х* (/х— е 8t), где б/— произ¬ вольное неотрицательное число. Будем считать, что варьированное управление и* (t) получается из и (/) варьированием вблизи s точек тх, . . ., (являющихся точками непрерывности управления и (t)), причем для этих точек выбраны соответственно точки ^i, . .., vs области управления U и неотрицательные числа /х, ..., ls. Отрезки, на которых происходит варьи¬ рование, мы обозначим через /х, /2, ...» /у (т. е. отрезок 7Z определяется неравенствами tz— e/z^/^Ctz, и на этом отрезке управление и (t) заменяется постоянным значе¬ нием -uz). Смещение конца траектории вызывается, во-первых, варьированием управления u(t) на каждом из отрезков /х, . .., Is и, во-вторых, изменением конечного момента времени (/х— е б/ вместо /х). Выясним, какое влияние на смещение конца траектории имеет каждый из этих фак¬ торов в отдельности. При этом будем пользоваться век¬ торной записью (1.3) системы (1.2): х = /(х, и), (2.25) а рассуждения проведем сначала нестрого. Если совсем не производить варьирования управления и (t) (т. е. считать, что u*(t) = u(t) и, следовательно. х*(/)=х(/)), то точка x* (tr — е 8t) будет совпадать с точкой x(t1 — е6/). Легко видеть, что в этом случае x*(fx — ебО = х(^~е б/)- =x(f1)-e6//(x(/1), и (/,)) + <> (е). (2.26) Действительно, соотношение (2.25) показывает, что фазо¬ вая точка, движущаяся по траектории х (/), имеет в мо-
СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 81 § 5] мент t скорость движения, равную f(x (t),u(t)) (это— скорость движения точки в фазовом пространстве X, т, е. так называемая фазовая скорость). На бесконечно малом промежутке времени от tx— ьЫ до tx скорость движения мало отличается от f(x (Zx), и (ZJ) (так как в точке tx управление и (Z) непрерывно), и потому пере¬ мещение точки за этот промежуток времени, т. е. х (tx) — — х^— &6t), примерно равно произведению длитель¬ ности этого промежутка на скорость: х (ZJ — х (/х— е Ы) ж е 6/ f(x (Zx), и (tx)). В действительности скорость несколько меняется за рас¬ сматриваемый промежуток времени, и потому для точной записи последнего соотношения надо добавить в правой части величину о (е). Это и дает формулу (2.26). Тем самым выяснено, какое влияние на смещение конца траекто¬ рии имеет изменение конечного момента времени. Предположим теперь, что мы производим варьирование только на одном из отрезков Ii9 а конечный момент времени не меняем. Тогда при /0 t < — eZ; мы имеем и* (Z) = w(Z), и потому х* (t)=x (t). В частности, х* (т£ — eZJ =х (Tf — eZz). (2.27) Далее, так как на отрезке It траектория х (Z) является решением уравнения (2.25) с управлением и = и (/), а траекто¬ рия х* (/) является решением того же уравнения (2.25), но с управлением u = то мы имеем: x(yi)—x(%i—zli} = zlif(x(lxi), и (т,•))-)-о (е), (2.28) х*(тг —E/i) = e/1-/(x(Tz), vz) + o(e). (2.29) Действительно, промежуток времени имеет бесконечно малую длину eZ£-, и на этом промежутке точка х (Z) движется со скоростью /(x(Z), и (Z)) «f(x (rf), и (rt-)) (напомним, что — точка непрерывности управления «(/)), а точка х* (t) движется со скоростью f(x*(t), «f(x (Z), vt) & ^/(x(Tf), ^z). Сопоставляя соотношения (2.27), (2.28), (2.29), получаем + v^—fix^i), и(т,-))] + о(е), т. e. x* (T,-) = ^(L-) + e/Jz + o(e), (2.30)
82 ПРИНЦИП МАКСИМУМА [ГЛ. II где hi = ti /U(^), «(^))1- (2-31) Заметим теперь, что на отрезке tz t мы имеем п*(^) = н(/), так что, в силу следствия II.7, х* (t) = х (f) + е 6xz (t) + о (e), tz t fx, где 6xf (t) = (6x- (t), . .., бх" (/)) — решение системы урав¬ нений (2.21) с начальным условием dxz (tz) = h-. (2.32) В частности, при t = t1 получаем х* (Zx) = х (/х) + е 6xz (tх) + О (8). (2.33) Это и дает эффект смещения конца траектории под влия¬ нием варьирования, произведенного только на отрезке 7Z. Итак, изменение конечного промежутка времени на вели¬ чину—е 6/ вызывает прибавление к х (/х) добавка, равного — 8 §tf(x (/х), и (/х)) + о (г) (см. (2.26)), а варьирование, произведенное только наотрезке /z,вызывает появление добав¬ ка е Sxz (fx) + 0 (е), /=1,2, ..., 5. Но при одновременном действии нескольких факторов, каждый из которых вызывает смещение первого порядка малости относительно е, эти от¬ дельные смещения складываются (с точностью до о (е)). Следовательно, если мы произведем варьирование на всех отрезках /х, . . ., Js и, кроме того, изменим конечный момент времени, то получим формулу X* (/х — 8 6/) - X (/J — 8 Ы f(x (/J, и (ZJ) + + г2М1) + о(е). (2.34) < — 1 Разумеется, приведенный вывод соотношения (2.34) не является строгим. Ниже мы приведем аккуратный вывод этой формулы, но сначала придадим ей несколько иной вид. Именно, пусть т — произвольная точка отрезка t0 1 /х и h — произвольный вектор. Обозначим через бх(/) решение системы уравнений (2.21) с начальным усло¬ вием бх (т) — h и положим бх (/г) — А (т, /г). (2.35)
СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 83 § 5] Вектор Д (т, /г) определен для любых т, /0^Т2^1, и любых h. В частности, вспоминая определение решения (/) (см. (2.32), (2.33)), мы можем написать бх,- (/,) = А (г,., /г,.), /=1, S. Таким образом, соотношение (2.34) принимает следующий вид: X* i>t) = x(t1)—&6tf(x (tj), и О + + е£ A(Ti, А) + о(е). (2.36) t = 1 Напомним, что это соотношение написано для траектории x*(t), соответствующей управлению u*(f), которое полу¬ чается из управления и (?) варьированием на отрезках /х, . .., ls (с использованием точек тх, т?, точек vlt .. ., vs и чисел ls). Приведем теперь аккуратный вывод соотношения (2.36), для чего проведем индукцию по числу $ интервалов /х, . . ., Is. При s — 0 мы имеем zz* (/) = и (/), х* (t) =х (^), и потому формула (2.36) превращается в соотношение (2.26); докажем его. Интегрируя z-e из соотношений (1.4) на отрезке t± — в 6t мы получаем х1 (tj — x1 (fx— е б/) = = ( /4^(0, ..., ur(t))dt = = еб//'(хЦ©), х"(0), «40), .... «г(0)). где 0 — некоторая точка отрезка^ — е 6f t (теорема о среднем значении для интеграла; напомним, что при достаточно малом 8 функция и (/) непрерывна на отрезке — в 6t t /х). Это соотношение можно переписать так: х'(4)—х'(^ —edf) = = е б//'(х1 (/,), ...,xn(tl), .... «'(*1)) + +е б/ {/' (х1 (0), ..., х" (0), и1 (0), ,.., иг (0)) — — /'(х1^), .... хп «ЧЧ), .... «r(*i))}- (2.37) Последнее слагаемое здесь равно о(е), так как выражение, стоящее в фигурных скобках, стремится к нулю при е—>0
84 ПРИНЦИП МАКСИМУМА [ГЛ. И (ибо при е—>0 мы иМеем 0—>/х). Таким образом, xl (Zx) — х1 (tr — еЫ) = = (X1 (G), .... X'VJ, и1 О . . . ,ur (tj)) + o (8), а это и есть координатная запись соотношения (2.26). Таким образом, при 5 = 0 формула (2.36) справедлива. Допустим, что формула (2.36) (или, что то же самое, формула (2.34)) доказана уже для случая, когда число интервалов /1, /2> • • • меньше чем 5, и рассмотрим варьи¬ рование на 5 интервалах /х, /2, ..., Is. Будем сначала рас¬ сматривать управление и* (t) и траекторию х* (t) только на отрезке /0 t — е/?. Так как на этом отрезке имеется только 5—1 интервалов варьирования /х, /2, ..., /5_х, то, по предположению индукции, мы можем написать х* (Ts—els) = х (?,) — zlsf(x (т,), и (т5)) + +е S ЦМ + «(е)- i — 1 Далее, мы имеем X* (ь)—х* (rs—&ls) = e,lsf{x (rf), vs) + о (8) (доказательство этого соотношения совершенно аналогично доказательству соотношения (2.26), см. (2.37)). Складывая два последних соотношения, мы получаем *4b)=x(Ts)+4[/(X(Ts)> vs)— f(x{Ts), «(Tj)] + + 8 2 &Х1 (T,) + О (8) = i= 1 = X (Ts) + ей5 + 8 2 8xi W + 0 (e) = i= 1 = X (T J + 8 i>x5 (t5) + 8 2 &Xi (Ts) 4- О (e) = 1= 1 = X (tJ + e 2 &xi (xs) + 0 (e) J = 1 (см. соотношения (2.31), (2.32)). Так как на отрезке мы имеем и* (/) и (t), то, в силу следствия II.7, X* (/) = X (Z) + 8 6х (/) + о (8), i Zx, (2.38)
§ 5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 85 где дх (/) — решение системы уравнений (2.21) с начальным условием fix (rj = 2 (*$)• (2.39) 1 = 1 Но система (2.21) линейна и однородна, и потому функция 6х (/) = J &xi (О, Ts < (2.40) i — 1 является решением этой системы (ибо каждое слагаемое 8xi (t) является решением), причем это решение удовлетво¬ ряет, очевидно, начальному условию (2.39). Таким образом, функция 8х (t) в формуле (2.38) имеет вид (2.40), т. е. х* (t) = х (t) + е 2 $xi (0 + 0 (е)> т5 *1- i= 1 В частности, при t = t1 мы получаем X* (/,) = X (/х) + 8 2 8х,. (fx) +.0 (8) = 1 = 1 = x(/x) + ej А(т0 /г,.) + о(8). (2.41) i = l Заметив, наконец, что x*(ZJ — х* (^—8 60 = 8 6//(х(/х), н(/х)) +о(е) (эта формула доказывается так же, как формула (2.26); ср. (2.37)), и вычитая это соотношение из (2.41), мы получаем формулу (2.36). Таким образом, проведенная индукция показывает справедливость формулы (2.36) при любом 5. Из замечаний, сделанных на стр. 75 (после следст¬ вия II.7), легко вытекает, что величина о (в) в формуле (2.36) равномерно по Ы, 1Г, 12, . . ., ls имеет более высокий порядок малости, чем г, если Ы, /х, . .., ls меняются на некоторых отрезках 0<Zz <pz. В самом деле, величина о (е) в формуле (2.26) имеет равно¬ мерно по более высокий порядок малости, чем е (это легко вытекает из формулы (2.37)). Далее, прослеживая
86 ПРИНЦИП МАКСИМУМА [ГЛ. Ц индукцию, проведенную на стр. 84—85, мы легко убедимся (с помощью замечаний на стр. 75), что величина о (е) в формуле (2.36) равномерно по 6/, /х, . . ., ls имеет более высокий порядок малости, чем t. 19. Основная лемма. Вектор, стоящий в правой части соотношения (2.36) с коэффициентом е, имеет вид —f(x (/,), и О 6/ + 2 А (Тр А). (2.42) t= 1 где ht задается формулой (2.31). Заметим, что по построе¬ нию здесь тх, т2, . . ., т5 — попарно р а з л и ч н ы е точки непрерывности управления и (/), расположенные на интервале tQ <Zt < Мы будем теперь (по-прежнему предполагая, что задан процесс и (t), х (t) на отрезке t0 t /х) рас¬ сматривать векторы вида (2.42), не предполагая, однако, что тх, т2, ..., Ту—попарно различные точки (но считая их, как и прежде, точками непрерывности управления &(/)). Каждый вектор такого вида мы будем называть вектором смещения. Итак, вектором смещения мы будем называть произвольный вектор вида (2.42), где 6/— неотрицательное число, s — произвольное натуральное число, тх, . . ., — произвольные (не предполагаемые попарно различными) точки непрерывности управления и (/), располо¬ женные на интервале /0<С fx, а векторы определяются формулами (2.31) (причем /х, . . ., ls — произвольные неотри¬ цательные числа, a ..., vs— произвольные точки области управления U). Обозначим правый конец траектории x(t), т. е. точку х(/х), через Q и будем каждый вектор смещения отклады¬ вать от точки Q. Множество, образованное концами все¬ возможных векторов смещения, отложенных от точки Q, мы обозначим через /<. Иначе говоря, точка А тогда и только тогда принадлежит множеству К, когда Q/1 есть вектор смещения (т. е. существуют такие величины 6/, тх, .. .,т5, /х, ..., /5, ^х, vs, что вектор (2.42) совпадает с QA). Покажем, что множество К является выпуклым конусом с вершиной Q. Заметим прежде всего, что если все величины 6Z, /х, ..., ls умножить на одно и то же неотрицательное число k (оставив тх, .. ., т5 и г/х, ..., vs без изменения),
СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 87 § 51 то вектор смещения (2.42) также умножится на это число k. действительно, при умножении величин 6/, /х, . . ., на & вектор —(^i), также умножится на k, каждый из векторов hi (см. (2.31)) умножится на k, а потому (в силу линейности и однородности системы (2.21)) каждое решение бх,- (/) умножится на k (ср. (2.32)), а значит, и каждый вектор А (тр /zt«) умножится на k (см. (2.35)). Следовательно, и вектор (2.42) умножится на k. (Число k должно быть неотрицательным, так как величины б/, I . .., ls должны быть неотрицательными и потому их можно умножать только на неотрицательные числа.) Таким образом, мы доказали, что, умножая любой вектор смещения (2.42) на произвольное неотрицательное число k, мы снова получаем вектор смещения. Иначе говоря, если QA есть вектор смещения, то при любом вектор QB = kQA также является вектором смещения. Это означает, что вместе с каждой отличной от Q точкой А множеству К принадлежит и весь луч, исходящий из точки Q и проходя¬ щий через А, т. е. множество К представляет собой конус с вершиной Q. Пусть теперь QA и QB—два вектора смещения, и пусть величины б/', Тр ..., т5, lv /5, vs соответ¬ ствуют вектору QA, а величины 6Г, т5+1, . . ., тг, Zs+1, ... •••> vs+v •••> vr~ вектору QB, т. e. 0Л = —f{x(i1),u(tl))bt' + £А(т(., ht), f = 1 QB=^f(x(t1),u(t1))8f+ £ A (т;, hi). Z = S + 1 Положим теперь 6f = 6Z' + 6/" и объединим величины Zf, соответствующие индексам /=1, и индек¬ сам / = 54-1, г, вместе, т. е. рассмотрим вектор смещения QD, соответствующий величинам б/ = б/' 4- б/", ^1» • • • » 1^, • • • » • • • > г' QD = -/(л- (/,), и (ZJ) (6Г + б/") + 5 А (т,, h^,. z = l
88 ПРИНЦИП МАКСИМУМА ГГЛ. Ц Из записи векторов QH, QB, QD непосредственно видно, что qd=qa+qb, т. е. сумма любых двух векторов смещения также является вектором смещения. (Заметим, что этот вывод был бы невер¬ ным, если бы мы не допустили, что среди точек rz, опре¬ деляющих векторы (2.42), могут быть и совпадающие; ведь точки тх, ... , соответствующие вектору QA, и точки т5+1, ...,тг, соответствующие вектору QB, выбираются независимо друг от друга, и среди них могут неизбежно оказаться совпадающие.) Пусть, наконец, А,В£К и С—произвольная точка отрезка АВ. Тогда QC=(1 — X)QX4-Xq5, где X — число, удовлетворяющее неравенствам О^Х'^1. Так как оба вектора QA, QB являются векторами смеще¬ ния (ибо А,В £/<) и так как числа 1—Хи X неотрица¬ тельны, то векторы (1 — X) ОЛ и X QB также, в силу доказанного выше, являются векторами сме¬ щения, а потому и их сумма, т. е. вектор QC, является вектором смещения. Следовательно, С£К. Итак, если А,В то любая точка С отрезка АВ также принадлежит множеству К, т. е. множество К выпукло. Таким образом, К есть выпуклый конус с вершиной Q. Теперь мы можем сформулировать и доказать следующую лемму, служащую основой всех дальнейших построений. Основная лемма. Пусть и (t)—такое допустимое управление, под воздействием которого объект в течение промежутка времени t0 t переходит из заданного начального состояния х0 в предписанное конечное состояние хг. Соответствующую фазовую траекторию обозначим через x(t). Если конус К, построенный выше, совпадает со всем фазовым пространством X, то процесс (u(t), х (/)) не яв¬ ляется оптимальным.
§ 5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 80 Справедливость этой леммы можно пояснить с помощью следующего построения, очень наглядного, хотя и не вполне строгого. Обозначим через QA вектор f(x (/х), и (fx)). Этот вектор касается траектории х (t) в точке Q (рис. 55), так как /(х^), и (fx)) — скорость движения точки x(t) в фазовом пространст¬ ве X при подходе к Q. Так как конус К заполняет все фазовое пространство X, то вектор QA является векто¬ ром смещения, и потому, согласно формуле (2.36), существует такой способ варьирования управления u(f), что вектор (2.42) совпадает с QA, так что соответствующая варьированная траектория х* (/) удовлетворяет условию х* (/х — е 6/) = х (tх) + е QA + о (е) (см. (2.36), (2.42)). Иначе говоря, за время fx— е 8t, не превосходящее /х, можно (с точностью до малых более высокого порядка, чем е) попасть в некоторую точку от¬ резка QA, т. е. пройти по направлению траектории х (t) несколько дальше точки Q = xv Но тогда траектория x*(t) должна была еще раньше пройти через точку Q, т. е. в точку Q можно попасть за время, меньшее — tQ, так что процесс х (t)) не оптимален. Правда, эти рассуждения проведены лишь с точностью до о (е), так что траектория х* (t) в действительности может не пройти через точку Q, а лишь пройти в о (е)-близости от этой точки (см. рис. 55), но это, по-видимому, можно исправить, несколько повернув вектор фЛ, т. е. таким поворотом можно добиться, чтобы траектория х* (/) прошла точно через точку Q, Это геометрическое рассуждение подтверждается сле¬ дующим простым вычислением. Пусть величины 6/, тх, .. . , т5, ^1» ... , /5, vlf ... , vs выбраны таким образом, что вектор
90 ПРИНЦИП МАКСИМУМА (ГЛ. ц (2.42) совпадает с Q.4, т. е. S -f(x (fx), и (/х)) 6/ + 2 Д (То л,-) =f(x (fx), и О (2.43) ( = 1 (такие величины существуют, так как, по предположению, К совпадает с А, т. е. любой вектор является вектором смещения). Используем эти величины тх, . . . , т5, /х, . . . , Zs, vly . . . , v5 для варьирования управления и (t) и траектории x(t). Тогда для варьированной траектории х* (t) мы полу¬ чим, согласно (2.36), х* (fx - (1 + 8t) е) = х (tх) - е (н- 6/) f (х (7Х), и (/х)) + + е 2 А (т/> + (2.44) i = i В силу (2.43) это соотношение принимает вид х*(/1-(1+6(0е))=х(/1) + о(е), т. е. в момент времени (16Z) е < Zx траектория х* (t) «с точностью до о (е)» проходит через точку xt. Это рассуждение, конечно, не является строгим дока¬ зательством. Действительно, во-первых, заключительное утверждение «несколько повернув вектор QH, можно до¬ биться, чтобы траектория х* (t) прошла точно через точку Q» никак не обосновано. Во-вторых, использование формулы (2.36) для получения соотношения (2.44), строго говоря, незаконно, так как среди точек тх, т2, . .. , т5, использованных для получения соотношения (2.43), могут оказаться совпадающие, и тогда формула (2.36) неприме¬ нима. Ниже мы приводим строгое доказательство основной леммы. Оно не очень просто, и потому читателю, которому приведенные наглядные рассуждения показались достаточно убедительными, мы рекомендуем пропустить его. 20. Доказательство основной леммы. Мы проведем сна¬ чала доказательство для /г = 2(т. е. на фазовой плоскости); затем мы укажем те изменения, которые произойдут для случая произвольного п. Обозначим по-прежнему конец хг траектории х (t) через Q и рассмотрим произвольный треугольник Д(0) Д(1) Д(2) t
§5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 91 содержащий точку Q внутри себя (рис. 56). Так как конус совпадает со всей фазовой плоскостью X, то QA(0), QX(1) и QX(2) являются векторами смещения, т. e. существуют такие величины т<<» /(0) Li > i = 1, • . . , s(0) т'-1* 1{1} > ч , i = 1, • c(d > (2.45) 6/<2>, т(-2) /(2) > bi j i = 1, . q(2) . . , A < > ' что соответствующие векторы смещения совпадают с 0Л(2), т. е. $(о) Q>> = —/(х(/х), w(/1))6f<0)+ SA(-vf”, й;о)), (2.46) z=i s<D QX(1' = —/(х(^), a (ZJ) 6/(1) + 2 А(т’0’ Л (2-47) i = 1 g(2) ОЛ(2> = —/(х(^), a(f1))6/<2>+ 2 А(тр\ hi*\ (2.48) Z = 1 где векторы й’0), й*1’, й/2) определяются формулами (ср. (2.31)) М“’ = 4а)[/(х(т<а)), и (тГ))]. (2.49) Заметим теперь, что прерывно зависит от вектор А (т, /г) величин т и h (см. (2.35)) не- (это непосред¬ ственно вытекает из тео¬ ремы о непрерывной за¬ висимости решений диф¬ ференциальных уравне¬ ний от начальных зна¬ чений). Вектор так¬ же непрерывно зависит от Т/а), если (при неиз¬ менных /г-а), ^-а)) мы бу¬ дем менять т^а) на неко¬ тором отрезке, не содержащем точек разрыва управления (см. (2.49)). Так как (по определению векторов смеще¬ ния) все точки т£-а) являются точками непрерывности управ¬
92 ПРИНЦИП МАКСИМУМА [ГЛ. II ления u(t), то при малом смещении точек т,-а) векторы (см. (2.49)) также изменяется мало, а потому достаточно мало изменяются векторы А (т/а), й<а)), а значит, и векторы QX(0), СМ(1), QX(2) (см. (2.46), (2.47), (2.48)). Итак, при любом достаточно малом смещении точек .Т/а) векторы Q?V0), QX(1), QA{2} изменяются мало. Произведем такой сдвиг точек т-а) (не меняя б/(а), Z/a), ^-а)), чтобы все точки tJ0), Т/Х), т<-2) стали попарно различными и при этом векторы QA{Q\ СМ(1), QA{2) настолько мало изменились, что точка Q осталась внутри треугольника /(0) Л(1) Л(2). Мы бу¬ дем предполагать (не меняя обозначений Т/а), /Го), А(1), Л(2)), что такой сдвиг уже произведен, так что все точки Т/0), Т/т), Т/2) попарно различны. Пусть теперь k{0\ А?(1), k{2) — произвольные неотрица¬ тельные числа. Положим 81 = &(0)6/(0)&(1)6/(1) + &(2)6/(2) и Z/a) = (2/50) Тогда вектор смещения QB, соответствующий величинам б/, Т?\ ^а) (а = 0, 1, 2; i = l, 2, ... , №), (2.51) как легко видеть, будет равен QB — k{Q) CM(0) + £(1) QA^ + k^QA{2)- (2.52) Действительно, при умножении величины Zr-a) на ka вектор Zz;a) также умножится на (см. (2.31)), а потому в силу линейности и однородности системы (2.21) вектор А (т,-а), h[a)) также умножится на £(а) (см. (2.35)). Таким образом, вектор смещения QB, соответствующий величинам (2.51), имеет вид QB = — f(x (Zx), и (Zx)) (£(0)6Z(0) + + /г(2)6/(2)) + 2 S<a> + 22 fe(a)A h^), a=o i = i а это и дает (в силу (2.46), (2.47), (2.48)) соотношение (2.52).
§5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 93 Так как все точки т£-а) попарно различны, то мы можем рассматривать варьирование управления и (t) и траектории х(/), соответствующее величинам (2.51), причем, в силу (2.36), для соответствующей варьированной траектории х* (Z) мы будем иметь (2.53) х* — = + & QB-]-о (в), где QB— вектор смещения (напомним, что он удовлетворяет соотношению (2.52)). Итак, если величины (2.51) определить формулами (2.50), то для соответствующей варьированной траектории х* (/) будет выполнено, со¬ отношение (2.53), где QB определяет¬ ся формулой (2.52). Заметим, что если величины k{Q), k{1\ k{2} непрерывно меняются (оставаясь неотрицательны¬ ми), то непрерывно меняются величины Ы и 7Ja) (см. (2.50)), т. е. непрерывно меняются величина б/ и длины е7^-а) тех интервалов, на которых произво¬ дится варьирование управления u(t). Следовательно, траектория х* (t) и, в частности, точка х* (/х — е б/) также непрерывно меняются. Итак, траектория х* (t) и точка x*(Zx — е 6f) непрерывно зависят от величин &(0), £(1), £(2). Пусть теперь С—произвольная точка фазовой плоскости X. Если точка С расположена внутри или на сторонах угла /4(1)QH(2), то мы положим &(0)(С) = 0, а через k{}} (С) и k{2) (С) обозначим такие числа, что QC= (С) .Q4(1) + £(2) (С) -0Л(2); иначе говоря, k{1} (С) и k{2) (С) — координаты вектора QC относительно базиса QH(1), QH(2) (рис. 57). Эти величи¬ ны k{v (С) и k{2) (С) неотрицательны, так как точка С ле¬ жит внутри или на сторонах угла Л(1)С?Л(2). Аналогично, если точка С лежит внутри или на сторонах угла X(O)Q/1(1)? то мы обозначим через £(0) (С) и &(1) (С) числа, удовлетво¬ ряющие соотношению QC - £(0) (С) • СМ(0> 4- № (С) • QX(1),
94 ПРИНЦИП МАКСИМУМА [ГЛ. п и положим &(2) (С) — 0. Наконец, если точка С лежит внутри или на сторонах угла Л(0)фЛ(2), то мы обозначим через £(0) (С) и А?(2) (С) числа, удовлетворяющие соотношению QC = £<0) (С) • Q4(0) + k™ (С) • Q>, и положим к{1) (С) = 0. Таким образом, при любом расположении точки С на плоскости мы имеем QC = к"» (C)-QA{Q) + &(1) (Q • 0Л(1) + £(2) (С) • QX<2), (2.54) где &(0)(С), &(1) (С), &(2) (С)— неотрицательные числа. Заме¬ тим, что величины k(Q} (С), k{1) (С), к{2} (С) непрерывно зависят от точки С (т. е. мало меняются при малом сме¬ щении точки С). В самом деле, внутри и на сторонах каждого из углов Х(0)СМ(1), Л(1)ф4(2), A{2}QA{Q} эти вели¬ чины, очевидно, непрерывно зависят от С (две из них яв¬ ляются координатами вектора QC, а третья равна нулю). При переходе же из одного угла в другой эти величины также меняются непрерывно. Например, величина £(0) (С) приближается к нулю, если точка С приближается к лучу QX(1) изнутри угла /4(0)QX(1), и равна нулю внутри угла Л(1)СИ(2). Таким образом, величина &(0) (С) непрерывно ме¬ няется при переходе через луч (?Д(1). Аналогично просле¬ живается непрерывность изменения величины k{0} (С) (а также &(1)(С), &(2) (С)) и при переходе через лучи Q4(o), СИ(2). Итак, &(0)(С), &(1) (С), &(2) (С) — такие непрерывные неот¬ рицательные функции от точки С, которые удовлетворяют соотношению (2.54) при любом положении точки С. Опре¬ делим теперь с помощью величин к™ = к"”(С), k™ = k™(C), /г(2) = £(2) (С) (2.55) по формулам (2.50) величины (2.51). Соответствующую варьированную траекторию х*(/) будем теперь обозначать через Хс (/), а величину б/ — через 6ZC, чтобы подчеркнуть их зависимость от точки С. Заметим, что Xq (t) непрерывно зависит от пары переменных f, С, а Ыс непрерывно зави¬ сит от С (ибо функции (2.55) непрерывны). Для варьиро¬ ванной траектории Xq (/) справедливо соотношение хс (^ — е б/г) =х (t-^ + zQB-Yo (е) (2.56)
СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 95 § 5] (см. (2.53)), где вектор QB определяется формулой (2.52). Но из сравнения формул (2.54) и (2.52) вытекает, что QB=^QC, так что формула (2.56) принимает вид Xq (^i — 8 &с) — х (/х) + е QC + о (е). Иначе говоря, если мы обозначим через Се такую точку, что QCe = &QC (рис. 58), то можем написать Xc(ti — 8 6/с) = Се+о (е) (2.57) (ибо точка х(/г) совпадает с Q). Рассмотрим теперь окружность S’ радиуса 1 с центром в точке Q. Когда точка С пробегает окружность S, точка Се пробегает меньшую окруж¬ ность Se, получающуюся из S подобным преобразованием с центром подобия Q и ко¬ эффициентом е (рис. 59), а точка Хс (^i“e (см. (2.57)) Рис. 58. пробегает замкнутую линию Ае, близкую к окружности (напомним, что точка хс (/х — 8 6tc) непрерывно зави¬ сит от точки С). Далее, так как k{0\ £(1), k{2} непрерывно зависят от С (см. (2.55)), то непрерывно зависят от С и величины (2.50). Следовательно, когда точка С пробегает окружность S, величины (2.50) остаются ограничен¬ ными (ибо всякая функция, непрерывная на окружности, ограничена), т. е. существуют такие числа у, р<а), что О 0<$а)^₽Г’ (2.58) Для любой точки C£S. Из замечания на стр. 85 следует теперь, что величина о (в) в формуле (2.57) имеет равно¬ мерно по С более высокий порядок малости, чем в.
96 Принцип максимума [ГЛ. I До сих пор величина ё была переменной (бесконечно малой). Теперь мы выберем некоторое значение для е и более уже не будем его менять. Именно, величину е мы выберем настолько малой, чтобы, во-первых, отрезки вблизи точек на которых происходит варьирование, попарно не пересекались (это возможно, так как все точки попарно различны, а величины Zz-a) ограничены (см. (2.58)) и, во-вторых, величина о (е) в формуле (2.57) была (для всех точек С £5) меньше, чем ^е. Это означает, что рас¬ стояние между точками Хс (/х— е 8tc) и Се меньше е. Расстояние же между точками Q и Се равно е (ибо радиус QC равен единице, и потому длина вектора QC6 = е QCравна е). Таким образом, когда точка С пробегает окружность 5, точка С6 пробегает окружность радиуса е с центром в точке Q, а точка Xq (fx— е б/с) пробегает замкнутую линию А6, находясь от точки С8 все время на расстоянии <1^е. Из этого следует, что точка Q находится внутри линии (рис. 59). Введем теперь в рассмотрение параметр а, которому будем придавать значения O^a^l, и рассмотрим точку Xc((l-a)Z0 + a(fi-e6fc)). (2.59) Эта точка непрерывно зависит от пары переменных С, о (ибо Хс (Z) непрерывно зависит от пары /, С). Если мы за¬ фиксируем некоторое значение о(ОЙСо>^1), а точку С заставим пробегать окружность <9, то точка (2.59) опишет некоторую непрерывную замкнутую линию (возможно, имею¬ щую самопересечения и другие особенности, что для даль¬ нейшего несущественно), которую мы обозначим через L((S), При о=1 точка (2.59) совпадает с точкой (2.57), т. е. линия £(1) (получающаяся при о=1) совпадает с £е, и потому точка Q находится внутри линии А(1). Если пара¬ метр о непрерывно меняется, то линия А(0) также будет непрерывно перемещаться (деформироваться) в плоскости X (на рис. 60 показаны несколько положений линии L(a)). Наконец, при о = 0 точка (2.59) совпадаете Хс (Zo), т. е. с точкой xQ1 и потому линия £(0) (получающаяся прио = 0)
§5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 97 вырождается в одну точку х0. Следовательно, при значе¬ ниях о, близких к нулю, линия L(0) близко расположена от точки х0, и потому точка Q = xr не находится внутри 0 не совпадает с х^. Итак, по фазовой плоскости X, линия х0 линии А(а) (так как точка непрерывно перемещаясь £(0) переходит из поло¬ жения L(1), в котором она содержит точку Q внут¬ ри себя, к положениям L(0), в которых она не содержит точки Q внутри себя. Следовательно, найдется такое проме¬ жуточное значение о = = а0, при котором линия £«*>) проходит через точ¬ ку Q (рис. 61). Иначе говоря, существуют такое число сг0, 0<о0<1, и такая точка что точка (2.59) совпа¬ дает с Q: ХС ((1 - ОоМо + О0 (<г — е Ыс)) = xv Но мы имеем (1— О0) <о + ®о(<1 — е6^с) = — 0 ®о) (^i А>) <*о В &с < ^1’ Таким образом, варьированная траектория Xc(t) раньше, чем в момент Л, попадает в точку и, значит, исходный процесс (н(/), х(0) не Л был оптимальным. j Тем самым основная лемма полностью дока¬ зана при и = 2. Х° Замечание. В за¬ ключительной части до¬ Рис. 61. казательства мы пользо- валисьтакими понятиями, как «точка лежит внутри замкнутой линии», «линия не- прерывно деформируется», а также пользовались тем фактом, что если замкнутая линия, содержащая точку Q внутри себя, непрерывно деформируется и переходит в положение, в котором она не содержит точки Q внутри В. Г. Болтянский
98 ПРИНЦИП МАКСИМУМА [ГЛ. п себя, то в некотором промежуточном положении эта линия должна была проходить через точку Q. Точное опреде¬ ление этих понятий и доказательство указанного факта требуют использования некоторых сведений из тополо¬ гии, что далеко выходит за рамки этой книги. Поэтому мы ограничимся сказанным выше, считая указанный факт «наглядно очевидным». При п > 2 доказательство проводится по той же схеме, что и выше. Укажем, какие при этом произойдут измене¬ ния. Вместо треугольника Л(0)Л(1)Л(2), содержащего внутри себя точку Q, теперь уже надо будет рассмотреть в про¬ странстве X симплекс Л(0)Д(1).. ,А{п) размерности и, содер¬ жащий внутри себя точку Q. (При п = 3 этот симплекс будет представлять собой тетраэдр Л(0)Л(1)Л(2)Л(3).) Число векторов Qi4(0), . .., QA{n} теперь уже будет равно п 1; формулы (2.45) — (2.49) обобщаются очевидным образом. Как и выше, пользуясь непрерывной зависимостью вектора Д (т, Л) от т и Л, мы можем добиться того, чтобы все точки были попарно различными. Соотношения (2.50) — (2.53) обобщаются на л-мерный случай очевидным образом. Обра¬ тимся теперь к рассуждениям на стр. 93 — 94. Целью этих рассуждений было доказательство (при п — 2) следующего факта. Лемма 11.10. Существуют такие непрерывные неотри¬ цательные функции &(a)(C), a = 0, 1, . . ., п (где С£Х), что для любой точки С £Х выполнено соотношение QC = k™ (С) • q2(0) + /г(1) (С) • ол(1) + • • • + £(П) (Q • ол(л). (При этом функции &(0)(С), £(1)(С), k{2} (С), построенные геометрически на стр. 93 — 94, обладали еще дополнительно тем свойством, что для любой точки С хотя бы одна из них обращалась в нуль, но это свойство нигде в дальней¬ шем использовано не было.) Геометрический способ пост¬ роения требуемых функций (С), изложенный на стр. 93 — 94, допускает обобщение и на л-мерное пространство, но мы здесь укажем другой способ построения таких функций. Доказательство леммы. Разложим вектор £Ь4(0) по базису QA(1), QA(2\ ..., QA{,1}, т. е. найдем такие числа
§ 5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 99 X1, X2, . . X", что QX(0) = X1 ол(1) + X2 QX(2) + .. . + V (2.60) Легко видеть, что все числа X1, . . ., X" отрицательны (ибо луч QA1, являющийся продолжением вектора QA!^\ пересекает грань Л(1)Л(2). . . Л(Л), т. е. расположен в «поло¬ жительном координатном угле», определяемом векторами QX(1), QX(2), ..., QA(n\ см. рис. 62). Пусть теперь С— произвольная точка пространства X и х1, ..., хп — коорди¬ наты вектора QC в базисе QX(1), ..., QA{n\ т. е. QC = x1QA{1) + x2QA{2}+ ... + xnQA(n). (2.61) Положим /г^\ I х1 I I I X2 I I I I хп I Ч)(с)-|тг| + |тт|+---+|т!гг Функция <р(С), очевидно, непрерывна в пространстве X и неотрицательна, причем для любого Z= 1, 2, . .., п мы имеем jx'l^-x1, так что справедливы (для любой точки С £ X) соотноше¬ ния: ср (С) > 0, х1 — Х1ср(С)^О, х2-Х2ср(С)^0, ..., хп-Х”ср(С)>0. (2.62) Вычитая теперь из соотношения (2.61) соотношение (2.60), умноженное на ср (С), мы получаем QC = ср (С) • QX(0) + (х1 - X1 <р (С)) • QX(1) +...+ + (х"-Х\р(С)).(Ж>. Все функции £<о)(С) = (р(С)> А»(1) (С) — х1 — Хг(р (С), . .., /г(л)(С)=х"-Х"(р(С) непрерывны и, в силу (2.62), неотрицательны. Лемма доказана. 4*
100 ПРИНЦИП МАКСИМУМА [ГЛ. II Заключительная теперь переносится окружности теперь (О) держит кончить точку Q внутри доказательство часть доказательства основной леммы на п-мерный случай без труда. Вместо надо рассматривать в пространстве Л сферу S радиуса 1 с центром в точке Q. Когда точка С пробегает сферу 5, точка Се (см. (2.57)) пробегает сферу радиуса в с центром в точ¬ ке Q, а точка Хс (^ — e btc) пробегает «замкнутую поверхность» Ле, близкую к сфере 5е. При достаточно малом е «поверхность» Le со- себя, что (см. стр. и дает возможность за- 95 — 97). 21. Принцип максимума. В этом пункте, пользуясь доказанной выше основной леммой, мы выведем необхо¬ димое условие оптимальности, называемое прин¬ ципом максимума. Пусть х (/)) —оптимальный (по быстродействию) процесс, переводящий объект из фазового состояния xQ в состояние х± за время tQ i <1 tv Построим для этого процесса множество К, рассмотренное в п. 19. Множество К является выпуклым конусом с вершиной в точке Q=x1\ так как процесс (rz(/), х (t)) оптимален, то, в силу основной леммы, этот конус К не совпадает со всем фазовым пространством X. Следовательно, существует такой отлич¬ ный от нуля вектор и, что для любой точки Р конуса К выполнено соотношение (см. конец п. 13). Но точка Р тогда и только тогда при¬ надлежит конусу К, когда QP является вектором смещения (см. (2.42)). Таким образом, вектор п обладает тем свойст¬ вом, что скалярное произведение его на любой вектор вида (2.42) неположительно. В частности,
§ б] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 101 (это получается, если в формуле (2.42) положить s = 0, Ы = 1)> т- е- л./(х(^), (2,63) Далее, д.Д (т, Д)<0, (2.64) где т —любая точка непрерывности уравнения u(f), а век¬ тор h имеет вид Л=/(х(т), г/)— /(х(т), м(т)), v^U (2.65) (это получается, если в формуле (2.42) положить & = О и 5=1, так что вектор смещения примет вид А (т,/г), причем в формуле (2.31) положить 1=1). Итак, мы установили, что существует вектор л, удов¬ летворяющий условиям (2.63) и (2.64), где т — произволь¬ ная точка непрерывности управления u(t), a h — вектор, определяемый формулой (2.65). Обозначим теперь через 8х (t) решение системы (2.21) с начальным условием 6х(т) = Л (2.66) и будем это решение рассматривать на отрезке Тогда, по определению, А (т, h) = (/х) (см. (2.35)), так что соотношение (2.64) принимает вид л6х(/1)<0. (2.67) Вспомним теперь следствие 11.9 (стр. 77). Это след¬ ствие наводит на мысль представить вектор п в виде ф (/х), где ф (/)— некоторое решение системы (2.24). Это мы и сделаем. Именно, обозначим через ф(/) = (фх(/), . ..,фл(/)) решение линейной системы (2.24) с начальным (или, лучше было бы сказать, «конечным») условием ф(^1) = л. (2.68) В силу линейности системы (2.24) решение ф (t) определено на всем отрезке 10 t fx (на котором заданы функции и (/) и х(/), входящие в правые части системы (2.24)). В силу следствия II.9 мы теперь заключаем, что скалярное произ¬ ведение ф (/) 6х (/) постоянно; в частности,
102 ПРИНЦИП МАКСИМУМА [ГЛ. II и потому ф (т) 6х (т) 0 (см. (2.67), (2.68)). Это соотношение можно записать в виде ф(т)Л^0 (см. (2.66)), а это, в силу. (2.65), дает нам 1р(т) {/(х (т), и(т))} ^0, или, наконец, ф(т)/(х(т),^Хф(т)/(х(т),//(т)), v^U. (2.69) Заметим еще, что, в силу (2. 68), соотношение (2.63) пере¬ писывается в виде Ф(Ш(*(*1)> (2.70) Итак, мы пришли к следующему выводу. Теорема 11.11. Если процесс (u(t), х(/)), оптимален, то существует такое решение ф (/) системы (2.24), для которого выполнены условия (2.69) и (2.70) (где т — произвольная точка непрерывности управления u(t}^ a v — произвольная точка области управления U). При этом реше¬ ние ф (/) нетривиально (ибо /г#= 0, см. (2.68)). Это, по сути дела, и есть интересующее нас необходи¬ мое условие оптимальности, однако мы сейчас придадим ему другую, более удобную форму. Заметим, что в соотношениях (2.69) и (2.70) везде стоят скалярные произведения вектора ф на вектор /(х, и). Это подсказывает, что целесообразно ввести в рассмотре¬ ние следующую функцию: /7(ф, х, и) = ф/(х, и) = = tz) +1|)2/2 (х, «)+ ... и). (2.71) Функция Н зависит от Ъп-^г аргументов фх, ..., фп, х1, ... х", и1, . . ., ur. С помощью этой функции И соот¬ ношение (2.69) переписывается в виде Н(1|>(т), х(т), г»)</7(т|?(т), х(т), и(т)) (для любого v £ U) или, что то же самое, х(т), и (т)) = max/7 (ip (т), х(т), v). (2.72)
$ 5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 103 Соотношение же (2.70) переписывается в виде (2.73) Заметим, наконец, что система (2.24) с использованием функции Н может быть записана следующим образом: дН (4>, х (г), и (/)) дх! /-1, ..., п (2.74) (это сразу следует из сравнения правых частей системы (2.24) с функцией (2.71)). Заменив теперь в доказанной выше теореме систему (2.24) системой (2.74), а условия (2.69) и (2.70) услови¬ ями (2.72), (2.73), мы и приходим к окончательной форме теоремы, дающей необходимое условие оптимальности. Эта теорема именуется принципом максимума (что объясняется соотношением (2.72), составляющим основное «ядро» тео¬ ремы). Теорема II.12 (принцип максимума). Рассматри¬ вается объект, движение которого описывается системой уравнений Х1=р{Хг, ...,хп,и\ . . ur)--=f‘(X, и), i = 1,...,n (ср. (1.2)), или, в векторной форме, x=f(x,u). (А) В пространстве переменных и1, ..., иг задано некоторое множество U (область управления); допустимым управлением считается произвольная кусочно-непрерывная функция и (t) ■= = (и1 (t), . . . > иг (/)) со значениями в U, непрерывная в концах отрезка, на котором она определена. Далее, в фазовом пространстве X переменных х\ . . ., хп заданы две точки xQ и х± (начальное и конечное фазовые состояния). Наконец, рассматривается некоторый процесс (и (/), х (/)), t0 <1 t tx, переводящий объект из состояния х0 в состояние хг; это означает, что х (t) есть решение системы (А), соответствую¬ щее допустимому управлению и = u(t) и удовлетворяющее начальному и конечному условиям (^о) ~* (^1)—-^1* Таким образом, рассматриваемый процесс затрачивает на переход из состояния х0 в х± время, равное tY—10. Про¬
104 ПРИНЦИП МАКСИМУМА [ГЛ. П цесс (и (t), х (/)) называется оптимальным (в смысле бы¬ стродействия), если не существует процесса, переводя¬ щего объект из состояния х0 в состояние х± за меньшее время. Для формулировки необходимого условия оптимальности введем в рассмотрение функцию Н, зависящую от перемен¬ ных х1, . . ., хп, и1, иг и некоторых вспомогательных переменных ф1, (ср. (2.71)): п х, и) = 1|)./(х, и)= S U). (В) а= 1 С помощью этой функции Н запишем следующую систему дифференциальных уравнений для вспомогательных перемен¬ ных: 4>.= дН (^,x(t),u(t)) дх1 (С) I — 1, . . ., л, где (u(t), х (t)) — рассматриваемый процесс (ср. (2.74)). Для оптимальности процесса (и (t), х (t)) необходимо существование такого нетривиального решения ф(/), tQ t tv системы (С), что для любого момента т, являющегося точкой непрерывности управления u(t), выполнено условие максимума 7/(ф(т), х(т), м(т)) = шах//('ф(т), х(т), v) (D) veU (ср. (2.72)), а в конечный момент времени tY выпол¬ нено условие (ср. (2.73)) Н^(^), х(^), (Е) Предыдущими рассмотрениями эта теорема полностью доказана. Заметим в заключение, что если управление и (t) предпола¬ гать непрерывным справа: и (т) = и (т + 0) в каждой точке разрыва (см. стр. 23), то, как нетрудно дока¬ зать, условие (D) будет выполняться во всех точках т от¬ резка /0 включая и точки разрыва. Мы не будем доказывать этого факта, так как значение управления и (t) в момент разрыва не играет никакой роли ни с точки зре¬
§ 51 СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 105 ния приложений, ни с чисто математической точки зрения (ибо решение уравнения (1.2) не зависит от значений, кото¬ рые принимает управление и (/) в конечном числе своих то¬ чек разрыва). Заметим еще, что если управление и(/), не предполагать непрерывным в точке то соотношение (Е) следует заменить условием lim /7(ф(/), х(/), н(/))2^0. t — t < Мы оставим все эти тонкости в стороне. 22. Постоянство функции Н. Докажем в заключение еще одну теорему, которая будет использована лишь зна¬ чительно позднее (в п. 58). Теорема 11.13. Если функции "(/), х(0, Ф(0, *о<*<*1, удовлетворяют соотношениям (А), (С), (D), то функция = x(t), u(t)) переменного t постоянна на всем отрезке t0 t /х. (Отсюда, в частности, следует, что проверку соотно¬ шения (Е) в теореме 11.12 можно проводить не обязатель¬ но в момент /х, а в любой момент /, Доказательство. Так как функция и (/) кусочно¬ непрерывна, а функции х (t) и ф (t) непрерывны, то функ¬ ция М (t) является кусочно-непрерывной. Покажем прежде всего, что функция М (t) сохраняет непрерывность и в точ¬ ках разрыва управления и (t), т. е. что M(t) непре¬ рывна на всем отрезке t0 t tх. В самом деле, пусть 0, /0 < 0 < /х,— одна из точек разрыва управления и (/). Мы должны доказать справедливость равенства Л1(0 — 0) = 7И(0 4-0). Допустим, что это соотношение не выполнено; например, Л4(0 — О)>Л4(04-О). Иными словами, Н(1|>(0), х(0), «(0 —0)) > Л/(-ф (0), х(0), «(0 + 0)). Из этого легко заключить, что для моментов времени f', достаточно близких к 0 и удовлетворяющих неравен-
106 ПРИНЦИП МАКСИМУМА [ГЛ. II ствам /' < 0 < Г, выполнено соотношение Это, однако, противоречит условию максимума (D). Полу¬ ченное противоречие доказывает непрерывность функции Остается доказать, что есть константа на каждом интервале непрерывности функции и (/). Допустим про¬ тивное: М (т') =^= 7И(т), причем функция u(t) непрерывна на отрезке Мы положим |М(тЭ-М(т)| I т' — Т ’ вующую вписанную ломаную найдем, что по крайней имеет тангенс наклона, К. Отсюда ясно, что найдутся на отрезке [т, что т. е. К есть абсолютная величина тангенса на¬ клона соответствующей хорды, проведенной к графику функции М (/) (рис. 63). Разделив те¬ перь отрезок [т, т'] на части и взяв соответст- (пунктир на рис. 63), мы мере одно звено этой ломаной абсолютная величина которого для любого натурального т т'] две такие различные точки Т'/П | ~ 1 т и (2.75) При этом мы можем считать (перейдя, если нужно, к под¬ последовательности), что точки хт и хт имеют предел при т —> оо: lira тт= lim < = т0, т -> оо т оо где т0 —некоторая точка отрезка [т, т'].
§ 5] СЛУЧАЙ ОПТИМАЛЬНОСТИ ПО БЫСТРОДЕЙСТВИЮ 107 Пусть теперь 9Х и 02 —две точки отрезка [т, т']. В силу условия максимума (D) мы имеем 404 «(ех)), /7(4401), ^(ej, и потому М (02) - М (0J = = //(4(02), х (02), <W(02), х(02), ,0 _Q dH (4(0, х(<), п(е2)) I '2 1/ df ,| > dt где £ — некоторая точка, лежащая между 0Х и 02. Далее, в силу соотношений (А) и (С) dH (i|? (/), х (f), и (02) I __ dt = £ дН Ml), х(£), u (02)) thMB) , а=1 п <^а п +Е a=i ая(4Ю. x(g), »(02)) dx*g) dt дх* = ^(4(g), х(Е). п(е2)) _ аЯ(4(Е), X(g), U(g)) a=i п +L а=1 дх* *(l), u(02)) дНЩ х(|), u(g)) дх* При 0Х = 02 = £ = т0 последнее выражение обращается в нуль. Следовательно, если обе точки 0Х, 02 достаточно близки к т0, то написанное выражение будет, по непре¬ рывности, как угодно малым (по модулю). В частности, если точки 0Х, 02 достаточно близки к т0, то будет вы¬ полнено соотношение \dH(^(t), x(t), и (02)) | Л I dt 2 ’ и потому Л4(02) —Л4(0Х)< <(02 _ 01) dtf(4(0. 40. u (eg)_).j I е2 _ 0Х14.
IQg ПРИНЦИП МАКСИМУМА ГГЛ. II Так как точки 0Х и 02 равноправны, то справедливы оба неравенства: ж(92)-Wi) <|02-0J у, Ж(01)-Л1(02)С|01-02|у, т. е. |/И(02)-Ж(01)|<|02-01|4- Это соотношение (справедливое, если точки 01? 02 доста¬ точно близки к т0) будет, в частности, выполнено, если в качестве точек 0Р 02 возьмем точки тт и тт при доста¬ точно большом т: |Л4(т;)-уИ(ти)|<41Тт-т»1- Но это противоречит соотношению (2.75). Таким образом, предположение о том, что 7И (т) =/= ТИ(т'), приводит к проти¬ воречию, и потому M(t) = const.
ГЛАВА III ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ § 6. Выпуклые многогранники 23. Определение выпуклых многогранников. Здесь мы сформулируем определение выпуклых многогранников и ука¬ жем некоторые их свойства. Этот материал необходим для построения теории линейных управляемых объектов. Если А и В—два выпуклых множества, то их пересе¬ чение (рис. 64) также является выпуклым множеством (при условии, конечно, что это пересечение содержит хотя бы одну точку). Выпуклым является и пересечение любого числа выпуклых множеств. Так как всякое полупрост р а н с т во а2и2+ . . . 4-аХ + 4-0 0 (или а^и1 + а2и2 + + . . . 4-агнг+ ₽ 0) явля¬ ется выпуклым множеством пространства переменных и1, и2, . . ., иг, то Пересе- Рис. 64. чение любого числа полупространств является выпуклым множеством. Нас будет интересовать пересечение конечного числа полупространств. Обратимся сначала к случаю г = 2, т. е. к случаю, когда рассматриваются фигуры на плоскости перемен¬ ных и1, и2. В этом случае мы будем говорить о пересече¬ нии конечного числа полуплоскостей. Пересечение двух полуплоскостей может быть углом (в частности, по¬ луплоскостью), полосой или прямой линией (рис. 65).
no ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III Пересечение трех полуплоскостей либо является неогра¬ ниченной фигурой (рис. 66), либо может быть треугольни¬ ком или точкой (рис. 67). Четыре полуплоскости могут дать в пересечении (кроме уже рассмотренных случаев) выпуклый четырехугольник или отрезок (рис. 68). Вообще, Рис. 65. пересечение нескольких полуплоскостей может либо быть неограниченной фигурой, либо же представляет собой точку, отрезок или выпуклый многоугольник. При этом любой выпуклый многоугольник можно себе представлять как пересечение конечного числа полуплоскостей (рис. 69) — Рис. 67. Рис. 68. нужно взять столько полуплоскостей, сколько имеется сторон у многоугольника. Если условиться считать точку нульмерным многогранником, отрезок — одномерным выпуклым многогранником, а выпуклый многоугольник — д в у- мерным многогранником, то можно сказать, что пересече¬ ние конечного числа полуплоскостей, если только оно пред¬ ставляет собой ограниченную фигуру, является выпуклым многогранником (нульмерным, одномерным или двумерным). Аналогично обстоит дело и в трехмерном пространстве: пересечение конечного числа полупространств (если оно ограничено) является либо нульмерным многогранником
§ 61 ВЫПУКЛЫЕ МНОГОГРАННИКИ (точкой), либо одномерным выпуклым многогранником (от¬ резком), либо двумерным выпуклым многогранником (т. е. выпуклым многоугольником, лежащим в некоторой плос¬ кости), либо же трехмерным выпуклым многогранником (т. е. выпуклым многогранником в обычном смысле слова). В r-мерном пространстве при г > 3 у нас нет тех не¬ посредственно наглядных геометрических представлений, которые так помогают при рассмотре¬ нии фигур на плоскости и в трехмер¬ ном пространстве. Поэтому слово «многогранник» не вызывает у нас зри¬ тельного впечатления фигуры в г-мер- ном пространстве. В связи с этим ука¬ занное выше предложение принимают в случае r-мерного пространства за определение выпуклого многогранни¬ ка: пересечение конечного числа полу¬ пространств, если оно является огра¬ ниченным множеством, называется вы¬ Рис. 69. пуклым многогранником. Всякий выпуклый многогранник является выпуклым множеством, т. е. вместе с любыми двумя точками содержит весь соединяющий их отрезок (ибо полупрост¬ ранство выпукло, а пересечение выпуклых множеств также является выпуклым множеством). Обратное, конечно, не¬ верно: не всякое выпуклое множество является выпуклым многогранником. Например, шар r-мерного пространства, т. е. множество всех точек, удовлетворяющих условию (H1)r+(w2)2+...+(^)2<h является выпуклым множеством, но не является (при г > 1) выпуклым многогранником. Упоминавшийся ранее г-мерный параллелепипед явля¬ ется одним из простейших выпуклых многогранников в г-мер- ном пространстве. То, что он действительно является вы¬ пуклым многогранником, нетрудно понять, если записать неравенства (1.6) в следующем виде: и1 а1, и2 а2, . . ., иг^ о/; 01, и2 р2, . . ., иг рг. Каждое из написанных неравенств определяет некоторое полупространство, а так как r-мерный параллелепипед
112 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1Ц состоит из точек, удовлетворяющих всем этим неравенст¬ вам, то он представляет собой пересечение всех этих 2г полупространств. Кроме того, г-мерный параллелепипед является, очевидно, ограниченным множеством. Поэтому он представляет собой выпуклый многогранник. 24. Граница выпуклого многогранника. Укажем теперь (в большинстве случаев без доказательства) некоторые свойства выпуклых многогранников. Для каждого выпуклого многогранника М в г-мерном пространстве существует такое целое число k (которое может принимать значения 0, 1,2, ... .. . , г — 1,г), что многогранник М содержится в некоторой k-мер- ной плоскости г-мерного прост¬ ранства, но не содержится це¬ ликом ни в какой (k— 1)-мерной плоскости. При этом существует только одна 6-мерная плоскость, содержащая много¬ гранник М. Она называется несущей плоскостью мно¬ гогранника /И, а число k называется размерностью этого многогранника. Нульмерный многогранник представ¬ ляет собой точку /"-мерного пространства. Одномер¬ ный многогранник представляет собой отрезок; его несущей плоскостью является прямая, на которой он расположен (рис. 70). Для двумерного выпуклого многогранника М несущей плоскостью является двумер¬ ная плоскость (в r-мерном пространстве), а сам мно¬ гогранник М представляет собой выпуклый много¬ угольник, лежащий в этой плоскости (рис. 71). Отметим еще, что в случае (г—1)-мерного многогранника его несу¬ щей плоскостью является некоторая гиперплоскость рассматриваемого r-мерного пространства. В случае же г-мерного многогранника несущая плоскость совпадает со всем пространством. Пусть М—некоторый 6-мерный многогранник и Р—его несущая плоскость. Точка а называется внутренней точкой многогранника /И (относительно его несущей плоскости), если существует настолько малое число р > 0, что взятый в несущей плоскости шар радиуса р с центром в точке а
§61 ВЫПУКЛЫЕ МНОГОГРАННИКИ 113 целиком содержится в многограннике /И (рис. 72). (Напом¬ ним, что расстояние между точками а = (а1, . .., аг) и . .., иг) определяется как выражение К (и1 — я1)2 + (и2 — а2)2 + . .. + (иг— аг)2, а шар радиуса р с центром в точке а, взятой в несущей плоскости Р, состоит из всех точек и плоскости Р\ для которых расстояние между и и а не превосходит р.) Всякая точка Ь, которая принадлежит многограннику /И, Рис. 71. Рис 72. но не является его внутренней точкой, называется гранич¬ ной точкой этого многогранника. Все внутренние точки многогранника /И, взятые вместе, образуют его внутреннюю часть (или внутренность); все граничные точки, взятые вместе, образуют границу многогранника М (рис. 73). Г раница любого k-мер но го многогранника (при ft>0) состоит из конечного числа (k — \)-мерных многогранников, причем несущие плоскости всех этих (k — 1)-мерных мно¬ гогранников различны. Эти (k — 1)-мерные многогранники называются (k—1)-мерными гранями рассматриваемого ^-мерного многогранника. У каждой из этих граней (пред¬ ставляющей собой (k — 1)-мерный многогранник) в свою очередь можно рассматривать (k — 2)-мерные грани. Они также считаются гранями исходного ^-мерного многогран¬ ника (а именно его (k— 2)-мерными гранями). Таким же образом получаются (k — 3)-мерные грани и т. д. Итак, у каждого ^-мерного многогранника имеются грани раз-
114 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. ТЦ мерностей k—1, k — 2, . .., 2, 1, 0. Нульмерные грани многогранника называются его вершинами; одномерные грани называются ребрами. Например, при k=\, т. е. в случае одномерного мно¬ гогранника (отрезка, рис. 70), имеются нульмерные грани, которыми являются вершины (или концы) рассмат¬ риваемого отрезка. Граница одномерного многогранника состоит из двух точек (концов отрезка). При k = 2, т. е. Рис. 73. Рис. 74. в случае двумерного выпуклого многогранника (выпук¬ лого многоугольника, рис. 71), имеются одномерные грани — ребра (стороны многоугольника) и нульмерные грани — вершины, многоугольника. Границей является в дан¬ ном случае контур многоугольника. При k — З, т. е. в случае трехмерного выпуклого многогранника (рис. 74), имеются двумерные (т. е. «обычные») грани, одномерные грани (ребра) и нульмерные грани (вершины). Границей является поверхность рассматриваемого многогранника. 25. Выпуклая оболочка. Дальнейшие свойства выпук¬ лых многогранников, которые мы рассмотрим, связаны с понятием выпуклой оболочки множества. Под выпуклой оболочкой некоторого множества Q понимают наимень¬ шее выпуклое множество, содержащее Q. Такое наимень¬ шее выпуклое множество непременно существует, так как если мы возьмем все содержащие Q выпуклые множества, то их пересечение будет как раз наименьшим выпуклым
ВЫПУКЛЫЕ МНОГОГРАННИКИ 115 § 6] множеством, содержащим Q. На рис. 75 заштриховано множество Q и пунктиром показана его выпуклая оболочка. Выпуклая оболочка трех точек, не лежащих на одной прямой, представляет собой треугольник (рис. 76). Вообще, выпуклая оболочка конечного числа точек (взятых Рис. 75. в r-мерном пространстве переменных и1, и2, ..., zzr) пред¬ ставляет собой выпуклый многогранник. Вершинами этого многогранника могут служить только взятые точки, но, может быть, не все: некоторые из них могут оказаться лежащими на гранях или во внутренней части полученного многогранника (ср. рис. 77). Обратно, всякий выпуклый многогранник является выпуклой оболочкой конечного множества точек, а именно множе¬ ства всех своих вершин. Рассмотрим теперь линейное отображение пространства перемен¬ ных и1, и2, . .., иг в пространство переменных -и1, ..., г/1, определяе¬ мое формулами V1 = fifiu?, i=l, 2, . п. ₽=1 (3.1) Эти формулы мы будем понимать в том смысле, что каж¬ дой точке и = (и1, и2, ..., иг) из г-мерного простран¬ ства они сопоставляют некоторую точку v = (-и1, v2, . . ., vn) в л-мерном пространстве, а именно точку, координаты
116 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ ГГЛ. 1ц которой вычисляются по формулам (3.1). Иначе говоря, эти формулы определяют функцию (или, как еще говорят, отображение), в которой независимым переменным является точка и, взятая в r-мерном прост¬ ранстве, а значениями функции являются точки л-мерного пространства. Если точка и пробегает в r-мерном прост¬ ранстве некоторое множество Л4, то соответствующая ей точка v (определяемая формулами (3.1)) пробегает в л-мер- ном пространстве множест¬ во N, которое называется образом множества М при отображении (3.1). Оказы¬ вается, что если М—про¬ извольный выпуклый много¬ гранник в r-мерном прост¬ ранстве переменных и1, и2, . .., иг, то его образом при линейном отображении (3.1) также является неко¬ торый выпуклый многогран¬ ник N в п-мерном прост¬ ранстве переменных v1, v2, . . ., vn. Именно, если л(1), н(2), . . . . .., u{q}—все вершины многогранника /И, а ^(1), -и(2), . . ., — те точки, в которые они переходят при отображении (3.1), то многогранник N (в который переходит 7И при рассмат¬ риваемом отображении) представляет собой выпуклую оболочку точек т>(1), ^(2), ..., v(qV Рассмотрим в качестве примера трехмерный куб, определяемый в пространстве переменных л1, л2, л3 нера¬ венствами — 1 и1 1. Вершинами этого куба служат восемь точек с координатами (± L ± L ± 1) (где можно брать произвольные комбинации знаков). Рассмотрим, далее, линейное отображение трехмерного пространства переменных л1, л2, и3 в плоскость переменных и1, -и2, опре¬ деляемое формулами: + + v3 = l>tlu1 + ^u3 + ^u3. (3.2) Восемь вершин куба переходят при этом отображении в восемь точек на плоскости переменных v1, v2, а сам куб переходит в выпуклую оболочку этих восьми точек. На рис. 78 показаны восемь точек, в которые переходят
ВЫПУКЛЫЕ МНОГОГРАННИКИ 117 § 61 вершины куба при линейном отображении (3.2), и выпук¬ лая оболочка этих восьми точек; показаны также отрезки, в которые переходят ребра куба при этом отображении. 26. Опорные свойства выпуклых многогранников. Пусть /И—произвольный выпуклый многогранник, лежащий в r-мерном пространстве переменных н1, н2, . . ., иг, и Р— некоторая опорная гиперплоскость этого много¬ гранника (ср. стр. 61). Оказывается, что множество всех общих точек гиперплоскости р и многогранника М (т. е. пересечение многогран¬ ника М с гиперплоскостью Р) может либо совпадать со всем многогранником М (если размерность многогранника М меньше г и его несущая плоскость лежит в гиперплос¬ кости Р), либо же представ¬ ляет собой некоторую грань многогранника М. При этом для любой грани многогранника 7И найдется такая опор ная гиперплоскость, которая в пересечении с многогран¬ ником М дает именно эту грань. Если рассматриваемая грань (г—1)-мерная, то существует только одна опор¬ ная гиперплоскость (а именно несущая плоскость этой грани), дающая в пересечении с многогранником эту грань; если же размерность грани меньше г—1, то существует бесконечно много опорных гиперплоскостей, дающих в пересечении с многогранником эту грань. Например, если г — 2, а рассматриваемый многогранник представляет собой выпуклый многоугольник, то (рис. 79) для каждой одномерной грани (стороны) существует только одна содержащая ее опорная гиперплоскость (т. е. в дан¬ ном случае — опорная прямая), а для каждой нульмер¬ ной грани (вершины) —бесконечно много проходящих через нее опорных прямых. Аналогично в случае трехмерного многогранника в трехмерном пространстве (г = 3) через каждую двумерную грань проходит только одна опорная плоскость, а через каждое ребро и через каждую верши- iy — бесконечно много.
118 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1Ц С опорными свойствами тесно связан важный для даль¬ нейшего вопрос о максимальном значении линейного функ¬ ционала на выпуклом многограннике. Пусть f (и) — некото¬ рый линейный функционал в пространстве переменной и = и2, . .., иг), т. е. линейная функция от г пере¬ менных а1, и2, . .., иг\ f (и) = а1и1 J-a2H2+ . . . (3.3) Пусть, кроме того, в этом же пространстве задан некото¬ рый выпуклый многогранник М. Поставим вопрос о нахож¬ дении тех точек, в которых функция /(и), рассматривае¬ мая только на многограннике /И, принимает свое наи¬ большее значение. Обозначим через п вектор с координатами ах, а2, . . ., аг, а через и — вектор с координатами (и1, и2, . .., иг). Тогда значение функционала f(u) можно записать в виде скаляр¬ ного произведения: f(u) = а1и1 + a2w2+ . . . -}-arur = пи. Обозначим теперь через Г гиперплоскость, определяемую уравнением ахих + а2и2 + . .. 4- агиг = О, и проведем к многограннику /И опорную гиперплоскость Г', параллельную Г и расположенную так, что многогранник Л4 и вектор п находятся по разные стороны от этой гипер¬ плоскости (рис. 80). Уравнение гиперплоскости Г' имеет вид oCi^1 + а2я2 4~ • • • 4" агиг 4“ 0 — где Р —некоторое число. С помощью скалярного произве¬ дения это уравнение можно записать в виде тш+0 —0* Обозначим через М' выпуклый многогранник, являющийся пересечением опорной гиперплоскости Г'с многогран¬ ником М. Согласно сказанному выше Л4' либо совпадает с многогранником М (если он целиком лежит в гиперплоско¬ сти Г'), либо же является некоторой гранью многогран¬ ника М. Мы докажем, что функция f(u) постоянна на мно¬ гограннике М и что этот многогранник /И' является множеством всех тех точек, в которых функция /(н), рас¬ сматриваемая на многограннике Ж, достигает своего наи¬ большего значения. Иначе говоря, всякая линейная функция
§6] ВЫПУКЛЫЕ МНОГОГРАННИКИ 119 либо постоянна на всем многограннике 44, либо же множе¬ ство всех тех точек, в которых эта функция (рассматриваемая только на многограннике М) принимает свое наибольшее значение, является некоторой гранью многогранника М, В самом деле, пусть и' и и" — две точки, принадлежа¬ щие многограннику Тогда обе они лежат в гиперпло¬ скости Г', т. е. удовлетворяют соотношениям: пи" р = 0. Следовательно, f(u'Y=nur~ — р, /(н") = Итак, на многограннике ==««" = —0,т. е./(«')=/(«"). 44' функция f постоянна. Далее, пусть и' — точка многогранника 44', а и — точка многогранника 44, не принадлежащая грани 44'. Тогда вектор, идущий из точки и' в точку и, т. е. вектор и — и , расположен с вектором п по разные стороны от гиперплос¬ кости Г' (т. е. вектор и — и' расположен в отрицатель- ном полупространстве по отно- Рис. 80. шению к гиперплоскости Г'). Следовательно (ср. формулу (2.8) на стр. 59), скалярное произведение п (и —и') отрицательно, т. е. п(и — и')<0, или пи<пи'. Но это означает, что /(w) Таким образом, в точках многогранника 44, не лежащих на грани 44', функция /(ц) принимает значения меньшие, чем на грани 44'. В заключение укажем еще один факт, связанный с пре¬ дыдущими рассмотрениями. Для того чтобы вершина А мно¬ гогранника М принадлежала грани М' (на которой функ¬ ционал (3.3) принимает наибольшее значение), необходимо и достаточно, чтобы для каждого выходящего из А ребра АВ многогранника 44 было выполнено соотношение п-АВ^О. В самом деле, если вершина А принадлежит грани 44' и АВ—некоторое ребро, выходящее из вершины 4, то вершина В, как и весь многогранник 44, лежит в отрица¬ тельном полупространстве относительно гиперплоскости Г', и потому п-АВ^О. Обратно, если для каждого ребра, выходящего из вершины А, выполнено соотношение я-ЛВ-сО, то все ребра, выходящие из точки А, располо-
120 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ц) жены в отрицательном полупространстве относительно ги¬ перплоскости Г", проходящей через А параллельно Г а потому, в силу выпуклости многогранника Л4, весь этот х многогранник расположен в от- Г рицательном полупространстве; следовательно, гиперплоскость Г" совпадает с Г', и потому точ¬ ка А принадлежит грани М', В частности, для того чтобы линейная функция (3.3) достига¬ ла на многограннике М максиму¬ ма только в одной ее рилине А (рис. 81), необходимо и достаточ¬ но, чтобы для каждого выходящего из А ребра АВ многогран¬ ника М было выполнено соотношение п-АВ<0. § 7. Линейная задача оптимального управления 27. Формулировка задачи. Ниже будут подробно изу¬ чены управляемые объекты, движение которых описывается линейными дифференциальными уравнениями относи¬ тельно величин х1, ..., хп, ..., иг, т. е. уравнени¬ ями вида х‘ = 2 + 2 2 = 1, 2, (3.4) а=1 0=1 где а'а и —некоторые постоянные коэффициенты. Одним из наиболее важных для приложений является случай, когда каждая из величин п1, и2. ..., иг в урав¬ нениях (3.4) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных управляющих параметров и задается неравенством (3=1, ..., г. (3.5) Как мы говорили выше (см. п. 4), эти неравенства опреде¬ ляют r-мерный параллелепипед. Однако ограничиться рассмотрением только г-мерных параллелепипедов в качестве области управления было бы
§7] ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 121 неудобным. В дальнейшем при рассмотрении объектов вида (3.4) будет предполагаться, что управляющий параметр й==(1Й, и2, . .., иг) может меняться в пределах области управления U, представляющей собой выпуклый многогран¬ ник (лежащий в пространстве переменных п1, и2, . .., иг). Вопрос о том, почему нецелесообразно ограничиться рас¬ смотрением только r-мерных параллелепипедов, а следует остановить внимание и на других выпуклых многогранни¬ ках, мы пока оставляем в стороне. Этот вопрос будет под¬ робно освещен в п. 37. Для того чтобы записать уравнения (3.4) в векторной форме, мы введем в рассмотрение матрицы а\ • • • \ / Ь\ Ь\ • • • Ь\ Ч ••• Ь\Ь1 ■■■b2r а” ап ... ап \ЬпЬпп ... Ьп элементами которых являются коэффициенты а1., входя¬ щие в уравнения (3.4). Как обычно, результат применения матрицы А к вектору ^^(x1, х2, ..., хп) мы будем обо¬ значать символом Ах, т. е. у = Ах есть л-мерный вектор, координаты которого определяются формулами у = 2 а.1аХл, / = 1, • • •, П. (3.7) а=1 Аналогично для любого г-мерного вектора и = (и1, и2, .. ., иг) через Ви обозначается л-мерный вектор, /-я координата г t которого равна z — Ь ..., п. Таким образом, мат- 0 = 1 рица А определяет линейное отображение координатного ^-мерного пространства снова в л-мерное пространство, а матрица В определяет отображение r-мерного простран¬ ства в л-мерное. Пользуясь матрицами А и В, мы можем теперь записать уравнения (3.4) в векторной форме: X — Ах-\-Ви. (3.8) Линейной задачей оптимального управления мы будем называть задачу об отыскании оптимальных быстродейст¬
122 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1ц вий в случае, когда выполнены следующие три условия: 1) уравнения движения объекта линейны (см. (3.4) или (3.8)); 2) предписанное конечное состояние совпадает с на¬ чалом координат (0, 0, 0) пространства переменных у 1 у 2 у • •А/ ) «А/ ) • • • } «А* ) 3) область управления U является r-мерным выпуклым многогранником; при этом начало координат пространства (и1, и2, иг) принадлежит этому многограннику, но не является его вершиной (т. е. возможны, например, случаи, Рис. 82. изображенные на рис. 82, а, б, но не случай, изображен¬ ный на рис. 82, в). Заметим, что начало координат является положе¬ нием равновесия системы п х='£а‘ах\ (3.9) а=1 получающейся из (3.4) отбрасыванием управлений (т. е. получающейся из (3.4) при и1 = и2 — . . . = иг — 0). Таким образом, условие 2) означает, что ищется управление, пе¬ реводящее объект из заданного начального состояния х0 в положение равновесия. Изучением линейной задачи оптимального управления мы и будем заниматься в этой главе. При этом всюду в дальнейшем будет предполагаться, что для рассматривае¬ мой линейной задачи выполнено дополнительное условие, на¬ зываемое условием общности положения. Это условие (мы сформулируем его ниже, стр. 126) не является
§ 7] ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 123 особенно стеснительным. В то же время при выполнении этого условия удается доказать целый ряд важных теорем об оптимальных управлениях. Так как линейная задача оптимального управления яв¬ ляется частным случаем более общей задачи, рассмотренной ранее, то принцип максимума, доказанный в общем случае, сохраняет свою силу и для линейной задачи. 'Од¬ нако формулировка принципа максимума при этом несколько упрощается. Заметим прежде всего, что функция Н (см. фор¬ мулу (В) на стр. 104) принимает вид Н = 2 'Фо/ S а = з \Y=i 3 = 1 / = ф (Ах-\- Ви) — ф Ах + ф Ви. (3.10) (Здесь в правой части записаны скалярные произведения; например, фАг есть скалярное произведение векторов ф и Ах.) Далее, рассмотрим систему дифференциальных уравне¬ ний для вспомогательных переменных фх, ф2, ..., фя (см. формулу (С) на стр. 104). Мы имеем [ Ws а“*т+ 2 ил ил L«=1 \Y=1 3 = 1 /J ct=i Следовательно, система уравнений для вспомогательных переменных принимает вид / = 1, (з.и) а=1 или, в векторной форме, ф = — Л'ф. (3.12) Здесь — матрица, получающаяся из матрицы А транспонированием (т. е. заменой строк столбцами).
124 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1Ц Так как в правой части соотношения (3.10) первое сла¬ гаемое совсем не зависит от и, то при написании соотно¬ шения (D) (см. стр. 104) достаточно рассматривать лишь второе слагаемое. Таким образом, соотношение (D) прини¬ мает в рассматриваемом случае вид ф (т) Ви (т) = шах ф (т) Ви. (3.13) иеи Наконец, соотношение (Е) (стр. 104) становится просто нен жным, так как в рассматриваемом случае оно всегда выполняется. Действительно, так как’х (t^) = (0, 0, . . ., 0) (условие 2) на стр. 122), то в х(/х), «(/х)) первое слагаемое обращается в нуль (см. (3.10)). Второе же слагаемое, в силу (3.13), заведомо неотрица¬ тельно, ибо при и1 = . . . = иг = 0 (эта точка, в силу усло¬ вия 3) на стр. 122, принадлежит многограннику U) мы имеем ф (т) Ви — 0, а потому максимальное значе¬ ние выражения ф (т) Ви неотрицательно. Итак, соотношение //(ф^), х^), для линейной оптимальной за¬ дачи всегда выполнено. Сказанное можно резюмировать следующим образом. Пусть u(t), /0 t /х,— допустимое управление, перево¬ дящее объект (3.8) из заданного начального состояния х0 в положение равновесия (0, 0, ..., 0). Будем говорить, что управление и (t) удовлетворяет принципу максимума, если существует такое нетривиальное решение ф (/) урав¬ нения (3.12), для которого выполняется условие макси¬ мума (3.13) (в каждый момент времени т, /0 т ^/х). Для оптимальности управления и (/) необходимо, чтобы оно удов¬ летворяло принципу максимума. Это и есть та упрощенная формулировка принципа максимума, к которой мы приходим в случае линейной задачи оптимального управления. 28. Принцип максимума — необходимое и достаточное условие оптимальности. Замечательным фактом является то, что в случае линейной задачи оптимального управления принцип максимума представляет собой не только необ¬ ходимое, но и достаточное условие оптимальности. Однако факт этот имеет место не для произвольной ли¬ нейной задачи; имеются малосущественные исключения.
ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 125 § 71 Поэтому мы наложим на линейную задачу некоторое огра¬ ничение— так называемое условие общности положения. Прежде чем формулировать условие общности положе¬ ния, напомним понятие инвариантного подпространства и докажем важную для дальнейшего лемму. Как отмеча¬ лось выше, матрица А определяет линейное преобразование координатного пространства переменных х1, . .., хп (т. е. линейное отображение этого пространства в себя). Это оз¬ начает, что каждому вектору х оно сопоставляет новый вектор у —Ах, определяемый формулами (3.7). В свою оче¬ редь к этому вектору у может быть снова применен опе¬ ратор А, в результате чего мы получим вектор z = Ay = = А(Ау), который условимся обозначать через А2х. Если к этому вектору вновь применить оператор А, то получим еще один вектор, который условимся обозначать через Л3х, и т. д. (Это обозначение корректно, ибо, как нетрудно доказать, ^-кратное применение матрицы А к вектору х равносильно применению матрицы Ak к вектору х.) Некоторое подпространство Y векторного пространства X с координатами х1, . .., хп называется инвариантным, относительно преобразования. А, если для любого вектора y£Y вектор Ау снова принадлежит подпространству Y (т. е. преобразованием А подпространство Y переводится в себя). Инвариантное подпространство называется собст¬ венным, если оно не совпадает со всем пространством X и не совпадает с тривиальным подпространством (состоящим только из нулевого вектора). Имеет место следующий факт (впрочем, очень легко доказываемый): отличный от нуля вектор а^Х в том и только в том случае принадлежит собственному инвариантному подпространству относительно преобразования А, если векторы а, Аа, А2а, ..Ап~га линейно зависимы. Докажем теперь следующую лемму. Лемма III. 1. Пусть ф (/)— некоторое нетривиальное Решение уравнения (3.12) и а — отличный от нуля вектор пространства X. Если для всех t на некотором интервале < t < Э1 выполнено соотношение ф (/) а = 0, то вектор а принадлежит собственному инвариантному подпространству Отпосительно преобразования А.
126 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. [ц Доказательство. Обозначим через Y множество всех векторов у g X, удовлетворяющих (для всех t на ин¬ тервале 0О < t < 9J соотношению ф(/)<у = 0. Ясно, что Y—подпространство (т. е. если уг g Y, у2£ Y, то у± + у2 £ у и ky^Y для любого действительного Далее, подпро¬ странство Y содержит вектор а и потому нетривиально. Кроме того, для любого t из интервала 0О < t < 0Х вектор гр (/) нетривиален, и потому подпространство Y не совпа¬ дает с X. Остается доказать, что Y—инвариантное под¬ пространство. Пусть у g Y. Дифференцируя соотношение = получаем (для всех t на интервале 0О < t < 0Х) 0 = (Ф (*)у) = Ф У)у=- И'Ф Щ)у = =— 2 ( 2 <*“Ф«м)у‘=— 2‘Фа(0(2<#у‘ г = 1 \а=1 / а=1 М = 1 = -ф(0 (Ау). Таким образом, Ау £ К, т. е. подпространство Y инвари¬ антно. Итак, вектор а принадлежит собственному инвари¬ антному подпространству Y. Теперь сформулируем Условие общности положения: если w — век¬ тор, параллельный произвольному ребру многогранника U, то вектор Bw не принадлежит никакому собственному инва¬ риантному подпространству относительно преобразования А. Иначе это условие можно сформулировать следующим образом: если w— вектор, параллельный ребру многогран¬ ника U, то векторы Bw, ABw, A2Bw, ..., An~1B(W линейно независимы. Невыполнение условия общности по¬ ложения означает, что хотя бы для одного ребра много¬ гранника U эти векторы линейно зависимы, т. е. определи¬ тель n-го порядка, составленный из координат этих векторов, обращается в нуль. Так как в многограннике U имеется конечное число ребер, то можно выписать лишь конечное число таких определителей. Условие общности положения означает, что ни один из этих определителей не обращается в нуль. Ясно, что это условие не является особенно стеснительным: если некоторые из определителей и обращаются в нуль, то достаточно слегка изменить ко¬ эффициенты уравнений (3.4) или расположение многогран¬
§7] ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 127 ника U, чтобы все эти определители стали отличными от нуля. Таким образом, невыполнение условия общности по¬ ложения является весьма исключительным случаем, когда коэффициенты уравнений (3.4) и расположение многогран¬ ника U «случайно» оказались подобранными таким образом, что один из определителей обращается в нуль. Иначе го¬ воря, условие общности положения, «как правило», должно выполняться. Еще раз напоминаем, что всюду в дальнейшем условие общности положения предполагается выполненным. Теперь перейдем к теореме, упоминавшейся в начале этого пункта. Предварительно установим следующую лемму. Лемма 111.2. Пусть и (/)— произвольное допустимое управление, заданное на некотором отрезке tQ t а х (t) = (х1 (/), ..., хп (/)) — соответствующая траектория (исходящая из некоторой точки х0). Пусть, далее, ф (t) = = ('Ф1(0» • • - ,Фп(0)—произвольное решение уравнения (3.12). Тогда во всех точках непрерывности управления и (t) выпол¬ нено соотношение и потому ti ■ф (г\) х (/,) — ар (f0) х (t0) = $ (ар (а) Ви (т)) dx. t. Подчеркнем, что в этой лемме управление и (t) не пред¬ полагается оптимальным и условие максимума (3.13) для функций u(t), ф (/) не предполагается выполненным. Доказательство. Мы имеем
128 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. щ (Эго вычисление проходит только в точках непрерывности управления и (/), поскольку только в этих точках можно утверждать, что х (t) = Ах (t) + (0> ср. стр. 69.) Так как, далее, х (/) ф (t) — н е п р е р ы в н а я функция, имеющая производную во всех точках, кроме конечного числа зна¬ чений /, то Ф (ti) X - г|> (/0) X (t0) = у (о х (t)) dt = to = J(1|>(O Bu (t))dt. to Лемма доказана. Теорема III. 3. Пусть u(t), t0 t —допустимое управление, переводящее объект из заданного начального состояния х0 в положение равновесия (0, 0, ..., 0). Для оптимальности управления и (t) необходимо и достаточно, чтобы оно удовлетворяло принципу максимума. Доказательство. Необходимость была уже уста¬ новлена выше; докажем достаточность. Обозначим через х (t), /0 t tv решение уравнения (3.8), соответствую¬ щее управлению н(/); таким образом, x(f0)=x0, х = = (0,0, ..., 0). Выберем, далее, такое нетривиальное ре¬ шение ф (/) уравнения (3.12), для которого при tQ ==С т выполнено условие максимума (3.13); такое решение ф (/) существует, так как управление u(i), по предположению, удовлетворяет принципу максимума. Допустим, что управление u(t) не оптимально. Тог¬ да существует такое допустимое управление u(t) = = (и1 (/), и2 (/), ..., иг (/)), под воздействием которого фазовая точка, выходящая в момент tQ из положения х0, попадет в на¬ чало координат в момент времени 9 < tr (т. е. р а н ь ш е, чем при движении по траектории x(t)). Фазовую траекторию, исходящую из точки х0 и соответствующую управлению u(t), обозначим через x(t) = (x1(t)1 х2 (f), ..., хп (/)). В силу условия максимума (3.13) мы имеем ф (t) Ви (t) = max ф (/) Ви ф (t) Ви (/). (3.14)
§7] ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 129 Так как обе траектории х (t) и х (t) выходят в момент /0 из одной и той же точки х0, то Ф(^0) Wo) = Wo) Wo)- Кроме того, очевидно, Wi) Wi) = W) * (9) = о. Таким образом, в силу леммы 111.2 мы получаем (см. (3.14)) ф (0) х (9) = ip (0) х (0) —ф (0) х (0) = = [гр (9) х (0) - гр (/0) х О - [гр (9) х (0) - гр (/0) х (f0)] = 0 0 = J (гр (т) Ви (т)) dx — J гр (т) Ви (т)) dx 0. ^0 ^0 С другой стороны, гр (/)/?#(/) = max гр (/) Ви 0 (при лю- ueU бом /), ибо точка и1 = и2, = . . . = иг = 0 принадлежит мно¬ гограннику U. Следовательно, гр (0) х (0) — гр (0) х (0) — гр (/х) х (/х) = ti ~ J (гр (т) Ви (т)) dx 0. 9 Таким образом, гр (0) х (9) = 0 и на интервале 0 < t < мы имеем гр (/) Ви (/) = max гр (/) Ви = 0. (3.15) иеи Обозначим теперь через Ux ту грань многогранника U, которая содержит начало координат пространства (и1, . . ., иг) внутри себя. Многогранник Ur может либо совпадать с U, либо быть собственной гранью многогранника £7, но во всяком случае размерность многогранника £7Х не меньше единицы (ибо начало координат не является вершиной многогранника £7, см. условие 3) на стр. 122). Так как во внутренней точке многогранника £7Х (начале коорди¬ нат) функция гр (/) Ви принимает значение 0 и, кроме того, max гр (/) Ви = 0, то гр(/)Ви = О для всех точек и £ U± и ueU для всех t на интервале 9 < t < tr. В частности, если и' и и" — концы какого-либо ребра грани £7Х (напомним, что 5 В. Г. Болтянский
130 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill размерность этой грани 1 и потому у нее есть ребра), то ф (/) Ви' = ф (/) Ви” = 0. Следовательно, для вектора w ~ и”— и', направленного по ребру многогранника U, мы имеем: ф (/) Яш = ф (/) Zta" — ф (7) Ва'= О (для всех t на интервале 9 < t < /х). В силу леммы III. 1 (стр. 125) отсюда вытекает, что вектор Bw принадлежит собственному инва¬ риантному подпространству относительно преобразования Л, а это противоречит условию общности положения. Итак, предположение 0 < t± приводит к противоречию; тем самым оптимальность управления и (t) доказана. 29. План решения линейной задачи оптимального уп¬ равления. Доказанные выше теоремы открывают удобный путь для нахождения оптимальных управлений. Заметим прежде всего, что система (3.11) (или (3.12)) является системой линейных уравнений с постоянными коэффициен¬ тами. В нее не входят переменные х1 и uJ (ср. уравнения (С) на стр. 104), и потому система (3.11) решается незави¬ симо от уравнений (3.4). Как известно (см. стр. 67), си¬ стема (3.11) однозначно решается, если задано начальное значение ф0 = (ф10, ф20, •••» %о) (в мом^нт ^о) величины ф = (ф15 ф2, . фл). Это и есть первый шаг в решении линейной задачи оптимального управления; мы сформули¬ руем его следующим образом. Задача I. Найти решение ф (/) системы (3.11) при про¬ извольно заданном начальном значении ф(/0) = ф0. Решение этой задачи дается классическими теоремами о линейных дифференциальных уравнениях с постоянными коэффициентами (или методами операционного исчисления), если известны корни характеристического уравнения. Су¬ ществуют также хорошо разработанные приближенные методы решения этой задачи, в частности решение этой задачи с помощью моделирующих устройств (ср. п. 31). Поэтому будем считать, что задачу I мы решать умеем. Так как, далее, принцип максимума является необходи¬ мым условием оптимальности, то всякое оптимальное управ¬ ление должно удовлетворять условию максимума (3.13), и мы приходим к следующей задаче. Задача II. Зная некоторое нетривиальное решение ф(/) системы (3.11), найти управление u(t), удовлетворяющее условию максимума (3.13).
§7] ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 131 Эта задача представляет собой важный шаг при нахож¬ дении оптимальных процессов; ее решению посвящен сле¬ дующий пункт (п. 30). Мы увидим там, что управление и (/) однозначно определяется из .условия максимума (3.13), т. е. задача И допускает (при заданной функции ф (/)) единственное решение u(t). Следующий шаг напрашивается сам собой. Задача III. Зная управление и (t), найти соответств ующую траекторию x(t), исходящую из заданной начальной точки х0. Эта задача сводится к решению системы (3.4), которая (при известной функции u(t)) просто представляет собой неоднородную линейную систему обыкновенных дифферен¬ циальных уравнений с постоянными коэффициентами. Таким образом, задача III—это опять классическая, хорошо изу¬ ченная задача из теории дифференциальных уравнений. Мы видим, что решение задач I, II, III сравнительно не¬ сложно. В п. 31 показано, что все три задачи I, II, III могут быть сразу решены при помощи моделирующего устройства, включающего релейные элементы. Итак, предположим, что задачи 1, II, III мы решать умеем. Это означает, что, выбрав произвольное (ненулевое) начальное значение ф0, мы сможем однозначно определить ф(/), затем u(t) и, наконец, траекторию х(/), исходящую из заданного начального положения х0 (рис. 83). Таким образом, в силу принципа максимума в конечном счете траектория х (/) однозначно определяется выбором началь¬ ного значения ф0. Вообще говоря, если мы наудачу выбрали начальное значение ф0, у нас мало шансов надеяться на 5*
132 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ш то, что полученная траектория х (t) попадет в начало ко¬ ординат (рис. 83). Однако при разных гр0 будут получаться разные траектории, исходящие из х0 (рис. 84). Если удастся найти именно такое начальное значение %, что траектория x(t) проходит через начало координат, то. управление и (t) и траектория x(t), полученные указанным способом, будут оптимальными. Это непосредственно вытекает из того, что если траектория x(t) ведет в начало координат, то принцип максимума является достаточным условием оптималь¬ ности (стр. 128). Мы приходим к следующей задаче поиска начального значения. Задача IV. Найти начальное значение при котором соответствующая траектория х (/) приходит в начало коор¬ динат, В связи с постановкой задачи IV прежде всего возни¬ кает вопрос: можно ли найти требуемое значение ip0? Иначе говоря, существует ли оптимальный процесс, веду¬ щий из х0 в начало координат? Вопрос этот решается теоремами существования (п. 33) и единственности (п. 32), утверждающими, что (при некоторых разумных ограниче¬ ниях) из любой начальной точки х0 идет в начало коор¬ динат оптимальная траектория и притом только одна. Теорема существования показывает, что задача IV яв¬ ляется осмысленной, т. е. что для заданной точки xQ возможно подобрать требуемое начальное значение ip0. Однако метод, которым в п. 33 доказывается теорема су¬ ществования, совершенно не позволяет вычислить требуемое начальное значение %. Поэтому и после доказательства теоремы существования задача IV в полной мере сохраняет свое значение как вычислительная задача. Точное решение задачи IV неизвестно (и вряд ли воз¬ можно). Однако существуют достаточно убедительные приближенные методы решения этой задачи. Идея приближенного решения заключается в следующем. Взяв произвольное начальное значение г|)0, затем его определен¬ ным способом «улучшают» — так, чтобы траектория, соот¬ ветствующая «улучшенному» начальному значению, ближе подходила к началу координат. Затем новое начальное значение опять «улучшают» и т. д. Если окажется, что процесс последовательных «улучшений» сравнительно быстро
§ 7] ЛИНЕЙНАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 133 сходится к требуемому начальному значению, то мы, таким образом, получаем возможность приближенного решения задачи IV. Такие процессы «улучшения», дающие прибли¬ женное решение задачи IV, мы и описываем в пп. 35, 36. Указанное приближенное решение задачи IV, связанное с перебором траекторий, исходящих из точки х0 (рис. 84), всецело направлено на то, чтобы отыскать одну опти¬ мальную траекторию, исходящую из данной начальной точки х0. При таком методе, в соответствии с задачей II, мы находим оптимальное уп¬ равление и = и (t) как функцию времени t. Для каждого нового начального значения х0 весь процесс расчета прихо¬ дится проделывать заново. Как уже говорилось во введении (стр. 49—53), значительно более удобным является ре¬ шение задачи оптимального управления в форме с и н т е- з а, когда оптимальное управ¬ ление и = ^(х) ищется как функция точки х фазового про¬ странства. Решение в форме синтеза удобнее тем, что оно пригодно для любого на¬ чального значения х0. Заметим, что построение синтезирующей функции v (х) производится при помощи метода, в известной степени обратного тому методу «пристрелки в начало координат», с помощью ко¬ торого решается в пп. 35, 36 задача IV. Именно, рассмат¬ риваются не траектории, исходящие из фиксированного начального положения х0 (рис. 84), а траектории, входя¬ щие в начало координат (и удовлетворяющие принципу максимума). Все эти траектории оптимальны, так как для траекторий, входящих в начало координат, принцип мак¬ симума есть достаточное условие оптимальности. Поэтому, построив достаточно «густую» сеть таких траекторий (рис. 85) и двигаясь по ним «попятным движением» от начала координат, можно запомнить, какие значения при¬ нимает оптимальное управление в разных точках фазового
134 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III пространства. Это и дает приближенное построение син¬ тезирующей функции т/(х). Следует, однако, сказать, что если порядок п системы (3.4) больше двух, то задача нахождения синтезирующей функции 'У(х), как правило, становится в вычислительном отношении чрезвычайно тру¬ доемкой и практически невыполнимой. Достаточно сказать, что информация, которую необходимо запомнить для по¬ строения значений синтезирующей функции, совершенно необозрима. Вот почему метод «пристрелки» является практически более ценным. Для систем же второго порядка решение проблемы синтеза (причем точное, а не прибли¬ женное) сравнительно несложно; оно приводится в пп. 38, 39. § 8. Основные теоремы о линейных оптимальных быстродействиях 30. Теоремы о числе переключений. В этом пункте мы докажем основные теоремы, связанные с решением задачи II, сформулированной в предыдущем пункте. Теорема III.4. Для каждого нетривиального решения ф (/) уравнения (3.12) соотношение (3.13) однозначно опре¬ деляет управление и (t) (с точностью до значений в точках разрыва); при этом оказывается, что функция и (/) кусочно¬ постоянна и ее значениями являются лишь вершины много¬ гранника U. Доказательство. Скалярное произведение п г 1|)(0Ва=2 2 (3.16) а=10=1 при каждом фиксированном t является, очевидно, линейной функцией переменных и1, и2, ..., иг. Поэтому, согласно сказанному на стр. 119, множество всех тех точек, в ко¬ торых это скалярное произведение (рассматриваемое только на многограннике U) принимает свое наибольшее значение, является некоторой гранью многогранника U (сам много¬ гранник U для удобства тоже считают его наибольшей гранью). Будем различать два случая: либо скалярное про¬ изведение (3.16) принимает наибольшее значение только в одной вершине многогранника U, либо же максимум достигается на некоторой грани, имеющей размерность 1.
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 135 В последнем случае функция (3.16) постоянна на той грани, где достигается наибольшее значение, и уж во всяком случае найдется ребро, на котором функция (3.16) постоянна. Если и', и" — концы этого ребра, то ф (/) Ви' = = ty(t)Bu") и потому для вектора w^u" — u', идущего вдоль этого ребра, мы имеем ф (t) Bw = ф (t) (Ви” — Ви') = ф (t) Ви" — ф (/) Ви' = 0. Итак, для каждого момента t имеются следующие две возможности: 1) скалярное произведение (3.16) достигает максимума только в одной вершине многогранника U; 2) в противном случае обязательно найдется такое ребро многогранника Ц что для вектора w, идущего по этому ребру, справедливо соотношение ф(/)Вге/ = О. Покажем, что на любом отрезке второй случай может иметь место лишь для конечного числа моментов времени Л В самом деле, допустим, что второй случай имеет место для бесконечного числа значений t на отрезке tQ^t Так как у многогранника U имеется лишь конечное число ребер, то мы можем выбрать бесконечное число моментов времени, в которые равенство ф(/)В^ = 0 имеет место для одного и того же ребра. Пусть w1, w2, ..., wr — координаты вектора w, идущего вдоль этого ребра. Тогда п г T|)(/)5w=S 2 (3.17) а=1р=1 т. е. это скалярное произведение представляет собой ли¬ нейную комбинацию функций фх(/), ..., фп(/). Эти функ¬ ции аналитичны, так как они составляют решение ф(/) системы (3.11) с постоянными коэффициентами. Сле¬ довательно, линейная комбинация (3.17) также является аналитической функцией переменного t. Но так как ана¬ литическая функция (3.17) обращается в нуль для беско¬ нечного числа значений t на отрезке tQ t /х, то она тождественно равна нулю: ф(^)В<ш = 0, Следовательно, в силу леммы III.1 (стр. 125) вектор w принадлежит собственному инвариантному подпростран¬ ству относительно преобразования Д, а это противоречит
136 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. in условию общности положения. Полученное противоречие и доказывает наше утверждение. Итак, для всех Z, tQ <1 t t±, кроме конечного числа значений, функция (3.16) достигает (на U) максимума лишь в одной точке, являющейся вершиной многогранника U. Но условие максимума (3.13) означает, что в точке и = u(t) функция (3.16) достигает максимума. Следовательно, для всех /, кроме конечного числа значений, функция и (t) однозначно определена и принимает значения лишь в вер¬ шинах многогранника U. Далее, отметим на отрезке /0 все точки, в ко¬ торых управление и (/) не определено однозначно (т. е. те точки, в которых функция (3.16) достигает максимума на грани, имеющей размерность 1). Эти точки вместе с кон¬ цами f0, разбивают отрезок /0 на конечное чи¬ сло интервалов. Нетрудно видеть, что на каждом из этих интервалов функция и (/) постоянна. В самом деле, пусть J— один из этих интервалов. Предположим, что в двух точках t" интервала J (где I' < t") функция и (/) при¬ нимает различные значения: u(t') = e', U(f') = e"^e't Иначе говоря, функция ф (/') Ви принимает максимальное значение в вершине и = е', а функция ф (Z") Ви — в вершине и = е". Рассмотрим на интервале J графики функций ф (/) Be для всех вершин е многогранника U. Тогда в точке t = t' график функции ф(£)Ве' идет выше всех остальных гра¬ фиков, а в точке t = t" выше всех идет график функции ф(/)£?е". Следовательно, где-то между t' и t" графики функций ф (/) Be' и ф (t) Be" должны пересечься. Рассмотрим все графики, пересекающие график функции (t) Be' между t' и t" (такие графики есть, например ф (/)/?/'), и пусть е'" — такая вершина, что график функции ф (/)£?/" пересекает ф (t) Be' между t' и t" в самой близкой к t’ точке (рис. 86). Тогда при f, лежащем между t' и график ф(/)Ве' расположен выше всех остальных графи¬ ков, т. е. максимум функции ф (/) Ви достигается в вер¬ шине и = е', В точке же t — t* максимум достигается по крайней мере в двух вершинах: и = е' и и = е'". Но так как /* — внутренняя точка интервала J, то при t — f* мак¬ симум должен достигаться только в одной вершине. По¬
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 137 лученное противоречие показывает, что функция и (/) должна быть постоянной на интервале J. Таким образом, функция u(f) кусочно-постоянна, при¬ нимает значения в вершинах многогранника U и определена однозначно (с точностью до значений в точках разрыва). Теорема полностью доказана. Каждую точку разрыва оптимального управления' мы будем называть точкой переключения. Более точно, если т — точка разрыва оптимального управления и ‘(f) и если и (т — 0) — eh и (т + 0) = еу-, где и — различные вершины многогранника U, то мы будем говорить, что при t = x происходит переключение оптимального управления и (/) из вершины et в вершину ej. Доказанную теорему можно кратко охарактеризовать как теорему о конечности числа переключений. В общем случае число переключений хотя и конечно, но может быть произвольным. Существует, однако, один важный для при¬ ложений случай, когда число переключений допускает точ¬ ную оценку. Этот случай рассматривается в нижеследую¬ щей теореме, принадлежащей А. А. Фельдбауму. Теорема III.5. Предположим, что многогранник U яв¬ ляется r-мерным параллелепипедом (3.5) и что все собст¬ венные значения матрицы А —(а1;), составленной из коэффи¬ циентов уравнений (3.4), действительны. Тогда в оптималь¬ ном управлении и (/) = (и1 (/), . . ., иг (/)) каждая из функций Р=1, кусочно-постоянна, принимает только значения а? и № (см. (3.5)) и имеет не более п—1 пере¬ ключений (т. е. не более п интервалов постоянства), где п — порядок системы (3.4).
138 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ш Доказательство. Для того чтобы функция •ф (о ви = s (2 ,Ф« со £₽и?) 3=1 а=1 принимала максимальное значение, необходимо, чтобы каждая из функций 0 = 1, 2,..., г, а=1 принимала максимальное значение (ибо область изменения каждой из величин н1, ...,иг не зависит от значений остальных). Следовательно, величина должна прини¬ мать значение а\ если функция (3.18) а= 1 отрицательна, и значение #3, если эта функция положи¬ тельна. Иначе говоря, величина и? (t) принимает только значения а? и № и число переключений равно числу пере¬ мен знака функции (3.18). Таким образом, нам остается установить, что функция (3.18) имеет не более п—1 пе¬ ремен знака. (Заметим, что функция (3.18) может обра¬ щаться в нуль лишь в конечном числе точек, ибо, согласно теореме III.4, существует лишь конечное число моментов времени, когда величина (t) не определяется однозначно из условия максимума.) Допустим, что функция (3.18) имеет на некотором от¬ резке i0 t tr не менее п перемен знака. Если немного изменить коэффициенты а), сохранив начальное значение ф(/0), то решение ф (/) системы (3.11) также изменится; однако изменение этого решения на отрезке будет сколь угодно малым, если достаточно мало изме¬ нятся коэффициенты а\. Следовательно, функция (3.18) тоже мало изменится на отрезке Но при до¬ статочно малом изменении функции (3.18) число ее перемен знака на отрезке t0 t не может уменьшиться. Таким образом, если достаточно мало изменить коэффициенты а}, то функция (3.18) по-прежнему будет иметь не менее п перемен знака. Заметим теперь, что малым изменением ко¬
ОСНОВНЫЕ ТЕОРЕМЫ 139 § 81 эффициентов alj всегда можно добиться того, чтобы все собственные значения матрицы А = (а}) остались действи¬ тельными, но стали попарно различными. Мы можем по¬ этому считать собственные значения матрицы А попарно различными (немного изменив, если необходимо, коэффи¬ циенты а}). Итак, предположим, что функция (3.18) имеет не менее п перемен знака, причем все собственные значения матрицы А (а значит, и матрицы — Л') действительны и различны. Обозначим через Х2, . . ., собственные значения ма¬ трицы—А'. Каждая из функций фх (/), ...,ф„(/), состав¬ ляющих решение ф (/) системы (3.11), имеет вид ...+С„еЧ (3.19) где Сх, . . ., Сп — действительные константы. Следовательно, такой же вид имеет и линейная комбинация (3.18). Таким образом, наше предположение приводит к тому, что функ¬ ция (3.19) (не равная тождественно нулю) имеет не менее п перемен знака. Но, как показывает нижеследующая лемма, это невозможно, чем доказательство теоремы III.5 и завер¬ шается. Лемма III.6. Если Х2, . . ., *kn— попарно различные действительные числа, то функция (3.19) с действительными (не обращающимися одновременно в нуль} коэффициентами Сх,. . ., Сп не может иметь более п— 1 действительных корней. Доказательство. При п = 1 лемма, очевидно, спра¬ ведлива (функция не имеет действительных корней). Предположим, что лемма уже доказана для случая, когда в формуле (3.19) имеется меньше чем п слагаемых, и до¬ кажем ее для п слагаемых. Допустим, что лемма неверна и функция (3.19) имеет не менее л действительных корней. Умножив функцию (3.19) на (что не изменит ее кор¬ ней), мы получим функцию Cie(M-4)'4- .. . 4_cn_ie(4-t-*n)/ + c„, (3.20) которая также имеет не менее п действительных корней. Так как между каждыми двумя действительными корнями функции лежит по крайней мере один корень ее произ¬ водной, то производная функции (3.20) имеет не менее п— 1
140 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III действительных корней. Но эта производная равна Сх . +<?„_! (Хп_х-Х„) еСЧ-.-ЧХ, (3.21) причем числа — Ли, . очевидно, попарно различны. Согласно предположению индукции функция (3.21) имеет не более п—2 действительных корней, вопреки тому, что было сказано ранее. Полученное противоречие и завершает индукцию. Хорошей иллюстрацией к теореме III.5 может служить пример, рассмотренный на стр. 38—44. В этом примере п = 2, г = 1, а собственные значения матрицы (tzj) дейст¬ вительны (Х1 = А2 = 0). Следовательно, по теореме III.5 оп¬ тимальное управление и (Z) имеет не более одного пере¬ ключения. Это мы и видели при решении примера. Дру¬ гими иллюстрациями к теореме III.5 могут служить примеры, рассматриваемые в п. 39 (когда область управления является отрезком или параллелограммом). 31. Моделирование оптимальных процессов релейными схемами. В этом пункте мы укажем способ построения моделирующего устройства, позволяющего решать сразу три задачи I, II, III, сформулированные в п. 29, т. е. по¬ зволяющего по заданному начальному значению ф0 нахо¬ дить соответствующую траекторию х (/), удовлетворяющую принципу максимума. Это моделирующее устройство состоит из двух линейных объектов с уравнениями (3.4) и (3.11) и некоторого числа релейных элементов, количество и схема соединения которых определяются многогранником U и матрицей В. Переходим к математическому описанию указанного мо¬ делирующего устройства. Рассмотрим линейный объект, фазовые состояния которого описываются переменными фр... . . ., фл, изменяющимися по закону (3.11). Этот объект мы будем условно обозначать так, как показано на рис. 87. Задание начальных значений для величин фх, . . ., фп (т. е. задание вектора ф0) однозначно определяет дальнейшее изменение величин фх, ф2, . .., фп во времени. Исходный объект (описываемый уравнением (3.8)) мы будем изобра¬ жать так, как показано на рис. 88. Для того чтобы одно¬ значно было определено изменение (во времени) выходных величин (т. е. фазовых координат) х1, . хп, нужно за-
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 141 дать начальное фазовое состояние х0 объекта и изменение (во времени) входных величин и1, . . ., иг (т. е. управляю¬ щих параметров). Требуемое моделирующее устройство имеет вид, указанный на рис. 89. Левый «ящик» представ¬ ляет собой линейный объект, изображенный на рис. 87 и Рис. 87. Рис. 88. предназначенный для решения сформулированной в п. 29 задачи I. Правый «ящик», отдельно изображенный на рис. 88, предназначен для решения задачи III. Наконец, средний «ящик» на рис. 89 предназначается для решения задачи II, Рис. 89. т. е. он должен по данным (^), ...,%(/) вырабатывать управления u1 (f), . . ., ur (t), удовлетворяющие условию мак¬ симума (3.13). Описанию этого среднего «ящика» и посвя¬ щена остальная часть этого пункта. Прежде всего отметим частные случаи, в которых уст¬ ройство среднего «ящика» особенно просто. Рассмотрим сначала случай, когда в уравнение (3.8) входит только один управляющий параметр ц, изменяющийся в пределах — 1<а<1 (т. е. случай, когда многогранник U представ¬ ляет собой отрезок [ — 1, 1]). В этом случае матрица (#/) пре¬ вращается в столбец (61, #2, а функция (3.16)
142 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill имеет вид п 2 (0 а= 1 Поэтому из условия максимума мы получаем п u = sign (2 (3.22) a = i Иначе говоря, если мы рассмотрим вспомогательную вели¬ чину (3.23) а= 1 то управление u(f), удовлетворяющее условию максимума, определится формулой tf = signg. (3.24) Переход от величин ф1, ... . к величине g, определяе¬ мой формулой (3.23), осуществляется некоторым суммиру¬ ющим устройством, условно изображенным на рис. 90. На Рис. 90. Рис. 91. рис. 91 показано условное изображение релейного элемента, т. е. объекта, входная и выходная величины которого свя¬ заны соотношением (3.24). Если теперь мы соединим объ¬ екты, изображенные на рис. 90 и 91, то мы и получим интересующий нас средний «ящик» (рис. 92), предназначен¬ ный для решения задачи II, т. е. преобразующий величины ф1, . . ., в величину и по формуле (3.22). Проведенные рассуждения легко обобщаются на тот случай, когда область управления U является г-мерным параллелепипедом (3.5). В этом случае (см. доказательство теоремы III.5 на стр. 138) величина и? должна принимать
§ 81 ОСНОВНЫЕ ТЕОРЕМЫ 143 значение если функция (3.18) отрицательна, и значение ДО, если эта функция положительна. Иначе говоря, q , 63 — аЗ . . о . _ «? = —2~ Н 2~ sign 0=1, (3.25) где величина определяется формулой (3.18). Переменные . . ., 1-г являются линейными формами (возможно, линейно Рис. 92. зависимыми) от г|?х, ...,фп. Переход от переменных к переменным осуществляется суммирующим устройст¬ вом, условно изображенным на рис. 93. Значения величин определяются величинами но обратного воздействия на них не оказывают (это выражено на рис. 93 направлением Цтм- • • • • • • Рис. 93. Рис. 95. Рис. 94. стрелок). Каждую из величин подадим на свой релейный элемент; выходы этих релейных элементов обозначим через П1, Лг, • • •> Л, (рис. 94): Л3 = sign 0 = 1, ...» г. Теперь остается перейти от Г|3 к и? по формулам (ср. (3.25))
144 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill (рис. 95), т. е. умножить каждую из величин Т|? на неко¬ торый коэффициент и добавить смещение (дополнительное слагаемое). В результате мы и получаем искомое модели¬ рующее устройство (рис. 96). Рис. 96. Наконец, перейдем к рассмотрению общего случая, когда многогранник U произволен. Пусть wv w2, ..wT (3.26) — попарно неколлинеарные векторы, имеющие направление ребер многогранника U (т. е. каждый из векторов (3.26) параллелен хотя бы одному ребру многогранника U и для каждого ребра имеется в системе (3.26) один параллельный Рис. 97. Рис. 98. ему вектор). Координаты вектора Wj будем обозначать че¬ рез W/, ...,W/. Положим sj =-- ■ф Bwj=s s a=i3=i /=1, ...,Y (3.27)
§ 81 ОСНОВНЫЕ ТЕОРЕМЫ 145 (рис. 97). Каждую из величин g2, . .., подадим на свой релейный элемент: T]/ = sign£/, /=1, ... ,Y (3-28) (рис. 98). Пусть теперь ev . . ., eq — все вершины многогранника U. Рассмотрим какую-либо одну вершину et, и пусть j—одно из чисел 1,2, . . ., у. Если исходящий из вершины et век¬ тор, равный Wy, идет по одному из ребер многогранника U, примыкающих к этой вершине, то положим е/у. = + 1. Если исходящий из вершины ei вектор, равный —Wy, идет по одному из ребер многогранника U, примыкающих к этой вершине, то положим &ij = —1. Если же ни один из этих двух случаев места не имеет, то символ efy не определяется. Фиксируем некоторый индекс /(=1,2, . . ., q) и будем рассматривать только такие индексы /, для которых символ efy определен. Тогда векторы (рассматриваемые для указанных индексов у) направлены по ребрам многогран¬ ника U, исходящим из вершины et. Пусть теперь ф = = (гри ф2, . . ., ф„) —произвольный отличный от нуля век¬ тор. Рассмотрим линейную функцию BU = 2 2 = 2 ( 2 (3-29) а=13=1 3 = 1 \а = 1 / переменных и1, . . ., иг. Приравнивая эту линейную функ¬ цию нулю, мы получим в пространстве переменных а1, . . ., иг некоторую гиперплоскость Г. Через п обозначим вектор (в пространстве переменных и1, . . ., ur), имеющий /-ю коор- п динату 2 * = Ъ .. г. Этот вектор ортогонален ги- а=1 перплоскости Г (ср. стр. 59). Согласно сказанному на стр. 119, для того чтобы функция (3.29), рассматриваемая на многограннике U, принимала в вершине максимальное значение, необходимо и достаточно, чтобы для каждого вектора w, исходящего из вершины ei и идущего по ребру многогранника (7, было выполнено соотношение /zw^O. Иначе говоря, для этого необходимо и достаточно, чтобы
146 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. ш для всех индексов /, для которых символ е-у определен. В силу (3.27) последнее неравенство принимает вид Заметим еще, что равенство ef..gy = O или, что то же самое., 0 (см. (3.27)) может, в силу теоремы III.4 (стр. 134), выполняться лишь для конечного числа значений /, ко¬ торые мы не будем принимать во внимание. Таким образом, Рис 99. Рис. 100. Рис. 101. для того чтобы функция (3.29) достигала максимума в вер¬ шине необходимо и достаточно, чтобы для всех j (для которых символ определен) выполнялось неравенство < 0 или, что т0 же самое> равенство ei7,Tl/= 1 (3.30) (см. (3.28)). Положим теперь ^. = /,— 1+26,7^ * = 1,2, (3.31) 1 где Zf— число ребер многогранника £7, примыкающих к вер¬ шине а суммирование распространено на все значения /, для которых символ efy- определен (так что в этой сумме имеется Zf слагаемых). Переход от величин т|у к величинам t)i (по формулам (3.31)) условно обозначен на рис. 99. Вели¬ чина принимает значение—1, если для всех J выпол¬ нено равенство (3.30), и положительное значение, если хотя бы для одного j выполнено равенство е^у = + 1. Таким образом, функция (3.29) в том и только в том слу¬ чае достигает своего максимума в вершине и — е^ если £z<;0. Подав величины £х, . . ., £ на релейные элементы и обозначив выходные величины через Хх, (рис. 100),
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 147 мы найдем, что максимум функции (3.29) в том и только в том случае достигается в вершине u = eh если выпол¬ нено равенство X- =—1. Из сказанного ясно, что в любой момент t (за исключением конечного числа моментов, когда хотя бы одна из величин обращается в нуль) одна из величин Хх- принимает значение —1, а остальные — значе¬ ние -f- 1. Рис. 102. Пусть теперь е*,...,е[— координаты вершины много¬ гранника U. Положим = О-Х»)*»’ Р=1, .... г (3.32) а=1 (рис. 101). Из (3.32) ясно, что точка (и1, иг) совпа¬ дает с вершиной eit если = —1, а остальные величины Ха равны +1. Иначе говоря, если условие максимума (3.13) определяет единственную точку и = (и1, и2,..., иг), то эта точка задается формулами (3.32). Соединим теперь объекты, изображенные на рис. 87, 97—101 и 88, вместе. Мы получим схему, показанную на рис. 102. Из сказанного выше ясно, что эта схема как раз и представляет собой искомое моделирующее устройство, т. е. что средний «ящик» вырабатывает функции и1 (/), . . ., иг (/), удовлетворяющие условию максимума (3.13) 32. Теорема единственности. Лемма Ш.7. Пусть u(t) — произвольное допустимое управление, заданное на отрезке tQ t Обозначим через (/=1, ..., п) вектор пространства X, у которого
148 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill i-я координата равна единице, а все остальные координаты равны нулю. Далее, обозначим через (/) решение уравне¬ ния х = Ах с начальным условием (p.t- (/0) = а через ф1 (t)— решение уравнения ф = — /Tip с тем же начальным условием ф* (f0) = ei (/=1, п). Тогда траектория x(t), соответствующая управлению и (/) и исходящая в момент tQ из точки xQ = (xj, . . ., Хо), определяется формулой*) п = 1 п с х (0 = 2 ф/ (0 х‘о + \ W («) Ви (т)) dx i=1 L t0 < t < /r Доказательство. В начальный > 1 о (3.33) мы имеем момент ф/ (М (U = при i = J, при i j. *) Укажем матричное истолкование формулировки леммы III.7 и, в частности, формулы (3.33). Если мы запишем решения ф/(О и ф1 (/) в координатной форме: Ф/ (0=(ф/ (0. ф? (О Ф,- (0). Ф1' (0=^ (0. ф'2(0 ’О», то получим две матрицы: ф (О = (<р/ (/)), Ф (0 = (0). Ясно, что Ф (/) представляет собой матричное решение уравнения Х=АХ с начальным условием Ф (f0)=E, где Е—единичная ма¬ трица (см. Л. С. Понтрягин, Обыкновенные дифференциальные уравнения, стр. 136), а Т (0—матричное решение уравнения Х= — А'Х. Соотношения (3.34), доказываемые ниже, показывают, что 4е (/)=Ф-1 (/), т. е. матрицы Ф (/) и Т (/) взаимно обратны. Результат применения матрицы Т (t) = Ф-1 (t) к вектору Bu(t) представляет собой вектор,1? (t) Bu(t), имеющий координаты ф1 (/) Bu(t), Z=1, ..., п. Таким образом, в матричной записи формула (3.33) принимает вид Х(О=Ф (О t х0+ Ф-1 (т) Ви (т) dx Соотношение (3.35) в матричной записи очевидно.
§8] ОСНОВНЫЕ ТЕОРЕМЫ 149 Следовательно, согласно теореме II.8 (стр. 76) и для любого i выполнены соотношения , ( 1 при I = J, о „р„ <3-34’ Покажем теперь, что для любого вектора а простран¬ ства X выполняется соотношение (при любом /, 2 <р< (0 (о°) =а- (3-35) i — 1 В самом деле, обозначим вектор, стоящий в левой части, через а'. Тогда для любого /= 1, . ..,/z мы имеем (в силу (3-34)) а' = 2<РгЮ (1|/(0а)| = _i=l J = 2 (W)<Pi(W (0а) = ^(0 <*, i = l т. е. г|/ (/) (а' — а) = 0. Так как векторы ф1(/), . ..,ф"(/) линейно независимы (они составляют фундаментальную систему решений уравнения (3.12)), то из равенств ф7 (/)(#'— а) = 0, 7=1, вытекает, что а' — а = 0, т. е. а' = а. Тем самым равенство (3.35) доказано. Применяя лемму III.2 (стр. 127), мы находим f (t) X (t0) x0 = J (т) Ви (т)) Л /о или, что то же самое, t (О х (/) =4+$ (т) Ви (т)) dx, ^0 (поскольку ф: (iQ) х0 = eixQ=xl()). Наконец, из формулы (3.35) мы и получаем требуемое соотношение:
150 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1Ц Теорема III.8 (теорема единственности). Пусть u±(t) и u2(t)— два оптимальных управления, задан¬ ных соответственно на отрезках tQ t tr и tQ t t2 и переводящих точку х0 в начало координат. Тогда эти управления совпадают, т. е. t1 = t2 и u1(i) = u2(t) на отрезке tQ t Доказательство. Прежде всего, ясно, что ^ = /2, ибо если бы было, например, tr < /2, то управление д-=н2(/), требующее большего, чем (/), времени для попадания в начало координат, не было бы оптималь¬ ным. Таким образом, при обе траектории, исходящие из точки х0 и соответствующие управлениям и± (/) и и2 (/), приходят в одну и ту же точку (начало координат). Ис¬ пользуя формулу (3.33), можно записать этот факт следу¬ ющим образом: 2 Ф/ (М i = l х'о + J (ф' (т) Виг (т)) dr = 2 ф,- (G) 1=1 tl Х‘о + J (Я5' (Т) Ва2 СО) ^0 Отсюда получаем п = 0. Так как векторы фх (fx), ...,ФЛ(^1) линейно независимы, то из последнего равенства следует, что J (ф1 (т) Виг (т)) dx = J (ф* (т) Ви2 (т)) dx, Z = 1, ..., л. (3.36) ^0 ^0 Пусть теперь ф (t)— решение уравнения (3.12), соот¬ ветствующее, в силу принципа максимума, оптимальному управлению и± (/). Так как функции ф1 (/), . . ., ф" (/) состав¬ ляют фундаментальную систему решений уравнения (3.12), то функция ф (/) выражается через них линейно: Ф(О = ^Фх(О+...+^Ф" (0-
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 151 Умножая соотношение (3.36) на и суммируя по /, получаем J (1|) (т) Ви1 (т)) dx - J (ip (т) Виг (т)) dx. (3.37) to to Но в силу условия максимума мы имеем (на отрезке ф (/) Виг (t) = max (ф (/) Ви) ф (/) Ви2 (fj, и € и и из (3.37) вытекает, что ф (/) Вих (/) = ф (/) Ви2 (I) на всем отрезке Следовательно, оба управления мх(/), я2 (/) удовлетворяют условию максимума с одной и той же функцией ф (/) и потому (в силу теоремы III.4, стр. 134) и± (t) = u2 (/). 33. Теорема существования. Пусть G—некоторое мно¬ жество точек, расположенное в фазовом пространстве X. Напомним, что множество G называется открытым, если для каждой его точки можно найти (хотя бы небольшой) шар с центром в этой точке, целиком принадлежа¬ щий множеству G (рис. 103). Иначе говоря, множество G открыто, если к нему не причисляется ни одна точка его границы. Далее, множество /?, расположенное в пространстве X, называется замкнутым, если его до¬ полнительное множество (со¬ стоящее из всех точек пространства X, не принадлежащих множеству R) открыто. Иначе говоря, множество R замкнуто, если к нему причисляются все точки его границы. Областью управляемости для процесса (3.8) (не путайте с областью управления, т. е. с многогранником U\) мы будем называть множество всех тех точек х0 фазо¬ вого пространства X, из которых возможно при помощи какого-либо допустимого управления попасть в начало координат. Само начало координат мы тоже будем при¬ числять к области управляемости. Ясно, что вопрос о нахождении оптимальных процессов разумно ставить лишь
152 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III в случае, если начальное фазовое состояние х0 принадле¬ жит области управляемости (ведь из точек, не принадле¬ жащих области управляемости, вообще нельзя попасть в начало координат). Теорема III.9 (теорема существования). Область управляемости является выпуклым открытым мно¬ жеством; для любой точки х0, принадлежащей области управляемости, существует оптимальное управление, перево¬ дящее точку xQ в начало координат. Доказательство. Выберем некоторое положитель¬ ное число Т. Через Sr обозначим множество всех тех точек х0 пространства X, для которых существует опти¬ мальное управление, переводящее точку х0 в начало коор¬ динат ровно за время Т. Пусть р = (р15 . ..,рл) — отличный от нуля вектор. Обозначим через ф (/, р) решение уравнения (3.12) с началь¬ ным условием ф(0, р)=р, а через р) — управление, соответствующее функции ф(/, р) в силу условия макси¬ мума (3.13); это управление мы будем рассматривать на отрезке 0 t <1 Т. Далее, через х (/) обозначим траекто¬ рию, соответствующую управлению и (t, р) и удовлетво¬ ряющую «конечному» условию х(Т) = 0. Начальную точку х (0) этой траектории обозначим через ^т(р) = = (£т (р)» • ••»£? (р)). В силу теоремы III.3, х (/) есть опти¬ мальная траектория, переводящая точку х0 = £г(р) в начало координат за время Т. Поэтому точка £г(р) при¬ надлежит множеству ST. Согласно (3.33) мы имеем (учи¬ тывая, что х (Г) = 0) Выражения в квадратных скобках обращаются в нуль в силу линейной независимости векторов <р1(Г), . . ., <рп(Т), и потому т £т(р) = — $ (1|>'(т)В«(т, p))dr, t=l, 2 п. (3.38) о Таким образом, представляет собой отображение (т. е. функцию), которое каждому /z-мерному (отличному
ОСНОВНЫЕ ТЕОРЕМЫ 153 § от нуля) вектору р ставит в соответствие точку %т(р)> определяемую в координатах формулой (3.38). Гиперплоскость, ортогональную вектору р и проходя¬ щую через точку х0 = %т(р), обозначим через Гт(р). То из двух полупространств, определяемых гиперплоскостью Гг(р), в которое направлен вектор р (рис. 104), условимся считать положительным. Наконец, через VT обозначим выпуклую оболочку множества Рис. 105. Мы докажем, что начало координат является внутрен¬ ней точкой выпуклого тела VT, а множество Sr является его границей (рис. 105); далее, все гиперплоскости Тт(р) и только эти гиперплоскости являются опорными для VT, причем опорная гиперплоскость VT(p} имеет с телом VT только одну общую точку %т(р). В самом деле, пусть х0 — точка множества Sr, отлич¬ ная от точки xQ = l,T(p). Обозначим через х (t) и х (t) оптимальные траектории, ведущие из точек х0, х0 в начало координат, а через u(t), u(t) — соответствующие опти¬ мальные управления. Таким образом, х(О) = хо, х(О)=хо, х(Т)=х(Т) = 0. Далее, обозначим через ф(/) = ф(^, р) решение уравнения (3.12), соответствующее оптимальному управлению u(t) = = и (/, р). Тогда ф (t) Ви (/) = max ф (t) Bu^ty (t) Bu (t), и 6 и О С i < Т. (3.39)
154 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. II] Применяя лемму 111.2, получаем р (х0 - х0) = 1|) (0) (х0 — х0) = — (0) х (0) + А|) (0) х (0) = = [4> (Г) х (Т)—1|) (0) х (0)] — [-ф (Г) х (T)—ty (0) ~х (0)] = т т = J (гр (т) Ви (т)) dT— J (гр (т) Ви (т)) dx 0. (3.40) о о Это означает (рис. 105), что вектор х0—х0, а значит, и точка xQ лежат в положительном полупространстве (или в самой гиперплоскости Гг(р)). Иначе говоря, все точки множества расположены по одну сторону от Гг(р); кроме того, гиперплоскость Гт(р) имеет с множеством общую точку %т(р). Таким образом, Гт(р) есть опорная гиперплоскость множества Sr, а значит, и множества VT. В част¬ ности, отсюда следует, что точка х0 = £г(р) (т. е. любая точка мно¬ жества Sr) является граничной точкой множества VT (через нее проходит опорная гиперплоскость). Для доказательства того, что есть граница выпуклого тела VT, мы должны еще установить обратный факт: каждая граничная точка тела VT принадлежит мно¬ жеству Для этого восполь- юй, доказательство которой, чтобы не прерывать изложения, будет приведено в следующем пункте (стр. 159): Лемма 111.10. Отображение £т, определяемое формулой (3.38), непрерывно, т. е. точка %т(р) непрерывно зависит от р. Далее, множество Sr является замкнутым и ограниченным. Допустим, вопреки доказываемому факту, что сущест¬ вует граничная точка т] тела VT, не принадлежащая мно¬ жеству Sr. Проведем через точку т] опорную гиперпло¬ скость Г тела 1/г. Из теории выпуклых тел известно, что если S — замкнутое ограниченное множество, V—его выпуклая оболочка и т] — граничная точка тела И, не при¬ надлежащая множеству S, то опорная гиперплоскость Г тела И, проходящая через точку т], содержит не менее Рис. 106. следующей
ОСНОВНЫЕ ТЕОРЕМЫ 155 § 8] двух точек множества S (рис. 106). Итак, в гиперплоскости Г лежат по крайней мере две точки множества ST. Обозначим через р вектор, ортогональный Г и направ¬ ленный в то полупространство (определяемое гиперпло¬ скостью Г), в котором лежит тело VT. Тогда, в силу доказанного выше, Гт(р)—опорная гиперплоскость тела Иг, расположенная так же, как и Г, т. е. гиперплоскость Г совпадает с Гт(р). Так как в гиперплоскости Г содер¬ жится не менее двух точек множества Sr, то. мы можем найти в этой гиперплоскости точку xQ множества Sr, от¬ личную от точки х0 = %т(р). Для этих двух точек мы можем написать соотношение (3.40), причем в этом соот¬ ношении должен иметь место знак равенства, ибо обе точки х0, xQ лежат в гиперплоскости Г = Гг(р) и потому вектор х0—х0 ортогонален р. Следовательно, в соотношении (3.39) тоже должно иметь место точное равенство: ф (/) Ви (/) = ф (/) Ви (t) = шах ф (t) Ви. и е и Но отсюда, в силу теоремы III.4, мы получаем u(t) = u(t), и потому x(t)=x(t)'t в частности, xQ=xQ, что противо¬ речит выбору точек xQ и х0. Полученное противоречие и доказывает наше утверждение. Итак, Sr есть граница выпуклого тела VT. Одновре¬ менно установлено, что любая опорная гиперплоскость множества VT имеет вид Гг(р) и эта опорная гиперпло¬ скость имеет с телом VT только одну общую точку (а именно, точку %т(р)). Остается доказать, что начало координат является внутренней точкой тела VT. Так как начало координат (0, 0, ..., 0) пространства переменных п1, . .., иг при¬ надлежит многограннику U, но не является его вершиной, то для оптимального управления u(t), в силу теоремы III.4, имеем ф (f, p)Bu(t, р) > 0 (для всех /, кроме конечного числа моментов времени). Следовательно, рх0=+х|)(°> р)х(0) = — [-ф (Т, р)х(Т) — гр (0, р)х(0)] = т = —$(•'!’ р) Ви (т> р) dx < °> о
156 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III т. е. вектор х0 (идущий из начала координат в точку xQ = ^T(p)) не ортогонален р, и потому (рис. 105) начало координат не лежит в опорной гиперплоскости Гт(р). Но тогда начало координат не является граничной или внеш¬ ней точкой множества VT, так как в противном случае через начало можно было бы провести опорную гипер¬ плоскость к телу VT (рис. 107, а, б). Рис. 107. Рис. 108. Установим дальнейшие свойства множества VT. Легко понять, что из точек, лежащих вне тела VT, невозможно попасть в начало координат за время Т. Действительно, если бы это было возможно, то соответствующая траек¬ тория должна была бы пересечь границу Sr тела VT (рис. 108) в некоторой точке _у0 и потому, продолжая двигаться по этой же траектории, мы смогли бы попасть из точки j/0 в начало координат за время, меньшее чем Т. Но это противоречит тому, что для любой точки yQ g ST время оптимального движения в начало координат равно Т. Далее, если Т < Т, то тело Vt' целиком заключено внутри тела VT. В самом деле, еслилг0€^Т', то из точки можно попасть в начало координат за время Г < Т, и потому точка х0 не может лежать ни на гра¬ нице ST тела VT) ни вне тела VT. Значит, множество Sr, а потому и Vr' целиком лежат внутри тела VT. Пусть Zq — произвольная внутренняя точка тела VT. Проведем из начала координат луч Z, проходящий через точку г0, и обозначим через точку его пересечения
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 157 с множеством ST (рис. 109). Далее, для любого Т' <С Т рассмотрим точку пересечения луча I с множеством Sr и через ср (Г) обозначим расстояние этой точки пересече¬ ния от начала координат. Мы получаем функцию ср, кото¬ рая, в силу сказанного выше, монотонно возрастает. Лемма 111.11. Функция ср непрерывна. Доказательство этой леммы мы также, чтобы не пре¬ рывать изложения, приведем в следующем пункте (стр. 161), а сейчас завершим доказательство теоремы существования. Заметим, что если Т' очень то<р(Т') также очень (точнее, ср (Т') <1 NT', Т' < Г; см. формулу т. мало, мало если (3.45) в доказательстве лем¬ мы III.11, стр. 161). Поэтому при малых Т' функция ср (Т') имеет значения меньшие, чем длина отрезка OzQ. При Т' = Т функция принимает значение <р (7"), равное длине отрезка Оу0, т. е. боль¬ шее, чем длина отрезка Oz0. Но непрерывная функция при¬ нимает все промежуточные значения, и потому найдется такое Т' (между 0 и Г), что ср(Т') равно длине отрезка Ozq. Иначе говоря, найдется такое Г', что множество проходит через точку zQ. Но тогда из точки zQ ведет в начало координат оптимальная траектория (с временем оптимального перехода, равным Г'). Итак, из любой внутренней точки тела VT ведет в начало координат оптимальная траектория. Кроме того, теперь ясно, что из любой (внутренней или граничной) точки тела VT можно перейти в начало координат за время Т; из точек же, не принадлежащих телу VT, как уже было доказано, попасть в начало координат за время Т невозможно. Иначе говоря, тело VT состоит из тех и только тех точек, которые могут быть за время Т пере¬ ведены в начало координат. Теперь не представляет труда завершить доказатель¬ ство теоремы существования. При возрастании Т выпук¬ лое тело VT будет все более и более расширяться. Обо-
158 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Щ значим через G объединение всех тел VT (для всех Г, О < Т < оо). Ясно, что множество G выпукло. Оно также открыто, ибо любая его точка х0 принадлежит некоторому телу Ит, а значит, при Т1 > Т точка х0 является внутренней точкой множества (и тем более множества G). Из любой точки множества G можно попасть в начало координат, и даже существует опти¬ мальный переход в начало координат. Значит, все точки множества G принадлежат области управляемости. Обратно, если xQ — точка, принадлежащая области управляемости, т. е. из нее можно перейти в начало за некоторое время Т, то эта точка должна принадлежать телу VT, а значит, и множеству G. Таким образом, множество G совпадает с областью управляемости. Установленные выше свойства множества G и доказывают теорему существования. Теорема III.12. Если в линейной задаче оптимального управления матрица А (см. (3.6)) устойчива, т. е. все ее собственные значения имеют отрицательные действительные части, то область управляемости совпадает со всем фазо¬ вым пространством X. Следовательно, для любой точки xQ £ X существует оптимальное управление, переводящее фазовую точку из положения х0 в начало координат. Доказательство. Выберем произвольное Т>0. Тогда внутренность тела V7 представляет собой открытое множество, содержащее начало координат, причем из любой точки этого множества можно с помощью некоторого управления попасть в начало координат (за время < Т). Пусть теперь х0 — произвольная точка пространства X. Заставим фазовую точку сначала двигаться из положения xQ при управлении u(t) = O. Так как все собственные значения матрицы А имеют отрицательные действительные части, то по истечении некоторого времени движущаяся точка подой¬ дет как угодно близко к началу. Значит, с течением времени движущаяся точка придет в множество VT, после чего ее можно будет перевести в начало координат. Итак, точка х0 принадлежит области управляемости. Ввиду произвольности х0 отсюда и вытекает, что область управляемости совпа¬ дает со всем фазовым пространством X. 34. Доказательства лемм. Здесь мы приведем пропу¬ щенные ранее доказательства лемм III.10 и 111.11, содер¬
§ 81 ОСНОВНЫЕ ТЕОРЕМЫ 159 жащих некоторые математические «тонкости» (при первом чтении доказательства этих лемм можно пропустить). Доказательство леммы 111.10. Пусть е — про¬ извольное положительное число. Обозначим через М наи¬ большее значение выражения | ф1 (/) Ви | при любом t\ 0 ^/^7, и любом u£U. Пусть, далее, тх, ..., —все те моменты времени (на отрезке 0^/^Г), в которые управление и (/, р) не определяется однозначно из условия максимума (3.13). Окружим точки тх, ..., %q маленькими интервальчиками, общая сумма длин которых меньше чем {м- Пусть теперь р* — другой вектор. Тогда, согласно (3.38), т Гт (Р*) + J W (т) Ви (т, р*)) <7т = 0. (3.41) о Выбрасывая из отрезка указанные выше интер- вальчики, мы изменим значение каждого из интегралов (3.38), (3.41) менее чем на = . Иначе говоря, обоз¬ начая через Q множество, получающееся из отрезка 0 t Т после выбрасывания указанных интервальчиков (рис. 110), мы получим Пусть теперь / — один из отрезков, составляющих мно¬ жество Q. На отрезке / управление и (/, р) принимает постоянное значение u(t,p) — e, где е — одна из вершин многогранника U, причем если е'— любая другая вершина многогранника U, то ф (f, р) Be > ф (f, р) Be' (для всех t на отрезке /, см. рис. 111). Ясно, что неравенства ф (/, р) Be > > ф (f, р] Be' не нарушатся, если мы заменим ф (/, р) какой- либо другой функцией, очень мало отличающейся от ф(/,р) на всем отрезке /. Но если вектор р* достаточно мало отличается от р, то функции ф (f, р) и ф(/, р*) (т. е. реше¬ ния уравнения (3.12) с начальными условиями ф (0) = р, ф(0)=р*) будут мало отличаться друг от друга на всем
160 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1ц отрезке 0 t Т. Следовательно, для функции ф(/, р*) мы получим (на отрезке /) ф (/, р*) Be > ф (/, р*) Be' для любой вершины е', отличной от е. Иначе говоря, в силу условия максимума (3.13) и(1,р*)=--е на /, т. е. и (/,/?*) = = и (/, р). Такое рассуждение мы мо¬ жем провести для каждого из отрез¬ ков, составляющих множество Q. Итак, при \р—р*|<б, где положительное число, равенство выполняться на всем множестве Q отношения (3.42), [ (р)— (р*) | < е. Рис. 112. / б — достаточно малое и (/, р) = и (f, р*) будет ', и потому, в силу со- . Тем самым непре¬ рывность функции %1Т (р) доказана. Обозначим, далее, через S мно¬ жество всех векторов р, имеющих длину 1, т. е. удовлетворяющих условию |P I = К(Р1)2+ . . . +(Р„)2 = 1 (3.43) (рис. 112). Легко понять, что для любой точки можно найти вектор pgS, удовлетворяющий условию ^т(р) = xQ, иначе говоря, отображает множество <5 на все множество 2Г. В самом деле, так как xQ £ Sr, то сущест¬ вует оптимальное управление и (t), 0 t Т, переводящее точку xQ в начало координат (за время Т). Пусть ф (/) — решение уравнения (3.12), соответствующее оптимальному управлению и (/) в силу условия максимума (3.13). Мы можем при этом предполагать (поскольку умножение функции ф (t) на положительное число ничего не меняет), что | ф (0) | = 1. Тогда, обозначив вектор ф (0) через р, получим, очевидно, (р) ~ Xq*
§ 8] ОСНОВНЫЕ ТЕОРЕМЫ 161 Одна из классических теорем математического анализа утверждает, что если R и R'— два множества (расположен¬ ные в евклидовых пространствах), причем множество R з а м- к нутое и ограниченное, и если существует непрерыв¬ ное отображение множества R на все множество R', то R' — также замкнутое огра¬ ниченное множество. Так как множество S (грани¬ ца шара в n-мерном век¬ торном пространстве, см. (3.43)), очевидно, замк¬ нуто и ограниченно, а как мы доказали,— непрерывное отображе¬ ние множества 5 на все множество Sr, то из сказанного следует, что —замкнутое ограни¬ ченное множество. Доказательство леммы III. 11. Пусть О < Г < Г С Г С Т. Выберем такое число R, что шар радиуса R с цент¬ ром в начале координат целиком содержится внутри тела Vt* (рис. 113). Множества %т' и пересекают луч I в точках х', х", расстояние между которыми равно <р (Т") — (р (Т). Рассмотрим конус с вершиной х', описанный вокруг шара радиуса R с центром в начале координат, и впишем в этот конус шар Е с центром в точке х". Шар Е, очевидно, не содержит точек множества радиус г этого шара легко находим из пропорции г:(ф>(7’")— <р(7,')) = = R:q)(F). Таким образом, R [Ф (П-ф (Г)] R [у (Г')-ф (Г)] Ф(Т') Ф(Т) (3.44) Далее, так как VT и U—ограниченные множества, то фазовые скорости точек в множестве VT ограничены: | х | = | Ах-]-Ви | N при x£VT, u£U. (3.45) Проведем из точки х" оптимальную траекторию x(f), ве¬ дущую в начало координат. Траектория x(t) пересечет 6 В. Г. Болтянский
162 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill множество в некоторой точке у', причем кусок этой траектории от у' до начала координат оптимален. Поэтому время движения от у' до начала равно Т, а время движения (по траектории х(/)) от х" до у' равно Т"—Т. Следова¬ тельно, в силу оценки фазовой скорости (см., (3.45)) имеем </7(Г-Г). Итак, на расстоянии, меньшем W(Т" — Г'), от х” имеется точка у' множества Sr*, т. е. шар радиуса N(Т"—Т') с центром в точке х" пересекается с S7-. Отсюда следует, что г < М (Т" -— Г'), и потому в силу (3.44) <₽ (7"") — ф (П < (Тп— Т'). Отсюда, очевидно, вытекает непрерывность функции ф на отрезке от Т* до Т. Ввиду произвольности Т* и Т мы за¬ ключаем, что функция ф непрерывна для всех положитель¬ ных значений аргумента. § 9. Вычислительные методы 35. Нахождение начальных значений для вспомогатель¬ ных неизвестных: дифференциальное уравнение Нейш- тадта *). В этом и следующем пунктах мы изложим резуль- скалярное произведение таты американских математи¬ ков Нейштадта и Итона, даю¬ щие решение поставленной в п. 29 задачи IV. Обозначения, введенные в предыдущем пункте, будут использованы и здесь. Пустьр— произвольный от¬ личный от нуля вектор. Легко видеть, что при tf < t имеет место неравенство р£г(р)> > р (р). В самом деле, точка (Р) расположена внутри тела Vt (рис. 114), и потому p(lr(p) — положительно. Таким образом, скалярное произведение p£f(p) является *) L. W. Neustadt, Sinthesing Тipie Optimal Control Systems, Journal of Math. Analysis and Applications 1, 1960.
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 163 монотонно убывающей функцией времени ^(0</<оо). Заметим еще, что имеет место равенство limpgt(p)=0 (3.46) t -> о (ибо точка £*(р) принадлежит границе тела Vt, которое при t—>0 стягивается к началу координат О). Из (3.46) сле¬ дует, что монотонно убывающая (по t) функция р (р) при¬ нимает только отрицательные значения. Нетрудно видеть, далее, что скалярное произведение p^f(p), рассмат¬ риваемое как функция двух переменных /, р, непрерывно. Действительно, пусть/*, р*— значения аргументов, близкие к f, р, и е — положительное число. Мы имеем llt (р) - (р*) I < I и (р) -l‘t {р*) I+1 (р*) - llt. (р*) [• Первое слагаемое в правой части может быть сделано мень¬ шим, чем у, если р* достаточно близко к р (ибо при фикси¬ рованном t функция Jjj(p) непрерывно зависит от р, см. лемму III. 10 на стр. 154). Второе же слагаемое в силу (3.38) имеет вид где и* (/) — оптимальное управление, соответствующее ре¬ шению ф* (f) уравнения (3.12) с начальным условием ф(0) = р*. Так как функция ф1 (/) непрерывна, а многогранник U огра¬ ничен, то это второе слагаемое также может быть сделано меньшим, чему, если достаточно близко к t. Итак, если /*, р* достаточно близки к t, р, то выполнено нера¬ венство |£j(p) —(Р*) | < е. Это означает, что функция (р) непрерывна по паре переменных f, р. Следовательно, непрерывна и функция ph (р) = 2 р&Ар}' /=1 6*
164 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III Фиксируем теперь некоторое начальное состояние х*, отличное от О и принадлежащее области управляемости G. Множество всех векторов р, удовлетворяющих условию рх* < 0, обозначим через D. Множество D представляет собой (открытое) полупространство, определяемое гипер¬ плоскостью, ортогональной вектору х*. Будем называть вектор р соответствующим точке х*, если начальное условие гр (0) = р дает решение задачи IV (стр. 132) для начального положения х*, т. е. если для некоторого положительного t = t* имеем х# = £/ф(р). Мы уже знаем, что для точки х* н а й д е т с я соответствующий вектор р (теорема существования). Однако это не означает, что существует только один вектор р, соответствующий точке х*. (Примеры показывают, что, как правило, точке х* соответствует единственный, с точностью до положитель¬ ного множителя, вектор р, но могут существовать и такие точки, которым соответствует бесконечно много не пропорциональных друг другу векторов р.) Множество всех векторов р, соответствующих точке х*, обозначим через Н*. Множество Н* целиком содержится в полупрост¬ ранстве D, Действительно, если вектор р соответствует точке т. е. = (/?), то рх* = < 0, и потому p£D. Введем в рассмотрение функцию f(Cp)=p(xt — %t(p)). (3.47) В силу сказанного выше эта функция непрерывна по /, р; при любом фиксированном р она монотонно возрастает по /. Если p£D, то в силу (3.46) имеем Нш/(/, р)=рх* < 0. (3.48) t -► о Пусть теперь — время оптимального движения из точки х* в начало координат. Если р^Н^ то хе“^ф(р), и потому /(/*, р) = 0. Если же вектор р не принадлежит множеству Н* (т. е. не соответствует точке х*), то^* (р)=^х*, т. е. (р) и х* — две различные точки множества Следовательно, р (х* — (р)) > 0 (см. (3.40)), т. е./(^,/?)>б. Из этого неравенства вытекает (если учесть соотношение (3.48) и монотонность функции /(/, р)), что существует единственное значение /, 0 < Y <7*, для которого f(typ} = 0.
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 165 Это значение t мы обозначим через F(p). Итак, при любом p£D функция единственный раз обращается в нуль, а именно при t = F(р), т. е. Др(р),р)=0; (3.49) в силу сказанного выше F(p) = ^ при ) О < F (р) < при ptHr J (3.50) Рис. 115. Из непрерывности функции f^p) по /, р вытекает, что F(p) — также непрерывная функция. Укажем еще геометрическую интерпретацию функции F(p). Проведем через точку х* гиперплоскость Г, ортого¬ нальную вектору р, и рас¬ смотрим выпуклое тело У^(рис. 115). Гиперплос¬ кость 1\(р), имеющая с телом Vt единственную общую точку £f(p), то¬ же ортогональна векто¬ ру р, т. е. параллельна гиперплоскости Г. Так как начало координат находится относительно гиперплоскости Г в поло¬ жительном полупространстве, т. е. в том полупространстве, в которое направлен вектор р (ибо рх* < 0), то при /, близком к нулю, все тело Vt, и в частности точка £t(p), находится в положительном полупространстве. Отсюда следует, что при /, близком к нулю, скалярное произведение Р (£/(р) — х*) положительно, т. е. /(/, р) < 0. Гиперплоскость Г при этом проходит вне тела Vt. При увеличении t тело Vt увели¬ чивается, и, наконец, наступает момент когда Г стано¬ вится опорной гиперплоскостью тела Vy (рис. 115). Этот момент f как раз и равен F(p), ибо точка (р) находится в гиперплоскости Г, т. е. вектор (р)—х# ортогонален р, и потому /(/',р) = 0. Итак, F(p) = f есть тот момент времени, когда тело Vf имеет Г своей опорной гиперплоскостью. Если при этом р е Н*, то (р) у= х*, и потому точка х* лежит вне тела Vf (ибо это тело имеет
166 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III с Г единственную общую точку (р)). Но это означает, что время оптимального движения из точки х* в начало координат больше, чем f, т. е. /#>F(p) (ср. (3.50)). Если же р£Н*, то |г(Р)=х*, и потому Это и дает геометрическую интерпретацию функции F(р) и соотноше¬ ния (3.50). Теорема III.13. Рассмотрим дифференциальное урав¬ нение ^=-[^~Bf(p)(p)]. (3.51) Его правая часть непрерывна при p£D, и потому это урав¬ нение имеет решение при любом начальном условии р (0) = = Ро 6 D. Оказывается, что решение р(х) уравнения (3.51) с начальным условием р (0) = р0 определено для всех поло¬ жительных т и целиком расположено в полупространстве D. Далее, при т —> оо решение р (т) все более приближается к множеству точнее, любая ^-предельная точка*) этого решения принадлежит множеству И*. Заметим, что, как выяснится из доказательства, для каждого решения уравнения (3.51) справедливо соотноше¬ ние \р (т) | = const. Например, если pQ£S (см. (3.43)), то все решение р (т) будет располагаться на сфере S (точнее, на той половине сферы 5, которая находится в полупрост¬ ранстве D). Переходим к доказательству теоремы III. 13. Прежде всего заметим, что для любых р и р' мы имеем, согласно (3.40), Р (Bt (р') - Bt (Р)) > 0. Р' (Bt (Р) - В< (/)) > 0, и потому 0 <р (Bi (р') - Bi (р)) < (р -р') (Bi (р') - Bi (р))• Так как функция (р) непрерывна, то (считая t фиксиро- *) Напомним понятие со-предельной точки. Пусть x = f(x) — автономная система дифференциальных уравнений, записанная в векторной форме, и х (t) — некоторое ее решение, определенное для всех t > f0. Точка у фазового пространства X называется а-предельной точкой решения х (Z), если существует такая числовая последовательность t2, ..., tk, ... , что lim tk = + оо и lim х (tk) = у. k -> со /г —> со (См. Л. С. Понтрягин, Обыкновенные дифференциальные урав¬ нения, стр. 235.)
ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 167 § 9] ванным) имеем (р') — (р) —■>0 при р'—*р, и потому Р (It (р') - (Р)) \р — Р'\ п (р—р'У где т](р—р')—+О' при р'—+ р. В частности, полагая р' — — p-]-he{l\ где е{1} есть Z-й координатный вектор, a h — действительное число, мы получаем ,imW_o ft_>o h Учитывая эго соотношение, находим ^Ар1, (/>» =;™ (р+>«"') Ь (Р+>.»“'>-р 8, <р) = -- in р [S( ^,<^14- nm e‘4g, (р + Ае‘;|) = Л-* о " h -> о = е(,) It (Р) = (р) и, окончательно, ^^£2 = ^(P(^-Bt(P)))=x'-^(p). (3.52) Пусть теперь р(т)— решение уравнения (3.51) с началь¬ ным условием р (0) = р0 £О. Тогда мы имеем, в силу (3.52), df(t, PW)___X' df(t, р(т)) [ dpt (т) __ дт др.- ’ du = - 2 (*• - (р W)) {х- - ^(Р(Т)) <р W))- (3-53) 1 = 1 Отсюда видно, что если р (т) < Н* (и, следовательно, **~?F(p(t)) (Р(т))#=0), то производная отри¬ цательна при / = Л(р(т)), а значит, и при /, близких к Л(р(т)). Иными словами, функция /(/, р(т)) убывает по т при значениях /, близких к F (р (т)). Поэтому при ма¬ лом положительном h мы имеем /(^(Р(т)), р(т)) = 0, /(Л(р(т)), р(т + Л))<0. Сравнивая соотношения /(^(Р('г))- Р^ + ^ХО, /(F(p(t + A)), р(т + Л)) = 0 и вспоминая, что функция f(t^p) возрастает по Z,
168 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill находим F(p(x))<F{p(x + h)), т. е. F (р (т)) есть монотонно возрастающая функция от т при. Р (т)« Из этого легко заключить, что решение р(%) уравнения (3.51) никогда не покидает полупространства D (еслир0 g D). Действительно, в противном случае в некоторый момент т мы имели бы р (т) х* = 0, т. е. F (р (т)) = 0, а это невозможно, так как F(pQ) > 0, и функция F(p(r)) монотонно возрастает. Далее, мы имеем ^(Р(т)р(т)) = 2р(т)^ = = ~‘2p(i)(x^ — lP(pW) (р(т)))= — 2f(F(p(x)), р(т)) = 0, откуда следует, что (т) | = const, т. е. решение р(т) целиком расположено на сфере с центром в начале коор¬ динат. Итак, решение р (т) определено для всех т>0 и расположено в ограниченной части пространства, откуда следует, что у него существуют co-предельные точки. Пусть р* — произвольная co-предельная точка решенияр(т). Покажем, что Допустим противное: р*$Н*. Тогда (pj (Р*) ¥= О, и потому, в силу (3. 53), существует такая положитель¬ ная константа А/1 и такое г > 0, что <—М если только |р*—р(т)|<г и \t — F(p^\<ir. Далее, в силу ограниченности выпуклого тела V}* (содержащего все точки |р(р)(р)) существует такое положительное число N, что | х* — (р) (р) | < N для любого р. Выберем теперь такое Tj > 0, что выполнены соотношения |р*— Р(г1)| <у > \F(P*) — F(p(Ti))| <r (3.54) (такое тх существует, так как р* является со-предельной точкой траектории р(т)). Тогда точка р(т), движущаяся (в силу уравнения (3.51)) с фазовой скоростью | J < М в течение времени т1^т^т1 + Л, где —переме- кт Г Г стится на расстояние, меньшее /V —= — , и потому не
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 169 выйдет за пределы r-окрестности точки р# (см. первое соотношение (3.54)): |Р.—Р(х)\<г ПРИ < т < Ь + h. Учитывая, кроме того, второе соотношение (3.54), мы по¬ лучаем, по определению числа г, что ai(f(P<x,)),pW)<_A< при тх т тх -|— h. Интегрируя, находим (ибо /(F(p(x1)), р(т1)) = 0). Итак, если тх удовлетворяет соотношениям (3.54), то /(^(Р(ТХ)), р(тх+ /*))<-/ИЛ. (3.55) Далее, в силу формулы (3.38) имеем (р) / = 1, 2, ...,л, и потому (см. (3.47)) = (3.56) i=l i=1 Из этой формулы видно, что производная ограничена, когда t и р меняются в ограниченных пределах. Таким образом, существует такая положительная константа Р, что ■— < Р при 0 < t < t* и любом р £S. . (3.57) В частности, df (F (р(т)), pCn + ft)) р dt ’ откуда, интегрируя, получаем + + Р(Ь + Л))< <Р{Л(р (<1 + Л))_Р(р (тх))}.
170 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III Таким образом, в силу соотношения (3.49) и неравенства (3.55) имеем Р {F (р (тх + А)) -F (р (тх))} > —f(F(р (тх)), р (тх + т. е. М F (р (тх + А)) — F (р (тх)) —-р- h (при выполнении условий (3.54)). (3.58) Так как р* есть co-предельная точка решения р(т), то, в силу непрерывности функции F(p), справедливо соотно¬ шение F (р*) = hm F (р (х)). С другой стороны, каково бы т -> оо ни было т > 0, найдется такое > т, что выполнены со¬ отношения (3.54) (ибо р* есть со-предельная точка), и потому, в силу (3.58), F (Р (т)) < F (р (тх)) <F(p(X1 + h))-^<F (pj - , откуда lim F (р (т)) F (р*) . Но это противоречит со-: отношению F (р*) = lim F (р (т)). Полученное противоречие Т —>■ оо и доказывает включение Теорема доказана. Замечание. Из уравнения f(F(p), р) = ®, опреде¬ ляющего функцию F(p), вытекает, что если производная I/ г( ) (СМ‘ (3-56)) отлична от нуля, то функция F(р) имеет производную, определяемую из соотношения т. е. dPi — dpi _df_ dF _ dpt dPi ~ ' d± di x* ^F(p) (P) df(t, p) I dt | t = r (p) (cm. (3.52)). Отсюда получаем dF dp2 ’ x* (p) (P) df (t, p)l dt I t = F (p) dF 1 _ dPn / “ (если знаменатель отличен от нуля). Таким образом (от¬ влекаясь от возможности обращения знаменателя в нуль),
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 171 мы видим, что вектор grad/7^) ни в какой точке в нуль не обращается, а любое решение уравнения (3.51) касается в каждой точке р(т) вектора grad/7(p(T)) (так как правая часть уравнения (3.51) пропорциональна век¬ тору grad/7). Иначе говоря, кроме максимума в точках множества Н*, функция F (р) не имеет в D других («лож¬ ных») локальных максимумов и минимумов, а траектории уравнения (3.51) являются линиями тока для поля векто¬ ров grad F (р), т. е. соответствуют методу наиско¬ рейшего подъема для вычисления максимума функции F(p). (Минимум этой функции, равный нулю, достигается на гиперплоскости, служащей границей полупространства D.) Смысл доказанной выше теоремы заключается в том, что при достаточно большом т вектор р (т) весьма близко расположен к множеству Н*, и потому вектор р(т) при¬ ближенно можно принять за вектор, соответствующий точке х*. It. (р (т)) х* (при больших т). 36. Нахождение начальных значений для вспомогатель¬ ных неизвестных: итерационный процесс Итона*). Есте¬ ственно возникает вопрос, каким образом можно находить решение р (т) уравнения (3.51). Процесс решения этого уравнения возможно осуществить на вычислительных ма¬ шинах. Именно, формула (3.38) позволяет вычислять зна¬ чения функции ^(р). Можно также для нахождения функ¬ ции (р) по формуле (3.38) воспользоваться моделирующим устройством, аналогичным описанному в п. 31. (Использо¬ вание первых двух «ящиков», изображенных на рис. 102, дает возможность по начальному значению ф0 (р) найти соответствующее оптимальное управление н(/), входящее в формулу (3.38); вектор ф' (/) также непосредственно мо¬ жет быть выработан первым «ящиком», изображенным на рис. 102; наконец, составление скалярного произведения и интегрирование осуществляются обычными приемами. Ра¬ зумеется, в моделирующих устройствах, используемых на этом пути, нужно за счет подбора параметров осуществить *) J. Н. Eaton, An Iterative Solution to Time Optimal Control, Journal of Math. Analysis and Applications 5, 329—344 (1962).
172 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. ПТ значительно более быстрое течение «времени», чем в ре¬ альном объекте: ведь все вычисления должны быть завер¬ шены за короткий промежуток времени, пока объект не успеет заметно отклониться от начального состояния х#.) Функция 1-t(p) должна вычисляться (при каждом р) лишь до значения t = F(p), являющегося корнем уравнения /(/, р) = 0 (см. (3.47)), в результате чего мы и получаем выражение %F(p)(p), входящее в правую часть уравнения (3.51) . Итак, при каждом p£D правая часть уравнения (3.51) может быть вычислена. Далее нужно применить обычную разностную аппрок¬ симацию для решения уравнения (3.51). Именно, вместо вычисления всего непрерывного решения р(т) уравнения (3.51) строится «дискретное решение», т. е. последователь¬ ность р0, р2, ... При этом каждое следующее при¬ ближение Pk+1 строится с помощью уже найденного при¬ ближения pk следующим образом. Мы выбираем некоторый «шаг» Дт^ > 0 и ищем pk+1, заменяя в уравнении (3.51) производную отношением приращений: (3.59) Из этого соотношения получаем формулу для нахождения следующего приближения: Рк+1 = Pk - [**- If (рь) (Pk)]• (3.60) Естественно ожидать, что если pk представляет собой при¬ ближенное значение решения р (т) в некоторый момент тА, то вектор р^+1у определяемый формулой (3.60), будет приближенным значением этого же решения р (т) в момент Tfe + 1 = %k 4- Дт^. Поэтому можно надеяться, что последова¬ тельность р0, pv р2, . .., рекуррентно вычисляемая при помощи соотношения (3.60), будет вести себя примерно так же, как и решение р(т), и, в частности, будет при¬ ближаться к множеству И*. Разумеется, для того чтобы эти надежды оправдались, нужно выбирать последовательность «шагов» Дт0, Дт1? Дт2, ... с некоторой осторожностью. Ведь если эти «шаги»
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 173 сильно отличаться от производной и «дискретное» ре¬ шение р0, /?х, р2, ... может далеко уйти от «непрерывного» решения р (т) (и даже выйти из полупространства D). Если же «шаги» будут слишком мелкими, то мы будем слишком медленно продвигаться вдоль решения р(т), непроизводи¬ тельно выполняя огромное количество вычислений (или даже будем топтаться вблизи одного места, подобно Ахил¬ лесу, догоняющему черепаху). Кроме того, обратим внимание на следующее обсто¬ ятельство. Если для любого решения р (т) уравнения (3.51) выполняется, как мы видели, соотношение |р (т) | = const, то о векторах последовательности р0, р2, ... мы уже не можем утверждать, что все они имеют одинаковые длины (ибо соотношение (3.59) даже и при небольшой величине «шага» Дт^ отличается от уравнения (3.51)). Это могло бы привести к таким нежелательным последствиям, как неог¬ раниченное возрастание (или убывание) длин |/?0|, |рх|, |р2|, ... векторов рассматриваемой последовательности. Во избежание этого несколько «подправим» рекуррентное соотношение (3.60), заменив вектор, стоящий в правой части, единичным вектором того же направления. Иными словами, заменим соотношение (3.60) следующим: ^+1=гЯтП’ где ^+1=Рй-Атйк*-^(Р/,.)(Рл)]. (3.61) Использование соотношения (3.61) (вместо (3.60)) для по¬ строения последовательности приближений р0, р2, ... приводит к тому, что получаемое «дискретное» решение р0, Р1> • • • (так же как и «непрерывное» решение р(т)) целиком располагается на сфере <9, т. е. состоит из век¬ торов, имеющих одинаковые длины (равные единице). Нижеследующая теорема указывает весьма рациональ¬ ный способ выбора последовательности «шагов» Дт0, Дтх, Дт2, ... , обеспечивающий быстрое приближение последо¬ вательности р0, р2, ... к множеству Н*. Теорема III. 14. Пусть pQ — произвольный вектор дли¬ ны 1, расположенный в полупространстве D. (Например, за pQ можно принять вектор—> очевидно, лежащий в по- лупространстве D.) Предположим, что индуктивно построены
174 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill векторы р0, pv . . ., pk, лежащие в D. Положим =Pk-2 m К- If( ph) (Pk)) (3.62) и выберем наименьшее из неотрицательных целых чисел т, ■qW для которых вектор pk + 1 = удовлетворяет неравенству I ?1+1| Pk+1 (-*»-^(р*) (Pfe+1))< -2-(m+1) К-Ь(Р([) (Рк) I2- (3.63) Оказывается, что либо pk £ Н* для некоторого k, либо же это индуктивное построение приводит к бесконечной после¬ довательности векторов р0, рг, р21 . . ., лежащих в полупро¬ странстве D и обладающих следующими свойствами: A. Числа F(Pq), /?(р1)> F(p2), . . . образуют монотонно возрастающую последовательность, сходящуюся к числу t*. Б- Нт ^(Pik)U’A)=x,. k -> 00 B. Последовательность векторов pQ, pv р2, ... прибли¬ жается к множеству Н* (т. е. любой предельный вектор этой последовательности принадлежит множеству И*). Доказательство. Прежде всего докажем, что если р — вектор длины 1, лежащий в полупространстве О, и h > 0, то Wl’ + »W. (3.64) где o(h) обладает тем свойством, что равномерно (т. е. независимо от р) стремится к нулю при h—>0. В са¬ мом деле, так как векторы р и х* — (р) (р) ортогональны друг другу (см. (3.47), (3.49)), то IР — h (х* - U (р) (р) | = 1 4- (Л), где lim ^^ = 0 (равномерно по р). Так как производные h-+ о п ограничены при 0 t (см. (3.52)), то отсюда следует, что P-Mx*-lF(p)(p)) X | р h (х* (р)) |у = f(F(р), р- /Ц** — У (р) (р))) + о2 (Л).
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 175 Далее, используя соотношение (3.52), мы находим (при некотором 9, 0 < 0 < 1) p-h(x,-&{p)(p))) = =f(F(p), P-fi{xt-lPW(p)))-f(F(p), p))^ df (F(p), P~Ой(х,—gF(p)(p))) dpi (X* ^F (P) (P))‘- — = —h(x* — %p w (p — Bh (x„ — Ip (p} (p))) (x, — Ip {p) (p)) = = — h\x*~ £/Чр)(р)|2 + о3(Л). Тем самым соотношение (3.64) установлено. Из (3.64) следует, что если х* — (р) (р) =/= 0 (где р фиксировано), то при достаточно малом й мы имеем ) < —у АI(р) (р) I2- В частности, полагая р=р<!, й = 2 “, находим, что если Pk*H* (т- е. ** — 1р{рк) (р*)#=0), то при достаточно большом т справедливо соотношение (см. (3.62)) Отсюда ясно, что при pktH соотношение (3.63) действи¬ тельно позволяет определить вектор pk+1. Покажем, что pk + 1 £ D. Так как р (р) < 0 (см. стр. 163), то, в частности, pk + 1 {Рк) (pk + 1) < 0. Но согласно (3.63) Pfc + i (р/с) (Р/г + i)) < 0, и потому выполнено неравенство Pk+ix*<Pk+i%F(PIC)(pk+i) <е, т. е. рк+1е.о. Из сказанного ясно, что описанное в теореме III.14 индуктивное построение либо приводит, на некотором шаге, к вектору pk£H*, либо же позволяет построить бесконеч¬ ную последовательность р0, рх, р2, ... векторов, лежащих в полупространстве D. Докажем, что в этом последнем случае выполняются свойства А, Б, В. Мы имеем ~f(F(pk), Pk+1)=f(F(Pk+1), Pk+i)—f(F(Pk), Pk+i} = = V4pk+1)-r(Pk)) d-f-(Q’dp^,
176 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ш где число 0 заключено между F(pk) и F(pk+1). Так как —/(^■(/’й)>^+1)>0 (см- (3.63)) и (ибо функция /(/, р) возрастает по /), то разность F(pk+1)— F(pk) положительна. Поэтому согласно (3.57) -f(F(pk), Pk+i)<P(F(Pk+i)-F(Pk)), и, следовательно, Р<Рк+1)-(Р (Рк))> ~f(F{p*}' Рк+1). (3.65) Так как F(pk+1)— F(pk) > 0 (при любом k), то после¬ довательность F(Pq), F(P1), F(p2), ... монотонно возра¬ стает. Допустим, что она не сходится к числу /*, т. е. lim F(pk) ~-=tf < t*. Тогда все точки (Pk) (pk) принадлежат /г->оо телу V/', не содержащему точки х*, и потому для всех k мы имеем |х*—(рл) | > б, где б — некоторое положи¬ тельное число. Выберем такое число Ло> 0, чтобы при Л < Ло выполнялось неравенство < у (см- (3.64)). Тогда при h < Ло. В частности, если р— такое натуральное число, что 2“^ < h0, то -^B-V-2-4^-SF(Pfc)(PA)|2 + 2-^< < — 2">х|хж — If(Рк) (рк) |2Ц-2-М--11х* — If(Рк) (Рк) I2 = =-2-^-i |^-^(Pk)(pft)|2. Таким образом, согласно определению вектора pk+1 (см. (3.63)) мы имеем pk+1 = (, где /п^р. Отсюда на ос- I С11 новании (3.63) получаем f(F(Pk)> Pfc+i)=P*+i(**-^(Pt)(pft+i)) < < — lF(pk) (Рк) |2<-2-'”-i62 <—2-^-i 62,
ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 177 § 91 т. е. —/(F(pft), pk+1) > 2~^~162. Из (3.65) теперь следует, что F (pk+1)— F (pk) > -у2_^_162 (для любого k). Но это, очевидно, противоречит ограниченности последовательности F(pQ), ^(Pi), ^(Р2)> • •• Полученное противоречие пока¬ зывает, что lim F (pk) — /*. Утверждение А доказано. k со Если допустить, что утверждение Б не имеет места, т. е. не имеет места равенство lim | х* — ^f(p/£) (Pk) | = О, то /г-> со найдется такое 6 > 0, что для бесконечного числа значе¬ ний k выполнено соотношение | х*— (Р/с) (р^) | > 6. Отсюда, так же как и выше, мы найдем, что F{pk+1)— F(pk)> >2“*х“162 (для бесконечного числа значений k). Это опять же противоречит ограниченности функции F(p). Наконец, пусть р* — какой-либо предельный вектор по¬ следовательности р0, рх, р2, ... (т. е. существует подпо¬ следовательность этой последовательности, сходящаяся к р*). Тогда, в силу непрерывности функции F, мы имеем F(p*) = i*, т. е. р*£Н,. Тем самым установлено и утверж¬ дение В. Теорема III.14 полностью доказана. Замечание 1. Пусть после k шагов индуктивного построения, описанного в теореме III. 14, мы пришли к вектору pk. Положим F(pk) = tk и обозначим через uk(t) управление, переводящее точку (pk) в начало координат за время tk (т. е. оптимальное управление для точки (pft)), а через xk (t)—соответствующую оптимальную траекто¬ рию: xk(Q) = ^tk(pk), xk(tk) = 0. Наконец, пусть х\ (0 — траектория, соответствующая тому же управлению uk (t) и исходящая из точки х*, так что xk(0)=x*. Тогда при 0 t th мы имеем xk {t) = Axk (0 + Buk (t), Xk (0 = Axk (i) + Buk (t), и потому A {x'k -xk (t})=A (x* (0 - xk (/)), 0 c t ' tk. Таким образом, д(/)—xk (t) есть решение однородного уравнения х = Ах. Но для всякого решения у (/) этого
178 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. II] однородного уравнения справедлива при t > 0 экспонен¬ циальная оценка (f) | |j (0) | е1 П А П, где || А || — норма *) матрицы А. Отсюда получаем I х'к (tk) I = 14 (tk)-xk (ik) I < I xk (0) -xk (0) I IM II = = 1*.-^(Р(Ж)И1'A "• (3.66) Правая часть соотношения (3.66) стремится к нулю при k—-> оо, поскольку а | х* — {Рк) (pk) | —* 0. Следо¬ вательно, Xk(tk)—>0 при k—> оо. Таким образом, формула (3.66) позволяет судить о точности найденного приближе¬ ния: процесс вычисления, описанный в теореме 111.14, за¬ канчивается, когда траектория х& (0 приходит (с требуемой точностью) в начало координат. Если требуемая точность достигается после k шагов, то за начальное значение ф0, соответствующее точке х*, можно принять вектор pk — это и дает искомый оптимальный процесс. Замечание 2. В приведенной теореме после нахож¬ дения векторов р0, . . ., pk мы определяли вектор pk + 1 по формуле (3.61), выбирая в качестве Дтл наибольшее 1 1 1 1 из чисел 1, . .., удовлетворяющих соотноше¬ нию (3.63). Можно было бы, разумеется, задавать после¬ довательность, из которой выбирается значение Дтл, и каким-либо’иным способом. Например, можно было бы взять бесконечную в обе стороны последовательность. . ., 8,4, 2, 1, 1 1 1 л у, —, —, . . ., т. е. при определении Дтл искать по воз¬ можности меньшее целое т (не обязательно неотрицатель¬ ное!), для которого выполнено соотношение (3.63). Иными словами, если соотношению (3.63) удовлетворяет значение т = 0, то можно испробовать значения т — —1, т= — 2, ... В оригинальной работе Итона (см. сноску на стр. 171) последовательность {Дт^} выбирается иным способом: он берет в качестве Дт^ (отвлекаясь от несущественной *) Нормой матрицы А называется наименьшее из таких чисел М. что для любого вектора х справедливо соотношение | Ах | С М | х |. Из дифференциального уравнения х=Ах легко выво¬ дится неравенство 1 х | || А || | х |, которое и дает указанную экспоненциальную оценку.
§ 9] ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 170 разницы в обозначениях) наибольшее из чисел <Pfe-i) I д m = o, 1 i Z Г"! — R — 1» ’ ’ ’ •» I х* (Рк) (Р/г) 1 для которых выполняется (при обозначениях (3.61)) нера¬ венство п. Рк + 1(**-&<Рк) (Рк + 1)) < Однако автору этих строк не удалось извлечь из работы Итона корректного доказательства сходимости такого про¬ цесса (т. е. доказательства утверждений типа А, Б, В). Замечание 3. Изложенный метод позволяет следующим обра¬ зом представить себе процесс уп¬ равления объектом, все более приб¬ лижающийся к оптимальному (при достаточном быстродействии вычис¬ лительного устройства). Обозначим через h время, достаточное для того, чтобы вычислительное уст¬ ройство позволило нам найти pk + 1, если уже известен вектор pk. Мы задаем оптимальному регулятору (описанному в п. 31) начальное значение х0, в котором находит¬ ся объект, и значение ф0 = р0 в качестве ф0 мы пока не имеем). Оптимальный регу¬ лятор вырабатывает значение и (t)t под воздействием которого объект будет двигаться в течение h секунд. За это время вычислительное устройство, исходя из началь¬ ного значения х0, находит следующее приближение р± для вектора ф0. В момент времени h замеряется новое началь¬ ное значение х0, а на вход оптимального регулятора по¬ дается вычисленное значение гр0=р1. Под воздействием выработанного в результате этого управления совершается движение объекта в следующие h секунд. Тем временем вычислительное устройство, исходя из начального значения х\ и найденного значения рх, находит вектор /?2. В момент времени 2h замеряется фазовая координата xQ объекта, и дальнейшее движение осуществляется от начальных зна¬ чений х'' и ф0=р2 и т« Д. .(рис. 116). ничего лучшего (ибо
180 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. in Иными словами, мы постепенно «подправляем» процесс управления, не дожидаясь полного проведения всех вычис¬ лений, предусмотренных теоремой III. 14. § 10. Решение задачи синтеза для линейных систем второго порядка 37. Упрощение уравнений линейного управляемого объекта. Нередко бывает, что в линейной задаче общая запись уравнений движения объекта в виде (3.4) неудобна и целесообразно воспользоваться некоторыми упрощениями. Мы здесь отметим стандартные упрощения, которые можно осуществить с помощью замены координат. 1°. Прежде всего рассмотрим вопрос о замене коорди¬ нат в фазовом пространстве X рассматриваемого управля¬ емого объекта. Предположим, что в пространстве X вместо координат х1, . . ., хп введены новые координаты у1, . . . ,у", связанные с прежними координатами соотношениями х1 == 24/, У = 5 <№ (3.67) / / (где матрицы P=(pj) и Q — (qlj) взаимно обратны). Ясно, что при такой замене линейная система (3.4) заменится новой линейной системой У = S с«у+ 2 4“3> i = 1, 2, .. п, (3.68) (1=1 0=1 коэффициенты которой легко вычисляются: У = S = 24(2 аУх' + 2 = /=1 / = 1 \т=1 [3=1 / =2<ЧхТ+^Ж= = 2 я1!^руаУа+ ^qljb^u?= 2 4у+2 4И₽- j, у, а /Гр а=1 0=1 Таким образом, 4=244Л 4=244- (3.69) j, у i Переходя к векторным обозначениям, можно сказать, что указанная замена координат переводит уравнение (3.8)
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 181 в уравнение у = СуDu (см. (3.68)), где матрицы С и D выражаются через матрицы Л, В, Р, Q по формулам (см. (3.69)) C — QAP, D = QB. Очевидно, при такой замене каждый процесс х (/), и (/), удовлетворяющий уравнению х = Ах -f- Ви, переходит в процесс y(t), удовлетворяющий уравнению у = Су Du (и обратно). Так как при этом время t не меняется, то указанная замена переводит оптимальные про¬ цессы уравнения х = Ах-\-Ви в оптимальные процессы уравнения у = Су + Du (и наоборот). В частности, синтез оптимальных управлений для уравнения х = Ах 4- Ви пере¬ водится с помощью преобразования координат (3.67) в син¬ тез оптимальных управлений для уравнения у = Су + Du. Таким образом, если уравнение у = Су -[-Du окажется проще и для него синтез оптимальных управлений можно будет построить, то из этого синтеза можно (с помощью аффин¬ ного преобразования (3.67)) получить синтез и для перво¬ начального уравнения х = Ах-\-Ви. В этом и заключается смысл замены координат (3.67): она позволяет заменить матрицу А трансформированной матрицей C — QAP, в то же время вызывая лишь аффинное искажение картины синтеза оптимальных управлений. Таким образом, преобра¬ зованием (3.67) можно воспользоваться для упрощения матрицы Л, составленной из коэффициентов при фазовых координатах. 2°. Предположим, что в уравнении х = Ах-^-Ви матрица А уже приведена к простейшему виду (с помощью опи¬ санного выше приема). Укажем теперь, каким образом может быть упрощена матрица В, составленная из коэффициентов при управляющих параметрах. С этой целью положим ^=2^, /=1,2 п. (3.70) ₽=1 Это означает, что вместо г управляющих параметров и1, . . . , иг вводятся п других управляющих параметров г/1, ... , vn, благодаря чему система (3.4) заменяется
182 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III следующей: х1 = 2 ааха 4~ f = 1, 2, ... , л, i =i или, в векторной форме, ’ х = Ах + v. Нужно только выяснить, в каких пределах может изме¬ няться управляющая точка v = v2, ..., vn). Удобно считать, что эта точка v = (v\ v2, . . . , vn} расположена в том же фазовом пространстве X, что и точка х = (х1., . . . ,х”). Соотношения (3.70) определяют линейное отобра¬ жение r-мерного пространства переменных л1, . . . , иг в фазовое пространство X (ср. стр. 115). Образом много¬ гранника U при отображении (3.70) является некоторый выпуклый многогранник в пространстве X, который мы обозначим через V. Таким образом, получаем две линейные системы: х = Ах-\-Ви, u£U\ (3.71) x = Ax + v, v^V. (3.72) Мы покажем, что эти две линейные системы эквивалентны, так что при отыскании оптимальных процессов можно ограничиться рассмотрением более простой системы (3.72). В качестве примера рассмотрим систему второго порядка ( хг = а^х1 + а\х2 + Ь\иг 4~ b\u2 4- Ь^и3, j х2 = а^х14- alx2 4- b^u14- blu2 4- b23u3 с тремя управляющими параметрами и1, и2, и3, изменяю¬ щимися в кубе —l^uz^l. Указанное выше упрощение переводит ее в систему ( хг = а^х14- а^х2 4- 'У1, ( х2 = a2xJ 4- а\х2 4~ ^2> в которой параметры г/1, v2 связаны с а1, и2, и3 соотно¬ шениями (3.2). Многогранник V, в котором может изменять¬ ся управляющая точка v = *n2), является образом куба при линейном отображении (3.2), т. е. представляет собой шестиугольник (рис. 78). Этот пример хорошо иллюстри¬
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 183 рует сделанное выше замечание о том, что ограничиться только одними параллелепипедами (а не произволь¬ ными выпуклыми многогранниками U) было бы неудобным. Переходим к доказательству эквивалентности систем (3.71) и (3.72). Эту эквивалентность нужно понимать в том смысле, что для любого процесса x(t), u(t), удовлетворяю¬ щего уравнению (3.71), найдется такая кусочно-непрерыв¬ ная функция v (/) со значениями в многограннике V, что процесс х (Z), v(t) удовлетворяет уравнению (3.72) (и на¬ оборот). При этом оптимальному процессу x(t), и (t) соответствует оптимальный же процесс x(t), v (/) (и наобо¬ рот). Наконец, если для уравнения (3.71) выполнено условие общности положения, то оно выполнено и для уравнения (3.72) . При доказательстве отображение, определяемое фор¬ мулами (3.70), будем обозначать через В. Иными словами, если и—(и1, ..., иг) — произвольная точка, то точку = . .., vn) с координатами, определяемыми по фор¬ мулам (3.70), будем обозначать через Ви. Пусть х (/), и (t) — произвольный процесс, удовлетворя¬ ющий уравнению (3.71). Положим v(t)=Bu(t). Так как функция u(t) кусочно-непрерывна, то v (t) также кусочно¬ непрерывна. Далее, u(t)£U для всех /, и потому Наконец, так как процесс x(t), и (t) удовлетворяет урав¬ нению (3.71), т. е. х (t) = Ax (t)-[-Bu (/), то х (t) — Ax (/)+1у(/), т. е. процесс х(/), v (Z) удовлетворяет уравнению (3.72). Таким образом, переход от уравнения (3.71) к уравнению (3.72) осуществляется непосредственно. Несколько сложнее осуществляется обратный переход (ввиду его многозначности; например, на рис. 78 видно, что в одну точку многогранника V при отображении В переходит, вообще говоря, бесконечно много точек много¬ гранника U). Для осуществления этого обратного перехода проведем следующее построение. Пусть -и1, . . . , vs— все вершины многогранника V. Для каждой вершины (/=1, 2, ..., s) выберем в многограннике U такую точку uiy которая при отображении В переходит в точку (вспомним, что В есть отображение многогранника U на весь многогранник V). Мы получаем в многограннике U точки и±, u2i . . . , us. Теперь разобьем многогранник V на симплексы с вершинами в точках *и2, .. . , vs; это
184 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III всегда возможно, подобно тому как многоугольник может быть разбит на треугольники (рис. 117), а многогранник — на тетраэдры. Обозначим симплексы, гогранник 1/, через Т1У . симплекса 7\ служат точки uZ1, леке с вершинами izZ1, tzz-2, . . . , Далее, если -ил, vi2, . . . , vh — через S2 обозначим К на которые разбит мно- , Tq. Пусть вершинами vz-2, ••• > Т0ГДа симп- Uik мы обозначим через Sx. вершины симплекса Т2, то симплекс с вершинами Ujif Uj2, . . . , Ujk и т. д. В результате мы получим симплексы 5Х, 5*2) • • •> располо¬ женные в многограннике U. Легко понять, что симплексы 5Х, • ♦ • .. ., Sq, вместе взятые, образуют многогранную поверхность, которая при помощи отображения В вза¬ имно однозначно отображает¬ ся на весь многогранник V. Эту многогранную поверхность, распо¬ ложенную в многограннике (//обоз¬ начим через W. Теперь уже нетрудно осу¬ ществить обратный переход от системе (3.71). Пусть х (/), v (t) — системы (3.72) процесс, удовлетворяющий уравнению (3.72). Так как W отображается на V взаимно однозначно, то для любого t найдется на поверхности W единственная точка, пере¬ ходящая при отображении В в точку эту точку по¬ верхности W обозначим через u(t). Мы получаем функцию и (/) со значениями в многограннике U, которая, очевидно, кусочно - непрерывна и удовлетворяет соотношению = Так как процесс х (/), v (t) удовлетворяет уравнению (3.72), т. е. х (t) = Ах (t)+v (i), то x(t) = = Ах (/) + Ви (t), и потому процесс х (f), u(t) удовлетво¬ ряет уравнению (3.71). Тем самым переход от уравнения (3.72) к уравнению (3.71) завершен и эквивалентность этих уравнений установлена. Если процесс х (f), u(t) оптимален, то соответствующий ему процесс x (f), v (/) также оптимален (и наоборот), так как траектория х (t) и время t у обоих процессов одни и те же.
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 185 Пусть, наконец, р — произвольное ребро многогранника V. Тогда в многограннике U найдется ребро л, накладываю¬ щееся при помощи отображения В на все ребро р или на его часть. Иными словами, вектор w, идущий по ребру л, переходит при отображении В в вектор z^=B<w, идущий по ребру р. Если для уравнения (3.71) выполнено условие общности положения, то векторы Bw, ABw, A2Bw, . . . . . . , линейно независимы. Иначе говоря, линейно независимы векторы z, Az, A2z, . . . , An~xz, а это и озна¬ чает, что для уравнения (3.72) выполнено условие общности положения (ибо для системы (3.72) роль матрицы В играет единичная матрица). Итак, если условие общности поло¬ жения выполнено для системы (3.71), то оно выполнено и для системы (3.72). Замечание. Выше мы говорили о том, что переход от системы (3.72) к системе (3.71) неоднозначен, т. е. одному процессу х (/), v (t) соответствует, вообще говоря, беско¬ нечно много процессов х (/), и (/) с той же траекторией х (t). Для оптимальных же процессов переход от системы (3.72) к системе (3.71) однозначен. В самом деле, для оптимального процесса х (t), v (t) управление v(t) прини¬ мает значения лишь в вершинах vly . . . , vs многогранника V (теорема III.4), а в каждую вершину многогранника V ото¬ бражается при помощи В лишь одна вершина многогран¬ ника U—это легко вывести из условия общности положения. (Ср. рис. 78, на котором ясно видно, что в каждую из шести вершин шестиугольника V отображается только одна вершина куба U.) 38. Решение задачи синтеза в случае комплексных собственных значений*). Здесь будет дано полное решение задачи синтеза оптимальных управлений для линейных объектов, описываемых уравнениями второго порядка. Фазовое пространство X в этом случае представляет собой плоскость. Согласно сказанному в предыдущем пункте, можно предполагать, что рассматриваемый объект описывается *) Результаты этого и следующего пунктов были получены в студенческой дипломной работе А. А. Рывкина, выполненной под руководством автора.
ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. 1Ц системой уравнений х1 = а\хг + а\х2 + -и1, х2 = а^х1 + я^2 + ^2) (3.73) причем матрица А = (а/) приведена к простейшему виду при помощи трансформирования, а точка (г/1, v2) про¬ бегает некоторый выпуклый «многогранник» V, расположен¬ ный в фазовой плоскости X. Иными словами, «многогранник» V может представлять собой либо отрезок, проходящий X2 в) через начало координат (рис. 118, а), либо выпуклый мно¬ гоугольник, содержащий начало координат внутри себя (рис. 118, б) или на одной из сторон (рис. 118, в). В даль¬ нейшем будем называть V «многоугольником» (хотя он может вырождаться в отрезок). Как мы увидим, общая картина синтеза существенно зависит от того, являются ли собст¬ венные значения матрицы А действительными или комплекс¬ ными. В этом пункте будет рассмотрен случай комплексных собственных значений. Пусть собственные значения матрицы А имеют вид Хх = а-\-Ы, \2 — а — bh причем #=/=0. Можно считать при этом, что # > 0. Как известно*), в этом случае матрицу А можно (надлежащей заменой координат в фазовой плоско¬ сти) привести к виду *) См., например, Ф. Т р и к о м и, Дифференциальные урав¬ нения, 1962, стр. 61, 62.
§ id ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 187 Таким образом, согласно сказанному в предыдущем пункте, нужно рассмотреть систему + (зге) | х2 = bx1ах2v2. Прежде всего рассмотрим соответствующую систему ( хг = ах1—Ьх2, ( х2 = bx1-\- ах2. однородную (3.76) Непосредственно проверяется, что общее решение этой системы имеет вид x1(t) = ceai cos (W + а), х2 (t) = сeai sin (bi + а), (3.77) где с и а—произвольные постоянные. Эти формулы и представляют собой параметрические уравнения фазовой траектории. Удобнее всего перейти в этих формулах к полярным координатам, положив х1 = р cos ср, х2 = р sin (р, где р и (р— полярные координаты. В этом случае уравнения (3.77) примут вид р = ceat, ср = #/ + а. (3.78) Таким образом, аргумент ср равномерно изменяется с тече¬ нием времени, т. е. луч, исходящий из начала координат и проходящий через фазовую точку (хг(/), -^2(0)> равно¬ мерно поворачивается против часовой стрелки с угловой скоростью b радиан в секунду. Исключая t из уравнений (3.78), получим уравнение фазовой траектории в полярных координатах: а р=Ке^4’, (3.79) аа где К-=се ь —постоянная величина. Фазовые траектории по-разному выглядят при а < 0, <2 = 0, а > 0. При а < 0 мы имеем траектории, изображенные на рис. 119. Эти траектории (определяемые уравнением (3.79)) называются логарифмическими спиралями. Движение по ним происходит против часовой стрелки, причем при уве¬ личении t мы имеем р—>0 ^так как у < 0^ , т. е. фазо¬ вая точка приближается к началу координат. На рис. 119
188 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III направление движения точек по фазовым траекториям по¬ казано стрелками. Эта фазовая картина называется устой¬ чивым фокусом. При а~0 уравнение (3.79) принимает вид р = const, т. е. фазовые траектории являются • окружностями (по которым фазовые точки движутся против часовой стрелки). Эта фазовая картина называется центром (рис. 120). Наконец, при а > 0 мы снова имеем логарифмические спирали, определяемые уравнением (3.79). Движение по этим спиралям по-прежнему происходит против часовой стрелки, но теперь уже при возрастании t мы имеем р—>оо, т. е. фазовая точка удаляется от начала координат. Эта фа¬ зовая картина (рис. 121) называется неустойчивым фокусом. Из уравнения (3.79) вытекает важное свойство фазовых траекторий (справедливое в каждом из случаев, изображен¬ ных на рис. 119, 120, 121). Именно, любые две фазовые
§ id ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 189 траектории системы (3.76) получаются друг из друга подоб¬ ным преобразованием (гомотетией) с центром в начале коор¬ динат. В самом деле, две различные фазовые траектории получаются, если рассматривать в формуле (3.79) два различных значения К: а а р = Д’1е*ф, p=/C2e6<₽. Отсюда видно, что если подвергнуть первую траекторию д- подобному преобразованию с коэффициентом личить все ее радиусы-векто- ры р в раз 1, то первая тра¬ ектория перейдет во вторую. Столь же просто доказывает¬ ся, что при любом подобном преобразовании с центром в начале координат, а также при любом повороте вокруг начала координат каждая фазовая траектория системы (3.76)сно¬ ва переходит в некоторую фа¬ зовую траекторию этой же сис¬ темы. Перейдем теперь к рас¬ смотрению системы (3.75), от¬ личающейся от системы (3.76) членов v1, v2. Занумеруем вершины многоугольника V: #1> ^2’ • • • > es-> обходя его контур в направлении против часовой стрелки (если «многоугольник» V представляет собой отрезок, то его вершинами е1, е2 будем считать концы этого отрезка). Координаты вершины et обозначим через ej, е2 (/=1, 2, , s). Далее, для произвольной точки v = (v\ -у2) фазовой плоскости X обозначим через w — g(v) точку, координаты w1, w2 которой удовлетворяют соотношениям aw1— bw2 + v1 = 0, bw1 -J- aw2 -j- v2 = 0. присутствием свободных (3.80)
190 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Hi Точка w определяется точкой v однозначно, так как матрица (3.74) имеет определитель а2-\-Ь2^0. Отображе¬ ние g, переводящее точку v в точку w = g(v), является аффинным, так как оно описывается линейными уравнениями (3.80). Аффинное преобразование g переводит выпуклый многоугольник V в некоторый выпуклый многоугольник W с вершинами hv h2, ... , h* (через мы обозначаем Рис. 121. вершину, в которую переходит et при преобразовании g). Таким образом, координаты h\ tif вершины определяются через координаты вершины с помощью соотношений (Z= 1, 2, ...,<$) J ^-^ + ^ = 0, (3 81) | bh) + ah* + е? = 0. Мы знаем, что оптимальное управление v = (v1, v2) принимает лишь значения, являющиеся вершинами много¬ угольника V. Предположим, что на некотором отрезке вре¬
§ Ю] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 191 мени оптимальное управление принимает значение v = ei. Тогда на этом отрезке времени уравнения движения объекта принимают вид (см. (3.75)) I х1 — ах1 — Ьх2-\-е}, \ х2 = Ьх1 + ах2 -|- е*. В силу (3.81) эти уравнения можно записать следующим образом: (х1—hiY^a^x1 — h})—b(x*_ hf), (x2—hf)'=Ь(хг— h})-\-a(x2—hf). ' Итак, если = то соответствующий кусок траекто¬ рии является куском фазовой траектории системы (3.82),-, т. е. системы, отличающейся от однородной системы (3.76) лишь тем, что положение равновесия смещено в точку Проведем теперь из начала координат s лучей, имеющих направление внешних нормалей к сторонам многоугольника V (рис. 122, 123). Угол между лучами, перпендикулярными к сторонам, сходящимся в вершине eh обозначим через (рис. 123). Таким образом, полный угол разбивается на $ углов а1? а2, ... , а^, причем ясно, что = л — где У, — внутренний угол многоугольника V при вершине et.
192 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ш Пусть ф— произвольный отличный от нуля вектор, рас¬ положенный внутри угла ccz. Тогда вектор гр образует ту¬ пые углы с обеими сторонами, исходящими из вершины ei (рис. 124). Отсюда следует (ср. стр. 120), что, когда вектор v пробегает многоугольник V, скалярное произведение ф-и достигает своего максимума при <v = ei. В случае, если V есть от¬ резок с концами ev е2, оба угла ах, а2 становятся равными л (рис. 125); все сказанное остается в силе и для этого случая. Напишем теперь для системы (3.75) функцию И и при¬ меним принцип максимума. Мы имеем /7= фх (ах1—Ьх2-]-^1) + ф2 (Ьх1 + ях2 + ^2) = = . . . + ф^1 + ф2^2 = .. . + где многоточием обозначены члены, не зависящие от и. Таким образом, функция Н достигает своего максимума (по ^) одновременно со скалярным произведением ф-и, т. е. достигает максимума в такой вершине eh что вектор ф лежит в угле а,. Система уравнений для вспомогательных неизвестных фх, ф2 имеет следующий вид: \ 'Фа = ^1 - «Я’а-
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 193 Ее общее действительное решение дается формулами = c'e~at cos (bt + а'), г|)г = c'e~at sin (bt a'), где с' и a' — произвольные постоянные. Отсюда видно, что вектор ф (фх, ф2) равномерно вращается против часовой стрелки с угловой скоростью b радиан в секунду (изменяя при этом свою длину, что для нас, однако, несуществен¬ но). Поэтому вектор ф изменяется следующим образом: в а/ течение времени он находится внутри угла at-, затем aZ+1 в течение времени находится внутри угла а/+1, затем а,-+2 в течение времени внутри угла az+2 и т. д. (при этом под as+1 нужно, разумеется, понимать угол aj. Отсюда ясно, каким должно быть оптимальное управление в те- az чение времени вектор v принимает значение затем az + l в течение времени принимает значение е£+1, затем в течение времени -ау2 значение ei+2 и т. д. Наконец, не¬ трудно понять и структуру оптимальной траектории (точ¬ нее, траектории, удовлетворяющей принципу максимума): а,- в течение времени ~~ точка движется по траектории сис¬ темы (3.82)t-, затем в течение времени п0 траекто¬ рии системы (3.82)/+1, затем в течение времени -г*2 по траектории системы (3.82)/+2 и т. д. Исключение могут составлять только первый и последний куски траектории, т. е. первый и последний отрезки времени могут быть мень¬ ше, чем соответствующие величины ~~ (движение может начаться не в момент переключения и может окончиться — попаданием в начало координат—до момента очередного переключения). Заметим теперь, что дуга траектории системы (3.76), пробегаемая фазовой точкой за время у, стягивает в по¬ ложении равновесия угол, равный а (рис. 126); это без 7 В. Г. Болтянский
194 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III труда следует из формул (3.78). То же относится и к сис¬ теме (3.82);, получающейся из (3.76) сдвигом положения равновесия. Поэтому найденная выше структура оптималь¬ ной траектории может быть описана также следующим об¬ разом. Фазовая точка движется по траектории системы (3.82);, описывая дугу, стягивающую в положении равно¬ весия угол а;, затем она пробегает дугу траектории сис¬ темы (3.82); + 1, стягивающую в положении равновесия угол сб;+1, затем движется по траектории системы (3.82);+2 и т. д. (Первый и последний куски оптимальной траекто¬ рии могут стягивать в соответствующих положениях рав¬ новесия меньшие углы.) Согласно сказанному в п. 28, всякая оптимальная траектория имеет такой вид и, обратно, всякая траектория такого вида, оканчивающаяся в начале координат, является оптимальной. Теперь уже нетрудно построить на фазовой плоскости X „линии переключения", определяющие синтез оптималь¬ ных управлений. Обозначим через Л;О(/= 1,2, ...,$) дугу траектории системы (3.82);, оканчивающуюся в начале координат О и стягивающую в положении равновесия этой системы угол &; (рис. 127, 128). Тогда ясно, что заклю¬ чительный этап оптимального движения фазовой точки происходит по одной из дуг Л;О, причем точка может пройти не всю эту дугу, а лишь некоторую ее часть Xfl (так как последний кусок оптимальной траектории может стягивать угол, меньший af). Далее, так как в точке Xi произошло „переключение" и фазовая точка после „пере-
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 195 ключения" стала двигаться согласно системе (3.82)f, то перед моментом переключения фазовая точка двигалась по закону (3.82)t-_х. Таким образом, предыдущий отрезок Умо¬ оптимальной траектории представляет собой дугу траекто¬ рии системы (3.82)z_x, оканчивающуюся в точке О и стяги¬ вающую в положении равновесия угол Когда точка О пробегает всю дугу Afi, дуги YiXi указанного вида заполняют „криволинейный четырехугольник" (рис. 129), одна из „сторон" которого совпадает с дугой А-_гО (ибо при Xi = O дуга ViXi совпадает с Л-^О). Таким образом, три вершины рассматриваемого криволинейного четырех¬ угольника находятся в точках Л-, О, Л:-_х; четвертую вер¬ шину обозначим через В^. Тогда дуга Bi_1Ai_1 представ¬ ляет собой множество всех точек Kt-, т. е. тех точек опти¬ мальных траекторий, в которых происходит переключение (от системы (3.82)м_2 к системе (3.82)1-_1). Обозначим через подобное преобразование с центром _ aai и коэффициентом е ь , сопровождаемое поворотом во¬ круг точки на угол at- по часовой стрелке. Из формул (3.78) легко вывести, что дуга Bi_1Ai_1 получается из ду¬ ги А;О при помощи преобразования Pt-_x (т. е. точка Y( получается из соответствующей точки при помощи указанного преобразования). Перед тем как произошло переключение в точке Ytl фазовая точка двигалась по закону (3.82)t_2, описав по 7*
196 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III соответствующей фазовой Рис. 130. из дуги Д1_1 Bi_l при Продолжая таким образом, мы вычертим $ линий OAftfiiDi. . . (Z = 1, 2, . . ., s), ис¬ ходящих из начала координат и представ¬ ляющих в совокупнос¬ ти множество всех точек переключения (рис. 131). Преобразо¬ вание Pt переводит ли- ниюОД. + 1Вг + 1С,.+1... в линию AiBi CiDi. . . (рис. 132). Это позво¬ ляет последовательно вычерчивать части линий OA'BfiPi. . ., зная первые куски OAV ОЛ2, . OAS этих линий (опреде¬ ление этих кусков было тить, что траектории дугу ZzKz, стяги¬ вающую в положении равно¬ весия угол az_2 (рис. 130). Точка Zz получается из соот¬ ветствующей точки при помощи преобразования Р^_2. Когда точка Kz пробегает всю дугу А-А-1- ДУГИ ziYi Ука- занного вида заполняют „кри¬ волинейный четырехуголь¬ ник14, двумя сторонами кото¬ рого являются дуги и Д1._1В/_2. Четвертую вер¬ шину этого четырехугольника мы обозначим через Ct-_2. Та¬ ким образом, дуга Bz_2Cf_2 (множество всех точек пере¬ ключения ZJ получается помощи преобразования Pf_2. приведено выше). Остается заме- значение ei управляющий параметр v принимает
§ Ю] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 197 Рис. 134.
198 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III внутри „угла" между линиями OAi + 1Bi+1Ci+1. . . и CM.. и на дуге Л-О. Это и дает синтез оптимальных управле¬ ний (рис. 133). Вид оптимальных траекторий показан на Естественно, что картина синтеза меняется в зависи¬ мости от значений коэффициентов а, b и вида многоуголь¬ ника V. Несколько различных случаев показано на рис. 134—137. При а < 0 (т. е. в случае, когда собствен¬ ные значения матрицы А имеют отрицательные действитель¬ ные части) размеры дуг OAt, AiBi, Bfi^. . . увеличиваются, ибо преобразования Pt имеют в этом случае положительные коэффициенты подобия. Синтез оптимальных управлений осуществляется во всей плоскости X (рис. 134, 135), а кусками оптимальных траекторий являются логарифмические спирали. При а —0 размеры дуг не меняются, т. е. ОА- = = Bi_1Ai_1 = Ci_2Bi_2= . . . (ибо преобразования Pt явля¬ ются поворотами); синтез оптимальных управлений по-преж¬ нему осуществляется во всей плоскости X (рис. 136), а
(s=3,a=0) 7**
200 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III оптимальные траектории составляются из кусков окружно¬ стей. Наконец, при а>0 размеры дуг ОАЬ Ci_2Bi_2f. . . уменьшаются в геометрической прогрессии, а синтез оптимальных управлений осуществляется лишь в ограниченном куске плоскости X (рис. 137). Заметим еще, что условие общности положения для рассматриваемой системы всегда выполнено (так как пре¬ образование А не имеет собственных инвариантных под¬ пространств). Напомним также, что мы изучили лишь систему (3.75), которая получилась в результате упрощений, указанных в п. 37; для произвольной системы второго порядка (не приведенной к виду (3.75)) картина синтеза аффинно искажается. 39. Решение задачи синтеза в случае действительных собственных значений. Будем вначале полагать, что соб¬ ственные значения матрицы А системы (3.73) (см. стр. 186) различны между собой и отличны от нуля. В этом случае матрицу А (надлежащей заменой координат в фазовой плоскости) можно привести к диагональному виду. Таким образом, согласно сказанному в п. 37, нужно рассмотреть систему х1 = ХрГ14- v1, х2 = Х2х2 + ^2 (Хх, Х2у=0). (3.83) Рассмотрим сначала соответствующую систему | х1 = К1х1, I х2 = М2. однородную (3.84) Общее решение этой системы имеет вид (3.85) где сх, с2 — произвольные постоянные. Эти формулы и пред¬ ставляют собой параметрические уравнения фазовых траек¬ торий. Все четыре координатные полуоси являются фазовыми траекториями. Уравнения остальных фазовых траекторий (в неявном виде) получаются исключением параметра t из соотношений (3.85): —= const. (3.86)
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 201 Общая картина фазовых траекторий системы (3.84) су* щественно зависит от величины и знака чисел Л2 (рис. 138—140). Перейдем теперь к рассмотрению системы (3.83), отли¬ чающейся от системы (3.84), присутствием свободных членов v1, V2. Нумерацию вершин многоугольника V оставим такой же, как и на стр. 189. Для произвольной точки v = (v1, v2) фазовой плоскости X мы обозначим через w = g(v) точку с координатами w1 = — w2 = —V2. (3.87) Aj Л-2 Отображение g, переводящее точку v в точку w = g(v)y-_ аффинно. Многоугольник V переходит при этом аффинном отображении в некоторый выпуклый многоугольник W с вершинами Л2, hs (где hi = g{ei)'). Таким образом, координаты h], hl вершины связаны с координатами вершины ei соотношениями (Z = 1., 2, $): XX + ez=0, V* + ez2 = 0- (3.88) Предположим, что на некотором отрезке времени опти¬ мальное управление принимает значение v — e^. Тогда на этом отрезке времени уравнения движения объекта
ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III принимают вид (см. (3.83)) + х2 = Х2х2 + е(?. В силу (3.88) эти уравнения можно, записать следующим образом: ( (х1 hi) —(х1 hi), (3 89)- 1 (х2—ftf)’= Х2 (х2 —Af). Итак, если v = e:, то соответствующий кусок траек¬ тории является куском фазовой траектории системы (3.89)f, т. е. системы, отличающей¬ ся от однородной системы (3.84) лишь тем, что поло¬ жение равновесия смещено в точку ht. Рассуждение на стр. 192, связанное с рассмот¬ рением углов az, а2, . . ., а^, проходит здесь без вся¬ ких изменений; функция Н достигает своего макси¬ мума (по v) одновременно со скалярным произведени¬ ем ф-у, т. е. достигает максимума в такой вершине что вектор ф лежит в угле az. Заметим теперь, что собственными инвариантными под¬ пространствами преобразования А с матрицей (где А15^=А2) служат оси координат. Поэтому в силу усло¬ вия общности положения (которое мы предполагаем вы¬ полненным) никакая сторона многоугольника V не парал¬ лельна ни одной из осей координат. Следовательно, никакой из лучей, являющихся сторонами углов ах, а2, ..., as (рис. 123), также не параллелен ни одной из осей коор¬ динат.
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕА4 2-ГО ПОРЯДКА 203 Система уравнений для вспомогательных неизвестных фр ф2 имеет следующий вид: = —Ч’Фг 1р2 = —А21|>2. Из этой системы видно, что если в начальный момент фх = 0 (или яр2 = 0), то 11)! = О (соответственно ф2 = 0). Если же в начальный момент ф1=/=0, хр2=^0, то ipx и гра не обращаются в нуль в течение всего движения. Иными словами, вектор гр либо в течение всего движения сохра¬ няет постоянное направление, параллельное одной из осей координат, либо же остается все время в одном из квад¬ рантов (т. е. его компоненты фр ф2 сохраняют постоянные знаки). Мы имеем при этом d 4'li”Ф1Ф2 —“ Шг + М’А У \ Ч>2 /Q пл\ dt ~ ш2 W1)2 Ф1 ’ (3’90) Отсюда видно, что в каждом из квадрантов величина dt \ф/ сохраняет постоянный знак, т. е. тангенс угла наклона вектора гр монотонно меняется, и потому в каждом из квадрантов вектор гр непрерывно вращается в одном направлении (рис. 141). Из соотношения (3.90) непо¬ средственным величины $2 Ф1 интегрированием находим закон изменения с течением времени: 1п I = (^1 —^2) z +const. (3.91)
204 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III Нам следует рассмотреть четыре случая, соответст¬ вующие движению вектора ф в каждом из четырех квад¬ рантов. Их исследование производится аналогично. Рас¬ смотрим подробно случай, когда вектор гр движется в первом квадранте, причем для .определенности будем предполагать, что —Х2>0 (рис. 141, а). Обозначим через ар, ар + 1, ..., ад углы, целиком содержащиеся в первом квадранте (так что углы ар_г и ад+1 лишь частично заходят в этот квадрант), а через 1р, 1р+1, ..1д, lq+1—стороны этих углов (рис. 142). Тангенсы углов, образованных этими прямыми с осью х1, обозначим через kp + v •••» ^g+i- Йз формулы (3.91) непосредственно следует, что время, в течение которого вектор ф нахо¬ дится внутри угла az (т. е. разность моментов времени, для которых выполняются соотношения и ф2 l \ ■L- = ^), равно Л- Таким образом, изменение ф с течением времени опи¬ сывается следующим образом. Вектор ф может неограни¬ ченно долго находиться внутри угла о^р-1У затем в течение времени Тр он поворачивается внутри угла ар, затем
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 205 в течение времени Тр+1 внутри угла ар+1, . . . , затем в течение времени Tq внутри угла aq и, наконец, может неограниченно долго находиться внутри угла аб/+1. Отсюда получаем вид оптимального управления. Управляющий параметр v может неограниченно долго принимать значение еР-1^ затем в течение времени 7* он принимает значение ер, затем в течение времени значение ер+1, . .., затем в течение времени Tq значение eq и, наконец, может неограниченно долго принимать значение ^+1. Всего мы получаем (при изменении г|) в первом квадранте) q—р+2 переключений, наступающих при прохождении вектора г|) через каждую из прямых 1р, 1р+1, . . lq1 /д+1. Разумеется, число переключений может оказаться и меньшим, чем q — р + 2. Например, мы могли бы начать рассмотрение движения в момент, когда управляющий параметр v уже имеет значение ер. Тогда мы получили бы, что параметр v в течение времени, не превосходящего Тр, прини¬ мает значение ер, затем в течение времени, равного Тр+1, принимает значение ер+1 и т. д. Точно так же могло бы оказаться, например, что движение закончилось (попаданием в начало координат) до момента переключения из вершины eq в вершину е +1. Теперь уже нетрудно построить на плоскости X «ли¬ нии переключения», определяющие синтез оптимальных управлений. Наметим сначала траектории, для которых заключительный этап движения соответствует значению параметра v=eq+1, т. е. движение происходит по дуге Aq+1O траектории системы (3.89)^+1, оканчивающейся в на¬ чале координат (рис. 143). Перед попаданием на линию Лд + 1О движение происходило в силу системы (3.89)^. Таким образом, Aq+1O есть линия переключения от значения eq к значению eq+1. Пусть X—некоторая точка линии Тогда предшествующий точке X участок YX оптимальной траектории представляет собой дугу траектории системы (3.89)^, соответствующую отрезку времени Tq. Так как решения системы (3.84) имеют вид x1 = c1ekJ, х2 = с2е^1, то в результате движения точки по траектории этой системы в течение времени Tq ее абсцисса умножается на а ордината — на еК2>гя. Система же (3.89)^ отличается от системы (3.84) только сдвигом положения равновесия. Таким образом, точки X получаются из
206 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III соответствующих точек Y (рис. 143) с помощью аффинного преобразования которое в системе координат с началом в точке hq и осями, параллельными осям х\ х2, заклю¬ чается в умножении абсциссы на а ординаты — на Следовательно, множество всех точек Y представляет собой линию AqBq, переходящую в линию Aq+1O при аффинном преобразовании Lq (рис. 144). Наметив еще Рис. 143. Рис. 144. линию BqO, представляющую собой дугу траектории си¬ стемы (3.89)^, оканчивающуюся в начале координат и соответствующую отрезку времени Tq, мы найдем, что вся «полоса» Aq+1OBqAq заполнена кусками траекторий си¬ стемы (3.89)^, начинающимися на линии AqBq, кончающи¬ мися на линии и соответствующими отрезку вре¬ мени Tq. Итак, множеством точек У, в которых происходит переключение из вершины eq_x в вершину eq, служит линия AqBq. К этой линии нужно еще добавить дугу BqO,
ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 207 поскольку следует учесть оптимальные траектории, за¬ вершающиеся попаданием в начало координат до момента переключения из вершины eq в вершину eq+1 (для таких траекторий заключительный этап движения описывается системой (3.89)^ и происходит в течение времени <1 Tq, т. е. этот заключительный этап изображается некоторой частью YO дуги BqO}. До точки У, расположенной на линии AqBqO, движение совершалось по дуге ZY траек¬ тории системы (3.89)^_х в течение времени Tq_x. Отсюда совершенно аналогично получаем, что множество всех точек Z представляет собой линию Aq_1Bq_1Cq_1, пере¬ ходящую в линию AqBqO при аффинном преобразовании Lq_x (которое в системе координат с началом Лд_х за¬ ключается в умножении абсциссы на а ординаты—• на еК2Т<1-'). Наметив еще линию Cq_1Oi представляющую собой дугу траектории (3.89)^_х, оканчивающуюся в О и соответствующую отрезку времени Т^_х, мы найдем, что вся «полоса» AqBqOCq_1Bq_1Aq_1 заполнена кусками траек¬ торий системы (3.89)^_х, начинающимися на линии Aq_t Bq_1Cq_11 кончающимися на линии AqBqO и соответствую¬ щими отрезку времени Tq_r (рис. 145). Продолжая таким образом, мы построим «полосы», за¬ полненные соответственно кусками траекторий систем (3.89L, (3.89)д_х, ..., (3.89)^ (рис. 146). Крайняя линия АрВрСр . . . КрО последней из этих «полос» представляет собой множество всех точек переключения от вершины ер_г к вершине ер. До того как фазовая точка попала на эту линию, она совершала движение по траектории системы (3.89) /?_1 (рис. 147). В результате мы получаем все опти¬ мальные траектории, для которых вектор ф изменяется в первом квадранте. Они заполняют на плоскости неко¬ торый «угол» Aq+^OAp--^ где Ар_гО — траектория системы (3.89) р_х, оканчивающаяся в точке О, Совершенно аналогично прослеживаются оптимальные траектории, соответствующие изменению вектора ф в трех других квадрантах. Это дает еще три «угла», аналогич¬ ных «углу» Aq+1OAp_1. Вместе эти четыре «угла» запол¬ няют всю фазовую плоскость X, что и дает искомый син¬ тез оптимальных управлений (рис. 148). Если оба собст¬ венных значения положительны, то синтез осуществляется в некотором ограниченном выпуклом множестве
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 209 (рис. 149, 150), а если собственные значения имеют раз¬ ные знаки, то синтез осуществляется в некоторой полосе (рис. 151). Мы подробно рассмотрели случай, когда собственные зна¬ чения Хх, Х2 действительны, отличны от нуля и различны между собой. Остановимся кратко на тех изменениях, которые произойдут в этом построении для оставшихся случаев. Предположим сначала, что в нуль обращается только одно собственное значение, т. е. мы имеем систему ( х1 = Хх1 + -v1, I х2 = v2
210 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. TII Собственными инвариантными подпространствами являются оси координат, так что условие общности положения за¬ ключается в отсутствии у многоугольника V сторон, па¬ раллельных осям координат. Полностью сохраняется и рассуждение о характере изменения вектора гр (ср. (3.90), (3.91)). Однако вместо (3.89) мы теперь имеем систему { = (3.92). I х — , фазовыми траекториями которой служат кривые х1 = у + с^, х2 = f + с2 (эти кривые являются экспонентами при и лучами, параллельными оси абсцисс, при ef = 0). Синтез оптималь¬ ных управлений строится так же, как и для системы (3.83), но с заменой фазовых траекторий системы (3.89)t- траекториями системы (3.92)z. Пример показан на рис. 152. Остается рассмотреть случай, когда собственные зна¬ чения Хр Х2 совпадают между собой. В этом случае мат¬ рица А может быть приведена к одному из следующих
§ Ю] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 211 двух видов: X 0\ /X 1\ 0 ^0 А,/ • Первую из этих матриц исключим из рассмотрения, так как для нее любая прямая, проходящая через начало координат, является инвариантным подпространством и условие общности положения не выполнено. Вторая матрица приводит нас к рассмотрению системы уравнений ( х1^ кх1-^ х2 +V1, I х2 = Хх24-^2.
212 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. Ill Единственным собственным инвариантным подпространством служит ось х1, и потому условие общности положения выполнено, если многоугольник V не имеет сторон, па¬ раллельных оси х1. Система уравнений для вспомогательных неизвестных имеет в этом случае вид Фх = — Ич. Фг = —Фх~Иг- Из этой системы видно, что если в начальный момент грА 0, то грх = 0; если же в начальный момент гр1=^=О, то грх не обращается в нуль в течение всего движения. н \ о \ — х: / Иными словами, вектор гр либо в течение всего движения сохраняет постоянное направление, параллельное оси ординат, либо же все время находится в правой или в левой полуплоскости. При этом f Фа А Шг —Ф1Ф2 _ _ < (3.93) откуда видно, что вектор гр поворачивается (как в левой, так и в правой полуплоскости) по часовой стрелке (рис. 153). Из формулы (3.93) нетрудно также получить время 7} пребывания вектора гр внутри угла az. Вместо рассмотрения четырех квадрантов теперь достаточно рас¬ смотреть два случая, соответствующие движению век¬
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 213 тора ф в правой или левой полуплоскости. Если обозна¬ чить через ар, ар+1, . .., ад углы, целиком содержащиеся в правой полуплоскости и занумерованные на этот раз по часовой стрелке (рис. 154), то мы совершенно так же, как и выше, построим «угол» Л^+1ОЛ/7_1, заполнен¬ ный оптимальными траекториями и соответствующий изме¬ нению вектора ф в правой полуплоскости. Аналогичный «угол» соответствует и левой полуплоскости. Вместе оба «угла» и определяют синтез оптимальных управлений во всей плоскости X. В остальном построение синтеза не отличается от рассмотренного выше. 40. Синтез оптимальных управлений для уравнения второго порядка. Рассмотрим уравнение второго порядка х + 2бх + = и с неотрицательными коэффициентами б, со. Управляющий параметр и (скалярный) будем предполагать изменяющимся в пределах —(ср. стр. 17). Несколько более общий случай, когда управляющий параметр и меняется в пределах а^д^Р (где а < 0, Р > 0), предоставляем рассмотреть читателю. Полагая х = х\ х=х2, перепишем рассмотренное уравнение в виде следующей нормальной системы: / *1 = л;2’ (3.94) I х2 = — со2^1—2бх2 + и. На плоскости х1, х2 «многогранник» U будет представ¬ ляться отрезком [— 1, 1], расположенным на оси х2. Легко видеть, что ось х2 не является собственным инва¬ риантным подпространством матрицы и потому условие общности положения всегда выполнено. Пусть сначала собственные значения матрицы Л, т. е. корни уравнения X24-26A + cd2 = 0, (3.95) комплексны, т. е. дискриминант б2 — со2 отрицателен. Полагая б2 — со2 = — у2, где у — некоторое положительное
214 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III число, мы сможем записать корни уравнения (3.95) в виде X — — 6 ± iy. Собственный вектор матрицы А, соответ¬ ствующий собственному значению к =— 6 + iy, имеет вид q1 — iq2, <li = { 1, —6}, ?2 = {°> — ?}• Примем q± и q2 за базисные ае-кторы новой косоугольной системы координат у1, у2. Тогда переход от системы у/1, у2 к системе х1, х2 выразится формулами (3.96) Пользуясь этими формулами, мы легко найдем, что в новых координатах система уравнений (3.94) запишется в виде или, иначе, в виде ( V1 =—ду1 — + I У2 = + YJ'1 — 6у2 + т>2, где управляющая точка (я1, v2) может меняться в преде¬ лах многогранника V, представляющего собой отрезок Согласно сказанному на стр. 190, вершинам многогранника V соответствуют точки A1_G2+62’ -Y (№+62)J ’ h*~\ Y2 + 62>7 (координаты указаны в системе у/1, у/2), а каждый из углов ах, а2, соответствующих этим вершинам, равен л. Теперь уже нетрудно, пользуясь сказанным в п. 38, построить синтез оптимальных управлений в плоскости у/1, у2. Ку¬ сками фазовых траекторий будут полуокружности при
215 ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА Рис. 156.
216 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ III Рис. 158.
ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 217 6 — 0 (рис. 155) и дуги логарифмических спиралей 6 > 0 (рис. 156). При переходе от координат у/1, при - _ У2 к координатам х1, х2 (по формулам (3.96)) картина син¬ теза аффинно искажается (рис. 157, 158). Пусть теперь собственные значения матрицы А, т. е. корни уравнения (3.95), действительны и различны. Обо¬ значим эти корни через и Х2 (они отрицательны)-, а через q2 обозначим соответствую¬ щие собственные векторы (рис. 159, ср. траектории на рис. 138): ^1~{ — — = ^2 }• Примем qr и q2 за базисные векторы новой косоугольной сис¬ темы координат у/1, у2. Тогда системы у1, у2 к х2 выразится фор- переход от системе х1, мулами I Х> = I х2 = В новых координатах система уравнений (3.94) запишется в виде или, иначе, в виде I j2 = х2у2 + <и\ где управляющая точка (-и1, ^2) может меняться в преде¬ лах многогранника V, представляющего собой отрезок с концами *1 = 1 ( 1 1 Ui-X2 ’ Xi Х2 *2=1 ( 1 1 у Х2 Х-1 Х2
218 ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ [ГЛ. III Теперь уже нетрудно, пользуясь сказанным в п. 39, по¬ строить синтез оптимальных управлений в плоскости J1, j2 (рис. 160). При переходе к координатам х1, х2 картина синтеза аффинно искажается (рис. 161). Наконец, если собственные значения совпадают (Ах = Х2 = — 6 = — со), то в качестве вспомогательного базиса удобно принять собственный вектор ^1 = {1, X} и вектор q2 = { 0, 1 }. Косоугольная система координат у1, у2, определяемая базисными векторами qv q2, связана с системой х1, х2 формулами перехода / 1 х2 = Ау1 +/. В новых координатах система (3.94) запишется в виде I / = v1, I _у2 = Х_у2-|-и2,
§ 10] ЗАДАЧА СИНТЕЗА ДЛЯ СИСТЕМ 2-ГО ПОРЯДКА 219 где управляющая точка (с/1, -и2) может меняться в пределах многогранника V, представляющего собой отрезок [—1, 1] оси у2. Синтез строится аналогично предыдущему. Заметим, что при Х = 0 (т. е. 6 = со = 0) система (3.94) при¬ нимает вид Синтез оптимальных управлений для этой системы был рассмотрен на стр. 38—44.
ГЛАВА IV ОБОСНОВАНИЕ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ И ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ § 11. Оценка времени переходного процесса 41. Идея метода. В этом пункте мы подойдем к рас¬ смотрению функции со(х), введенной на стр. 25, с совер¬ шенно иной точки зрения. Именно, мы теперь примем-не¬ равенство (1.12) (или уравнение (1.18)) за исходное и сего помощью получим оценку времени переходного процесса. Основная идея этого метода очень проста. Мы изложим ее в виде следующей леммы, относящейся (как и все даль¬ нейшее) к управляемому процессу (1.2). При этом мы будем для простоты считать, что правые части уравнений (1.2) определены, непрерывны и имеют непрерывные производные др —когда х пробегает все фазовое пространство X (а и дх' пробегает некоторую область управления U). Лемма IV. 1. Предположим, что на некотором открытом множестве G пространства X задана непрерывная рывно дифференцируемая функция со (х) = со (х1, х2, удовлетворяющая для всех х £G, и £U неравенству и непре- «к1- a=i (4.1) Тогда, если и (/), tQ^Zt — допустимое управление, пе¬ реводящее фазовую точку из положения х0 в положение xlf причем соответствующая траектория х (/) расположена цели¬ ком в множестве G, то время — /0 перехода из точки х0
§ И] ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 221 в точку хг оценивается неравенством h — (^i)~со (х0). (4.2) Доказательство. Пусть тх, т2, . . ., xk — точки раз¬ рыва управления и (/), причем /0 < Ti < т2 < • • • < т/? < положим также /0 = т0, /1 = т/г+1. Тогда на каждом из ин¬ тервалов (т0, тх), (тр т2), . . (тЛ, тЛ + 1) функция ц(/) не¬ прерывна. Мы имеем ^<о(х(/))=£ (х (0,и (/))<! a-i а=1 (см. (4.1)). Таким образом, непрерывная функция со(х(/)) имеет внутри каждого из интервалов (rz, rf+1), i = 0, 1,... . . . , k, непрерывную производную, удовлетворяющую не¬ равенству и потому ® (X (Т{ + 1)) — со (х (т,)) < т/ + 1 — т(. Складывая эти неравенства для / = 0, получаем соотношение ® (X (Tft + 1)) — (0 (X (т0)) < Tft + 1 — т0, совпадающее с требуемым неравенством (4.2). Заметим, что мы всегда можем предположить функцию со обращающейся в нуль в наперед заданной точке (ибо при¬ бавление константы к функции со (х) не меняет ее свойств). Если, например, функция со (х) удовлетворяет условию о(х1) = 0, то неравенство (4.2) переписывается в виде /1-/0>-0)(^0). (4.3) Доказанная лемма, по существу, доставляет нам метод, обратный методу динамического программирования. Точнее, если на стр. 25—28 мы вывели неравенство (1.12) (или равенство (1.18)) как необходимое условие оптималь¬ ности, то здесь оно выступает как достаточное усло¬ вие оптимальности. В самом деле, на стр. 25—28 мы фик¬ сировали некоторую точку х± и предполагали, что суще¬ ствует непрерывная и непрерывно дифференцируемая
222 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV функция со(х), удовлетворяющая условию со (а^) = 0 и об¬ ладающая следующими двумя свойствами: 1°. Для каждой точки х0 существует допустимое управ¬ ление u(f) = uXo(t), переводящее фазовую точку из поло¬ жения х0 в положение хг ровно за время — со(хо). 2°. Все эти управления оптимальны, т. е. за время, меньшее — со (х0), попасть из точки х0 в точку невоз¬ можно. При выполнении этих условий мы установили справед¬ ливость неравенства (1.12) (или соотношения (1.18), кото¬ рому, в силу условия 1°, неравенство (1.12) эквивалентно). Иными словами, при выполнении условия 1° неравенство (1.12) (или эквивалентное ему равенство (1.18)) является необ¬ ходимым условием оптимальности. Лемма же IV.1 пока¬ зывает, что при выполнении условия 1° неравенство (1.12) (или равенство (1.18)) является достаточным условием оптимальности. Действительно, в силу условия 1° точка х0 может быть переведена в хг за время — со (х0) с помощью некоторого управления u(t) = uXo(t); за меньшее же время перевести х0 в хх невозможно (см. (4.3)), т. е. уп¬ равление uXQ(t) оптимально. Итак, в действительности при выполнении условия 1° уравнение Веллмана (1.18) является необходимым и достаточным условием оптимальности. Однако, как показывает критика, приведенная на стр. 29, это утверж¬ дение имеет весьма небольшую ценность ввиду нереаль¬ ности требования о непрерывной дифференцируемости функции со (х). 42. Достаточные условия оптимальности в форме прин¬ ципа динамического программирования. В этом и следую¬ щем пунктах мы несколько ослабим требования, наклады¬ ваемые на функцию со(х). В результате мы получим новое необходимое и достаточное условие оптимальности (в форме принципа динамического программирования), обладающее уже большой областью приложимости. Для того чтобы подойти к формулировке этих ослаб¬ ленных требований, обратимся снова к рассмотрению при¬ мера на стр. 38—48. В этом примере функция со (х) имела непрерывные производные не во всей фазовой плоскости X, а всюду, кроме точек «линии переключения» АОВ (рис. 26).
§ И] ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 223 Естественно предположить в общем случае, что в множе¬ стве G, на котором задана функция со(х), выделено неко¬ торое множество М («особое множество» функции со (х)) и что функция со (х) непрерывна на всем множестве G, а не¬ прерывные производные имеет лишь в тех точках множества G, которые не принадлежат М. Это предположение мы и сделаем. Лемма IV.2. Пусть G — открытое множество фазового пространства X и М—некоторое множество, содержащееся в G. Предположим, что на множестве G задана непрерывная функция со (аг) = со (аг1, ...,х"), которая в точках, не при¬ надлежащих множеству М, имеет непрерывные производные и удовлетворяет неравенству (4.1). Пусть, далее, u(t), f0 fx,—допустимое управление, переводящее фазовую точку из положения х0 в положение xlt причем соответст¬ вующая траектория х (/) расположена целиком в G и пере¬ секается с множеством М лишь в конечное число моментов времени. Тогда оценка (4.2) остается справедливой. Доказательство. Ясно, прежде всего, что оценка (4.2) остается справедливой, если траектория х (t) пересе¬ кается с множеством М лишь в моменты времени /0, (или в один из этих моментов). Действительно, в этом случае полностью проходит доказательство леммы, по¬ скольку функция со по-прежнему непрерывна, а когда t заключено внутри интервалов (т-, т/+1), точка со(х(/)) ле¬ жит вне множества М (так что на этих интервалах произ- dco (х G)) . водные —• существуют и непрерывны). Пусть теперь 0Х, 02, . . ., — все принадлежащие интер¬ валу (f0, fx) моменты встречи траектории х (/) с множест¬ вом Л4, причем /0 < 0Х < 02 < . . . < 05 < ^; положим /0 = 0О, /х = 0^+1. Тогда к каждому из отрезков [0f, 0f+1], Z = 0, 1, . применимо сделанное выше замечание, и потому ei+1-o(. > ® (х (е,.+1))-(о (х (в,.)). Складывая эти неравенства для / = 0, 1, мы и по¬ лучаем соотношение 0^+1 —0О > ® (X (0i+l)) —® (х (0О)). совпадающее с требуемым неравенством (4.2). Лемма IV.3. Сохраним предположения о функции со, сде¬ ланные в лемме IV.2. Пусть u(t), —допустимое
224 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV управление, переводящее фазовую точку из положения х0 в положение хх, причем соответствующая траектория х (/) расположена целиком в G. Предположим, наконец, что как угодно близко к х0 найдется такая точка yQ, что траекто¬ рия y(t), исходящая из точки у0 и соответствующая тому же управлению u(t), пересекается с М лишь в конечное число моментов времени. Тогда оценка (4.2) остается справедливой. Доказательство. Выберем произвольное число £ > 0, и пусть IF0, Wx— такие окрестности точек х0, хх соответственно, что | со (х) —со (х0) | < е при x£W0, | со (х)— со (хх) | < е при х £ 1ГХ. В силу теоремы о непрерывной зависимости решений системы дифференциальных уравнений от начальных усло¬ вий существует такая окрестность IF0 с1Г0 точки х0, что всякое решение у (t) системы (1.4) (с тем же управлением u(t), /0<^^/х), для которого у (f0) £ 1Г0, определено на всем отрезке и удовлетворяет соотношению В силу условия леммы существует решение ^(/), /0 системы (1.4), удовлетворяющее условию ^(/0)€ и пересекающееся с М лишь в конечном числе то¬ чек. Из этого вытекает в силу леммы IV.2, что имеет ме¬ сто неравенство (4.4) Далее, так как у (f0) £ IFoc: 1Г0, то у (fx) £ Wr. Следо¬ вательно, в силу выбора окрестностей U70 и мы имеем |®СУ(М)—“(х0)| < е, |® «)) —й)(хх)| < е; в частности, ®Cy(U)~®(*о) <е> — ®СУ(<1)) + ® (*i) <е. (4.5) (4.6) Складывая неравенства (4.4) — (4.6), мы получаем со (хх) — со (х0) < —t0) + 2е.
§ И] ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 225 Ввиду произвольности е отсюда и вытекает требуемое не¬ равенство (4.2). Лемма IV.3 дает наиболее общие условия, при выпол¬ нении которых оценка (4.2) справедлива. Однако эти усло¬ вия неудобны, поскольку они формулируются отдельно для каждого управления и (/) и убедиться в справедливости этих условий для всевозможных управлений и (/) весьма затруднительно. Оказывается, однако, что при наложении некоторых условий на множество М сформулированные в лемме IV.3 условия выполняются для любых допусти¬ мых управлений и(/). Таким образом, при наложении этих условий на множество М оценка (4.2) оказывается справед¬ ливой без каких бы то ни было ограничений на управле¬ ние u(t). В п. 44 мы докажем, что это, в частности, имеет место, если М — кусочно-гладкое множество размерности < п. Мы не будем здесь приводить точного определения ку¬ сочно-гладких множеств (это сделано в следующем пункте); пока ограничимся для наглядности тем, что при п = 2 ку¬ сочно-гладкими множествами размерности < 2 являются линии, состоящие из отдельных дифференцируемых ку¬ сков (например, линия АОВ на рис. 26 или линии пере¬ ключения в примерах пп. 38—40). Итак, имеет место следующее предложение, доказа¬ тельство и разъяснение формулировки которого будет дано в следующих пунктах. Основная лемма. Пусть М—кусочно-гладкое мно¬ жество размерности < п, расположенное в открытом множе¬ стве G фазового пространства X. Предположим, что на мно¬ жестве Gзадана непрерывная функция со (х) = со (х1, . . ., хл), которая в точках, не принадлежащих множеству М, имеет непрерывные производные и удовлетворяет неравенству (4.1). Тогда, если u(t), —допустимое управле¬ ние, переводящее фазовую точку из положения х0 в ,поло< жение хх, причем соответствующая траектория х (/) распо¬ ложена целиком в множестве G, то для времени перехода справедлива оценка (4.2). Теперь мы можем сформулировать и доказать теорему, представляющую собой необходимое и достаточное условие оптимальности в форме метода динамического программи¬ рования. Ослабление требования о непрерывной дифферен¬ цируемости со (х) делает область применимости этой.
226 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV теоремы весьма широкой (это выяснится в п. 45—46 при доказательстве достаточного условия оптимальности в форме принципа максимума). В связи с этим теорему IV.4 можно рассматривать как обоснование метода динамического про¬ граммирования. Для простоты мы сформулируем эту тео¬ рему лишь в предположении, что множество G совпадает со всем фазовым пространством X (изменения, которые про¬ изойдут в формулировке этой теоремы, если оптимальные траектории заполняют не все фазовое пространство, — см., например, рис. 137, 149—151—достаточно очевидны). Теорема IV.4. Пусть М — кусочно-гладкое множество размерности < п, расположенное в фазовом пространстве X, и со (х) —- со (х1, . . ., хп) — непрерывная функция, заданная на X и имеющая в точках, не принадлежащих множеству М, непрерывные производные. Пусть, далее, со (хх) = 0 для не¬ которой точки х± £ X. Предположим, что для каждой отлич¬ ной от х± точки х0 £ X существует допустимое управление и (/) = uXo(t), переводящее фазовую точку из положения х0 в положение х± за время —со (х0). Для того чтобы все управ¬ ления иХо (/) были оптимальными, необходимо и достаточно, чтобы во всех точках х, не принадлежащих множеству М, функция со (х) удовлетворяла уравнению Веллмана (1.18) (или, что то же самое, неравенству (1.12)). Доказательство. Необходимость этого условия доказывается так же, как на стр. 26—28 (приведенное там доказательство применимо ко всякой точке х = х0, в кото¬ рой производные —. существуют и непрерывны). Достаточ- дх1 ность вытекает из основной леммы. В самом деле, точка х0 может быть, по условию теоремы, переведена в хх за время—со (х0) с помощью некоторого управления и (t) = = uXo(t); за меньшее же время перевести х0 в хг не¬ возможно (см. (4.3)), т. е. управление uXo(t) оптимально. 43. Кусочно-гладкие множества. В этом пункте мы да¬ дим точное определение кусочно-гладких множеств, а в сле¬ дующем пункте докажем основную лемму, сформулирован¬ ную в п. 42. Доказательство основной леммы использует ряд понятий теории гладких многообразий. Познакомиться с необходимыми понятиями и теоремами этой теории можно, например, по книге Л. С. Понтрягина «Гладкие многообра¬
§ Щ ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 227 зия и их применения в теории гомотопий» (Труды Матема¬ тического института им. В. А. Стеклова, Москва, 1955; в этой книге достаточно прочитать первые 29 страниц). Неподготовленному читателю мы рекомендуем доказатель¬ ство основной леммы (п. 44) пропустить. Итак, перейдем к определению понятия кусочно-глад¬ кого множества. Пусть К—некоторый ограниченный 5-мер¬ ный выпуклый многогранник /г), расположенный в век¬ торном пространстве S переменных £г, £2, ..., и рассматриваемый вместе с границей (т. е# замкнутый). Пред¬ положим, что в некотором открытом множестве простран¬ ства 3, содержащем многогранник К, заданы п непрерывно дифференцируемых функций .... Г), 1= 1,2, ...,», (4.7) обладающих тем свойством, что функциональная матрица (/=1’ У=1> имеет в каждой точке ранг $. Функции (4.7) осуще¬ ствляют гладкое отображение <р многогранника К в прост¬ ранство X по формулам ...Л’), г=1, (4.8) Если это отображение взаимно однозначно (т. е. различ¬ ные точки многогранника К переводит в различные точки пространства X), то образ L — ф (К) многогранника К мы будем называть криволинейным s-мерным многогранником' в пространстве X. Очевидно, криволинейный многогранник является замкнутым и ограниченным множеством простран¬ ства X, Пусть теперь G—некоторое открытое множество фазо¬ вого пространства X. Всякое множество Ma О, представ¬ ляющееся в виде объединения конечного или бесконечного числа криволинейных многогранников, расположенных таким образом, что с каждым замкнутым ограниченным множест¬ вом, лежащим в G, пересекается лишь конечное число этих многогранников, мы будем называть кусочно-гладким мно¬ жеством в G. (К границе множества G многогранники могут «скапливаться».) Если среди криволинейных многогранников, объединением которых является кусочно-гладкое множе¬
228 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV ство Л4, имеется хотя бы один многогранник размерности /г, а все остальные многогранники имеют размерности то кусочно-гладкое множество называется k-мерным. В ча¬ стности, всякая замкнутая в G гладкая поверхность раз¬ мерности < п является кусочно-гладким множеством в G (ибо ее можно разбить на криволинейные многогранники)*). Очевидно, что кусочно-гладкое в G множество размерности < п не содержит внутренних точек. 44. Доказательство основной леммы. Пусть £ = ф(/<) — криволинейный многогранник (см. (4.8)), расположенный в области G, и х (/), — фазовая траектория в G, соответствующая допустимому управлению и (/), /0 h (т. е. являющаяся решением уравнения (1.3)). Будем гово¬ рить, что фазовая траектория х (t) находится в общем по¬ ложении с многогранником L размерности < п—1, если она с ним не пересекается; она находится в общем поло¬ жении с многогранником L размерности п—1, если выпол¬ нены следующие условия: 1°. Траектория х (t) не пересекается страницей много¬ гранника L. 2°. Пусть Тр т2, — все точки разрыва управ¬ ления и (/); тогда ни одна из точек х (Q, X (т1). X (т2), . . . , X X (/х) не принадлежит многограннику L. 3°. Траектория х (t) ни в одной своей точке не касается многогранника L, т. е. если х (f) £ L (/0 < tr < fx), то вектор /(x(f), и (/')) не находится в касательной плоскости много¬ гранника L, проведенной в точке х (?) (в частности, этот вектор отличен от нуля). Если фазовая траектория х (t) находится в общем по¬ ложении с многогранником L (размерности п — 1), то каж¬ дая их общая точка является изолированной на траекто¬ рии х (/), и потому (в силу того, что траектория х (/), /0 представляет собой замкнутое ограниченное множество) существует лишь конечное число точек пересечения траектории х (t) с многогранником L. *) См., например, S. S. Cairns, On the Triangulation of Regular Loci, Annals of Math. 35, № 3 (1934), 579—587.
§ И] ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 229 «Лемма IV.5. Пусть u(t), —допустимое уп¬ равление, переводящее фазовую точку из положения х0 в по¬ ложение хр причем соответствующая траектория х (t) рас¬ положена целиком в множестве G. Пусть, далее, L — криволинейный многогранник размерности п — 1, располо¬ женный в G. Тогда, какова бы ни была окрестность Wo точки х0, существует такое открытое множество VczlT0, что для любой точки у решение у (/) уравнения (1.5) с на¬ чальным условием y(tQ)=yQ определено на всем отрезке tQ t и находится в общем положении с многогран¬ ником L. Доказательство. Прежде всего, мы можем (умень¬ шив, если нужно, окрестность 1Г0) считать, что для любой точки yQ £ №0 решение у (t) уравнения (1.5) с начальным условием^ (f0) =Уо определено на всем отрезке tQ t tr *). Пусть сначала многогранник L имеет размерность п— 2. Выберем в G открытое многообразие N той же размерно¬ сти, что и L, содержащее многогранник L (такое много¬ образие существует, ибо отображение (4.8), задающее криволинейный многогранник L, определено не только на многограннике К, но и в некоторой его окрестности). Прямое произведение Nx[t0, /х] многообразия на от¬ резок [70, ZJ (см. стр. 14 книги Л. С. Понтрягина о глад¬ ких многообразиях) представляет собой многообразие с краем, имеющее размерность —1. Обозначим через Р множе¬ ство всех таких точек (х', /') [f0, что решение х (f; х', /') уравнения (1.5) с начальным условием x(f)=x' определено на отрезке Множество Р является открытым подмножеством (т. е. подмногообразием) много¬ образия Nx[^0! ^1]. Для каждой точки (х', t')£P мы рас¬ смотрим траекторию х (/; х', /') (т. е. решение уравнения (1.5) с начальным условием х(/')=х') и положим х (/0; х', tf) = = г|)(х', t'). Мы4 получаем отображение гр (очевидно, не¬ прерывное) многообразия Р в область G. Покажем, что образ 1р(Р) этого отображения является множеством первой категории в G (т. е. представляется в виде объединения не более чем счетного числа нигде не плотных множеств). Для этого положим x0 = f0, rk = t1 *) См. Л. С. Понтрягин, Обыкновенные дифференциальные уравнения, предложение Д) на стр. 185. 8 В. Г. Болтянский
230 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV (напомним, что тх, т2, . .., — все точки разрыва управ¬ ления u(t)) и обозначим через />., /= 1, 2, . . ., k, совокуп¬ ность всех тех точек (х', для которых Очевидно, что P=P1|JP2U ... U Рл, и поэтому 1|) (Р) = 1|) (Рх) и 1|>(Р2) и . •• иф(Рл). Таким образом, достаточно доказать, что каждое из мно¬ жеств ф (Рх), ф(Р2), • ••> Ф(^) имеет в G первую катего¬ рию. Это доказательство для всех множеств ф) (Рх), . . ., ф (Pk) проводится одинаково. Проведем его для ф(Рл). Так как при правая часть уравнения (1.5) непрерывно зависит от х1, . .., х", /.и непрерывно диф¬ ференцируема по х1, ..., х", то точка х (/; х', f) непре¬ рывно дифференцируема по х', t' при (х', t') С Р^ т/г-1^ (в силу теоремы о дифференцируемости решений по начальным значениям, см. Л. С. Понтрягин, Обыкновенные диф¬ ференциальные уравнения, теорема 17). Поэтому отобра¬ жение (х', f)—>х(тл_х; х', /') является гладким (класса 1) отображением многообразия Pkn G. В силу той же теоремы о дифференцируемости по начальным значениям, применен¬ ной к уравнению (1.5) при тл_2 t точка х(тй_2; х', ^') = х(тл_2; х (хк_1; х', t'), xk_1) гладко за¬ висит от х (Tfe_x; х', ?'), т. е., в силу уже доказанного, гладко зависит от (х', I') £ Рк. Рассматривая затем отрезки тл_3^ . .., т0^/^тх, мы в конце концов получим, что точка х (т0, х', /') (или, что то же, ф (х', t')) гладко зависит от х', t' при (х', /') £ Рк. Иначе говоря, отобра¬ жение ф, рассматриваемое на Рк, является гладким (класса 1) отображением. Следовательно, множество ф (Рл) имеет пер¬ вую категорию в G (см. теорему 1 на стр. 15 книги Л. С. Понтрягина о гладких многообразиях). Итак, множество ф (Р) имеет первую категорию в G. Поэтому существует в 1Г0 точка <уоеф(Р). Рассмотрим решение у (i) с начальным условием y(tQ)=yQ. В силу выбора окрестности Wo, это решение определено на всем отрезке Далее, решение у (t) не пересекается с многообразием N. Действительно, если бы существовало такое f, что то мы имели бы (у(О> t')£P (ибо решение у (t) определено на отрезке Решение х (/; y(t'), t') удовлетворяет, по оп¬ ределению, начальному условию x(t')=y(t') и потому
ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 231 совпадает (в силу теоремы единственности) с решением у (t). Но тогда y0=y(t0) = x{tQ-, у (f), f) = -ф (у (Г), что противоречит выбору точки у0. Таким образом, траектория у (t) с начальным условием у (tQ) = у0 определена на всем отрезке tQ t и не пе¬ ресекается с многообразием N, а следовательно, и с много¬ гранником L. Из теоремы о непрерывной зависимости ре¬ шения от начальных значений вытекает (в силу замкнуто¬ сти и ограниченности многогранника L) существование такой окрестности W' cz Wo точки j0, что любое реше¬ ние х (/) системы (1.5), удовлетворяющее условию х (tQ) £ W' (это решение определено на всем отрезке /0 i tr в силу включения W'Q а 1Г0), не пересекается с L. Этим случай, когда многогранник имеет размерность < п—1, полностью рассмотрен. Пусть теперь размерность многогранника L равна п—1. Тогда проведенное рассуждение применимо к любой грани многогранника L. Так как многогранник L имеет лишь конечное число граней, то существует такое открытое множество IF' cz WQ, что решения х (/), удовлетворяющие условию х (tQ) g W"Ql определены на всем отрезке tQ t tY и не пересекаются с границей многогранника L. Таким образом, для любого открытого множества V с: W" условие 1°, указанное в определении общего положения, выполнено. Переходим к рассмотрению условия 2°. Выберем в G открытое многообразие N размерности л—1, содержащее многогранник L. Обозначим через N^1 = 0, 1, . .., k) мно¬ жество таких точек х'£/V, что решение xi (/; х') уравне¬ ния (1.5) с начальным условием х (tz) —х' определено на от¬ резке Тогда Nj есть открытое подмножество (т. е. подмногообразие) многообразия N. Для каждой точки х' £Nt рассмотрим решение xt (t; х') (т. е. решение уравнения (1.5) с начальным условием х (х^ ~ х') и положим ф. (х') = xt (т0; х'). Мы получаем отображение (очевидно, непрерывное) многообразия Nt в область G. Как и выше, устанавливается, что ф£- есть гладкое класса 1 отображение многообразия в область G. Так как многообразие N (а значит, и N^ имеет размер¬ ность п—1, то образ ф,- (N^ является множеством первой 8*
232 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV категории в G. Следовательно, % (Ч) и (N,) и ... есть множество первой категории в G. Поэтому существует в IF° точка е ф0 (Wo) U ^1 (А\) U ... иф/ДА^). Рассмот¬ рим решение у (t) с начальным условием y(tQ)=yQ^ Это решение определено на всем отрезке tQ t tr и, как легко видеть, удовлетворяет условию у (т(.) е N, i = Q, 1, . k. Из теоремы о непрерывной зависимости решения от началь¬ ных значений вытекает существование такой окрестности W" cz W"Q точки ^0, что для любого решения х (/) си¬ стемы (1.5), удовлетворяющего условию х (f0) £ W" (это решение определено на всем отрезке ВЬ1ПОЛ_ йены соотношения х (rj ё Af, i = 0, 1, . k, а следова¬ тельно, и соотношения х (rz) е A, i = 0, 1, Таким образом, для любого открытого множества V cz W" выполнены условия 1° и 2°, указанные в определении об¬ щего положения. Обратимся, наконец, к рассмотрению условия 3°. Пря¬ мое произведение Nx[tQ, представляет собой много¬ образие с краем, имеющее размерность п. Обозначим через Q множество всех таких точек (х', t') €Afx[/0> ^11, что Ре' шение х (f; х', i') уравнения (1.5) с начальным условием x(t')=x' определено на отрезке Множество Q является подмногообразием многообразия Nx[t0, Разобьем многообразие Q на части Q1? Q2j . Qk, относя к совокупность всех тех точек (х', f) £Q, для которых Далее, определим отображение ф многообра¬ зия Q в область (7, положив ф (х', f)=x(/0; х', f). Как и выше, отображение ф, рассматриваемое на Qz, яв¬ ляется гладким, класса 1, отображением. Предположим, что траектория у (t) с начальным условием у =у0 6 IF''' касается в момент времени i' (tQ t многообразия А/в точке х'. (Момент t' отличен от т0, тх, . . ., тк в силу условия 2°, которое уже выполнено при у,0 £ IF'''.) Тогда x(t' + dt\ х', f)=x'+ ^х, где dx — некоторый касательный вектор многообразия А/, a Иначе го¬ воря, х (f 4- dt\ х', t')=x(t' + df-t x' + dx, tf-\-dt}, откуда, в силу теоремы единственности, вытекает, что х (f; х', /') — — x(t\ x'-\-dx, t' -\-dt). В частности,, при t = tQ получаем
§ И] ОЦЕНКА ВРЕМЕНИ ПЕРЕХОДНОГО ПРОЦЕССА 233 -ф(х', /') (х' + dx, t'-\-dt). Это означает, что отличный от нуля касательный вектор (dx, dt) многообразия Мх [/0> ^i] в точке (х', /') переходит р нуль при касательном к ф отображении, т. е. касательное отображение в точке (х', /') вырождается. Иначе говоря, точка (х', f) не является правильной точкой отображения ф, а потому точка ф (х', t')—yQ принадлежит образу множества неправильных точек (определение правильных и неправильных точек см. на стр. 10 книги Л. С. Понтрягина о гладких много¬ образиях). Итак, если траектория, исходящая из точки у0 £ W'", касается многообразия N, то принадлежит образу мно¬ жества неправильных точек при отображении ф. Но при глад¬ ком, класса 1, отображении л-мерного многообразия в л-мер- ное многообразие образ множества неправильных точек имеет первую категорию*). Поэтому существует в W'” точка j>0, не принадлежащая образу множества неправиль¬ ных точек. Траектория y(t), исходящая из этой точки _у0, не касается многообразия N, т. е. не касается многогран¬ ника А, и потому находится с L в общем положении. В частности, траектория у (t) пересекается с многогран¬ ником L лишь в конечном числе точек, не касаясь его. Из этого нетрудно вывести существование такой окрестно¬ сти V a W'" точки j/0, что при х (t0) g V траектория х (/) (определенная на отрезке t0 t tr и удовлетворяющая условиям 1° и 2°) также пересекается с L, не касаясь, в конечном числе точек. Иначе говоря, при х(f0) g V траек¬ тория х (/) удовлетворяет всем условиям 1°, 2°, 3°. Таким образом, лемма IV.5 полностью доказана. Лемма IV.6. Пусть М — кусочно-гладкое в G множество размерности п—1. Пусть, далее, u(t), tQ t tv—до¬ пустимое управление, переводящее фазовую точку из положе¬ ния х0 в положение х1? причем соответствующая траекто¬ рия х (/), i0 t tr, расположена целиком в множестве G. Тогда в любой окрестности точки х0 найдется такая точка yQ, что траектория у (/), /0 исходящая из точки yQ и соответствующая управлению и (t), целиком *) См., например, А. Я. Дубовицкий, О дифференцируе¬ мых отображениях n-мерного куба в /г-мерный куб. Математиче¬ ский сборник 32 (74):2 (1953), 443 — 464.
234 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. TV расположена в G и пересекается с М лишь в конечном числе точек (т. е. существует лишь конечное число моментов вре¬ мени /, для которых y(t)£M). Доказательство. Траектория х (t), целиком лежит внутри области G и представляет собой замкнутое ограниченное множество. Поэтому существует окрестность W cz G этой траектории, пересекающаяся лишь с конечным числом криволинейных многогранников, состав¬ ляющих множество М. Занумеруем эти многогранники: ^1> ^2’ • • • ’ Будем рассматривать уравнение (1.5), получающееся при подстановке в правую часть уравнения (1.3) вместо и управления и (f), о котором идет речь в формулировке леммы. Тогда х (t) есть решение уравнения (1.5), определен¬ ное при /0 < и удовлетворяющее начальному условию х(^0)— xQ. В силу теоремы о непрерывной зависимости решений от начальных значений существует такая окрест¬ ность IF0' cz IF0 точки х0, что всякое решение у (/) урав¬ нения (1.5), для которого у (tQ) g 1Го', определено на всем отрезке f0 t <1 и расположено целиком в области W. В силу леммы IV. 5 существует такая окрестность cz W", что всякое решение y(t), для которого У (*о) € W™, находится в общем положении с многогран¬ ником £Р В силу той же леммы IV.5 существует такое открытое множество 1Г(02) cz Wy), что при у (t0) £ IFo2> ре¬ шение у (/) находится в общем положении с многогранни¬ ком £2. Продолжая таким образом, мы получим открытые мно¬ жества cz . . . cz IFo2> cz W\v cz W'Q cz WQ. При;/ (f0) £ решение у (t) находится в общем положении со всеми многогранниками £х, £2, ..., £v. Кроме того, оно располо¬ жено целиком в W (ибо У(^о)€^о) и потому не пересе¬ кается ни с какими другими многогранниками. Таким об¬ разом, при = у (f0) g WW cz U?o решение у (t) пересекается с М лишь в конечном числе точек. Лемма IV.6 доказана. Из этой леммы и леммы IV. 3, приведенной на стр. 223, вытекает непосредственно справедливость основной леммы предыдущего пункта.
§ 12] УСЛОВИЕ В ФОРМЕ ПРИНЦИПА МАКСИМУМА 235 § 12. Достаточное условие оптимальности в форме принципа максимума 45. Регулярный синтез и формулировка достаточного условия. Прежде всего мы введем понятие регулярного синтеза для уравнения (1.3), для которого теперь будем дГ др гт предполагать непрерывность производных —Ч , —. Пред- dxJ ди* положим, что заданы кусочно-гладкое множество АГ раз¬ мерности п—1, кусочно-гладкие множества Р° (= Р1 с Р2 с cz У3"-1 с: Рп = G (4.9) и функция ^(х), определенная в G и принимающая значе¬ ния в U. Мы будем говорить, что множества (4.9) и функ¬ ция v (х) осуществляют регулярный синтез для уравне¬ ния (1.3) в области G, если выполнены следующие условия. A. Множество/30 содержит точку а = хг и не имеет пре¬ дельных точек в открытом множестве G. Каждая компонента множества Pl \ (Р1'1 U АО (*=1, 2, ..., п) представляет собой /-мерное гладкое многообразие в G; эти компоненты мы будем называть i-мерными клетками. Точки множества У30 будем называть нульмерными клетками. Функция v (х) непрерывна и непрерывно дифференцируема на каждой клетке и может быть продолжена в непрерывно дифферен¬ цируемую функцию на окрестности клетки. Б. Все клетки распределены на клетки первого и вто¬ рого рода. Все л-мерные клетки являются клетками пер¬ вого рода, все нульмерные — клетками второго рода. B. Если о — некоторая /-мерная клетка первого рода, то через каждую точку этой клетки проходит единствен¬ ная траектория уравнения x=/(x, t/(x)) (4.10) (проходящая по клетке о). Существует такая (/—^-мер¬ ная клетка П (о), что каждая траектория системы (4.10), идущая в клетке о, через конечное время покидает клетку а, упираясь под ненулевым углом в клетку П (о) и подходя к ней с ненулевой фазовой скоростью. Если о — одно¬ мерная клетка первого рода, то она представляет собой кусок фазовой траектории системы (4.10), подходящей с ненулевой фазовой скоростью к некоторой нульмерной
236 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ (ГЛ. IV клетке П(о). Если о — некоторая /-мерная клетка второго рода, отличная от точки <2, то существует такая (/ + ^-мер¬ ная клетка S (о), являющаяся клеткой первого рода, что из любой точки клетки о исходит единственная траекто¬ рия системы (4.10), идущая по клетке S‘(o), причем функ¬ ция v (х) непрерывна и непрерывно дифференцируема на о U S (о). Г. Перечисленные выше условия обеспечивают возмож¬ ность продолжения траекторий системы (4.10) от клетки к клетке: из клетки о в клетку П(о), если клетка П(о) первого рода, и из клетки о в клетку 2(П(о)), если клетка П(а) второго рода. Требуется, чтобы каждая такая траектория шла лишь по конечному числу клеток (т. е. чтобы «протыкание» клеток второго рода происходило для каждой траектории конечное число раз). При этом любая траектория кончается в точке а. Указанные траек¬ тории мы будем называть отмеченными. Таким образом, из каждой точки множества G\W исходит единственная отмеченная траектория (ведущая в точку а). Требуется также, чтобы из каждой точки множества N исходила (возможно, не единственная) траектория системы (4.10), ведущая в точку а и также называемая отмеченной. Д. Все отмеченные траектории удовлетворяют принципу максимума. Е. Значение времени перехода от точки х0 до точки а, вычисленное вдоль отмеченных траекторий (кончающихся в точке а), является непрерывной функцией начальной точки xQ. (В частности, если из точки x0£N исходят несколько отмеченных траекторий, то значение времени перехода для них одинаково.) Все примеры синтеза оптимальных управлений, приведен¬ ные в пп. 38, 39, 40, являются частными случаями регуляр¬ ного синтеза. Проследим это на примере, разобранном на стр. 185—198. В этом случае в качестве G = P2 мы при¬ мем область управляемости рассматриваемой системы, т. е. всю область, в которой осуществляется синтез оптималь¬ ных управлений. Все линии AtO, BtAb Bi_1Ai, BiCi, Ci_iBi, . . ., являющиеся сторонами криволинейных четырех¬ угольников, построенных при осуществлении синтеза, образуют кусочно-гладкое множество Р1 (рис. 162). Нако¬ нец, множество Р° состоит из всех точек О( = а), Л.,
§ 12] УСЛОВИЕ В ФОРМЕ ПРИНЦИПА МАКСИМУМА 237 ... В качестве v (х) мы примем, разумеется, функцию, осуществляющую синтез оптимальных управле¬ ний (т. е. v (х) принимает значение ei внутри «угла» между линиями OAi + 1 Bi+1 Ci + 1 ... и OA^Ct ... и на дуге Afi). Справедливость условий А — Е регулярного синтеза проверяется без труда. Среди одномерных клеток мы будем считать дуги Л-О, а также дуги В^А^ . клет¬ ками первого рода, а остальные дуги (т. е. Aft^ В{СЬ .. .) — клетками второго рода. Двумерными клетками являются «криволинейные четырехугольники». Укажем для примера, что для клетки о —клетка П (о) совпадает с дугой Ai + 1O, а для клетки клетка 2 (o') совпа¬ дает с ОА^А-.^. Таким образом, все условия А — Ё про¬ веряются без труда; непрерывность времени перехода (условие Е) также ясна. Столь же просто проверяется выполнение условий регулярного синтеза и в других примерах. Так, в примере, изображенном на рис. 26, имеются только две одномерные клетки АО и ВО, одна нульмерная клетка О( = а) и две двумерные.
238 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV Условия А — Е, по сути дела, не накладывают ограни¬ чений на систему (1.2), а скорее постулируют те обычные обстоятельства, которые, как правило, имеют место при осуществлении синтеза. Весьма существенно, что выполнение этих условий является достаточным для того, чтобы все отмеченные траектории были оптимальны. Именно, имеет место следующая теорема, позволяющая утверждать, что синтез, осуществленный на основе прин¬ ципа максимума, как правило (т. е. при выполнении усло¬ вий А — Е), действительно приводит к оптимальным траек¬ ториям. В этом смысле принцип максимума является достаточным условием оптимальности. Теорема IV.7. Если в множестве G осуществлен ре¬ гулярный синтез для уравнения (1.3) ^в предположении существования непрерывных производных Т0 6се отмеченные траектории являются оптимальными (в области G). 46. Доказательство достаточности. Переходим к до¬ казательству теоремы IV.7. Обозначим через—со (х) время движения фазовой точки от х до а вдоль ведущей из точки х в точку а отмеченной траектории. Множество Р”_1иА^ мы обозначим через М. Мы докажем, что со (х) является функцией Веллмана с особым множеством М. Тогда тео¬ рема IV.7 будет следовать непосредственно из теоремы IV.4. Итак, нужно лишь доказать, что введенная функция со (х) дифференцируема на множестве О\Л4 и удовлетворяет уравнению Веллмана (1.18). Пусть х — произвольная точка, принадлежащая некото¬ рой л-мерной клетке а. Выберем произвольное число /0, и пусть ^o + Oi(x) — момент попадания траектории си¬ стемы (4.10), исходящей в момент t0 из точки х, на клетку П (о) (т. е. 01(х) —время движения от точки х до клетки П(о)). Точку, в которой эта траектория «са¬ дится» на клетку П (о), обозначим через |х(х). Из общих теорем о дифференцируемости решений по параметрам вытекает, что (х) и 9Х (х) — непрерывно дифференцируе¬ мые функции от х. В самом деле, пусть х0 — произвольная точка рассматриваемой л-мерной клетки о. Обратим направ¬ ление течения времени, т. е. будем рассматривать на клетке о
§ 12] УСЛОВИЕ В ФОРМЕ ПРИНЦИПА МАКСИМУМА 239 систему У = —f(y, (4-И) Траектории этой системы (в клетке о) совпадают, с траек¬ ториями системы (4.10), но пробегаются в обратном на¬ правлении. Для любой (близкой к (х0)) точки £ £ П (о) обозначим через у (t, £) решение системы (4.11) с началь¬ ным условием у (0, |) = |. Тогда функция у (t, £) непре¬ рывно дифференцируема по совокупности переменных f, g (/ > 0, ££П(сг)). Очевидно, мы имеем Я91(*о)> В1 (*о)) = хо- (4.12) Нетрудно видеть, что функциональный определитель*) Р(У«, Е))| D (/, I) I / = 01 (х0), Б = (х0) отличен от нуля. Действительно, при t = 0, £ — £г (х0) этот функциональный определитель отличен от нуля, так как в силу условия В траектория х (t) системы (4.10), исходя¬ щая из точки х0, подходит к клетке П (о) под ненулевым углом. Следовательно, и при / = 01(хо), £х(х0) этот функциональный определитель отличен от нуля, так как система уравнений в вариациях линейна. Поэтому уравнение у (t, ^)=х однозначно разрешимо при х, близких к xQ (см. (4.12)): £ = £i(*), / = 0х(х), причем функции (х), 0Х (х) непрерывно дифференцируемы по х. Далее, из точки (х) траектория продолжается по клетке П (о) или 2(П(о)), причем аналогично устанав¬ ливается, что точка £2 (х), в которой эта траектория по¬ кидает клетку П (о) (или S (П (о)), и время 02. (х) дви¬ жения по этой клетке зависят дифференцируемым образом от gx (х), а значит, и от х. Продолжая таким образом, мы найдем, что общее время — со (х) = 0Х (х) + 02 (*) + ••• Дви¬ жения (по отмеченной траектории) из точки х в точку а является (внутри клетки о) непрерывно дифференцируемой функцией точки х. *) Точка y(t, 5) имеет (в клетке о) п координат; точка £ имеет (в клетке П (о)) п — 1 координат.
240 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV Таким образом, функция со (х) непрерывно дифференци¬ руема на G\M. Остается установить, что на G\M функция со (х) удовлетворяет уравнению Веллмана (1.18). Пусть х0 £ G\ М; через х (t) обозначим отмеченную траекторию, исходящую в момент tQ из точки х0,.а через — момент ее попадания в точку а. Рассмотрим множество 6*, состоящее из всех точек, удовлетворяющих условию со (х) = со (х0). Тогда вблизи точки х0 множество 5 представляет собой гладкую гиперповерхность в G с нормальным вектором Этот вектор отличен от нуля в силу соотношения =1. (М3) а=1 x(t)=x0 Согласно Д), траектория х(/) удовлетворяет принципу максимума. Обозначим через ф (/) = (фх (/), ... , фд(/)) вектор-функцию, соответствующую траектории х (t) в силу принципа максимума. Мы сейчас покажем, что век¬ тор ф (tQ) ортогонален поверхности 5 в точке х0, т. е. Ф (zo) = gfad ® (*о) или, иначе, а=1, 2, (4.14) Допустим, что соотношение (4.14) установлено. Тогда мы имеем, в силу принципа максимума, п п Ф(Ша(*о. ^(^о)) = ^Х v (х0)) = X а=1 а=1 (см. (4.13)). Из соотношения Н^О, входящего в принцип максимума, заключаем, что Х^О. Кроме того, Х=^=0 (ибо в противном случае было бы ф(/о) = О, см. (4.14)). Таким образом, X > 0. Далее, из принципа максимума находим ^(Ф(^о)’ хо> v (хо)) Н (ty (U> хо> и) Для любого u^U,
§ 12] УСЛОВИЕ В ФОРМЕ ПРИНЦИПА МАКСИМУМА 241 откуда (в силу (4.13), (4.14) и соотношения X > 0) по¬ лучаем п 1 = Х v(*о)) = у-^2 1р«(U/“(*о> v(x0)) = а= 1 = уН(т|)(/0), Х(/О), f (х0))> y//(4?(f0), x(f0),u) = = «)=Х И) а=1 а=1 для любого u£U. Таким образом, в G\7I4 выполняется соотношение (1.18). Итак, остается установить справедливость соотношения (4.14). Пусть ах, о2, ..., aq— те клетки первого рода, по которым последовательно проходит траектория х (t), так что х0^ох, а клетка од — одномерная, примыкающая к точке а. Положим /0 = т0, /х = тд и обозначим через тх, т2, ..., тд_г моменты переключения (т. е. моменты перехода из клетки в клетку), так что траектория х (t) на интервале tz_x < t < tz протекает в клетке <yz(Z= 1» 2, . .., q). Для каждых двух соседних клеток Gi и az + x в последовательности ах, и21 . . ., Gq возможен один из двух следующих случаев (см. условия В и Г в определении регулярного синтеза): а) Либо обе клетки az и az + x имеют одинаковую раз¬ мерность k, и тогда az + x = S (П (az)). В этом случае в «момент переключения» т- траектория х (t) протыкает клетку П (oz), которая является (k—1)-мерной клеткой второго рода. б) Либо клетка az имеет размерность k, а клетка az + x имеет на единицу меньшую размерность k—1 и совпадает с клеткой П (oz). В обоих случаях «точка переключения» х (az) является внутренней точкой клетки П (оz), причем из любой точки клетки II(az) исходит единственная траектория системы (4.10), идущая по клетке az + x. Поэтому траектория х* (/) системы (4.10), исходящая в момент tQ из любой внут¬ ренней точки х* клетки ох, будет проходить по той же самой последовательности клеток ах, о2, . . ., oq и при¬ ходить в точку а. Мы будем считать, что точка xj лежит
242 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV на гиперповерхности S (достаточно близко от х0), так что время движения по траектории х* (/) от точки х* до точки а совпадает с временем движения по траектории x(t). Иначе говоря, обе траектории х (/), х* (/), выходящие в момент tQ из точек х0, х*, приходят в точку а в один и тот же момент времени t±=—со(хо) =—<о(х*). Как мы уже видели выше, «моменты переключения» т* = /0, т*, т*, ..., для траектории х* (/) и соответ¬ ствующие «точки переключения» х*(т*), х* (т*), ... ..., х*(т*_1), являющиеся внутренними точками клеток П (ах), П (а2), . .., П(а<7_1), дифференцируемым образом зависят от точки х*£(Тг Если точка х* достаточно близка к точке х0, то выполнены неравенства т/_1 < т* и т*_х < rz (так как tz_x < rz). Обозначим через 6Z отрезок времени между моментами tz и т*, /==1,2,3, ..., q—1. Так как каждое из чисел tz, т* меньше каждого из чисел tz+x, т*+1 (если точка х* достаточно близка к х0), то весь отрезок 6Z расположен на числовой прямой левее отрезка 6Z + X. Через Дх мы обозначим отрезок от момента t0 до левого конца отрезка бх, через Az (/= 2, 3, ..., q—1) — отрезок от правого конца отрезка 6Z_X до левого конца отрезка 6Z, а через — отрезок от правого конца отрезка 6д_х до точки /х. Таким образом, отрезки А1> 6Х, Д2, б2, Д3, ..., б^_х, Д, непосредственно примыкают друг к другу на числовой оси. При этом в течение промежутка времени Az обе фазовые точки х (/), х* (/) находятся в клетке oz, а в течение промежутка 6Z одна из них находится в клетке az, а дру¬ гая— в клетке oz + 1. Обозначим через е расстояние между точками х0 и х* (мы будем считать е достаточно малым). Из того, что «моменты переключения» т*, т*, ..., т*_х и соответству¬ ющие «точки переключения» х* (т*), х*(т*), ..., х*(т*_х) дифференцируемым образом зависят от точки х* £ ах, легко вытекает существование такой положительной константы С,
§ 12] УСЛОВИЕ В ФОРМЕ ПРИНЦИПА МАКСИМУМА 243 что длина каждого из отрезков 6Z не превосходит Се, а траектории х (/) и х* (/) находятся друг от друга на рас¬ стоянии порядка е: |x(f) —х* (/)|< Се (4.15) Как и прежде, обозначим через гр (f) = (ipi (t), . . ., (/)) вектор-функцию, соответствующую, в силу принципа мак¬ симума, траектории x(t). Мы имеем (в силу соотношения п —X (и—х** (U) Ч5» (и = а=1 п = — У. [*’(^)—**’0^ (U+ а = 1 + X Iх’ (М — х*’ (zi) J 4>« (;i) ~ а=1 /, \“=i / <1 г « = + f(E 'М')^(х’(о-**‘(О)+ ZAa=i +Е (х’ (о-х*° w) ) dt== а = 1 /
244 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV Таким образом, п ti -Е (4-16) a = i t0 где F (t) = H (t|> (/), x (0, v (x (/)))—H (г|> (/), х* (/), v (х* (/)))- -£ (xa(Z)_x*«(0) ^№(0.х^),Р(х(0)) = = Н(Ф(О, х(0, ® (х (/)))- — < А/(гр (/), x(t), г» (х* (/))) + соединяющего х (f) и (£—некоторая точка отрезка, х*(^)). Отсюда мы получаем п F(i) > — F. (х“(0— х*а a=i дН ($(t),x(t),v(x (/))) дх* дН (гН/)Л,а(х* (0)) дха (так как И (ip (t), х (f), v (х (i))) И (ty (/), х (t), и) для любого u£U). Итак, (4-17)
§12] УСЛОВИЕ В ФОРМЕ ПРИНЦИПА МАКСИМУМА 245 где п Если теперь точка t принадлежит одному из отрезков Д/, то точки х (t) и х* (/) принадлежат одной и той же клетке т/, на которой функция v (х) непрерывно диффе¬ ренцируема. Кроме того, траектория х* (/) лежит в малой окрестности траектории х (?) (см. (4.15)), которая является замкнутым ограниченным множеством. Следовательно, спра¬ ведлива оценка | V (х* (/))—v (х (/))(< С | х* (0 —х (0 | < СС'е (t 6 А/). Точно так же Из непрерывности функции по своим аргументам вы¬ текает теперь, что (при /£Д(.) разность дН W (Q, х (Q, о (х (<))) дН (ф(р, l,v(x* (())) дх* дха (4.19) является бесконечно малой вместе с е (т. е. эта разность стремится к нулю при е—> 0, причем равномерно по /). Наконец, учитывая оценку (4.15), мы получаем, в силу (4.18), lim 5-^ = 0 (равномерно по f£Az), £—>0 8 откуда находим (t)dt = O, /=1, 2, ..., q, (4.20) Если точка t принадлежит одному из отрезков 6Z, то мы уже не можем утверждать, что разность (4.19) бес¬ конечно мала вместе с е (так как точки х (t) и х* (/) принадлежат разным клеткам, а при переходе от клетки к клетке функция v (х) может терпеть разрывы). Однако
246 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV разность (4.19) при всех t остается ограниченной (в силу ограниченности траектории х (/)). Поэтому, в силу (4.15) имеем limG(f) = 0 (равномерно по t). е-*о Так как длина отрезка 6t- не превосходит Се, то отсюда получаем lira - [G(i)dt = 0, i = 1, 2, ..., <7—1. (4.21) е-> о 8 J Oi Складывая соотношения (4.20) и (4.21), получаем lim — (*G(/)d/ = 0. (4.22) е->0 8 Пусть теперь точка х* приближается к точке х0 по по¬ верхности 5, касаясь некоторого вектора р = (р^р2, . . . ,р"); иначе говоря, lim е->о х* (f0)_ х (Zo) е Тогда имеем, в силу (4.16), (4.17), (4.22), Е (Q =lim Е 4 (**“ W-X (U) (U = а=1 е^°а=1 п Так как соотношение 2 Ра 'Фа (U 0 верно для любого а=1 касательного к 5 вектора р, то п EwcM а=1 для любого касательного вектора р гиперповерхности откуда и вытекает равенство (4.14). Таким образом, теорема IV.7 полностью доказана.
§ 13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 247 § 13. Примеры синтеза оптимальных управлений в нелинейных системах второго порядка 47. Первый пример. Полученные выше достаточные условия оптимальности играют важную роль по следующей причине. Принцип максимума позволяет в ряде случаев однозначно выделить траектории, которые могут быть оптимальными. Являются ли эти траектории в действи¬ тельности оптимальными? Для решения этого вопроса в случае, когда система (1.2) линейна, используется тот факт, что для линейных систем принцип максимума является не только необходимым, но и достаточным условием оптимальности. Можно также воспользоваться теоремой существования оптимальных управлений: так как оптимальные траектории существуют и так как принцип максимума однозначно определяет траекторию, которая может быть оптимальной, то она и есть (единст¬ венная) оптимальная траектория, соединяющая две задан¬ ные точки. Однако теорема III.3 и теорема существования доказаны лишь для линейных систем (1.2). Поэтому для нелинейных систем (даже простейших) при осуществлении синтеза на основе принципа максимума нет уверенности в том, что найденные траектории действительно оптимальны. Выход из создавшегося положения и указывает теорема IV.7. В качестве примеров мы рассмотрим в этом пункте и в п. 50 две нелинейные системы*). Рассмотрим управляемый объект, поведение которого описывается дифференциальным уравнением второго порядка х=/(х, х, и), (4.23) где и — вещественный управляющий параметр, подчиненный условиям — (4.24) В фазовых координатах х1 = х, х2 = х уравнение (4.23) запишется в виде нормальной системы х1 = х2, х2=/(х1, х2, и). (4.25) *) В расчете этих примеров принимал участие Е. Я. Рой- тенберг.
248 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV Наложим некоторые ограничения на функцию /. Именно будем предполагать, что эта функция непрерывно диффе¬ ренцируема по всем аргументам и удовлетворяет неравен¬ ствам: /(х1, х2, + 1) > 0, /(х1, х2, — 1)<0 при всех х1, х2; (4.26) df(x\ х2, и) п df (х1, х2, и) 12 !л д~ > 0, - ^0 при всех х1, х2, и. (4.27) Для управляемого объекта (4.23) рассмотрим задачу быстрейшего попадания в нулевую точку х = 0с нулевой \ \ \ \ \ /очка встречи \ со станцией I I I I скоростью из заданного начального состояния; иными сло¬ вами, для объекта (4.25) будем рассматривать задачу быстрейшего попадания в начало координат. В качестве линейного объекта, удовлетворяющего всем наложенным условиям, можно указать объект, описы¬ ваемый уравнением х — и (ср. стр. 38—44). Нелинейные объекты, «мало отличающиеся» от этого линейного, также удовлетворяют поставленным условиям. Можно указать следующую «квазипрактическую» задачу, приводящую к указанной постановке вопроса. На косми¬ ческой станции, обращающейся по круговой орбите вокруг Земли, произошла авария и требуется скорейшая помощь.
§ 13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 249 Для оказания помощи с Земли вышла ракета, движущаяся по прямой линии к станции (учитывая смещение станции по орбите, рис. 163). Введем на указанной прямой коор¬ динату, принимая за начало отсчета х = 0 предполагаемую точку встречи со станцией. Тогда уравнение движения Земля к \ I I I / / Точка Встречи со станцией ракеты запишется (если пренебречь изменением массы ракеты за счет сгорания топлива) в виде тх = Ф (х, , где первое слагаемое в правой части —сила тяги, а вто¬ рое— сила притяжения Земли (г — расстояние станции от центра Земли). Выполнение условий (4.26) является со¬ вершенно естественным: при и= +1 («полный вперед») правая часть f положительна, а при и=—1 (включение тормозных двигателей) — отрицательна. Столь же естест¬ венно выполнение первого неравенства (4.27). Наконец, справедливость второго неравенства (4.27) при х >—г (т. е. в зоне движения ракеты) непосредственно про¬ веряется. Итак, условия (4.26), (4.27) выполняются. Точно так же выполняются они и при подлете ракеты к станции перед возвращением на Землю (рис. 164). 48. Описание синтеза. Перейдем теперь к решению поставленной задачи оптимального быстродействия для
250 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV (4.29) Все полутраектории а+, объекта (4.24)—(4.27). Обозначим через фазовую траекторию системы х1 = х2, х2 == /(х1, X2, 1), входящую в точку (а, 0), а через а~ — фазовую траекторию системы х1 = х2, х2, —1), входящую в точку (Ь, 0). Найдем расположение и примерный вид фазовых траекторий и а~. Если мы будем двигаться по линии а+ от точки (а, 0), т. е. против направления движения, кото¬ рое происходит по фазовой полутраектории а+, то, как видно из второго уравнения (4.28) и первого из нера¬ венств (4.26), координата х2 будет монотонно уменьшаться. Поэтому при неограниченном удалении от точки (а, 0) по линии величина х2 будет приближаться к некоторому предельному значению, равно¬ му либо отрицательному чис¬ лу, либо —оо. Величина х1 будет при этом неограничен¬ но увеличиваться (рис. 165). В частности, фазовая полу¬ траектория а* расположена вся в четвертой четверти, соответствующие отрицатель¬ ным значениям а, заполняют открытое множество на фазо¬ вой плоскости, которое мы обозначим через U+. Границей области U+ служат: отрицательная часть оси х1, полу¬ траектория и некоторая линия Д+, которая, однако, может уйти в бесконечность (ср. рис. 166, а, б). Часть
§ 13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 251 плоскости, заключенную между и положительной частью оси х1, обозначим через V~. Аналогично при движении от точки (£, 0) по линии а~ величина х2 будет монотонно увеличиваться, что следует из второго уравнения (4.29) и второго неравенства (4.26). Величина координаты х2 будет приближаться к некоторому предельному значению, которое равно либо положительному числу, либо 4-оо, а координата х1 будет монотонно умень¬ шаться до —оо. В частности, фазовая полутраекториясх~ находится во второй четверти. Все полутраектории а~, соответствующие положительным значениям Ь, заполняют открытое множество на фазовой плоскости, которое мы обозначим через Границей области U~ служат: поло¬ жительная часть оси х1, полутраектория и некоторая линия Д“, которая, однако, может уйти в бесконечность. Часть плоскости, заключенную между и отрицатель¬ ной частью оси х1, обозначим через V+. Часть фазовой плоскости, расположенную между ли¬ ниями Д" и Д + , мы обозначим через G (если Д” и Д + уходят в бесконечность, то область G совпадает со вс^й плоскостью). Неограниченную линию, образованную полу¬ траекториями и а~, обозначим через Г. Ось х1 и ли¬ ния Г пересекаются в начале координат и разбивают область G на четыре части: U+, U~, V+, V~ (рис. 167). T e о p e м a IV. 8. Для управляемого объекта (4.25), (4.24), удовлетворяющего условиям (4.26), (4.27), из любой точки»
252 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV принадлежащей области G, возможно оптимальное по быстро¬ действию движение в начало координат. Из точек, не лежа¬ щих в этой области (такие точки существуют, если хотя бы одна из линий А-, А+ не уходит в бесконечность), вообще невозможно попасть в начало координат. В области G синтез оптимальных управлений осуществляется следующим обра¬ зом: в точках, лежащих выше линии Г и на полутраекто¬ рии а~, следует положить и = — 1; в точках, лежащих ниже линии Г и на полутраектории а+, следует положить и= + 1. При этом на каждой оптимальной траектории оказывается не более одного переключения. 49. Доказательство. Пусть точка х0 принадлежит об¬ ласти G и лежит ниже линии Г (рис. 168). Покажем, что фазовая полутраектория р системы (4.28), исходящая из точки х0, пересечется с полутраекторией а~ и притом только в одной точке. Пусть сначала в точке х0 фазовая координата х2 поло¬ жительна. Из второго уравнения (4.28) и первого неравен¬ ства (4.26) следует, что х2 будет монотонно возрастать. Поэтому, в силу первого уравнения (4.28), координата х1 монотонно и притом неограниченно возрастает на полу¬ траектории р. Отсюда следует, что полутраектория р
§ 13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 253 должна пересечься с а~. При движении по фазовой полу¬ траектории Р величина фазовой координаты х2 увели¬ чивается, при движении по уменьшается. Величи¬ на х1 в полуплоскости х2 > 0 на обеих траекториях р и а~ увеличивается. Следовательно, точка пересечения полу¬ траекторий р и а~ единственная. Пусть теперь в точке xQ фазовая координата х2 отри¬ цательна. Кривые а0+ и Р не пересекаются, как две фазо¬ вые траектории одной и той же системы (4.28). Из второго уравнения (4.28) и первого из условий (4.26) вытекает, что на траектории р координата х2 монотонно увеличивается, так что полутраектория р пересекает ось х1 в некоторой точке на отрицательной полуоси. При даль¬ нейшем движении координата х2 становится положительной, и, в силу доказанного ранее, существует единственная точка пересечения полутраекторий р и а“. Аналогично доказывается, что всякая полутраектория си¬ стемы (4.29), начинающаяся в области G выше линии Г, пере¬ сечется с полутраекторией и притом только в одной точке. Итак, для того чтобы из точки х0, принадлежащей об¬ ласти G и лежащей ниже кривой Г, попасть в начало координат, можно двигаться вначале по траектории си¬ стемы (4.25) при н =-J-1 до попадания на полутраекто¬ рию а~. В момент попадания на траекторию происхо-
254 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV дит переключение, и движение продолжается по траектории системы (4.25) при и =—1, т. е. по траектории до попадания в начало координат. Полученную траекторию обозначим через £Хо. Если же точка х0 лежит в G выше линии Г, то для получения траектории £Хо следует сначала двигаться из х0 при и =—1 для встречи с полутраекто¬ рией а+, а затем при и = + 1 по полутраектории до попадания в начало координат. Если точка х0 лежит на линии Г, то движение из х0 в начало координат должно происходить без переключения, т. е. по фазовой полутраек¬ тории или а~. Мы получили семейство траекторий £Хо системы (4.25), заполняющее всю область G (рис. 167). Из каждой точки этой области исходит только одна траектория указанного семейства. Покажем, что все эти траектории удовлетворяют принципу максимума. Функция /У, соответствующая системе (4.25), имеет вид /У = ^х2 4- ■фг/и1, х2, и). Из первого неравенства (4.27) видно, что функция /(х1, х2, и) монотонно возрастает по и, и потому при изменении и на отрезке [—1, 1] она достигает минимума в точке и = —1 и достигает максимума в точке а=4~1. Поэтому условие максимума функции Н, входящее в принцип максимума, приводит к следующему соотношению: и — sign ф2 (если ф2=/:0). Система уравнений для вспомогательных неизвестных имеет вид ( ^1= —^- = ~ ^2^i> i , * (4’30) Пусть с—некоторая точка линии . Обозначим че¬ рез х (t) фазовую траекторию, которая в момент t = 0 про¬ ходит через точку с, при t < 0 удовлетворяет уравне¬ нию (4.29), а при / >0 — уравнению (4.28). Таким образом, в некоторый момент времени / = т>0 траектория х (t) попадет в начало координат; мы будем рассматривать дви¬
§ 13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 255 жение х (/) при t т. Рассматриваемому движению (рис. 169) соответствует управление «(/)=—1 при t < 0, 1 и (i) = + 1 при t > 0. | (4.31) Подставим в правые части системы (4.30) вместо х рас¬ сматриваемую функцию x(t}, а вместо а — соответствующее управление (4.31) и обозначим через ф (f) решение этой си- стемы с начальными условиями (0) = — 1, ф2 (0) - 0. (4.32) Мы докажем, что функции ф(/), х(/), и(0 удовлетворяют принципу максимума, т. е. что я (/) = sign ф2 (/) для всех Иными словами, докажем, что Фг (0 < 0 ПРИ 9; I /л оо\ ф2(/)>0 при f>0. / Заметим, что, в силу (4.30) и (4.32), имеем ф2 (0) = -фх (0)-ф2 (0)^=1, (4.34) и потому функция ф2 (/) отлична от нуля в некоторой окрестности точки / = 0. Кроме того, из (4.34) следует, что вблизи точки / = 0 выполняются соотношения (/) < 0 при t < 0, ф2 (/) > 0 при t > 0 —в полном соответствии с доказываемыми неравенствами (4.33). Допустим теперь, что в некоторый момент времени неравенства (4.33) нарушаются. Тогда функция ф2 (f) должна обратиться в нуль в некоторый момент времени, отличный от / = 0. Пусть 0 — ближайший к 0 корень функции ф2(^). Тогда ф2 (0) = ф2 (0) = 0, (4.35) а между 0 и 9 функция ф2 (/) сохраняет постоянный знак. Докажем, что ф1 (/) также сохраняет постоянный знак (а именно, отрицательна) между 0 и 9. Если 0 < 6, то из
256 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV (4.34) следует, что ф2 (/) < 0 на интервале (0, 0), и по¬ тому ф1 (t) 0 на этом интервале (см. (4.30), (4.27)). Из (4.32) следует теперь, что г|)1 (/) < 0 на интервале (0, 0). Если же 0 > 0, то из (4.34) следует, что ф2 (/) >0 на интервале (0,0), и потому ,ф1 (/) ^0 на .этом интервале (см. (4.30), (4.27)). Таким образом, и в этом случае (t) < 0 на интервале (0, 0). В силу (4.35) и второго из уравнений (4.30) мы имеем (для любой функции T] (/)) е 0 = (0 п (/) | ° j ± № (0 п (0) dt = о е = J (1р2 (0 П (0 + ^2 (0 П (<')) dt = о 0 = У (— г|>! (0 Л (0 - i|>2 (/) Т) (0 + Я>2 (П Л (/)) dt. (4.36) О Если выбрать функцию т] (/) так, чтобы было Т] (/) — df \^xidt — т] (t) = 0, т. е. положить Т] (/) = е J , то второе и третье слагаемые под знаком интеграла в (4.36) взаимно уничтожаются, и мы получим 6 0=-^1 ^^dt. О Но это противоречит тому, что каждая из функций ф1 (/), Т] (/) сохраняет между 0 и 0 постоянный знак. Полученное противоречие доказывает, что соотношения (4.33) выпол¬ нены, т. е. функции ip (f), x(f), tt(f) удовлетворяют прин¬ ципу максимума. Аналогично доказывается, что траектория, проходящая через некоторую точку с' линии а~ (рис. 170), удовлет¬ воряет принципу максимума. Тем самым доказано, что все траектории £Хо удовлетворяют принципу максимума. Будем теперь считать полутраектории и а“ одно¬ мерными клетками первого рода, а две области, на которые
13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 257 линия Г разбивает область G,— двумерными клетками пер¬ вого рода. Единственной нульмерной клеткой является начало координат. Наконец, положим Р° = 0, РХ = Г, Р2 = G и будем считать Af пустым множеством. Тогда выполняются все условия регулярного синтеза для функции v (х), рав¬ ной — 1 на клетке а~ и выше линии Г и равной -pl на клетке aj" и ниже линии Г. В проверке нуждается лишь тот факт, что траектории, иду¬ щие по двумерным клеткам, под¬ ходят ка~ и а0+ под ненулевыми углами. Но в силу (4.25) касатель¬ ным вектором траектории в некоторой ее точке с = (х1, х2) служит вектор {х2; /(х1, х2, +1)}, а траектория, под¬ ходящая к этой точке из двумерной клетки, касается вектора {х2; /(х1, х2, —1)}. Так как в точках полутраекто¬ рии мы имеем х2У=0, то в силу (4.26) указанные век¬ торы неколлинеарны. Это и означает что траектории, иду¬ щие по двумерным клеткам, подходят к под ненулевыми углами. Аналогичное рассуждение применимо к линии а~ . Итак, все условия регулярного синтеза в области G вы¬ полнены и, согласно теореме IV.7, все траектории ^Хо яв¬ ляются оптимальными в области G. Для завершения дока¬ зательства теоремы остается установить, что из точек, не принадлежащих области G (если таковые есть), вообще невозможно попасть в начало координат. Пусть, например, р — некоторая точка, лежащая на гра¬ ничной линии Д“ области G (рис. 171). Возьмем на положи¬ тельной полуоси х1 некоторую точку b и рассмотрим
258 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV входящую в нее траекторию а~ системы (4.29). Траектория а~ пересекается с проходящей через р прямой, параллель¬ ной оси х2, в некоторой точке q. При перемещении точки b вправо по оси х1 точка q будет подниматься, но никогда не достигнет точки р (ибо р не принадлежит области G). Если мы обозначим ординату точки р через р2, то найдем, что на всем отрезке (#, Ь) траектории а~ координата х2 при¬ нимает положительные значения, меньшие чем р2. Поэтому, в силу первого уравнения (4.25), на всем участке (q, b) имеет место соотношение х1 < р2. Следовательно, время движения изображающей точки по участку (q, b) может быть сделано как угодно большим, если точка b взята достаточно далеко. Из этого мы можем заключить, что при приближении начального фазового состояния к точке р время оптимального движения (в области G) из этого со¬ стояния в начало координат неограниченно возрастает. Аналогичный вывод получается и для любой точки, лежа¬ щей на граничной линии Д+. Если мы теперь предположим, что из некоторой точки, не принадлежащей области G, можно за конечное время попасть в начало координат, двигаясь по какой-либо траек¬ тории £, то мы сможем найти на траектории £ последнюю (по времени) точку пересечения с границей области G. Обозначим эту точку пересечения через р. Тогда из точки р можно будет за конечное время попасть в начало координат, двигаясь по области G, что, однако, противоречит неогра¬ ниченному возрастанию времени оптимального движения при приближении начального состояния к р. Полученное проти¬ воречие и доказывает наше утверждение. 50. Второй пример. Рассмотрим объект х1 = иУх2, X2 = и2 с областью управления, определяемой неравенствами — — 1<и2<1. (4.38) Для указанного объекта также рассмотрим задачу быстрей¬ шего попадания в начало координат. Не приводя вычисле¬
§ 13] ПРИМЕРЫ СИНТЕЗА В НЕЛИНЕЙНЫХ СИСТЕМАХ 259 ний (которые нетрудно' восстановить), укажем окончатель¬ ный результат, т. е. опишем регулярный синтез для объекта (4.37), (4.38). Две параболы х1 = ± -у (х2)2 составляют множество Р1; за М примем ось х2 = 0. Множество М = /VIJP1 разбивает плоскость Р2 переменных х1, х2 на шесть областей: У1, 1/2, У3, V4, V'5, Ve (рис. 172), а точка а = (0, 0) разбивает множество Р1 на четыре уходящих в бесконечность ветви (клетки), обозначения а1? о2, о3, о4 которых также показаны на рис. 172. Положим v (х) — (v1 (х), v2 (х)), где + 1 при x^V,, V2, ^4> ^2> ^4 — 1 при x£V3, V5, аз» + 1 при X € V3, V4, O3, O4, — 1 при ^6> а1» Q2- Этим определяется регулярный синтез для объекта (4.37), (4.38). Оптимальные траектории состоят из кусков парабол х1 = ± у (х2)2 + const; не мешает теоремы отметить, они показаны на рис. 172. Заметим, что из точек множе¬ ства М в этом регулярном тории (что применению IV.7). Следует что теорема IV. 7 вовсе не отрицает существования и других оптимальных траекторий (кроме отме¬ ченных). В примере, рас¬ смотренном в пп. 47— 49, других оптимальных траекторий (кроме отме¬ ченных), удовлетворяю¬ щих принципу максиму¬ ма, не существует. В рассмотренном здесь ток V\, две траек- синтезе исходят по примере из каждой точки кле- V2 исходит бесконечно много оптимальных
260 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. IV траекторий. Именно, в клетке (или V2) следует при¬ нять и? =—1 (соответственно н2=-|-1), а за и1 можно взять любую кусочно-непрерывную функцию, удовлетворяю¬ щую условиям (4.38). В момент, когда фазовая точка попадает на множество Р1, наступает переключение, и дальнейшее движение происходит по множеству Р1'. Все траектории, получаемые таким образом, как легко понять, имеют одно и то же время движения от точки х0 до а и все являются оптимальными. Например, в клетках Vlf V2 можно принять = и1 = 0 (пунктирные линии на рис. 172). Как показывают приведенные примеры, основную труд¬ ность при расчете составляет осуществление синтеза на основе принципа максимума. Если синтез уже осуществлен, то, как правило, условия А — Е выполняются автомати¬ чески. Таким образом, принцип максимума (необходимое условие оптимальности), который, как правило, позволяет осуществить синтез, весьма близок к достаточным усло¬ виям оптимальности.
ГЛАВА V ДРУГИЕ ПОСТАНОВКИ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ § 14. Задача с подвижными концами 51. Предварительное обсуждение. Для того чтобы подойти к постановке задачи с подвижными концами, мы схематично рассмотрим две задачи управления. Предполо¬ жим, что рассматривается движение управляемого снаряда, который вылетает из заданной точки А и должен поразить неподвижную цель, находящуюся в другой заданной точке В. При этом естественно ставить задачу о быстрейшем попадании снаряда из точки А в точку В, поскольку мини¬ мальность времени полета делает вероятность уничтожения снаряда перехватчиками противника наименьшей. Мы имеем здесь некоторую задачу оптимального быстродействия, которая, однако, при внимательном рассмотрении, отли¬ чается от рассматривавшихся ранее задач. Действительно, движение снаряда в пространстве описывается, при самой грубой идеализации, шестью фазовыми координатами х1, i = 1, 2, . .., 6, и несколькими управляющими параметрами. Если, например, за х1, х2, х3 принять пространственные координаты, а за х4, х5, Xе — их производные (т. е. компо¬ ненты скорости), то движение снаряда можно описать не¬ которыми уравнениями вида ?' = х'+3, i = 1,2,3, xy=/7(-v, «), / = 4,5,6. Начальные значения (т. е. координаты точки А и на¬ чальную скорость снаряда) можно считать известными. В то же время в конечный момент движения нам известны зна¬ чения только первых трех координат: х1 = а, х2 = Ь, х3 = с 9 В. Г. Болтянский
262 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V (т. е. «географические координаты» а, Ь, с точки В), а о компонентах скорости х4, х5, х6 в конечный момент нам ничего не известно. Иными словами, нам безразлично, с какой скоростью попадет снаряд в точку В. Это означает, что в качестве предписанного конечного состояния можно выб¬ рать любую из бесконечного числа точек фазового про¬ странства, определяемых соотношениями хг = а, х2 — Ь, х3 — с. Эти уравнения определяют «трехмерную плоскость» /И в шестимерном фазовом пространстве. Мы приходим, таким образом, к задаче оптимального быстродействия, в которой начальное фазовое состояние х0 задано, а конечное состоя¬ ние х± может быть выбрано произвольно в некотором мно¬ жестве М (плоскости, линии и т. п., рис. 173) фазового пространства. Вот другая задача подобного рода. Некоторая машина снабжена пусковым устройством, которое позволяет пере¬ вести машину в требуемое рабочее состояние, а затем отключается. Состояние машины пусть определяется фазо¬ выми координатами х1, ..., х\ а состояние пускового устройства — фазовыми координатами хА+1, . . ., хп. Если мы предположим, что начальные состояния машины и пускового устройства определяются нулевыми фазовыми координатами, а конечное (рабочее) состояние машины соответствует зна¬ чениям координат х1 = а1, . . ., xk = а\ то придем к следую¬ щей задаче. В фазовом пространстве переменных х1, . . ., хп заданы начальная точка х° и плоскость 7И, определяемая уравнениями х1=а1, ...,xk = ak; требуется за кратчайшее время перевести объект (машина + пусковое устройство) из положения xQ в какую-либо точку множества М. (В какую
§ 14] ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 263 именно точку плоскости М придет фазовая точка, нам без¬ различно, поскольку пусковое устройство все равно отклю¬ чается, и потому его фазовое состояние в конечный момент нас не интересует.) В обоих рассмотренных случаях мы имеем задачу опти¬ мального быстродействия с подвижным правым концом (рис. 173). Можно также рассматривать задачу с обоими подвижными концами (рис. 174). В этом случае заданы дв а множества Л10 и в фазовом пространстве и требуется за кратчайшее время перейти из некоторой точки х0 множе¬ ства Мо в некоторую точку хг множества Л4Х, причем точки xQ и х± заранее не заданы. Множества и обычно предполагаются многообра¬ зиями, т. е. линиями или поверхностями некоторого числа измерений. Поэтому, прежде чем переходить к точной фор¬ мулировке задачи с подвижными концами, мы обсудим не¬ которые геометрические понятия, связанные с рассмотре¬ нием многообразий. 52. Многообразия и их касательные плоскости. Пусть /(х) = /(х1, . . ., хп) — некоторая действительная скалярная функция, заданная в какой-либо области G евклидова про¬ странства X с координатами (ортогональными) х1, . ..,х". Если функция f имеет в области G первые частные произ¬ водные по переменным х1, ...,хп, то в каждой точке х области G определен вектор fA df ЁС\ \ дх1 ’ dx2,1 ’ ‘ ’ ’ дхп) ’ называемый градиентом функции f и обозначаемый символом grad/(x). Множество 5 всех точек х = (х1, .. х"), удовлетворяю- щих соотношению /(х1, х\ . ..,х") = 0, (5.1) будем называть гиперповерхностью пространства X, а соот¬ ношение (5.1) — уравнением этой гиперповерхности. Будем теперь считать, что левая часть уравнения (5.1) имеет непре¬ рывные частные производные по переменным х1, х2, . . х\ Точка х £ £, удовлетворяющая соотношениям df (х) __ df (х) _ _df (х) dx1 dx2 ’ ’ * dx'1 u 9*
264 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ.V (т. е. точка, в которой вектор grad f(x) обращается в нуль), называется особой точкой гиперповерхности 5. Прочие точки, принадлежащие гиперповерхности S (т. е. точки, в кото¬ рых grad/(x) =/= 0), называются ее неособыми точками. Гиперповерхность, определяемая уравнением (5.1) с непре¬ рывно дифференцируемой, левой частью й не содержа¬ щая особых точек, называется гладкой гиперповерх¬ ностью. Все гиперповерхности, рассматриваемые в дальней¬ шем, предполагаются гладкими. При /2 = 2 уравнение (5.1) принимает вид /(х1, х2) = 0, и понятие гладкой гиперповерхности сводится в этом слу¬ чае к понятию гладкой линии (на плоскости перемен¬ ных х1, х2). При /2 = 3 уравнение (5.1) принимает вид /(х1, х2, х3) = 0, и понятие гладкой гиперповерхности сводится в этом случае к понятию гладкой поверхности (в пространстве перемен¬ ных X1, X2, X3). Если уравнение (5.1) линейно, т. е. имеет вид (2.3), то отсутствие особых точек означает, что хотя бы один из коэффициентов а; отличен от нуля. В этом случае гипер¬ поверхность носит название гиперплоскости (ср. стр. 57). Пусть х0 — произвольная точка гладкой гиперповерх¬ ности 5*, определяемой уравнением (5.1). Вектор grad/(x0) (или любой параллельный ему вектор) называется нормаль¬ ным вектором (или просто нормалью) гиперповерхности 5 в точке х0. Гиперплоскость, проходящая через точку х0 и имеющая вектор grad/(x0) своим нормальным вектором, называется касательной гиперплоскостью гиперповерхности 5 в точке х0. Каждый вектор, начинающийся в точке х0 и лежащий в касательной гиперплоскости, называется каса¬ тельным вектором гиперповерхности S в точке х0. Иначе говоря, вектор, начинающийся в точке х0, тогда и только тогда является касательным вектором гиперповерхности 5, когда он ортогонален вектору grad/(х0). Пусть теперь
§ Н] ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 265 -—гладкие гиперповерхности, заданные в пространстве X соответственно уравнениями А (х1, х2, .. ., х") = О, А (х1, х2, ..., х") = 0, fk (х1, х2, . .х") = 0. Пересечение М. всех этих гиперповерхностей (т. е. множе¬ ство всех точек х £ X, удовлетворяющих одновременно всем уравнениям (5.2)) называется (п— ^-мерным (гладким) много¬ образием в X, если выполнено следующее условие: в каж¬ дой точке х £ М векторы grad/Дх), grad/2(x), ..grad/ft (х) (5.3) линейно независимы. Таким образом, по определению, г-мер- ное многообразие в X задается системой п—г уравнений. В частности, {п—1)-мерное многообразие задается одним уравнением. Таким образом, (л—1)-мерные многообразия пространства X совпадают с гиперповерхностями. Одно¬ мерные многообразия называются также линиями. Заметим еще, что условие независимости векторов (5.3) равносильно требованию, чтобы ранг функциональной матрицы dfi(x) dfi(x) dfi(x) дх1 дх2 ' ' ’ • дхп df,2(x) df2(x) df2(x) ■дх1 дх2 ■ • ’ дхп dfk(x) dfk(x) дх1 дх2 • ’ • дхп (5.4) был максимальным (т. е. был равен k). Если уравнения (5.2), определяющие (л— &)-мерное многообразие М, линейны, то многообразие М называется (л—£)-мерной плоскостью пространства X. Иначе говоря, (л — £)-мерная плоскость представляет собой пересечение k гиперплоскостей, нормальные векторы которых линейно не¬ зависимы. Одномерные плоскости называются также пря¬ мыми линиями.
266 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V Пусть Л1—гладкое (л — £)-мерное многообразие, опреде ленное в пространстве X уравнениями (5.2), и х — некоторая его точка. Обозначим через касательную гиперплос¬ кость к гиперповерхности /х- (х1, х2,..., хп) = 0 в точке х (/ — 1,2, . . ., k). Пересечение гиперплоскостей А2, ... . . ., Lk представляет собой (л — £)-мерную плоскость, назы¬ ваемую касательной плоскостью многообразия М в точке х. Вектор, исходящий из точки х, тогда и только тогда ле¬ жит в касательной плоскости (т. е. является касательным вектором многообразия М в точке х), когда он ортогона¬ лен всем векторам (5.3). Наконец, отметим еще один простой факт, которым мы будем пользоваться в дальнейшем. Пусть = (^)> 2, ... л, (5.5) — параметрическая запись некоторой линии в пространстве Л, или в векторной форме: х — <p(g). Касательный вектор этой линии в точке, соответствующей значению g — g0, имеет вид f (g0) dep2 (g0) dtp” (g0)\ dtp (g0) I dl ’ dg ’ d% d% ' Если линия (5.5) лежит целиком на гладком многообразии Л4 (некоторого числа измерений), то касательный вектор (5.6) этой линии является также касательным вектором много¬ образия М в точке (р (g0)- Обратно, если задан касатель¬ ный вектор многообразия М в точке х0£Л1, то существу¬ ет на многообразии М линия, проходящая через точку х0 и имеющая заданный вектор своим касательным вектором. Иначе говоря, вектор, исходящий из произвольной точки х0 £ Л4, тогда и только тогда является касательным век¬ тором многообразия М, когда он касается некоторой ли¬ нии, лежащей на М. 53. Условия трансверсальности и формулировка тео¬ ремы. Перейдем теперь к формулировке задачи оптималь¬ ного управления с подвижными концами. Пусть So и — гладкие многообразия произвольных (но меньших, чем п) размерностей г0, гх, расположенные в пространст¬ ве X. Поставим задачу: найти допустимое управление u(t), которое в кратчайшее время переводит фазовую точку из некоторого (заранее не заданного) положения х0 £S0 в не ко-
§ 14] ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 267 торое положение (рис. 174). Эту задачу мы и будем называть задачей оптимального быстродействия с подвиж¬ ными концами. Если оба многообразия So, Sx вырождаются в точки, то задача с подвижными концами обращается в прежнюю, уже рассмотренную нами задачу (задачу с зак¬ репленными концами). Ясно, что если бы точки х0, на многообразиях So, Sx были известны, то мы имели бы задачу с закрепленными концами. Поэтому управление, оптимальное в смысле задачи с подвижными концами, опти¬ мально и в прежнем смысле, т. е. принцип максимума ос¬ тается в силе и для задачи со свободными концами. Однако нужно в этом слу¬ чае иметь еще соотношения, из которых можно было бы определить положение то¬ чек х0, х± на многообразиях So, Такими соотношения¬ ми и являются формулируемые Рис. I/O. в этом пункте условия транс¬ версальности. Эти условия позволяют написать г04-гх соотношений, включающих координаты концевых точек xQ и х±. Так как, с другой стороны, число неизвестных пара¬ метров (по сравнению с задачей с закрепленными концами) также увеличилось на r0 + ri (и^° положение точки х0 на г0-мерном многообразии So характеризуется г0 параметра¬ ми, а положение точки So характеризуется гх параметра¬ ми), то вместе с принципом максимума условия трансвер¬ сальности образуют «достаточную» систему соотношений.для решения поставленной оптимальной задачи с подвижными концами. Нетрудно составить себе представление о характере условий трансверсальности, если продолжить рассуждения пп. 5 и 6. Рассмотрим сначала случай, когда подвижным является только левый конец траектории. Иными слова¬ ми, рассмотрим задачу оптимального быстродействия в слу¬ чае, когда точка х± задана, а в качестве х0 можно выб¬ рать любую точку заданного многообразия MQ (рис. 175).
268 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V Пусть u (f), —оптимальное управление, решающее поставленную задач?, а х (/) — соответствующая оптимальная траектория. Обозначим через S множество всех тех точек фазового пространства, из которых можно оптимальным дви жением прийти в точку х1 ровно за время tr —tQ\ в част¬ ности, множеству S принадлежит точка х0=х(/0) (эта точ¬ ка лежит также на многообразии MQ). Множество S опре¬ деляется уравнением со (х) ——(г\ — ^0)> гДе —со (х) есть время оптимального движения из точки х в точку хг. Ес¬ ли, как и в пп. 5,6, мы предположим, что функция со (х) имеет непрерывные производные, то множество S будет представлять собой (п—1)-мерное гладкое многообразие, т. е. гиперповерхность в X (заметим, что, в силу уравне¬ ния Веллмана (1.18), мы имеем grad со (х)#=0 в любой точ¬ ке х^х^). Обозначим через То касательную плоскость к гиперповерхности S в точке х0. Легко видеть, что всякий касательный вектор к многооб¬ разию /Ио в точке х0 расположен в гиперплоскости' То. В самом деле, пусть существует касательный вектор v мно¬ гообразия Д40 в точке х0, не лежащей в гиперплоскости То. m дсо (х) Тогда производная , взятая в направлении вектора v, отлична от нуля. Можно считать (изменив, если нужно, направление вектора v на противоположное), что эта производная положительна. Если мы теперь возьмем на многообразии Л10 кривую, исходящую из точки х0 и ка¬ сающуюся вектора т/, то найдем (в силу положительности указанной производной), что при движении по этой кри¬ вой от точки х0 функция со (х) увеличивается. Иными словами, найдется на многообразии Мо такая точка х0', что со (х'0)>со (х0). Но это означает, что время оптималь¬ ного движения (в точку хх) из точки х'о меньше, чем из точки х0, вопреки предположенной оптимальности тра¬ ектории х (/). Полученное противоречие и доказывает наше утверждение. Обозначим теперь через ф (/) вектор, соответствующий оптимальному управлению в силу принципа максимума, т. е. ф (f) = grad со (х (/)) (см. (1.22)). Так как вектор ф(/0) = = grad со (х0) является нормалью гиперповерхности S (оп¬ ределяемой уравнением со (х) = const), то он ортогонален всем векторам, лежащим в касательной плоскости TQ, и, в
§ 14] ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 269 частности, всем касательным векторам многообразия Л40. Это и есть Условие трансверсальности (в левом конце): вектор ф (f0) ортогонален всем касательным векторам мно¬ гообразия Л40 в точке х0. Если правый конец хг не является закрепленным, а может изменяться на некотором многообразии то име¬ ем аналогичное Условие трансверсальности (в правом конце): вектор ф (/т) ортогонален всем касательным векторам мно¬ гообразия в точке хг. (Для получения этого условия проще всего обратить в уравнении (1.3) направление течения времени; оптималь¬ ность процесса при этом сохранится, а левый и правый концы поменяются ролями.) Мы приходим, таким образом, к следующему предло¬ жению: Теорема V.I. Пусть u(t), —допустимое уп¬ равление, переводящее фазовую точку из некоторого поло¬ жения х0£Л10 в положение х1^/И, а х (t) - соответствую¬ щая траектория. Для того, чтобы u(t), х (/) давали реше¬ ние оптимальной задачи с подвижными концами, необходимо существование ненулевой непрерывной вектор-функции ф (/), удовлетворяющей принципу максимума (стр. 103) и, кроме того, условию трансверсальности в обоих концах траекто¬ рии х (/). (Если какое-либо из многообразий Л40, вырождает¬ ся в точку, то условие трансверсальности в соответст¬ вующем конце траектории х (/) заменяется условием про¬ хождения траектории через эту точку.) Предыдущими рассуждениями эту теорему можно счи¬ тать установленной лишь в случае, если функция со (х) имеет вторые непрерывные производные. Недостатки та¬ кого доказательства мы уже критиковали выше (стр. 29—30). Поэтому приведем здесь другое доказательство, не ис¬ пользующее свойств функции (!)(Х). 54. Доказательство (случай подвижного правого конца). Рассмотрим сначала случай, когда подвижным является только правый конец траектории, т.е. рассмотрим зада¬ чу оптимального быстродействия, в которой точка
270 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V задана, а в качестве хх можно выбрать любую точку неко¬ торого многообразия Л4Х. Пусть н (/), х (/), — оптимальный процесс, дающий решение поставленной за¬ дачи. Рассмотрим конус К, построенный при доказательст¬ ве принципа максимума (стр. 86). Мы утверждаем, что через точку Q — х± можно провести такую опорную гипер¬ плоскость Гх конуса К, которая содержит все касательные векторы многообразия в точке х±. Допустим на минуту, что это утверждение доказано, и покажем, как из него вывести нужную нам теорему. Обозначим через п нормальный вектор указанной опорной гиперплоскости Гх, причем его направление выберем так, чтобы конус К лежал в отрицательном полупространстве (т.е. для любой точки Р£К было выполнено неравенство rz-QP^O, ср. стр. 100). Тогда мы можем провести рассуж¬ дения п.21, завершающие доказательство принципа макси¬ мума, и получим вектор-функцию ф (/), удовлетворяющую условиям теоремы 11.12. При этом ф(/1) = д (см. (2.68)). По определению, вектор п = ф(/1) ортогонален всем век¬ торам, лежащим в гиперплоскости Гх, и, в частности, всем касательным векторам многообразия Л4Х. Таким образом, условие трансверсальности в правом конце выполняется. Итак, остается доказать справедливость указанного выше утверждения о существовании опорной гиперплоскос¬ ти Гх. Допустим противное: такой гиперплоскости не су¬ ществует. Обозначим через Lx касательную плоскость мно¬ гообразия /Их в точке хх, а через — ее ортогональное дополнение (т.е. плоскость, образованную всеми исходя¬ щими из хх векторами, ортогональными плоскости Ах). Обозначим через л ортогональное проектирование фазового пространства X на плоскость N±. При этом проектировании вся плоскость Lx отображается в одну точку хх, а конус К проектируется в некоторый выпуклый конус л (/С) с вер¬ шиной в той же точке хх. Если бы конус л (К) не запол¬ нял всей плоскости Мх, то можно было бы в провести через хх опорную гиперплоскость Г' к конусу л(/0; но тогда множество всех точек пространства X, проектирую¬ щихся в точки плоскости Г', представляло бы собой гиперплоскость пространства X, опорную к конусу /С и содержащую плоскость £х, т.е. искомую гиперплоскость Гр
§ 14] ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 271 Так как мы предположили, что такой гиперплоскости не существует, то конус л (А") заполняет ecto плоскость Nv Выберем в плоскости Nx симплекс (той же размерности, что и плоскость /VJ, содержащий точку Q = x± внутри себя, и пусть В(0), В(1),..., В(д}— его вершины. Так как точки В(0), В(1),..., В(д} принадлежат конусу n(K) = Nly то найдутся в конусе К точки Д(0), Д(1),..., А(д\ перехо¬ дящие при проектировании л в точки В(0), В(1\В[д\ Выберем такие величины 6/(а), т(“\ /(“\ = 1,..., q'> z = 1, 2,..., s(a)), что соответствующие векторы смеще¬ ния совпадают с Q?V0), СМ(1),. . QA{g) (ср. формулы (2.45)— (2.49)). Как и на стр. 92, мы можем предполагать, что все («) точки т ; попарно различны. Положим теперь 6/ = k(B'6t(0> + + ... + (5.7) где fe(a) — некоторые неотрицательные числа. Тогда вектор смещения QB, соответствующий величинам SZ, (а = 0, 1,. . ., q; f = 1, 2,. . ., s(a)), будет равен (ср. (2.52)) QB=^0)Q^(0) +#1)q1(1>+ .. . +k{g)QA(g\ Так как все точки попарно различны, то мы можем рассматривать варьирование управления и (Z) и траекто¬ рии х (/), соответствующее величинам 6/, т(“\ Z(?\ причем для соответствующей варьированной траектории мы будем иметь (ср. (2.53)) х* — е 6f) =х (/J + eQB4-o(e). Точка х*(/г—е SZ) непрерывно зависит от величин &(0), . ., k(g>. Плоскость (размерности q), проходящую через точки Д(0), Д(1),. . А{д), мы обозначим через ЛА Так же как и Nly плоскость ДГ пересекает L± в единственной точке Q = xY. Используя лемму 11.10 (стр. 98), мы можем в плоскости N построить такие непрерывные неотрицательные функции Лг(а)(С), а = 0,1,. . ., q, что для любой точки С плоскости AZ выполнено соотношение (ср. (2.54)) QC = k{Q)(C) • 0Д(0) + /г(1)(С) ♦ QX(1) + . .. + k{g\C) -QA{g).
272 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V Определим теперь с помощью величин ka = ka (С), а —О, 1, . q, по формулам (5.7) величины 6f, (оставив т(/\ без изменения). Соответствующую варьированную траек¬ торию х* (t) будем теперь обозначать через Xc(t), а ве¬ личину Ы — через btc- Для варьированной траектории Xc(t) справедливо соотношение xc(/i —еб/с) = Се + о(8), где Се — такая точка, что QC& — &QC (ср.(2.57)). При этом точка хс(^— eS/с) непрерывно зависит от С. Обозначим, далее, через 5 сферу радиуса 1 с центром Q, расположенную в плоскости N (рис. 176). Так как плос¬ кость N представляет собой дополнение (не ортогональ¬ ное) плоскости £х, то сфера S зацеплена с плоскос¬ тью Lv т. е. не может быть при помощи непрерывной деформации стянута в точ¬ ку, не задевая плоскости Lv (Точное определение понятия «зацепления» относится к об¬ ласти топологии; мы ог¬ раничимся здесь наглядной «понятностью» высказанного утверждения.) Когда точка С пробегает сферу 5, точка Се пробегает сферу 5. радиуса е с центром в точке Q, а точкаХс^± — пробегает «замкнутую поверхность» Le, близкую к сфере Se. При достаточно малом е поверхность Ле, как и сфера 5£, зацеплена с плоскостью Llf а значит, и с многообра¬ зием касающимся плоскости £х; такое значение е мы и зафиксируем. Рассмотрим, наконец, точку (ср. (2.59)) хс((1—a) f0 + a (fx—е б/с))> (5.8) Когда точка С пробегает сферу 5, точка (5.8) описывает (при каждом фиксированном значении параметра а) неко-
ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 273 § Н] торую замкнутую поверхность При ст = 1 мы получаем поверхность £(1), совпадающую с А£, а при а = 0 точка (5.8) совпадает с точкой хс (tQ) =xQ, т.е. поверхность Л(о) вы¬ рождается в одну точку х0. Таким образом, изменяя а от 1 до 0, мы получаем непрерывную деформацию поверх¬ ности L{1} = в одну точку. Но поверхность з а цеп- лен а с многообразием /Их, и потому деформирующаяся поверхность должна задевать многообразие Л4Х. Иначе го¬ воря, существуют такое число а0, 0<а0<1, и такая точ¬ ка что точка (5.8) принадлежит многообразию 7ИХ: ((1 ~ ПоНо + <*о (*i - е б/с)) € М±. Но мы имеем (1— о0) t0 + о0 —е6/с) = = h — (1 — о0) - /0)—о0е 6/с <Л- Таким образом, варьированная траектория х* (/) раньше, чем в момент /х, достигает многообразия и, значит, исходный процесс х (f), u (t) не был оптимальным. Полу¬ ченное противоречие доказывает существование искомой гиперплоскости Гх, чем доказательство и завершается. 55. Доказательство (общий случай). Мы доказали теорему V.1 в случае, когда подвижным является только правый конец траектории. Укажем, какие изменения следует произвести в этом доказательстве, если подвиж¬ ными являются оба конца. Пусть и (/), х (/), /0 ' оптимальный процесс, решающий задачу с подвижными концами, и х0£Л40, х1^М1 — концевые точки траекто¬ рии х (О- Выберем на многообразии MQ некоторую кривую О, исходящую из точки х0, и пусть x = g(e)— параметри¬ ческая запись этой кривой (е 0, £(О)=хо), а W= -7-\ аъ |е =о — касательный вектор к этой кривой в точке х0. Таким образом, для точек кривой G мы имеем х ^Xq + sw-}- о (е). (5.9)
274 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ' [ГЛ. V Рассмотрим траекторию х* (/), исходящую в момент Zo из точки (5.9) (лежащей на кривой G и, значит, на много¬ образии /Ио) и движущуюся под воздействием проварьиро- ванного управления и* (/) (которому соответствуют вели¬ чины tz, z=l, . .., s, ср. стр. 80). Тогда для траектории х* (/) будет справедливо соотношение еб/) -х(/1) — 8 6//(x(/x), + s + е2 A (тр ^i) + eAUo’ ^) + <>(е). (5.10) г = 1 Это соотношение отличается от (2.36) лишь наличием дополнительного слагаемого 8 A (/0, w) в правой части и может быть объяснено следующим образом. Если на¬ чальная точка xQ не смещается в положение (5.9), то имеет место соотношение (2.36). Если же варьирования управления не происходит (т. е. д*(/) = а(/)), но началь¬ ная точка смещается в положение (5.9), то, в силу след-; ствия И.6 (стр. 73) и соотношения (2.35), мы имеем x*(f1)=x(/1) + e А(/о, w) + o(e). Производя одновременно смещение начальной точки х0 и варьирование управления и (/), мы и получаем суммарный эффект, выражающийся формулой (5.10). Аккуратный вывод соотношения (5.10) проводится совершенно так же, как и вывод соотношения (2.36) (стр. 83—85); мы его опускаем. Формулу (5.10) можно записать в виде х* (f1 —8 6/) — х (fj = zQA + е A (f0, w) + о (е), где QA— некоторый вектор смещения (см. (2.42)), т. е. вектор, принадлежащий конусу /<, a w — касательный век¬ тор многообразия /Ио. Отложим от точки Q вектор QZ) = QA -f- A (Zq, wj. Когда точка А пробегает конус Д', a w—всевозможные касательные векторы многообразия Жо в точке х0, век¬ торы QD заполняют, очевидно, некоторый выпуклый конус К с вершиной Q. Конус К содержит весь конус К и все векторы вида А (/0, w).
§ 14] ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 275 Итак, если разрешить начальной точке х0 смещаться вдоль многообразия Л40, то формула (2.36) заменится формулой (5.10), а конус К заменится конусом К. Повто¬ ряя теперь почти без изменений предыдущие рассуждения (стр. 270—273), мы выведем, что если процесс х (t), и (t) оптимален, то существует проходящая через точку хг опор¬ ная гиперплоскость Гх конуса К, содержащая все касатель¬ ные векторы многообразия в точке xv Исходя из этой гиперплоскости, мы, как и прежде (стр. 270), построим вектор-функцию ф (/), удовлетворяющую принципу макси¬ мума и условию трансверсальности в правом конце (заме¬ тим, что конус К содержится в К и потому гиперпло¬ скость Гх является опорной не только к конусу К, но и к конусу /0. Остается доказать, что выполняется условие трансверсальности и в левом конце. Пусть w —произвольный касательный вектор много¬ образия Л40 в точке xQ. Тогда оба вектора Д (/0, w), Д (/0, —w) =— Д (/0, w) принадлежат конусу и потому выполнены неравенства -ф (/х) A (»f0, w)<0, ф (/i) ( —A (/0, w))<0. Из этих неравенств вытекает, что ф (0) Д (/0, w) = 0. Но в силу следствия 11.9 (стр. 77) это соотношение можно переписать в виде ф(/о)*ш = О. Так как это справедливо для любого касательного вектора w многообразия /Ио в точке х0, то условие трансверсальности в левом конце выполнено. Итак, теорема V.1 полностью доказана. 56. Осцилляционная теорема. В качестве примера, иллюстрирующего применение условий трансверсальности, рассмотрим следующую задачу. Дано дифференциальное уравнение х + и (t) х +v (t) х = 0 (5.11) с переменными (кусочно-непрерывными) коэффициентами и (7), v(t), подчиненными условиям (5.12)
276 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V где а, а', |3, Р' — положительные константы, причем, корни уравнения X2сс'Х-|- £'= О комплексны. Требуется опре¬ делить наименьшее возможное расстояние между двумя соседними нулями нетривиального решения уравнения (5.11). Пусть х (t)— нетривиальное решение уравнения (5.11) (при некотором выборе коэффициентов u(t) и v(t)), tQ и /1 (/0 < ^i) — Два ег0 соседних нуля. Так как х (/0) —х (fx) = О, то x(tQ)=?=0 и х(/1)=^0 (ибо решение х (/) нетривиально). Заметим, что умножение функции х (/) на отличное от нуля число оставляет эту функцию решением уравнения (5.11) и не меняет ее нулей. Поэтому мы можем без ограничения общности предполагать, что x(f0)=l. Ясно, что х (/х) < 0 (ибо функция х (t) сохраняет на интервале (/0, /х) постоянный знак). Итак, мы можем рассматривать лишь решение х (t) уравнения (5.11), удовлетворяющее начальным условиям х (iQ) = 0, х(/0) = 1; требуется, «управляя» коэффициентами u(t) и v(t), за кратчайшее время добиться выполнения условий х (/х) < 0. Вводя величины х1--х, х2 = х, мы перепишем уравне¬ ние (5.11) в виде следующей системы уравнений: | vl — v2 1 \ ’1 2 (5.13) ( X2 —— vxL — ux* (при тех же ограничениях (5.12) на коэффициенты). Наша задача заключается теперь в том, чтобы за кратчайшее время перевести фазовую точку из состояния х1 = 0, х2 = 1 в состояние, удовлетворяющее условиям х1 —0, х2 < 0. Иными словами, мы получаем задачу оптимального быстро¬ действия с подвижным правым концом, в которой началь¬ ная точка х0 имеет координаты (0, 1), а конечная точка xt должна лежать на многообразии представляющем со¬ бой отрицательную часть оси х2 (рис. 177). Напишем для рассматриваемой задачи функцию Н: Н = ipjX2 — ф2 (ух1 + их2) и уравнения для вспомогательных неизвестных: ^1=^2- ^2 = — + "IV (5.14)
§ 14J ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 277 Кроме того, выпишем условие трансверсальности в правом конце. Так как любой касательный вектор многообразия Afj параллелен оси х2, т. е. пропорционален вектору w — (0, 1), то условие трансверсальности принимает вид ip(/1)w = 0, т. е. (^1)‘0 +'Фг (^1) * 1 — 0- Итак, условие трансверсаль¬ ности в правом конце дает соотношение ll)2(/l) = °. (5.15) хо \х 0 '\x(t) X, М, Предположим, что оптимальный процесс, дающий ре¬ шение поставленной задачи, нам известен, и пусть (/), ф2 (/)— соответствующее решение системы (5.14) (удовлетворяющее условию максимума и условию трансверсальности (5.15)). Если бы функция ф2 (/) имела бесконечно много нулей на отрезке [f0, то существовала бы точка 0, пре¬ дельная для этих нулей. В точке 0 мы имели бы ф2 (0) = 0, ф2 (0) = О, и потому, в силу второго из урав¬ нений (5.14), ф1(0) = 0. Но соотно¬ шения фг(0)ф2(0) — 0 противо¬ речат тому, что ф1(/), (^)— нетривиальное решение. Следова¬ тельно, функция ф2 (/) может иметь на отрезке [f0, лишь конечное число нулей. Так как функция И достигает своего максимума по и и по V, то, в частности, достигает максимума по v сла¬ гаемое — 'ф2т/х1, а значит, достигает максимума по v ве¬ личина — 1р2т> (ибо х1 > 0 на всем интервале (Zo, t±)). Следовательно, т/= £}', если ф2 отрицательно, и z/=0, если ф2 положительно. Так как функция ф2 (/) имеет лишь конечное число нулей, то отсюда вытекает, что функция v(t) однозначно определяется условием максимума и яв¬ ляется кусочно-постоянной. Аналогично, если бы функция х2 (/) имела бесконечно много нулей, то в точке т, предельной для этих нулей, мы имели бы х2 (т) — 0, х2 (т) —- 0, и потому, в силу вто¬ рого из соотношений (5.13), —v (т) х1 (т) = 0. Но т/(т)=^=0 (ибо в соотношениях (5.12) обе константы 0, 0' положи¬
278 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V тельны). Поэтому х1 (т) = 0. Из соотношений хх(т) — х2(т) — 0 вытекает, что решение лл(/), х2 (/) тривиально и потому не может удовлетворять требуемому начальному условию х(/0)=х0. Следовательно, функция х2 (t) имеет на отрезке [/0, лишь конечное число нулей. Из условия максимума теперь вытекает, что в каждый момент t функция — ф2их2 должна достигать в точке а = u(t) максимума (по и), и потому и (/) однозначно определяется и является кусочно-постоянной функцией (принимающей значения а, а'). Итак, обе функции и (t), ^(/), осуществляющие опти¬ мальный режим, кусочно-постоянны, и потому, в силу (5.14), функции гр! (/), ф2 (0 удовлетворяют соотношениям ф2 = — — -пф2 + “Фз- Изменив направление течения времени на противоположное, т. е. рассмотрев вместо ф2 (t) функцию ср (/) = ф2 (/0 + — /), мы найдем ф = 77ф— Дф, т. е. функция ф (f) удовлетворяет уравнению (5.11). Кроме того, из условия трансверсальности (5.15) мы получаем ф (/0) = 0- Но ведь tY — наименьший возможный корень функции, удовлетворяющей уравнению (5.11) и обращаю¬ щейся в нуль в точке t = tQ. Следовательно, функция ф (/) сохраняет постоянный знак на всем интервале (f0, /Д. Переходя обратно к функции ф2 (/), мы заключаем, что ф2 (t) сохраняет постоянный знак на всем интервале (/0, /х). Определим знак функции ф2 на этом интервале. Для этого заметим, что неравенство (Е) (стр. 104), в силу соот¬ ношения (5.15), принимает вид (/х) х2 (/J 0, а так как х2 (fx) < 0, то ф1(/1)^0. Равенство ф1 (/Д --= 0 не может иметь места (ибо ф2 (/х) = 0, а решение (/), ф2 (/) нетривиально). Следовательно, ф1(^1)<0. Второе из соот¬ ношений (5.14) дает нам теперь, в силу (5.15), ф2 (fj = = —Ф1 (^i) > 0. Наконец, из соотношений ф2 (/х) — 0, Фг (М > 0 вытекает, что функция ф2 (/) отрицатель н а на интервале (Zo, tr). Из неравенства ф2 < 0 мы заключаем (см. выше), что v = Р' на всем интервале (f0, ^). Кроме того, условие
§ 141 ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 27$ — = tnax принимает вид пх2=-тах, и потому (а' ПРИ х2 > О, ~ ^а при х2 < 0. Таким образом, в верхней полуплоскости х2 > 0 искомая оптимальная траектория удовлетворяет системе J Х1 = х2, | х2 = — Р'х1 — а'х2, а в нижней полуплоскости (х2 < 0)— системе I х1 = х2, ( х2 ——Р'х1 — ах2. (5-16) (5.17) Обе системы (5.16), (5.17) имеют комплексные собственные значения (ибо мы предположили, что корни уравнения Л24-а'Х + Р'= 0 комплексны), и потому фазовые траекто¬ рии этих систем представляют собой спирали, обходящие начало координат по часовой стрелке. Из этого ясно, что искомой оптимальной траекторией может быть лишь кривая, состоящая из двух кусков: куска траектории системы (5.16), расположенного в первом квадранте, и куска траектории системы (5.17), расположенного в четвертом квадранте (рис. 177). Время Т — t± —- tQ движения по этой траектории (от х0 до хх) и есть искомое минимальное расстояние между двумя соседними нулями нетривиального решения уравне¬ ния (5.11). Это время нетрудно вычислить, непосредственно решая системы (5.16) и (5.17). Именно, обозначим через — Hi ±zvi к°Рни характеристического уравнения системы (5.16), а через —ц2 ± /v2 корни характеристического уравнения системы (5.17); при этом все числа р,2, v1? v2 положительны. Тогда Т-Т1+Т21 7-,-larctgg, ra = l(n-arCtgg) <5.18) (мы не приводим соответствующих элементарных подсче¬ тов). Таким образом, получаем следующую теорему: Теорема V.2. Для рассматриваемого уравнения (см. (5.11), (5.12)) минимальное возможное расстояние Т между двумя соседними нулями tQ, tx нетривиального решения опре¬
280 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ V деляется формулой (5.18). Оно достигается, если г/=Р', а коэффициент и принимает значение а на отрезке [/0, tQ + 7\] и значение а на остальной части отрезка [Zo, Разумеется, предыдущие рассуждения не дают полного доказательства этой теоремы. Ведь мы лишь доказали, что, кроме найденной траектории, никакая другая не может быть оптимальной; между тем заранее ниоткуда не следует, что оптимальная траек¬ тория действительно су¬ ществует. Для заверше¬ ния доказательства мож¬ но воспользоваться дос¬ таточными условиями оптимальности. Прежде всего, ясно (в силу линейности урав¬ нений (5.13)), что прин¬ ципу максимума удовлет-; воряет не только най¬ денная траектория (рис. 177), но и любая траек¬ тория, получающаяся из нее подобным преобра¬ зованием с центром в начале координат. Таким образом, вся фазовая плоскость с выколотым началом координат заполняется подобными между собой траекториями, удов¬ летворяющими принципу максимума (рис. 178). Эти траек¬ тории начинаются на одной из полуосей оси х2 и оканчи¬ ваются на другой. Управляющие параметры принимают значения и = а', v— [У в первом и третьем квадрантах и значения и==а, во втором и четвертом квадрантах. Мы можем считать указанные траектории, удовлетворяю¬ щие принципу максимума, не начинающимися и оканчи¬ вающимися на оси х2, а неограниченно простирающимися в обе стороны в виде спиралей (как на рис. 178). Определим теперь функцию со (х), считая ее равной нулю на положительной полуоси х2, и принимающей в точке х значение — /, где t — время движения по спирали от точки, лежащей на положительной полуоси х2, до точки х. Функция со (х) многозначна: наряду со значением со (х) она принимает в точке х также все значения
§ 15] ОБЩИЙ ПРИНЦИП МАКСИМУМА 281 co (х) 4- 2&Т (k — 0, 1, 2, ...), ибо через время 2Т спираль, начинающаяся на положительной полуоси х2, снова воз¬ вращается на эту полуось. Если же рассматривать указан¬ ные спирали и функцию G) (х) на бесконечнолистной «римановой поверхности», ветвящейся вокруг начала коор¬ динат, то со (х) станет однозначной непрерывной функцией. К этой функции применимы рассуждения п. 46 (стр. 238—246), позволяющие утверждать, что функция со (х) всюду, кроме точек одномерного кусочно-гладкого множества, непрерывно дифференцируема и удовлетворяет уравнению Веллмана. (В самом деле, тот факт, что все траектории оканчивались в точке хх, не использовался в п. 46 при доказательстве этих свойств функции со (х), а все остальные предположе¬ ния имеют место и здесь.) Поэтому, в силу основной леммы (стр. 225), для времени перехода справедлива оценка (4.2). В частности, если точка х0 лежит на положительной полуоси х2, а точка хх— на отрицательной полуоси х2, то со (х0) = 2kT, со (xj = Т 21Т, и потому для времени перехода по любой траектории из точки х0 в точку х± мы имеем неравенство ^1 ~ (xi)— ю (хо) = 2 (Z — k) Т. Число I—k зависит от того, на каких листах расположены точки х0 и хх (т. е. сколько оборотов делает траектория вокруг начала координат). Во всяком случае (в силу не¬ отрицательности числа — /0) справедливо неравенство /1 — Zo Т, которое и доказывает, что переход из точки х0 на отрицательную часть оси х2 за время, меньшее чем Т, невозможен. Итак, теорема V.2 полностью доказана. § 15. Общий принцип максимума 57. Постановка задачи. В этом пункте мы сформулируем задачу оптимального управления в смысле, отличном от быстродействия, и дадим ее решение. Идея общей задачи оптимального управления заключается в том, чтобы оце¬ нивать «качество» процесса перехода из точки х0 в хт не затраченным временем, а какой-либо другой величиной (работой, количеством тепла, расходом горючего и т. п.).
282 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЙ [ГЛ. V Чаще всего качество переходного процесса оценивается некоторым интегральным функционалом О и) di. (5.19) (0 Функция /°(х, и), выбираемая по смыслу задачи, предпо¬ лагается удовлетворяющей тем же условиям, что и функ¬ ции fl(x, и)у входящие в левые части уравнений движе¬ ния (1.2). Задачу, которую мы будем рассматривать в этом пункте, можно теперь сформулировать следующим образом. В фа¬ зовом пространстве X даны две точки xQ и хг; требуется из всех допустимых управлений и (t), tQ t tly перево¬ дящих фазовую точку из положения х0 в положение xv выбрать такое, которое придает функционалу (5.19) наимень¬ шее возможное значение. (Момент /0 выхода из точки х0 и момент tY попадания в точку х2 заранее не заданы.) Управление u(t)y решающее поставленную задачу, и соот¬ ветствующую траекторию мы будем, как и прежде, назы¬ вать оптимальными. Заметим, что в случае /° (х, и) = 1 функционал (5.19) совпадает с временем перехода: I=tr—10. Таким образом, задача оптимального быстродействия является частным случаем рассматриваемой здесь общей задачи оптимального управления. Решение поставленной задачи мы изложим в этом пункте, предполагая дополнительно, что функция /° (х, и) положительна (для всехх, и). В этом случае решение, как мы увидим, непосредственно вытекает из принципа максимума, сформулированного на стр. 103. Получаемая таким образом теорема V.3 (см. ниже) также носит назва¬ ние приципа максимума. Следует отметить, что доказываемая ниже теорема V.3 справедлива и без дополнительного предположения о положительности функции /°; общее ее доказательство можно найти в монографии, цитированной в предисловии. 58. Основная теорема. Итак, будем предполагать, что /° (х, и) > 0. Идея решения поставленной задачи заклю¬ чается в следующем. Мы вводим на каждой траекто-
§ 15] ОБЩИЙ ПРИНЦИП МАКСИМУМА 283 рии новое время т, связанное со старым временем дифференциальной зависимостью dx=fQ(x, u)dt. В новом времени функционал (5.19) принимает вид 1= J dx =тх — т0, То т. е. поставленная задача превращается в задачу об опти¬ мальном быстродействии. Приступим к осуществлению этой идеи. Пусть н (/), /0 — некоторое допустимое управ¬ ление, переводящее фазовую точку из положения х0 в положение xv и х (I) — соответствующая траектория. Положим t т (/) = J /° (х (/), и (/)) dt, t0 < t < /х. to Функция х (/) является непрерывной и монотонно возра¬ стающей (ибо /° > 0), и потому существует о б р а т н а я к ней функция /(т). Ясно, что (см. (5.19)) т(/о) = О, x(t1) = Ii /(О) = /о, /(/) = /х; кроме того, ^Р=/’(х(/), «(/)), dt (т) 1 dx _Р(х(((т)), и(/(т))) ’ Определим теперь вектор-функции v (т), _у(т), положив ®(т) = «(/(т)), 0 т sC /, где u(t),x(t) — рассматриваемый процесс. Ясно, что v (т) — кусочно-непрерывная функция, принимающая значения в области управления U. Мы имеем, далее, dyi (т) dx1 (t (т)) _ dx1 (t (т)) dt (т) _ dx dx dt dx — f1 (x (t (тВ u (t (t))) ! — Таким образом, у (т) есть решение системы dy‘ = fl'(y> у) dx /° (у, и) ’ (5.20)
284 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ.V соответствующее допустимому управлению ^(т). Эта траек¬ тория соединяет точки х0 и х1 и затрачивает на переход из точки х0 в точку х± время /: у (0) = X (t (0)) = х (t0) = х0, y(I)=x (t (/)) = x(tl) = xv Если мы будем брать различные процессы и (/), х (/) (для системы (1.2)), то им будут соответствовать различные процессы для системы (5.20), и каждому из них будет отвечать свое время перехода /, определяемое фор¬ мулой (5.19). Отсюда ясно, что если процесс н (/), х (t) является оптимальным в смысле поставленной выше задачи (т. е. доставляет функционалу (5.19) наименьшее возмож¬ ное значение), то соответствующий процесс ^(т), у (т) является оптимальным в смысле быстродействия процес¬ сом для системы (5.20). Будем рассматривать именно такие оптимальные про¬ цессы и (t), х (/), t0 t /х, и соответственно v (т), у (т), О^т^/. Так как процесс v (т), у (т) является оптималь¬ ным быстродействием, то для него справедливы утверж¬ дения теоремы 11.12. Мы обозначим вспомогательные неиз¬ вестные через ..., фл и выпишем для системы (5.20) функцию Н: i = 1 и систему уравнений для вспомогательных неизвестных: _ дН у 5 р)\ _ dx дУ‘ ~idyi\fo(y,v)j _ 1 у /df*(y, V) г (у, у) . df«(y, V) \ (У, V) dyi f° (У, V) ' dyi J 1 ^(у, V) ( V* (У> v)\ и/ \df° (У> v) ( 2- Ф« t н (<P> У> ' Lwx <y / dy J (5.21) Согласно приципу максимума (теорема 11.12) существует для процесса v (т), у (т) такое нетривиальное решение ф (т) системы (5.21), которое удовлетворяет условиям (D)
151 ОБЩИЙ ПРИНЦИП МАКСИМУМА 285 и (Е) этой теоремы: ЩфС*), Ж V (т)) = max Н (ф (т), у (т), v), (5.22) veU Я(ф(/), у (I), (5.23) Положим теперь ■ф,-(f) = ф,. (т (f)), i = l, ..., п, Фо= — Я(ф(т), J*(T), f(T)). Согласно теореме 11.13 (стр. 105) ф0 = const, и соотноше- ние (5.23) переписывается в виде Фо<°- Из (5.21) легко находим производные функций (/): d^i (0 __ dcpz (т (О) __ dq»i (т (/)) dx (0 __ dt di /°(у(т(0). п(т(/))) di а= 1 dt ду‘ 1 -Щф(т (/)), у (т (/)), v (т (/))) ^°(у(т(0)' €>(т(0)) X ду1 Х/°(х(/), «(/)). Так как t (т (/)) = t (ибо функции t (т) и т (/) взаимно обратны) и потому у (т (/)) = х (t (т (/)))= х (/), v(x(t)) = = и (t (т (/))) = и (t), то эти выражения переписываются сле¬ дующим образом: Ю = L ^°(x(f)’, ц(/)). (5.24) Наконец, условие дующим образом: максимума (5.22) можно записать еле п S Ф; (т) 1=1 f‘(y(y), n(T))_ f° (у (т), v (т)) п S Фг (*) i = 1 — “Фо- Nf/fr), t>) f°(i/(T), v) или, после освобождения от знаменателя (напомним, что
286 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V /° > 0), п У, Ф< (Ч/' (У (т)> V (т)) +ф0/° (J (т), v (■*)) = 0, i= 1 п У ф,- (т) f‘ (У (Т), v) + ф0/° О' (т), V) «С 0. /= 1 Подставляя в эти соотношения вместо т функцию т (/), получим п X ф, (/)Д(х(/), и (О) + Фо/°u(t)) = O, i- 1 п £ Ф, (^)/'(*(*“). и) 4- ф0/° (х (/), и)^0 (5.25) i = 1 (при /0 и и£(7). Вид формул (5.24), (5,25) подсказывает ввести в рас¬ смотрение вектор Ф=(Фо- Ф1- •••> Фп) = (Фо- Ф) и функцию SK (ф, X, и) = 5 и) (5.26) t = 0 (суммирование от н у л я до п). Формулы (5.24) означают теперь, что функции фх(/), (/) удовлетворяют системе уравнений ^(^ x(f), u(Q) dt дх‘ i=\, (5.27) а соотношения максимума (5.25) переписываются в виде тах^(ф(/), х (t), и) = ЗК (ф (/), x(t), и (t)) = 0, utU (5.28) Тем самым для рассматриваемой оптимальной задачи (см. (1.2), (5.19)) мы доказали (в предположении, что /° >0) следующую теорему. Теорема V.3 (принцип максимума). Пусть и (t), tQ t — допустимое управление, переводящее фазовую
$15] ОБЩИЙ ПРИНЦИП МАКСИМУМА 287 точку из положения xQ в положение х0, а х (/)—соответ¬ ствующая траектория. Для оптимальности (в смысле мини¬ мума функционала (5.19)) процесса u(t), х (/), tQ t tv необходимо существование такой константы ф0 0 и такого нетривиального решения ф(/), системы (5.27), что для любого момента /, являющегося точкой непрерыв¬ ности управления u(i), выполнено условие максимума (5.28). 59. Задача с подвижными концами. Рассмотрим теперь задачу с подвижными концами. Иными словами, заданы гладкие многообразия /Ио и Л/11 произвольных (но меньших, чем п) размерностей и требуется найти допустимое управ¬ ление н(/), которое переводит фазовую точку из некото¬ рого (заранее не заданного) положения в некото¬ рое положение х1^/И1 и придает наименьшее возможное значение функционалу (5.19). Введение нового времени т, примененное нами для вывода теоремы V.3, и в этом слу¬ чае позволяет (при выполнении условия /° > 0) из теоремы V.1 непосредственно получить следующее предложение. Теорема V.4. Пусть и (t), tQ t — допустимое управление, гереводящее фазовую точку из некоторого поло¬ жения х0£М0 в положение х^/И, а х (t)— соответствую¬ щая траектория. Для того чтобы u(t),x(t) давали решение оптимальной задачи (в смысле минимума функционала (5.19)) с подвижными концами, необходимо существование константы ф0 и ненулевой непрерывной вектор-функции ф (/), удовлет¬ воряющих принципу максимума (теорема V.3) и, кроме того, условию трансверсальности в обоих концах траектории х (/). При этом формулировка условий трансверсальности остается дословно той же, что и выше (стр. 269). 60. Уравнение Веллмана и достаточные условия опти¬ мальности. Будем снова для процесса (1.3) рассматривать оптимальность в смысле минимума функционала (5.19) и изучим задачу отыскания оптимальных траекторий с закреп¬ ленными концами, причем конечную фазовую точку хг будем считать фиксированной, а в качестве началь¬ ной точки х будем брать различные точки фазового про¬ странства. Сделаем предположения, аналогичные гипотезам 1 и 2, рассмотренным в п. 5.
288 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V Гипотеза Г. Какова бы ни была отличная от хг точка х, существует оптимальный процесс перехода из точки х в точку х±. Значение функционала (5.19), соответствующее опти¬ мальному процессу перехода из точки . х в точку хх, обозначим через Т(х) и положим со (х) — —Т(х). Гипотеза 2'. Функция Т (х) (или со (х)) непрерывна и всюду, кроме точки хр имеет непрерывные частные про¬ изводные по х!, х2, . . хп. Если теперь мы, так же как и в п. 58, введем новое t время r = J/°dT, то оптимальные (в смысле минимума функционала (5.19)) процессы превратятся в оптимальные быстродействия для системы (5.20). При этом окажется, что Г(х) есть время тх— т0 оптимального перехода из точки х в точку хх, а гипотезы Г и 2' превращаются в гипотезы 1 и 2 (см. п. 5) для процесса (5.20). Следо¬ вательно (см. (1.18)), для процесса (5.20) справедливо соотношение (х =т^= хх) или, поскольку /° > 0, maxV^^/1’(х, u)=f°(x, и) (х^хг). (5.29) и е и дх1 Итак, при выполнении гипотез Г и 2' функция со удов¬ летворяет уравнению (5.29), причем для оптимальных процессов максимум в соотношении (5.29) достигается. Уравнение (5.29) называется уравнением Веллмана (для процесса (1.2) и оптимальности в смысле минимума функ¬ ционала (5.19)). Относительно гипотез 1' и 2' можно пов¬ торить все сказанное в конце п. 5 по поводу гипотез 1 и 2. Аналогичным образом (используя введение нового вре¬ мени) можно перенести на случай оптимальности в смысле минимума функционала (5.19) и основные результаты гла¬ вы IV. Укажем формулировки получающихся таким обра¬ зом теорем.
§ 15] ОБЩИЙ ПРИНЦИП МАКСИМУМА 289 Теорема V.5. Пусть М — кусочно-гладкое множество размерности < п, расположенное в фазовом пространстве X, и со (х)—непрерывная функция, заданная на X и имеющая в точках, не принадлежащих множеству М, непрерывные производные по х\ х2, . .., хп. Пусть, далее, о) (хх) = О для некоторой точки хг£Х. Предположим, что для каждой отличной от хх точки х^^Х существует допустимое управ¬ ление u(t) = uXn(t), t0 t tlf переводящее фазовую точку (движущуюся по закону (1.3)) из положения х0 в положе¬ ние хг и удовлетворяющее соотношению tx J/° (*(<), u(O)^=-®(xo). to Для того чтобы все управления u4(t) были оптимальными, необходимо и достаточно, чтобы во всех точках х, не при¬ надлежащих множеству М, функция со (х) удовлетворяла уравнению (5.29). При рассмотрении оптимальности в смысле минимума функционала (5.19) определение регулярного синтеза (п. 45) остается тем же, только пункт Е формулируется применительно к функционалу следующим образом: Е. Значение функционала (5.19), вычисленное вдоль отмеченных траекторий (кончающихся в точке хх), является непрерывной функцией начальной точки х0. Теорема V.6. Если в множестве G осуществлен регу¬ лярный синтез для уравнения (1.3) (в предположении суще¬ ствования непрерывных производных и справедли¬ вости соотношения fQ (х, и) > 0), то все отмеченные траек¬ тории являются оптимальными (в области G). Заметим, что соотношение (5.29) (при выполнении гипо¬ тез Г и 2') и теорема V.5 могут быть доказаны непосред¬ ственным обобщением рассуждений пп. 5 и 42 (а не сведением к случаю оптимального быстродействия при помощи введения нового времени т). При таком способе доказательства эти предложения могут быть устано¬ влены без предположения о справедливости неравенства /°(х, п)>0.
290 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V § 16. Разные обобщения 61. Принцип максимума для неавтономных систем. Рассмотрим кратко те изменения, которые возникнут в формулировке и доказательстве принципа максимума в слу¬ чае, когда закон движения (L3) становится неавтоном¬ ным, т. е. в правую часть, кроме х, д, явно входит пере¬ менное t: x=f(x, t, и) (5.30) (область управления U предполагается не зависящей от времени). Время tQ здесь предполагается заданным, а — искомое время прохождения через точку х±. Рассмотрим сначала для объекта (5.30) задачу оптимального быстродействия при закрепленных концевых точках х0, хР Оказывается, что если в уравне¬ нии (5.30) правые части fl (х, f, и) и их производные dfl (х, t, и) z , . : непрерывны (по совокупности переменных х, г, д), dxJ то все рассуждения пп. 14—21 сохранятся без всяких изменений, и потому для неавтономных систем (5.30) прин¬ цип максимума сохраняется дословно в той же формули¬ ровке, как и на стр. 103. Разумеется, при этом в правые части соотношений (А), (В), (С), (D), (Е) будет явно вхо¬ дить переменное /; например, функция Н (см. (В)) запи¬ шется теперь в виде /7(1]?, х, t, u) —t, и) — «)• а= 1 Более того, принцип максимума сохраняется и в том случае, если правая часть уравнения (5.30) кусочно-непре¬ рывна по t. В более подробной и точной формулировке это означает следующее. Пусть на оси t фиксированы некоторые точки (в конечном или бесконечном числе), причем на каждом конечном отрезке содержится лишь конечное число этих точек. Пусть, далее, для каждого k выбран интер¬ вал Afe, несколько больший, чем интервал 0fe-1 < < t < 0fe, и заданы функции ср* (х, д), /=1, . .., д, непрерывные вместе со своими частными производными
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 291 —. при х£Х, u£U. Определим теперь функцию dxJ fl (х, t, и), положив /(*, /, w) = ср£ (х, / и) при Bk-.1<t<Qk (значения функции fl в точках t~-=tk не играют роли). Иными словами, функция fl «сшивается» из различных функций (р£ в точках t = tk функции/', Z= 1, . .., п, могут иметь разрывы. Оказывается, что и для правых частей /'(х, / и) указанного здесь вида принцип максимума (стр. 103) полностью сохраняется. Доказательство, проведенное в пп. 14—21, и в этом случае остается без изменений. Однако теорема II.13 (стр. 105) перестает быть спра¬ ведливой для неавтономной системы (5.30): функция /И (/) = — Н (ф (/), х (/), / и (t)) теперь уже не является констан¬ той. Характер зависимости этой функции от t можно опре¬ делить совершенно иным путем, если дополнительно пред¬ положить, что функция f непрерывна и имеет непрерывную -з df (х, /, и) производную . Именно, введем еще одно вспомогательное неизвестное хп+\ изменяющееся по закону х"+1=1, x"+1(/)Wo. Очевидно, мы будем иметь тогда xn+1 = t. Пространство переменных х1, х2, . . ., х", хп+1 обозначим через X*. С помощью неизвестного хп + 1 система (5.30) может быть записана в следующем автономном виде: J х'=/‘’(х, хп + \ и), Z-1, . д; t хл + 1-1. (5-31) При этом мы должны найти оптимальную траекторию, соединяющую в пространстве X* точку (xj, х2, . . ., х", t0) с некоторой точкой прямой проходящей через точку (xj, х2, ..., х", 0) параллельно оси хм+1 (ибо конечное значение переменного х"+1, т. е. момент времени, когда движущаяся точка приходит в положение хр не является заранее заданным). Таким образом, мы приходим к обыч¬ ной оптимальной задаче с закрепленным левым концом и подвижным правым концом.
292 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ.V Напишем принцип максимума и условие трансверсаль¬ ности для полученной задачи. Согласно теоремам V.1 и 11.12 для решения рассматриваемой задачи нужно соста¬ вить функцию Фг/Цх, ХЛ+1, и) + ф2/2(х, xn+1, «)+...+ + W"(x, Хп+1, и) + фп+1-1. Эту функцию мы обозначим через Н* (а не через Н, как в теореме 11.12), сохранив обозначение Н для функции Н(ф, X, t, ы) = ф1/1(х, t, И) + ф2/г(Х, t, и)+...+ + *, и). Таким образом, учитывая соотношение xn+1 = t, мы можем написать Н* = Я+фя+1. (5.32) Соответствующая объекту (5.31) система уравнений для вспомогательных неизвестных ф2, фп+1 имеет вид (ср. (5.32)) ^+1 = dfa(x, t, и) dt Ф«- (5.34) дН* _ dxn + i ~ Наконец, условие трансверсальности в правом конце траек¬ тории означает, что прямая Л41 (параллельная оси х"+1) ортогональна вектору {ф, (/J, ф2 (ZJ, ..., фя (tj, фя+1 (/,)}. Иначе говоря, ф„+1(^) = о. (5.35) Вместе с соотношением (5.34) это дает нам ^п+1 (0 = f Е д-%/’ (5.36) t a=i Согласно теоремам 11.12 и V.1 для оптимального процесса х (f), и (t) существует такое нетривиальное решение {Ф1(С, ..., фя(0, Ф„+1(0} системы (5.33), (5.34), что в течение всего движения функция /У* принимает свое
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 293 максимальное значение (по и) и выполнено соотношение (5.37) Кроме того, согласно теореме 11.13 (стр. 105) имеет место (для найденных функций х‘ (7), uk (t), ф,-(/)) соотношение 77*^ const. (5.38) Но в силу (5.32) максимальность функции /У* означает, что достигает максимума (по и) и функция 77, т. е. для любого момента т, являющегося точкой непрерывности управления и (7), справедливо соотношение /7(ф(т), х(т), т, и (т)) = шах/7(ф (т), х (т), т, и). (5.39) utU Далее, из (5.32) и (5.35) следует, что соотношение (5.37) можно переписать в виде 77 [^^^0, т. е. Щф.О *(*i), «ОМ (5.40) Тем самым получено новое доказательство существова¬ ния функций фх (7), ..., Ф„(7), удовлетворяющих соотно¬ шениям (5.33), (5.39), (5.40), т. е. доказательство принципа максимума для неавтономной системы (5.30). Далее, сопо¬ ставляя соотношения (5.32), (5.36) и (5.38), мы получаем Н(Ф(О, х(0, t, и(1)) + \хдГ(Х(1)д(1’ U(t)) t a=i = const 0, т. е. Я(Ф(О, X(t), t, u(f))= — a=i (5.41) где ф0— неположительная константа. Итак, если х (t), u(t) — оптимальный по быстродействию процесс в неавтономной системе (5.30), то существует не¬ тривиальная вектор-функция ф (7) = {фх (7), ф2 (7), . . ., фЛ (7)}, удовлетворяющая принципу максимума и соотношению (5.41). Совершенно аналогично рассматривается случай, когда для объекта (5.30) берется оптимальность в смысле минимума 10 В. Г. Болтянский
294 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V функционала ti /=J/O(x, i, и) di (5.42) ta (ср. (5.19)), где /° непрерывна и непрерывно дифферен¬ цируема го х1, х", /. Переходя от пространства X к пространству А* (с помощью нового неизвестного х" + 1 = см. (5.31)) и повторяя рассуждения на стр. 283—286 для функции &(, (см. теорему V.3), мы получаем соотношения: Y' дх‘ М, -_дж Ч-п+1 “ (5.34') (5.35') дхп + '~ (5.36') Соотношение max $f*(W)> х(/), t, u) = (ip (/), x(/), t, «(/))==0, U€C/ (cm. (5.28)), принимает теперь вид max x (t), i, = x(t), t, u(t)) = uE U = J £ -~X- “ (<)} ■‘h (0 dt- (5.4Г) tt a=o Итак, если x (/), и (/), tQ t —оптимальный (в смысле минимума функционала (5.42)) процесс в неавтономной систе¬ ме (5.30), то существуют такая константа фо^О и такое нетривиальное решение ф (/), /0 системы (5.33'), что для любого момента /, являющегося точкой непрерывности управления u(t), выполнено условие максимума (5.4Г).
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 295 Условия трансверсальности формулируются в случае неподвижных многообразий /Ио, совершенно так же, как и в неавтономном случае. В случае подвижного мно¬ гообразия (например, в случае, если мы должны из за¬ данной точки х0 попасть в движущуюся по известному за¬ кону точку хх(/)) условия трансверсальности легко могут быть получены с помощью того же приема — перехода от неавтономной системы в пространстве X к автономной системе в пространстве X*. 62. Оптимальные процессы с параметрами. Рассмотрим следующую оптимальную задачу. Даны функции f (х, a, w), i = 0, 1, ..., /z, где аргументы х, и, w являются точками пространств, имеющих размерности zz, г, 5 соответственно: Х=(х\ X2, . ..,х"), U=(ZZ1, ...,Ur), W = (w\ Кроме того, в пространстве переменных (и1, . . ., иг) задано некоторое множество U (область управления). Функции f dfl .. ~ . . и их частные производные —— (z = О, ..., /г; j= 1, dxJ dur . .., jfe = 1, ..., s) предполагаются непрерывными при и С U и любых х, w. Закон движения объекта (в фазовом пространстве X переменных х1, ..., хп) задается уравнениями dx* и, w), i=l, п. (5.43) Оптимальная задача, которую мы хотим теперь рас¬ смотреть, заключается в следующем. В пространстве X за¬ даны две точки х0 и хг Требуется выбрать такую посто¬ янную точку w (т. е. до начала движения подобрать зна¬ чение параметра w, остающееся постоянным в течение всего движения) и такое допустимое управление и (/), чтобы со¬ ответствующая траектория х (/), исходящая в момент tQ из точки х0, проходила в некоторый момент /х через точку хх и чтобы при этом интеграл G J = ^f°(x(f), u(t), wjdt (5. 44) t о принимал наименьшее возможное значение. При решении 10*
296 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V этой задачи мы будем дополнительно предполагать, что /° > О (при любых значениях аргументов). Заметим, что при /°’= 1 мы получаем для объекта (5.43) задачу опти¬ мального быстродействия. Рассматриваемая задача имеет некоторую специфику по сравнению с оптимальной задачей, рассмотренной в п. 4 (или в п. 57). В оптимальных задачах пп. 4, 57 каждый кусок оптимальной траектории снова являлся оптимальной траек¬ торией (ибо «улучшение» куска траектории вело к «улучше¬ нию» всей траектории). Здесь, в рассматриваемой задаче с параметрами, это уже не так. Ведь оптимальные значения параметра w для всей траектории и для ее части могут не совпадать, т. е. если и (f), w дают решение поставлен¬ ной в этом пункте оптимальной задачи, причем управление и (t) определено на отрезке то на меньшем отрезке за счет изменения параметрам, возмож¬ но, удастся «улучшить» управление u(t). Для решения поставленной задачи мы поступим следую¬ щим образом. Добавим к уравнениям движения объекта (5. 43) еще $ уравнений ^ = 0, Z=l, .... s. (5.45) Уравнения (5.43), (5.45) описывают движение некоторого нового объекта в фазовом пространстве X* переменных х1, . . . . . ., х", w1, . . .jW9. Далее, обозначим через Мо множество всех точек (х1, . .., х”, w1, ..., пространства X*, удовлетворяющих условию (х1, . . ., X ) = х0, а через —множество всех точек, удовлетворяющих ус¬ ловию (X1, х")=х1 (где х0 и хх — точки, заданные в условии рассмотренной выше задачи). Ясно, что Л40 и Л41 представляют собой 5-мер¬ ные плоскости в пространстве X*, параллельные послед¬ ним s осям (т. е. осям w1, ..., w5). Поставим теперь для объекта (5.43), (5.45) задачу по¬ падания из некоторой точки плоскости /Ио в некоторую точку плоскости /И± с помощью такого управления и (/),
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 297 /0 ^^1, которое придавало бы наименьшее возможное значение функционалу (5.44). Нетрудно видеть, что поставленная задача с подвиж¬ ными концами эквивалентна рассмотренной вначале за¬ даче с постоянным параметром w. В самом деле, если функции u(i), х*(/) = (х1(0. xn(i), ws{i)) удовлетворяют уравнениям (5.43), (5.45) и переводят фа¬ зовую точку из некоторого положения х0€Л40 в положе¬ ние то, в силу (5.45), мы имеем wl= const, i = 1, .. ., s. Далее, величины «(/), x(i) = (x1(t), x"(t)), w = (w1, ws) удовлетворяют уравнению (5.43). Кроме того, х(/0)=х0, х(/1)=х1 (ибо х0£Л40, xi€^i)« Таким образом, всякий процесс перехода с плоскости /Ио на плоскость А4± в силу уравнений (5.43), (5.45) дает некоторый процесс перехода из точки х0 в точку хх в силу уравнения (5.43) с усло¬ вием w = const (и обратно). Это и показывает, что постав¬ ленная задача с подвижными концами эквивалентна рас¬ смотренной вначале задаче с постоянным параметром w. Перейдем теперь к решению сформулированной зада¬ чи с подвижными концами. Функция SK для этой задачи имеет вид = 'Фо/0 (*> «>) + ,Ф1/1 (*. «> «О + • • . • • • + W” (*. «> ®') + Фп+1-°+• • •+'Ф„+гО = = W4-W1+...+Wn. Система дифференциальных уравнений для вспомогатель¬ ных неизвестных запишется следующим образом: др (х, и, w) дх1 а = о i = 1, ... ,п, (5.46) = _v дГ(Х, и, W) dwJ ■а а= о /=1, (5.47)
298 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V Далее, запишем условие максимума (см. (5.28)): шах ^.('ф(О) *(Z), w) = ^(ip(/), *(/), МО, w) = 0, и^и (5.48) Наконец, так как оба многообразия Мо, /И1 являются плос¬ костями, параллельными последним $ осям пространства X*, то условия трансверсальности принимают следующий вид: ^n+i(U= ••• = = 0, (5.49) ■фп+1 (Z1) = • • • = ^n+JZ1) = °- (5-50) Таким образом, в силу теорем V.4 и V.3 мы. получаем следующий результат. Для того чтобы u(t), х (f), w давали решение поставленной задачи с подвижными кон¬ цами (или, что то же самое, первоначальной задачи с постоянным параметром w), необходимо существование константы гр0 0 и ненулевой непрерывной вектор-фун- кции ip* (t) = (гр! (t), .. ., грп+5 (/)), удовлетворяющих системе (5.46), (5.47), условию максимума (5.48) и ус¬ ловиям трансверсальности (5.49), (5.50). Это, по сущест¬ ву, и есть теорема, дающая решение поставленной зада¬ чи. Мы, однако, несколько преобразуем соотношения (5.47), (5.49), (5.50), чтобы придать этой теореме более удобную форму (а именно мы исключим из рассмотрения функции грп+1, • • •» ф„+5)- Прежде всего заметим, что, в силу (5.47), (5.49), мы имеем ^«+/(0 = df* (х, и, w) dwJ dt, i= Г • • После этого соотношения (5.50) принимают следующий вид: •• (мп t0 а = о Таким образом, вместо трех систем соотношений (5.47), (5.49), (5.50) мы получаем одну систему равенств (5.51), причем рассмотрение функций ф„+1, ..., грп+5 становится ненужным. Иными словами, мы получаем следующий окон¬ чательный результат*). *) Соответствующая теорема в книге «Математическая теория оптимальных процессов» (стр. 213, 214) сформулирована н е в е р п о.
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 299 Теорема V.7. Для того чтобы u(t), x(t),w давали решение поставленной задачи с параметрами, необходи¬ мо существование константы и ненулевой непре¬ рывной вектор-функции ф (/) = (api (/), . .., ф„(/)), удов¬ летворяющих системе (5.46), условию максимума (5.48) и дополнительным соотношениям (5.51). При /°= 1, т. е. в случае, когда для объекта (5.43) (с параметром w = const) рассматривается задача оптималь¬ ного быстродействия, мы имеем = ■фо + (Ч’1/1 + ••• + V”) = Фо + и потому соотношения (5.46), (5.48), (5.51) принимают вид дН . df* (х, и, w) дх‘ i= 1, . . п, (5.46') max (/), х (/), u,w) = H(ф (/), х (/), и (/), w) = const О, иеи (5.48') ji*-11''!-/—'-1 »■ t0 а = 1 Заметим, что теорема V.7 отличается от теоремы V.3 (или 11.12) наличием 5 дополнительных соотношений (5.51), что и дает возможность решать задачу, так как в эту за¬ дачу введено дополнительно 5 неизвестных w1, w2, . . ., ws. Можно доказать, что если параметру w разрешено из¬ меняться не во всем пространстве W переменных w1, . . . . ws, а лишь в некоторой замкнутой области имеющей кусочно-гладкую границу, то условия (5.51) за¬ меняются соотношениями w)di^ toa = Q где производная под знаком интеграла берется по любо¬ му направлению т, исходящему из точки w и проходяще¬ му в области W'1. Иначе говоря, для любой дифференци¬ руемой кривой w (0), исходящей при 0 — 0 из точки w и проходящей в области должно быть выполнено
300 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V соотношение df* (х, и, w (0)) 30 dt^O. 0 = о 63. Изопериметрическая задача и задача с закреплен¬ ным временем. Оптимальную задачу, рассматриваемую в этом пункте, мы будем называть изопериметрической (по аналогии с терминологией, принятой в геометрии и вариа¬ ционном исчислении). Как и в предыдущем пункте, мы ог¬ раничимся рассмотрением автономного случая. Пусть заданы функции /°(х, u), /*{х, и), fn(x, и), g1(x, и), gk(x, и), непрерывные вместе со своими частными производными по х1, ..., хп. Как всегда, предполагается, что точка и = (ц1, . иг) может принимать значения в некотором множестве U («область управления»), заданном в простран¬ стве переменных и1, ..., иг, а точка х = (х1 ,...,хп) мо¬ жет пробегать все фазовое пространство X. Изопериметрическая оптимальная задача ставится теперь следующим образом. Рассматривается объект, движущий¬ ся по закону ?’ = /z(x, и), i= 1, . . ., п. (5.52) В фазовом пространстве X даны две точки х0 и х±; кро¬ ме того, заданы k действительных чисел т]1, т)2, ..., тД Требуется из всех допустимых управлений и (/), переводящих фазовую точку из положения х0 в положе¬ ние xlf выбрать такое, которое удовлетворяет условиям §gJ(x, u)dt = rf, (5.53) /о и придает функционалу (5.19) наименьшее возможное зна¬ чение. При решении этой задачи естественно предположить, что функции /°, g1, . .., gk линейно независимы. Для решения рассмотрим дополнительно следующую систему дифференциальных уравнений: У1 = gJ(X, и), J'=\, k, (5.54)
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 301 с начальными условиями /(^o)=---=/(U = O- (5.55) Поскольку правые части системы (5.54) не содержат переменных у^ решение этой системы непосредственно за¬ писывается (с учетом начальных значений (5.55)) в виде t yJ и) di, j=\, к. io Таким образом, в силу соотношений (5.54), (5.55) условия (5.53) эквивалентны условиям /(^) = т)'. /=1. •••> к. (5.56) Мы видим, что сформулированная изопериметрическая за¬ дача эквивалентна следующей. Рассматривается объект, движущийся в фазовом пространстве X* переменных х1, ..., хп, J1, ..., yk по закону (5.52), (5.54). Требует¬ ся найти допустимое управление и(1), переводя¬ щее этот объект из положения x = xQ, у = 0 (см. (5.55)) в положение x = xv = (cm. (5.56)) и придающее наи¬ меньшее возможное значение функционалу (5.19). Это — обычная оптимальная задача с закрепленными концами; для ее решения можно воспользоваться теоремой V.3. Согласно этой теореме, для решения рассматриваемой за¬ дачи нужно составить функцию (мы ее обозначаем через а не через «%") ЗГ = Я’о/0 (Х> «) + W1 “)+••• + ЦпГ (X, «) + Н-'Фп+и?1 (*> «)+... +«)• (5.57) Соответствующая система уравнений для вспомогательных неизвестных ф1, ..., ..., фп+Л имеет вид Ж=—V тЬ и} дх1 дх< а=о 1, . . ., Л, У, Я’п+з 3=1 dg?(x, и) дх1 дуТ— О, /=1, ..., к. (5.58) (5.59) 4W =
302 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V Мы видим, в силу (5.59), что фп+у—const; значение этой константы мы обозначим через Ау. Таким образом, написанные выше соотношения (5.58), (5.59) принимают следующую форму: п = - У — а=0 i =1, Ay =• const, а функция имеет вид W'(•*.«)+£ “)• а=о (3 = 1 Наконец, выпишем условие максимума: max$f* (ф (/), х(/), и) = ^*(ф(0, х (t), u(t))=O, (5.61) ueU Если бы вектор-функция (фх (/), . .., ф„ (/)) была тож¬ дественно равна нулю, то, в силу (5.61), имело бы место тождество W°+4s1 +.. • + причем хотя бы один из коэффициентов Ах, . . ., Ал был бы отличен от нуля, так как, согласно сказанному выше, вектор-функция (•Ф1(0. • • ,Ч’п+*(0)= = (^1(0. • • •> 'фп(/). •• •> М нетривиальна. Но это противоречит линейной независимости функций /°, g1, ..., gk. Следовательно, вектор-функция Ф(0 —(Ф1(0, ♦ фп (0) нетривиальна. Итак, для того чтобы u(t), х (f) (переводящие фазовую точку из положения х0 в и удовлетворяющие соотноше¬ ниям (5.53)) давали решение поставленной изопериметрической задачи, необходимо существование констант фо^О, А1? ... ..., Ал и ненулевой непрерывной вектор-функции ф (/) — = (Ф1(0, • • •, Фп(0), удовлетворяющих системе (5.60) и условию максимума (5.61).
§ 16] РАЗНЫЕ ОБОБЩЕНИЯ 303 В качестве применения этой теоремы, дающей решение изопериметрической задачи, рассмотрим оптимальную за¬ дачу с закрепленным временем. Ставится такая же оптимальная задача, что и в п. 57, но с усло¬ вием, что время /0 начала движения точки (из положе¬ ния Xq) и время ее попадания в точку х± заданы заранее, так что время — /0 закреплено. Обозначая заданное время движения —10 через гр и полагая g1 (х, и)=], мы сможем записать условие, наложенное в рассматриваемой задаче, в виде соотношения f1 g1 (х, и) dt = тр. (5.62) ^0 Таким образом, мы приходим к изопериметрической за¬ даче для объекта (5.52) с единственным соотношением (5.62). Для решения рассматриваемой изопериметриче¬ ской задачи составим функцию Поскольку grl=l, она имеет вид Г=£и*(*> «) + Л1 = ^+А1, (5.63) а = о где = const. Далее, система (5.60) принимает вид дх1 дх1 ' а условие максимума (5.61) может быть записано в виде (см. (5.63)) шах (ф (t), х (t), к)=^(ф(/), x(t), u(t))= — U € и Мы видим, что в конечном итоге константа (о которой мы ничего не знаем) оказывается ненужной, т. е. получа¬ ется следующая Теорема V.8. Для того чтобы u(t), х (t) давали ре¬ шение поставленной оптимальной задачи с закрепленным временем, необходимо существование константы фо^О и ненулевой непрерывной вектор-функции l|> (0 = (0, ....
304 ДРУГИЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ [ГЛ. V удовлетворяющих системе 1= 1, .... п, и условию максимума тах^(ф(/), x(t), !/) = <%■ (гр (/), х (/), и (/)), UEU где = «). а=о Нетрудно также получить (методами п. 61) решение изопериметрической задачи и задачи с закрепленным време¬ нем для случая, когда функции gJ явно зависят от /.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Веллмана уравнение 29, 288 Быстродействие 13, 19 Вариация траекторий 79 — управления 78 Вектор 54 —, касательный к гиперповерх¬ ности 264 —, ортогональный гиперплоско¬ сти 59 — смещения 86 Вершины 114 Внутренность многогранника (внутренняя часть) 113 Время переходного процесса, оценка с помощью функции Веллмана 220 Выпуклая оболочка конечного числа точек 115 — — множества 114 Выпуклое множество 59 Гиперплоскость 57, 264 —, касательная к гиперповерх¬ ности 264 — опорная 61 Гиперповерхность 263 Гладкая гиперповерхность 264 — линия 264 — поверхность 264 Гладкое многообразие 265 — (класса 1) отображение 230 — отображение 227 Градиент функции 263 Грани многогранника ИЗ Динамическое программирова¬ ние 24, 28, 220, 222, 226 , критика 29, 30, 48, 49 Дифференциальное уравнение Нейштадта 162, 166 Длина вектора 56 Допустимые управления 23 Достаточное условие оптималь¬ ности в форме метода динами¬ ческого программирования 226, 289 — — — — — принципа макси¬ мума 238, 289 Задача изопериметрическая 300 —оптимального быстродейст¬ вия 19 — — — с подвижными конца¬ ми 263, 287 — — — с подвижным правым концом 263 — — управления линейная 120 — с закрепленным временем 302 — с подвижными концами в случае общей задачи опти¬ мального управления 287 — синтеза 53 — — для линейных систем вто¬ рого порядка 185—200 Замкнутое множество 151 Зацепление 272 Изопериметрическая задача 300 Инвариантное подпространство 125 Интегральная кривая 65 Итерационный процесс Итона 171 Касательная гиперплоскость к гиперповерхности 264 — плоскость многообразия 266
306 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Касательный вектор к гиперпо¬ верхности 264 — — многообразия 266 Клетки /-мерные первого, вто¬ рого рода 235 Конус 60, 86 Криволинейный многогранник 227 Кусочно-гладкое множество 227 Кусочно-непрерывные управле¬ ния 22 Лемма основная 88, 225 Линейная система дифференци¬ альных уравнений 66 — функция на многограннике 119 Линейное отображение 115, 182 Линия 265 — гладкая 264 — переключения 50, 194, 205 Логарифмическая спираль 187 Луч 56 Матричное решение 148 Метод динамического програм¬ мирования 24, 28 — — —, необходимое и доста¬ точное условие оптимальности 226 Многогранник выпуклый ПО —- криволинейный 227 Многообразие гладкое 265 Множество кусочно-гладкое 227 — открытое 64, 151 — первой категории 229 Моделирование оптимальных процессов релейными схемами 140 Начальные условия 65 Неавтономность системы диффе¬ ренциальных уравнений 290 Нейштадта дифференциальное уравнение 162, 166 Необходимое и достаточное ус¬ ловие оптимальности в форме метода динамического про¬ граммирования 226 Неособая точка гиперповерхно¬ сти 264 Несущая плоскость многогран¬ ника 112 Нормаль 264 Область управления 21, 121 — управляемости 151 Образ 116 Общая задача оптимального управления 281 Общее положение траектории с многогранником 228 Общий принцип максимума 286 Омега-предельная точка 166 Опорная гиперплоскость 61, 117 Оптимальная траектория 19, 282 Оптимальное управление 19, 282 Оптимальность в смысле быстро¬ действия 13, 19 Оптимальные процессы с пара¬ метрами 295 Оптимальный процесс 13, 282 — регулятор 16 Ортогональные векторы 57 Особая точка гиперповерхности 264 Осцилляционная теорема 275, 279 Отображение гладкое 227 — — (класса 1) 230 Отрезок 55 Параллелепипед г-мерный 20, 111, 120, 137, 183 Переключение 50, 134, 137, 252 Плоскость 265 Поверхность гладкая 264 Полуплоскость 58 Полупространство (положитель¬ ное, отрицательное) 58 Принцип максимума 30, 33, 35, 103, 286 — — для линэйных систем 123 — — — неавтономных систем 290, 293, 294 оптимальных процессов с параметрами 299 — —, доказательство 100, 282 — — как достаточное условие оптимальности 238
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 307 Произведение векторов скаляр¬ ное 56 Процесс 12 — оптимальный 13 в смысле быстродействия 13 Прямая линия 265 Равномерный по t порядок ма¬ лости 73 Ребро 114 Регулярный синтез 235 Регулятор Уатта 15 Реле нелинейное 50 Релейный элемент 142 Решение системы обыкновенных дифференциальных уравне¬ ний 64 — —, соответствующее управле¬ нию 69 Симплекс 98 Синтез 53, .133, 185, 200 — оптимальных управлений в нелинейных системах второго порядка 247, 258 — — — для уравнения второго порядка 213 — регулярный 235 Синтезирующая функция 53 Система уравнений в вариациях 71 Скалярное произведение 56 Скалярный квадрат 56 Сопряженная система дифферен¬ циальных уравнений 75 Теорема единственности опти¬ мального управления для ли¬ нейных систем 150 — существования и единствен¬ ности решений линейной системы дифференциальных уравнений 67 — — — — — системы обыкно¬ венных дифференциальных уравнений 65 Теорема существования опти¬ мального управления для ли¬ нейных систем 152 — Фельдбаума 137 Теоремы о числе переключений 134, 135 Точка внутренняя 61, 112 — граничная 61, 113 — неособая, особая 264' Траектория оптимальная 19, 282 — фазовая 12 Трансверсальности условия 267, 269 Транспонированная матрица 123 Уатта регулятор 15 Угол между векторами 57 Управление 9, 10, 12 — оптимальное 19, 282 —, удовлетворяющее принципу максимума 124 Управления допустимые 23 Управляемый объект 9, 11, 18 Управляющие параметры 9, 10, 11, 17 Уравнение Веллмана 29, 288 — гиперплоскости 57, 264 — гиперповерхности 263 Условие общности положения 126 Условия трансверсальности 267, 269 Фазовая плоскость 11 — точка 12 — траектория 12 Фазовое пространство 11 Фазовые координаты 9, 10, 17 Фокус устойчивый, неустойчи¬ вый 188 Функция Веллмана, дифферен¬ цируемость 45 Центр 188 Шар r-мерного пространства 111
Владимир Григорьевич Болтянский Математические методы оптимального управления (серия: «Физико-математическая библиотека инженера») М., 1966 г., 308 стр. с илл. Редактор А. А. Рывкин Техн, редактор А. А. Благовещенская Корректор Т. С. Плетнева Сдано в набор 10/11 1966 г. Подписано к печа¬ ти 28/VI 1966 г. Бумага 84х 1081/32. Физ. печ. л. 9,625. Условн. печ. л. 16,17. Уч.-изд. л. 16,11. Тираж 20 000 экз. Т-08269. Цена книги 1 р.19к. Заказ № 393. Издательство «Наука» Главная редакция физико-математической литературы. Москва, В-71, Ленинский проспект, 15. Первая Образцовая типография имени А. А. Жданова Главполиграфпрома Комитета по печати при Совете Министров СССР Москва, Ж-54, Валовая, 28.