Текст
                    

Э. Б. ЛИ, Л. МАРКУС ОСНОВЫ ТЕОРИИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Перевод с английского Л. Л. ЛЕОНТЬЕВОЙ Под редакцией Я- Н. РОЙТЕНБЕРГА ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ ч МОСКВА 1972
бфвл Л 55 УДК 62-52 Основы теории оптимального управления, Ли Э. Б., Маркус Л.9 перев. с англ., Главная редакция физико-математической литературы изд-ва «Наука», М., 1972, 576 стр. Фундаментальный труд по математической теории оптимального управле- ния, в котором изложение проводится последовательно с позиций качественной теории дифференциальных уравнений. Дается постановка задачи оптимального управления детерминированными системами, излагается теория оптимального управления линейными системами. Рассматриваются теория оптимальных линейных управляемых систем с инте- гральным выпуклым критерием качества, принцип максимума Л. С. Понтрягина, вопросы существования оптимальных управлений для нелинейных систем, достаточные условия оптимальности. Исследуются вопросы управляемости, наблюдаемости и устойчивости управляемых систем. Изучается синтез нели- нейных управляемых систем. Книга рассчитана на инженеров и научных работников, занятых исследо- ванием и проектированием автоматических систем, а также на математиков. Илл. 35. Библ. назв. 267. * FOUNDATIONS OF OPTIMAL CONTROL THEORY E. B. Lee L. Markus Center for Control Sciences Institute of Technology University of Minnesota 8-3-14 176—72 John Wiley & Sons, Inc., New York, London, Sydney
ОГЛАВЛЕНИЕ Предисловие авторов к русскому изданию.............................. 5 Предисловие......................................................... 7 Глава 1. Теория, методы и примеры синтеза оптимального управления 9 1.1. Примеры задач оптимального управления...................... 9 1.2. Постановка общей задачи оптимального управления......... 31 1.3. Основные результаты теории управляемости................... 39 1.4. Экстремальные свойства оптимальных управлений и их синтез 44 1.5. Синтез оптимальных управлений для линейных систем второго порядка......................................................... 48 Приложение I. Геометрическая теория обыкновенных дифферен- циальных уравнений.............................................. 59 Приложение II. Алгебраическая теория линейных дифференциаль- ных уравнений................................................... 68 Глава 2. Оптимальное управление в линейных системах................ 76 2.1. Линейные управляемые процессы............................ 76 2.2. Управляемость: множество достижимости..................... 77 2.3. Управляемость и устойчивость автономных систем............. 91 2.4. Управляемость и наблюдаемость.............................. 115 2.5. Оптимальное по быстродействию управление для линейных систем ......................................................... 138 Приложение. Выпуклые множества.................................. 168 Глава 3. Оптимальное управление для линейных систем с инте- гральным выпуклым критерием качества.............................. 183 3.1. Значение интегрального критерия качества . . . *........ 183 3.2. Интегральный квадратичный критерий качества............. 184 3.3. Иллюстрирующие примеры и специальные задачи............. 204 3.4. Интегральный выпуклый критерий качества................. 223 3.5. Интегральный выпуклый критерий качества при ограниченных управлениях .................................................. 252 Глава 4. Принцип максимума и существование оптимальных управ- лений для нелинейных систем....................................... 262 4.1. Геометрия множества достижимости ....................... 262 4.2. Существование оптимального управления при дополнительных ограничениях ................................................. 284 4.3. Существование оптимального управления без дополнительных ограничений .... .............................. 313 Глава 5. Необходимые и достаточные условия оптимального управления 336 5.1. Принцип максимума и условия трансверсальности как необхо- димые условия............................................ 336 5.2г Достаточные условия оптимальности управления............ 372 !♦
4 ОГЛАВЛЕНИЕ Глава 6. Свойства управляемых систем: управляемость, наблюдаемость и устойчивость................................................... 397 6,1. Управляемость и наблюдаемость для нелинейных процессов 397 6.2. Глобальная устойчивость нелинейных процессов............. 429 Глава 7. Синтез оптимальных управлений для некоторых основных нелинейных управляемых систем ........................ 458 7.1. Синтез оптимальных по быстродействию управлений с обрат- ной связью для нелинейных систем второго порядка с одной степенью свободы ............................................ 460 7.2. Оптимальное управление метеорологической ракетой........ 489 7.3. Управление угловой скоростью твердого тела............... 499 7.4. Оптимальная астронавигация............................... 507 Приложение А. Метод наискорейшего спуска и другие численные методы в задачах оптимального управления . . 515 А1. Метод наискорейшего спуска .................... 516 А2. Применение метода наискорейшего спуска к зада- чам оптимального управления и формулировка вычислительных алгоритмов..................... 525 АЗ. Работы по методу нацскорейшего спуска и вычисли- тельным методам оптимального управления . . . 549 Библиография к приложению А................................... 550 Приложение Б. Работы по оптимальному управлению системами, описываемыми обыкновенными дифференциальны- ми уравнениями и уравнениями в частных произ- водных ........................................................... 555 Б1. Управляемые системы, описываемые функциональ- но-дифференциальными уравнениями или уравнени- ями в частных производных, и применимость функционального анализа............................ 555 Б2. Абстрактный принцип максимума................. 559 БЗ. Краткий указатель к библиографии.............. 561 Библиография к приложению Б.................................. 563 Литература........................................................ 566 Предметный указатель ............................................ 572
ПРЕДИСЛОВИЕ АВТОРОВ К РУССКОМУ ИЗДАНИЮ Математической основой теории оптимального управления являются такие области математике, как теория дифференциаль- ных уравнений и вариационное исчисление, истоки развития кото- рых связаны с именем величайшего математика восемнадцатого столетия, петербургского академика Л. Эйлера. В Советском Союзе после Великой Отечественной войны раз- витие современных методов в соответствующих разделах клас- сической математики и механики было вызвано к жизни потреб- ностями таких новых областей науки и техники, как освоение космического пространства, сверхзвуковая авиация и автоматиза- ция управления производственными процессами с применением вычислительных машин. Блестящее открытие академика Л. С. Понт- рягина и его сотрудников—принцип максимума—дает строгое математическое обоснование теории оптимального управления, отвечающей запросам новой техники. В настоящее время совет- ские ученые принимают активное участие в разработке и при- менении современных методов оптимального управления. О) времени опубликования первого издания книги в 1967 г. исследования в области управления детерминированными систе- мами (стохастическое управление в книге не рассматривалось) далеко продвинулись вперед. Основные направления новейших исследований указаны в приложениях А и Б. В частности, важные результаты получены в теории управления системами с запазды- ванием, системами, описываемыми функциональными уравнениями, а также уравнениями в частных производных. Получили разви- тие также приложения теории дифференциальных игр. Все эти теоретические изыскания находят все более широкое применение в инженерной практике. С помощью быстродействую- щих вычислительных машин производится непосредственное авто- матическое управление химическими и механическими процессами.
6 ПРЕДИСЛОВИЕ АВТОРОВ К РУССКОМУ ИЗДАНИЮ Не менее важной представляется роль теории управления в планировании и проектировании различных производственных предприятий. Авторы выражают благодарность издательству «Наука» Ака- демии наук СССР за предоставленную им возможность принять участие в подготовке русского издания. Мы благодарим также профессора Я. Н. Ройтенберга и его сотрудников за тщательный перевод и подготовку русского издания книги, в которую внесен ряд исправлений по сравнению с американским изданием. Однако каждый из авторов сознает, что вся ответственность за возмож- ные неточности лежит на нем и его соавторе. Миннеаполис, Миннесота, 1971. Э. Б. Ли, Л. Маркус
ПРЕДИСЛОВИЕ Математическая теория оптимального управления зародилась около двадцати лет назад в качестве специального отдела теории дифференциальных уравнений. После того как были установлены принцип максимума и метод динамического программирования, появилась тенденция рассматривать теорию оптимального управ- ления в рамках вариационного исчисления. Однако многие из основных понятий теории управления базируются на качествен- ной теории дифференциальных уравнений, и наше изложение ис- ходит именно из такого подхода. За последние три или четыре года теория управления для детерминированных процессов со многими степенями свободы достигла вполне удовлетворительной стадии завершенности. Фундаментальные задачи теории управления, рассматриваемые с точки зрения теории нелинейных обыкновенных дифференциаль- ных уравнений, получили как точную математическую формули* ровку, так и строгое решение. Именно в силу полноты и разработанности этой теории ав- торы настоящей книги полагают, что подробное изложение ее современного состояния послужит хорошей основой для дальней- ших исследований в этой области. Такова и была цель написа- ния «Основ теории оптимального управления». В нашу задачу входило систематическое изложение теории управления, достаточно полное и подробное, однако не выходящее за пределы рассмотре- ния детерминированных (не стохастических) систем, описываемых обыкновенными дифференциальными уравнениями. Книга выдержана в основном в строгом математическом стиле определений, теорем и доказательств. Каждое аналитическое или геометрическое заключение базируется на предварительно обосно- ванных предположениях. В некоторых случаях, однако, ограниче-
8 ПРЕДИСЛОВИЕ ния, накладываемые на системы, например, непрерывность или ограниченность, перечисляются в начале раздела, а затем уже считаются само собой разумеющимися, что следует иметь в виду при изучении. Почти после каждого раздела следуют упражне- ния. Некоторые из них являются простыми задачами, иллюстри- рующими материал, другие содержат уточнения и продолжения изложенного; иногда в упражнении дается какая-либо деталь доказательства (или вычислений) одной из теорем текста. Для чтения настоящей книги необходимо знание курса тео-’ рии дифференциальных уравнений и математического анализа. Естественно, что для читателя, владеющего основами теории функций и методами теории управления линейных систем, изу- чение книги будет значительно облегчено. Ряд замечаний и полезных советов были высказаны доктором Шаком, доктором Гарвеем и мистером Стоуном. Некоторые раз- делы текста обсуждались с доктором Вильсоном и мистером Голлвйтцером. Однако каждый из авторов еще раз подтверждает, что вся ответственность за возможные ошибки и неточности лежит исключительно на нем и его соавторе.
ГЛАВА 1 ТЕОРИЯ, МЕТОДЫ И ПРИМЕРЫ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В этой главе изложена общая теория оптимального управления для линейных и нелинейных систем и описывается применение ее основных принципов в задачах синтеза оптимальных регуляторов. Последовательнее математическое развитие этих идей дается в пос- ледующих главах. Мы будем рассматривать только непрерывные детерминированные системы, хотя многие из полученных резуль- татов применимы и для стохастических систем управления. 1.1. Примеры задач оптимального управления Конструирование оптимальных систем управления обычно при- водит к появлению нелинейных зависимостей, и поэтому существен- но отличается от исследования элементарных линейных систем с обратной связью. Исследуя некоторые примеры, мы введем основ- ные понятия и опишем методы теории оптимального управления. Пример 1. Управление угловой скоростью ротора. Рассмот- рим диск или ротор R, свободно вращающийся вокруг неподвиж- ной оси, проходящей через центр тяжести диска и перпендикуляр- ной к его плоскости. Пусть <о(/)—угловая скорость ротора в момент времени t, причем в начальный момент времени ®(0) = со0 и пусть требуется остановить ротор. Таким образом, задача сос- тоит в том, чтобы осуществить управление величиной <в (/) (выход- ной величиной системы), приводя ее от ® = <оо до ® = 0 с помощью приложения некоторого внешнего момента L(t) к оси вращения. Уравнение движения ротора имеет вид где /—момент инерции ротора относительно оси вращения (/—пос- тоянная положительная величина), a L (t)—момент внешних сил — есть входная величина, или управление. Математически задача состоит в выборе такого L(/), совместимого с механическим смыс- лом задачи, чтобы выход системы со (/), являющийся решением
10 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 а) Ф(ш) 6) Рис. 1.1. Схема процесса управления: а) разомкнутая цепь, 6) замкнутая цепь. указанного дифференциального уравнения с начальными условиями со (0) = ®0, стремился к нулю с возрастанием времени. Более того, мы хотим выбрать управление L* (t), обладающее свойством опти- мальности, такое, чтобы соответствующий ему выход достигал нуля наиболее эффективным образом, например, за минимально воз- можное время. Такая задача управления может возникнуть, на- пример, в случае, когда R представляет собой приводной шкив в некотором технологическом процессе, либо при управлении ракет- ным снарядом, где’/?—попереч- ное сечение снаряда. В первом случае управляющий момент мо- жет быть создан с помощью не- которого электромеханического устройства, во втором же слу- чае—при помощи вспомогатель- ных реактивных двигателей. Задача о приведении величины со от значения <о = соо к ® = 0 может возникнуть также в слу- чае, когда существует некоторая идеальная постоянная угловая скорость ротора R, так как при этом и можно интерпретировать как величину рассогласования между действительной и идеальной угловой скоростью. Таким образом, наш пример мог бы быть рассмотрен с общих позиций задачи о приведении рассогласова- ния к нулю. Если начальная угловая скорость <оо известна заранее, то управляющий сигнал удобно задавать как входной сигнал разомкнутой цепи (рис. 1.1, а) и искать управление L* (t), оптималь- ное по отношению к нашему критерию. Если мы, однако, хотим сконструировать самокорректирующееся управляющее устройство, удовлетворительно функционирующее при всех возможных начальных значениях со0, а также при воз- мущениях со(0. то оптимальное управление L*(t) придется синте- зировать в форме соответствующего контура с обратной связью (см. рис. 1.1,6). А именно, мы должны вычислить некоторую функцию Т (со) и использовать ее как управляющий сигнал в цепи обратной связи. Тогда решение ©(/) уравнения для каждого начального значения сов будет оптимальным, т. е. со (/) совпадет с оптимальным решением со*(/), которое появилось бы на выходе разомкнутой цепи при оптимальном управлении L*(0- Рассмотрим линейный сигнал в цепи обратной связи вида Т(со) = — £со,
1.1 примеры задач оптимального управления 11 где k > 0—постоянный коэффициент усиления. Тогда уравнение /со = —k<£>, со (0) = <оо имеет решение - — t со(/) = <оое стремящееся к нулю при t—»-оо. Если мы хотим ускорить тормо- жение «(/), то нужно увеличить коэффициент усиления fe; однако, каким бы большим ни был коэффициент k в этой математической мо- дели, ротор окончательно не остановится—он только стремится к состоянию покоя. Более того, проблема выбора оптимального линей- ного управления с обратной связью в такой постановке не имеет решения, ибо каждое такое управление можно улучшить, увели- чивая коэффициент усиления. Кроме того, задача поставлена и физически неудовлетворительно, так как в действительности су- ществует предел увеличения коэффициента усиления в цепи обрат- ной связи, ибо возникающие нелинейности типа насыщения сильно влияют на характеристики цепи. Для оптимального управления ротором разумно было бы потребовать, чтобы управляющий момент был заключен в некоторых границах. Для простоты обозначений положим Управляющий момент L*(0, который не обязан изменяться не- прерывно (допускаются мгновенные переключения), должен удов- летворять ограничению | L* (t) | 1 и переводить со из начального состояния со = со„ в желаемое состояние со = 0 за минимальное воз- можное время. Решение для оптимального по быстродействию управления L*(t) в разомкнутой цепи очевидно из физических соображений. Если сов > 0, то положим £♦(/)= —1. Тогда при /^Т = /соо и со*(Т)=0. Если <оо < 0, то положим — = 4-1. Тогда при t Т = —/соо и со* (Г) = 0. Так как оптимальный выход со* (0 имеет постоянный знак, то легко построить синтезирующую функ- цию Т (со) для цепи обратной связи. Положим Чг (со) = —sgn со, где sgn <л = ' 4-1 при со > 0, 0 при <о=0, k —1 при со < 0.
12 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Тогда нелинейное дифференциальное уравнение /со = —sgn 0) для каждого начального значения (оо будет иметь решение, совпа- дающее с оптимальным выходом со* (/) для соответствующей разомк- нутой системы. Пример 2. Управление механизмом, движущимся по гладким рельсам. Рассмотрим механизм массы т, например, тележку, ко- торая движется по горизонтальным рельсам с ничтожно малым трением. Координата х положения тележки в момент времени t определяется по закону Ньютона mx = u(t), где u(t) — измеряемая в соответствующих единицах внешняя управ- ляющая сила; приложенная к тележке. Предположим, что началь- ное положение и начальная скорость тележки заданы: х = х0 и х = у = Уо- Рассмотрим задачу остановки тележки в предписанном положении, скажем, х = 0, у = 0, за минимальное возможное вре- мя с ^помощью управляющей силы u(t) (возможно, разрывной), удовлетворяющей ограничению Здесь решение задачи синтеза оптимального управления не оче- видно, и полученный ниже результат будет неожиданным. Методы, вкратце изложенные в связи с этой задачей, составят основное содержание главы 2, где дается также строгое доказательство не- которых геометрических соотношений, используемых здесь чисто интуитивно. Изложение этого примера будет довольно простран- ным, ибо он иллюстрирует один из основных подходов к задаче управления. Для удобства примем массу т равной единице, и, обозначая скорость х = у, запишем уравнение движения в виде системы двух дифференциальных уравнений первого порядка - х~у, y = u(t) или, в матричной форме, т. е. х = Дх-ф-йц, —матрицы. В этомпри- где х = X .У. вектор, А = 01 ! О 0 • и Ь = О 1
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОЮ УПРАВЛЕНИЙ 13 мере наиболее важные формулы будут представлены как в коор- динатной, так и в матричной форме. Удобно рассматривать решение х(/) = х(0 .у(т как кривую, заданную параметрически в плоскости ху, называе- мой фазовой плоскостью. Таким образом, мы^выбираем некоторое управление u(t) с ограничением |«(0|^1, и затем исследуем соответствующее решение x(t), удовлетворяющее начальным усло- виям х0 = । 0 • При этом наша цель заключается в перемещении L»oJ механизма из состояния х0 в состояние х = 0 за минимальное воз- можное время. Фиксируем момент времени 0 > 0 и рассмотрим все возможные управления и(1) на интервале времени 0^/^^ с ограниче- нием j и (01 1. Каждое из этих управлений определяет соответ- ствующее решение х(0, исходящее из заданной точки х0. Непо- средственной подстановкой легко проверить, что решение опреде- ляется формулами t S х(о=х0+^+J [ 5«(°)d<j] о о или t y(t) = ya+\u(p)d<y, о t х (0 = eAt х0 4- eAi $ e~Asbu (s) ds. о Определим подмножество К (0) на фазовой плоскости как совокуп- ность конечных точек всех описанных выше траекторий, имеющих начало при t = 0 в точке х0. Другими словами, К. (0) представляет собой множество тех точек, которые могут быть достигнуты за время 0, если исходить из начального состояния х0 под действием управлений, удовлетворяющих нашим ограничениям. В рассматри- ваемом примере нетрудно проверить (а далее в общей теории это доказывается), что К(0)—ограниченное замкнутое выпуклое мно- жество, непрерывно зависящее от 0. Оптимальное время t = t* определяется, как первый момент времени, при котором множество K(t) будет содержать точку (0, 0). Ввиду того, что К (0 непрерывно зависит от t, можно доказать, что точка (0, 0) лежит на границе множества Оптималь- ная траектория х* (0 = 'х* (0 I .Г(0] приводит в начало координат в
14 Теорий й Методы оптимального управлений гл. 1 момент t = t*, а оптимальное управление и* (t), О t t* —это то управление, которое порождает эту оптимальную траекторию. Пусть т| (/*)== (Я1 (^*)» Я«(^*))—постоянный единичный вектор, Рис. 1.2. МножествсГдостижимости и кри- вая переключений для системы х~и, 1. исходящий из начала координат и направленный по внешней нор- мали к выпуклому множеству /С (/*) (рис. 1.2). Тогда для каж- дой траектории х (/) = , приводящейвточку х(/*) £/<(/*), должно выполняться условие или т. е. вектор х(/*), идущий из начала координат в точку х (t*), не имеет положительной состав- ляющей вдоль направления внеш- ней нормали; это представляет собой аналитическое выражение того факта, что т)(^*) является внешней нормалью множества K(t*) в граничной точке х*(/*) = 0: Th(/*)** (Н + МН#* 0*)= max или 1](/*)х* (/*) = maxq(/*)x(/*). В этом последнем равенстве, являющемся выражением так назы- ваемого принципа максимума, максимум берется по. всем траек- ториям х(/), приводящим в точку х (/*) К (t*). Далее мы выведем из принципа максимума некоторые экстремальные свойства опти- мального управления и* (t) и построим функцию Т(х,#), на основании которой осуществляется синтез. Поскольку в принципе максимума участвуют оптимальное время t* и вектор нормали заранее не известные, то мы будем применять его неявно. Используя интегральное выражение для х(/), представим левую часть предыдущего соотношения в виде S П1(**) x»+y9t* + $ \u(a)dads -И#) У9+\ . ‘ о о о Если рассматривать лишь те члены этого выражения, которые
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 15 содержат и (/), то получим, что выражение t* s t* Ях(/*)$ $ u(p)dods + ^t*) J u(o)<fo oo о должно достигать максимума при оптимальном управлении Учитывая тождество, которое можнопроверитьдифференцированием, t s t J u(o)dads=^(t —o)«(o)d<j, ООО и полагая rii («) = П1 (**)> (s) = Пх (**)(**—на интерва- ле 0 получим, что управление и* (/) максимизирует инте- грал J т|а (s) и (s) ds. о В матричной записи проведенные выше выкладки означают, что ы* (/) максимизирует выражение /• т](/*)e4<*x0-|-'^^(/*)e'4,* У e~Asbu(s)ds, о так что u*(t) максимизирует также второй член t* t* J i) (s) bu (s)ds=^ (s) и (s) ds, о 0 где 4 (/*) eAt*e~As = ч (s) = (П1 (s). (s)). Учитывая условие |ы(/)|^1, легко понять, что максимум инте- грала t* J t|2(s)«(s)<fc о достигается при управлении u*(/) = sgn Яа(0 Таким образом, оптимальное управление u*(t) является релей- ным управлением, т. е., оно принимает значения, равные +1 и — 1, за исключением тех точек, где происходит переключение, а именно, нулей неизвестной функции Однако из определения ij(Z) видно, что т^ = 0, 1]» = —т]р
16 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 или, в матричной записи, П (0 = Ч ('*) е~ At (— А) = — 1) (0 А. Поэтому *Ъ=0 и (f) является линейной функцией от t. Отсюда заключаем, что т]а(/) имеет не более одного нуля. Итак, оптимальное управление и* (/) есть релейное управление со значениями +1 и — 1 и не бо- лее, чем с одним переключением. Используя этот факт, мы можем построить функцию Т (х, у), осуществляющую синтез в рассматри- ваемой задаче. Оптимальная траектория движения, начинающаяся в точке х0 и идущая в начало координат, должна сначала совпадать с парабо- лой, являющейся решением системы (<^_) х = у, у = —1 («=е—I), а затем с параболой, являющейся решением системы (<^+) х=у, у=+1 (и = +1) или Наоборот. Так как экстремальные системы дифференциальных уравнений е/’+ и автономны (их коэффициенты не зависят от времени), то экстремальные траектории могут быть построены сле- дующим образом. Начиная экстремальное движение в момент t — 0 из начала координат, движемся по траекториям решений систем of - и ef+ в обратном направлении (попятное движение), чтобы до- стичь точки х0 в некоторый отрицательный момент t— —t*. Меняя порядок отсчета времени на обратный, мы начинаем движение из х0 при / = 0 и достигаем начала координат при t = t*. Таким образом, нами получено оптимальное движение ,х*(/), оптималь- ное время t* и оптимальное управление и* (t). Построим теперь все возможные экстремальные траектории, на- чинающиеся из произвольных точек и приводящие в начало коор- динат. Выберем единичный вектор я (0) = (т^ (0), т]2 (0)) и исполь- зуем его в качестве начальных условий при решении системы П1 = 0. *1г=—*11- Пользуясь управлением и (f) = sgnr]2 (t) для определения экстре- мальной траектории, приходящей в начало координат при / = 0, построим решение системы х = у, у = &$м\Л) с начальными условиями х(0) = 0, z/(0) = 0. Таким образом, мы сможем построить все возможные экстремальные траектории, ве- дущие в начало координат при возрастании t, в том числе и на-
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 17 чинающуюся в точке х0. Если, например, взять т]1(0) = 0, т]2(0) = = + 1, то т]2 (0 = + 1 ПРИ t ’С 0, и движение происходит по траек- тории, удовлетворяющей системе х=у, «/= + 1 или уравнению ^ = 1 dx у’ решением которого, как известно, является парабола (см. рис. 1.3) Г+: 2х = у2 0/<0). Аналогично при т]1(0) = 0, т]2 (0)= —1 получим движение по пара- боле Г_: — 2х = «/г (t/>0). Для любых других значений 1^(0), т]2 (0) при т|2 (0) > 0 движение происходит по траектории Г+ до тех пор,' пока Tj2 (/) не окажется равным нулю, а затем начинается движение в обратном направ- лении по некоторой траектории системы e/L. Аналогичный процесс получим при т]а (0) < 0. Простое изучение семейства интегральных кривых систем и <^+ показывает, что для каждой заданной точки х0 имеется один и только один экстремальный путь, приво- дящий в начало координат. Это экстремальное движение и будет оптимальным. Существование оптимального движения будет дока- зано в дальнейшем при изложении общей теории. Кривая, составленная из Г_ и Г+, называется линией пере- ключения W. В нашем примере ее уравнение таково: при ( + V — 2х при х < 0. Определим синтезирующую функцию: — 1, если y>W (х) или если (х, у)¥=(0, 0) и принадлежит Г_, 0, если х—у = 0, + 1 если у = w (х) или если (х, у) (0, 0) и принадлежит Г+. Тогда оптимальное движение из любого начального состояния в начало координат будет представлять собой решение урав- нения х = Чг(х, х) с начальными условиями х(0) — х0, x(0) = z/o. Из геометрии фазо- вой плоскости следует, что, несмотря на разрывность функции
"Ж , V Рис. 1.3. Оптимальные по быстродействию траек- 1 тории для системы х-у, у=иМ, | и (/) | < 1. 18 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 V(x, у) при y = W{x), все решения уравнения x=4f(x, х) опре- делены корректно. Функцию ¥ (х, у), осуществляющую синтез в этой задаче, можно эффективно реализовать в контуре обратной связи. На рис. 1.3 изображены оптимальные траектории системы х = «(0> |«(0|<1 при оптимальном управлении ы*(0 = Т(х(0, х(/)). Оптимальное управление и* (/) для тележки можно интерпре- тировать как максимальную, ускоряющую силу, которая перехо- дит затем в максимальную тормозящую силу, обеспе- чивающую остановку те- лежки в требуемой точке х = 0. Момент времени, ког- да совершается переход от ускорения к торможению (или наоборот), может быть найден графически. Пример 3. Управление гармоническим осциллято- ром. Рассмотрим точку мас- сы т, положение которой в момент времени t опреде- ляется координатой х и на которую действует восста- навливающая сила—k2x, где постоянная k2 > 0 (например, k2—жесткость пружины). Урав- нение движения, согласно закону Ньютона имеет вид nix+k2x = u(t). Внешняя управляющая сила предполагается ограниченной по величине, скажем, |ц(/)|<1. Положим для простоты, что т = 1 и /г2=1. Мы вновь хотим перевести объект из начального состояния х(О) = хо, x(O) = i/o в начало координат за минимальное время. В фазовой плоскости соответствующая система дифференциальных уравнений имеет вид х=У, y= — x+u(t) или, в матричной записи, х = Дх
1.1 Примеры задач оптимального управлений 19 где „ /л_I х (О b(oJ * л Г 0 1] Л= —1 о ’ Применяя те же рассуждения относительно выпуклого множества достижимости /С (/г), что и в предыдущем примере, мы придем к принципу максимума и получим формулу для оптимального управления: и* (/) = sgnq2(/), где 1) (/) = (Я1 (0» 41(0)—решение системы = 1Ъ = —По или Таким образом, т|(/) = — ч4. Пг + г|г=О и т]2 (/) представляет собой гармоническое колебание. Промежуток времени между двумя последовательными нулями функции равен п. Построим линию переключения W и синтезирующую функцию Т (х, у), рассматривая всевозможные экстремальные траектории, оканчивающиеся в начале координат. Мы должны исследовать се- мейства фазовых траекторий экстремальных систем дифференциаль- ных уравнений (<^_) х~у, у = — х—1 и (<^+) Х = у, у = — х+1. Интегральные кривые системы представляют собой концентри- ческие окружности с центром в точке х = — 1, у = 0, с периодом обращения фазовой точки, равным 2л. Интегральные кривые си- стемы £f+—окружности с центром в точке х=4- 1, у = 0 и с та- ким же периодом обращения, фазовой точки. Если выбрать единичный вектор т](0) так, чтобы т]1(0)=1, 4» (0)=0, то t]s (t) = — sin t и на интервале—л < t < 0, sgn r|2 (/) — = 4-1. Соответствующая экстремальная траектория совпадает с кривой, определяемой решением системы <§^+, и проходит через на- чало координат. Ее уравнение Г+: х = — cos/4-l> y = sinf (—л < t < 0)
20 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 ИЛИ (Х_1)2+у2=1> 0<О. Если г1х(0) = —1, т]4 (0) = 0, то г]2(/) =sin/, и на интервале — л < t < 0 имеем sgn т)2 (/) = — 1. Соответствующая экстремаль- ная траектория совпадает с кривой, являющейся решением системы Рис. 1.4. Оптимальное по быстродействию управление, приводящее систему х+х=и (/), \1и (/)| <1 в начало координат. e/L, и проходит через начало координат. Ее уравнение Г_: x = cos/— 1, у —— sin/ (— л < t < 0) или (х+1)8 + ^=1, у>0. Если выбрать теперь я (0) любым другим способом с тем, чтобы г]2 (0) было положитель- ным, то в попятном движении экстремальная траектория .будет идти из начала коор- динат вдоль кривой Г+ до тех пор, пока не станет равным нулю. В этой точке траек- тории экстремальное движение переключается на решение систе- мы по которому оно следует в течение промежутка времени л, до нового переключения на решение системы £f+ (рис. 1.4). Ана- логичный процесс протекает при начальных условиях 1% (0) < 0, но здесь экстремальная траектория возвращается из начала коор- динат вдоль кривой Г_. Нетрудно в данном примере описать линию переключения, в точках которой происходит переключение между семействами решений of- и <^+. Линия W состоит из дуг Г+ и Г_ и их последовательных сдвигов в обратном направлении вдоль соответствующих реше- ний систем. и <^+ на промежутки времени продолжитель- ностью л. Например, дуга Г+ сдвигается в обратном направ- лении вдоль решений системы _ на промежуток времени л. Полу- чающийся образ дуги Г+ затем сдвигается (снова в обратном на- правлении) вдоль решений системы <^+ на промежуток времени л и так далее. Заметим, что такой сдвиг вдоль решений си- стем или <^_ на промежуток л представляет собой поворот фазовой плоскости на угол л вокруг центра х — 1, у — 0 или х = —1, у —d соответственно. В результате указанных преобра- зований дуг Г+ и Г_ возникает линия переключений W, состоя- щая из набора полуокружностей единичного радиуса, показанных на рис. 1.4.
1.1 примеры Задач оптимального управления 21 Синтезирующая функция Т (х, у) при (х, у) =/= (0, 0) имеет вид У (*,!/) = { — 1, если (х, у) лежит выше W или на Г_, О, если (х, у) лежит на W, + 1, если (х, у) лежит ниже W или на Г+. Оптимальные траектории управляемого гармонического осциллятора определяются решениями уравнения х+х = Т (х, х) для произвольного начального положения (х0, г/0) фазовой точки. На рис. 1.4 изображены оптимальные траектории гармонического осциллятора. Качественно W можно определить на основе физи- ческого описания процесса управления, однако точный вид W и У (х, у) может быть получен лишь в результате теоретического исследования, аналогичного проведенному выше. Пример 4. Управление химической реакцией с нелинейным показателем качества. Пусть реагент А вводится с постоянной скоростью в реактор в течение определенного интервала времени Предположим, что х есть значение величины pH, при которой протекает реакция, и которая определяет качество вы- ходного продукта; эта величина регулируется изменением концен- трации и какой-либо составляющей реагента А. •Предположим, что реакция протекает таким образом, что ско- рость изменения х пропорциональна сумме текущего значения и концентрации и составляющей реагента А: dx , о Т( = ах + ^и, где а и р—известные положительные постоянные. Далее предпо- ложим, что за меру изменения в выходе конечного продукта из-за вариаций pH принимается оценка т \x2dt, о а расходы на поддержание соответствующей концентрации и про- порциональны и2. Тогда общая сумма расходов, связанная с уп- равлением u(f) на интервале определяется выражением т С (и) = (ах2 + и2) dt, о где а > О—масштабный множитель. Теперь мы.пришли к строгой математической формулировке задачи. При заданном начальном условии х(0) требуется найти ^управляющую функцию u*(t) на интервале так, чтобы определяемая ею функция х*(f)
22 теория и методы оптимального управления гл. 1 доставляла минимум функционалу т С (и (/))=$ [а*2(0 + «*(0] di. о Управляющая функция не является априори ограниченной, однако из неотрицательности подынтегральной функции следует, что существует некоторое оптимальное управление и* (t). Наша задача—осуществить синтез «*(/), т. е. определить оптимальное управление как функцию состояния x*(t). Для этой цели можно воспользоваться принципом максимума, что и будет сделано в главе 3, однако при этом возникают неко- торые трудности из-за нелинейности функционала С (и). Здесь же мы используем другой путь, применив теорию динамического про- граммирования. Наши методы следуют принципу оптимальности, согласно которому из оптимальности управления и* (t) на участке следует его оптимальность на каждом подынтервале отрезка Строгое обоснование этих методов базируется на понятии выпуклого множества достижимости и во многом сходно с анализом принципа максимума, который будет дан ниже. Пусть в некоторый момент времени /0 на интервале 0 t Т химическая реакция определяется состоянием х0. Пусть для ин- тервала [Zo, Т] имеется оптимальное управление дающее минимальные затраты V(x0,/0) =С (м*). Для того чтобы дальней- шие рассмотрения были справедливы, будем считать функцию V (х, t) достаточно гладкой. Для каждого управления и (t) на [/0, Т] с соответствующим выходом xu(t) при начальном условии х0 ве- личина затрат равняется <о + 6 Т J [ах£(0 + “2(0]<#+ $ [ахи (0 + «2 (О] di, Iq / q "Ь й где 6>0—сколь угодно малое число. Выбирая u.(t) так, чтобы оно оптимизировало наш функционал на интервале [/0 + 6, Т], получим значение затрат: /,+в $ [axl(f) + u*(f)]dt+V (xe(/04-6), f.4-6). Но минимальное значение затрат при начальном значении х9 в момент времени /0 не превосходит этой величины, поэтому имеем //ф + б \ V(x0, /0) = min| $ [ш£(0 + «2(0]Л+У(хо(/о + 6), 4-6)1, “<о I t, / где минимум берется по всем управлениям u(t) на [£0, Т]. Это
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 23 уравнение иллюстрирует основную идею динамического програм- мирования, заключающуюся в том, что программа оптимального управления разбивается на сумму двух программ, действующих на интервалах [/0, /0 4~б] и [/0 + 6, Г] соответственно. Возмож- ность изменения 6 определяет динамику задачи. Используя разложение V (х0, t0) в ряд Тейлора по 6, получим V (*о. М = min /б[axj +и* (/0)] + V (х0, /0) + «(О I + [?&(*’ 'Л 6+°(6)} , где о (б) есть бесконечно малая высшего порядка, чем б. Учитывая, что ^(/0) = ах04-₽«(/0) и устремляя б к нулю, получаем соотношение —(х, 0 = min {ах* + м2 + (х, t) (ах+0u)| > где начальную точку (х0, /0) мы обозначаем (х, t). Здесь минимум вещественной функции h (и) = ах* + и* + (ах + 0м) их вычисляется при фиксированных значениях (х, t). Полагая 2и + 0^ = 0, ди 1 г дх 9 находим, что минимум достигается при ₽ 2 дх Таким образом, V (х, t) есть решение нелинейного дифференциаль- ного уравнения в частных производных dV „ a 0*/WV , W dt~ax 4\дх) +a*dx при условии V (х, Т) = 0. Это дифференциальное уравнение для минимальных затрат V (х, t) и является основным результатом приложения метода динамического программирования к решению рассматриваемой задачи. Поскольку V (х, t) задана при t = Т и из производных по времени в уравнение входит лишь dVfdt, то су- ществует единственное решение V (х, t). Попробуем найти его в виде V (х, t) = c(f)x*,
24 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 где c(t)—неизвестная функция. Подставляя это выражение в урав- нение для V, получим, что функция c(f) должна удовлетворять уравнению —2ас—а at ' при условии с(7') = 0. Это обыкновенное дифференциальное урав- нение первого порядка вместе с условием с (Т) = 0 однозначно оп- ределяет функцию c(t) и, следовательно, функцию затрат V (х, /)=с(/)х2. получить выражение c(t) в элементарных функциях подстановку Чтобы применим I -Р« f с (t)dt U0 = e ° ИЛИ линейное дифференциальное уравнение с по- получим -а Тогда стоянными коэффициентами £ + 2а£—а02£ = О при условии t (Т) = 0. Можно принять также £ (Г) = 1, так как нас интересует лишь отношение £/£. Решение имеет вид ;(/) = <?- « а - г) [ch V а24-а02 (t—Т) + + _g_sh К а2 4-ар2 (/-Т)] . У а2 + ар2 Отсюда получим c(t) = —tjtfP и функция V (х, t) = с (/) х2 вычи- сляется в явном виде. Рассмотрим теперь оптимальное управление «*(/) на отрезке времени [0, Т] с оптимальным выходом х* (/) при заданном на- чальном значении х(0). Управляющая функция должна миними- зировать величину /+б V (х* (/),/) = J [ах* (s)24-u* (s)2] ds-}-V(x* (t 4-6), 14-6) для всех t из [О, Т]. Проводя те же рассуждения, что и раньше, получим соотношение (х* (0, 0 = ах* (О2 + «* (О2 + (** (0, О (ах* (0 + (О).
l.i примеры зАдаЧ оптимального управлений 25 Таким образом, для фиксированного значения t функция и* (t) должна принимать значение и, которое минимизирует величину h (и) = ах* (Z)2 + и2 + (х* (0, 0 (ах* (0 + R, «* (0 = ~ “ Т [2с (0 Х*(0] ’ или и*(0 = —Р^(0 х* (0. --------1 -pcft) ------- Рис. 1.5. Схема синтеза опти- мального управления: и (t)=- = -0с (О х. Это равенство определяет оптимальное управление. Таким образом, для синтеза оптимального управления и* (t) применяется цепь с обратной связью и = — 0с (0 х, которая представляет собой линейную управляющую систему с пе- ременным коэффициентом усиления c(t). Это и есть обещанное ре- шение задачи; его нетрудно реализовать (рис. 1.5). Как будет показано в главе 3, суще- ствует целый класс задач, которые могут быть решены рассмотренным методом, а именно, задачи, в которых показатель качества является квадратичной функ- цией от выхода х и управления и, а основной процесс является линейным. Пример 5. Классический вариационный подход. В этом при- мере мы рассмотрим задачу оптимального управления с точки зрения классического вариационного исчисления. Поскольку за- висимость выходного сигнала системы x(t) от управления и (^оп- ределяется при помощи дифференциальных уравнений динамиче- ской системы, то наша вариационная задача сводится к достаточно сложной задаче Майера—Больца. Мы рассматриваем здесь эту задачу, не останавливаясь на вопросах непрерывности и диффе- ренцируемости, и используем классические обозначения вариацион- ного исчисления. Рассмотрим процесс управления в пространстве Rn, т. е. будем считать х вещественным n-мерным вектором, подчиненным урав- нению (of) x — f (х, и), х (0) = х0 с управлениями и (t) с. Rm при 0 t 1. Для каждого управле- ния и (t) существует соответствующий выходной сигнал х (t), при- чем х(0) совпадает с заданным начальным значением ха. Пусть
26 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 также задан показатель качества 1 С (u) — §h(x, u)dt. о На u(t) и х(1) не наложены никакие ограничения. Пусть и* (0— оптимальное управление, минимизирующее С (и), а х*(0—соответ- ствующий оптимальный выходной сигнал. (Векторные и матричные обозначения, используемые ниже, объяснены в приложении.) Пусть и (t, е) = и* (t) 8 би (0 — однопараметрическое семейство управлений, полученных возму- щением е6и(0 оптимального управления и*(0; каждому из них соответствует выходной сигнал х (I, в) = х* (0 + ебх (0 + о (в), бх (0) = 0. Заметим, что \ и(0О) = и*(0, |(6О) = б«(0, х(0О) = х*(0, g(0O)=6x(0. Рассмотрим вариацию показателя качества: 0 - - Дт(о+т 8“ <')] Здесь обозначает ^р(х*(0, м*(0). Все другие аналогичные функции также вычисляются при х=х*(0, и = и*(0. Так как минимум С(и(-, в)) достигается при 8 = 0, то должно выполняться условие бС^О для всевозможных вариаций би(0. Расшифруем это необходимое условие оптимального управления. Вариация би (0 приводит к вариации бх(0, удовлетворяющей следующему дифференциальному уравнению в вариациях: 6i = ^6x + ^6a, бх(0) = 0. Отсюда бх (0 = $ Ф (0 Ф’1 (s) бп (s) ds,
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 27 где фундаментальная матрица Ф(/) удовлетворяет соотношениям Ф=^Ф и Ф(0) = /. Поэтому 6С “ У J ф <0 Ф-1 Ф (S) бы ю] dt. о о Для упрощения записи введем векторную функцию Я* (О = ~ ЯоФ-1 (О + j Ф (s) Ф-1 (0 ds. о где постоянный вектор Яо выбран так, чтобы ч*(1)=_шФ->(1) + У^Ф(«)Ф->(1)48=0. О Это означает, что т]*(0 является единственным решением сопря- женного дифференциального уравнения *1(0=0. Далее, введем функцию Гамильтона, зависящую от 2п т ствительных переменных: Я (Я, х, и) = к][(х, и)—h(x, и). Тогда уравнения для х и ц могут быть записаны в виде я=-^, я(1)=о и дН они удовлетворяются при я = Я*(0, x — x^(f), u = u*{f). Применим теперь введенные нами обозначения для выяснения смысла необходимого условия SC = 0. Прежде всего интегриро- ванием по частям легко проверить, что f Ф (0 f f Ф-1 (S) S« (S) dt = f1 j®-4s)^-6«(s)dsV т ф ds) Ф-1 w тЬи dt-
28 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Используя это равенство, представим величину 6С в виде бС=(j т ф ® (УФ-1 (s) т6w \о / \о / Ф(а)^)Ф-чп^ dh(t) ди &U (t) dt. Но отсюда следует, что 6С = j [(rf (1)Ф (1) + т]0) ОТ* (0 О о или ’ о В силу того, что 6С = 0 для всевозможных вариаций 6u(Z) оптимального управления и*(/), находим, что _л.(/)?М+?1<о=о 1 ' ' ди 1 ди или ^0Г(0. х*(0, и* (0)^0. Более детальное исследование вариаций оптимального управления и* (0 показывает, что и = и* (0 не просто критическая точка функ- ции H(if(0, х*(0, и), а именно максимум. Таким образом, Н(т]*(0, х*(0, и*(0) = тахЯ(г]*(0, х*(0, и). ueRm Это и есть принцип максимума, играющий столь важную роль в теории оптимального управления. Система уравнений • дН дН дН п от) 1 дх ' ди является системой уравнений Эйлера — Лагранжа рассматриваемой вариационной задачи (в гамильтоновой форме). В классической литературе, где отсутствуют ограничения на управление, эти усло- вия обычно называются необходимыми условиями Вейерштрасса
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 29 для экстремалей. Для пояснения рассмотрим случай, когда про- цесс описывается скалярным уравнением х = и, х(0) = хо, х(Т) = х,. а показатель качества—функционалом т т С (u) = ^h (х, и) dt = J h (х, х) dt. о о Здесь функцией Лагранжа является h(x, х) и необходимое усло- вие Лагранжа для минимизирующей гладкой кривой х* (t) есть d Z <ЭА \______________________dh__q dt\dx J dx Полагая H = r\u—h, имеем „ dH A Так как — 0, то Функции т)*(0 называются множителями Лагранжа вариационной задачи (в классических трудах обычно их обозначают через X (/)). Функция Гамильтона Н(х\, х, и) часто берется с противоположным знаком, но мы предпочитаем принятые здесь обозначения, так как они чаще употребляются в современной литературе по оптималь- ному управлению. Если управление u(t) ограничено по величине, или задана концевая точка х(1), то вариационный метод исследования услож- няется как в теоретическом, так и в вычислительном аспектах. По этой причине мы откажемся от классического вариационного подхода и будем опираться на геометрические соображения, без- укоризненные, впрочем, с точки зрения математической строгости. Упражнения 1. Рассмотрите управляемый процесс, описываемый уравнением х-\-Ьх — и с ограничением | и (t) |< 1. Здесь Ь—действительная постоянная. Проверьте, что решение x(t), х(О)=хо, соответствующее управлению и (0, имеет вид t x(t) = e~bt х0 + е~Ь( e~bsu(s)ds. о а) Покажите, что при Ь^О можно из каждой начальной точки х0 достиг- нуть начала координат хх = 0. Ь) При Ь < 0 определите множество начальных точек, из которых можно достигнуть начала координат.
30 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 2. Рассмотрите управляемый процесс х-}-6х=«, где 6—действительная постоянная, а |и(0|<1. Пусть х0—начальное со- стояние, из которого можно перейти в состояние *1=0. Покажите, что опти- мальное по быстродействию управление имеет вид «•=—sgnx. Вычислите минимальное время /• в зависимости от х0 и Ь. 3. Рассмотрите управляемый процесс х+2Ьх=и, где b—действительная постоянная, отличная от нуля и |«(/)|<: 1. Покажите, что замена переменных х~г/Ь2 и / = т/|Ь| сводит общую задачу к одному из двух случаев 26=4-1 н 26=—1. Покажите, что оптимальным по быстродей- ствию управлением, переводящим (х0,р0) в (0, 0), будет «♦(0=sgnr)2 (0» где Т)2 (0 имеет не больше одного нуля. Постройте кривую переключения и опи- шите оптимальное управление и оптимальное решение с помощью этой кривой и с помощью экстремальных систем, для которых «(0 = 4-1 и «(/) =—1. При этом нужно установить различие между случаями, когда 26=4-1 и 26 =—1. 4. Рассмотрите управляемый процесс x-{-2bx-\-k2x--=u, где b и k2—действительные постоянные, а |« (/) |«Сс(с > 0). Покажите, что с помощью соответствующей замены переменных эту задачу можно ^свести к случаю 62 = 1, с=1. 5. За какое кратчайшее время пассажир может приехать из Нью-Йорка в Лос-Анжелес? Предполагается, что в его распоряжении имеется летатель- ный аппарат с наилучшими механическими и термодинамическими свойствами, но максимальное ускорение не должно превышать 30 м/сек*. (Летательный аппарат стартует в Нью-Йорке и приземляется в Лос-Анжелесе. Путь счи- тается прямолинейным длиной 3640 км. Влияние вращения и кривизны Земли можно не учитывать.) 6. Рассмотрите управляемый процесс х4-х=« при условии | u(t) |< 1. Пусть начальное состояние (х0, #0) лежит выше кри- вой переключения y=W (х) управления, оптимального по быстродействию и приводящего х в начало координат. Пусть I—целое положительное число, такое, что 2/— 1 < [(х0 +1)» 4-уЗ]*»• < 21+1. Покажите, что оптимальное управление имеет в точности I переключений. Сформулируйте соответствующее утверждение для случая у0 < W (х0). 7. Рассмотрите систему i=ax4-P«, аналогичную рассмотренной в примере 4. Однако показатель качества пусть будет несколько иным, а именно: т С(и) = ^ (ax9+e»)dt. о Используя метод динамического программирования, получите дифференциаль- ное уравнение в частных производных для функции V(x, f).
1.2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 31 1.2. Постановка общей задачи оптимального управления Наиболее общая из рассматриваемых здесь задач оптимального управления включает в себя следующие исходные данные: (1) опи- сание объекта управления, (2) начальное состояние физической системы и цель управления, (3) класс допустимых управлений, (4) показатель или критерий качества—функционал, который дает количественную оценку эффективности управления. Прежде чем обратиться к точной формулировке задачи, обсу- дим подробно каждый из этих факторов. 1. Объект управления описывается системой обыкновенных дифференциальных уравнений (^) xl = f‘ (t, х1, х2, ... , х", и1, ... , ит), i=l, 2, ..., п, связывающей вектор х(/), характеризующий состояние объекта, с входным сигналом, или управлением, u(t). Для краткости си- стему уравнений описывающую объект управления, мы иногда будем называть процессом управления. Часто вектор х (t) называют выходным сигналом, однако ниже мы определим выходной сигнал как функцию от х, удовлетворяющую некоторому условию наблю- даемости. В зависимости от вида системы процесс будет авто- номным, линейным, n-го порядка и т. п. (см. приложения к этой главе). Различные нелинейные зависимости могут наблюдаться даже в простейших физических процессах вследствие нелинейного тре- ния, нелинейного усиления, насыщения. Но даже и в линейных системах при синтезе оптимальных управлений мы будем умыш- ленно вводить нелинейную обратную связь, например, типа релей- ного управления. Более того, многие физические системы содержат существенные нелинейности, которыми нельзя пренебречь и с ко- торыми не удается справиться при помощи линейной аппроксимации или применяя метод возмущений. (Рассмотренные ниже два при- мера описывают подобные существенно нелинейные системы.) В силу этого мы мало пользуемся классическим аппаратом линейной теории управления, например, интегральными преобразованиями и пере- даточными функциями. Смысл каждой задачи оптимального управления—синтезировать управление с помощью соответствующим образом построенной цепи обратной связи. Преимущества такого замкнутого контура по сравнению с разомкнутой цепью управления заключаются в том, что процесс становится самонастраивающимся и самокорректирую- щимся. Управление с обратной связью дает возможность умень- шить влияние непредсказуемых изменений внешней среды на объект и влияние возмущений или неточности описания самого процесса.
32 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ. ГЛ. 1 Пример 1. Рассмотрим демпфированный нелинейный осцил- лятор с одной степенью свободы x(t) и с управлением «(/), опи- сываемый дифференциальным уравнением x + f(x, x)x+g(x) = u(t); коэффициент трения f(x, х)^С1(7?2), упругая восстанавливающая сила g(x) С С1 (R1), управляющая сила u(t) ограничена и измерима на O^Z < оо. Из физической природы системы естественны пред- положения f(x, у)^0, xg(x)^0, |ы(/)|г^Вдля некоторой постоянной В>0. Покажем сначала, что решение S (Z) = (х (Z), у (/)) системы диффе- ренциальных уравнений х = У, y = — g(x)—f(x, y)y + u(t) с начальными условиями х (0) — х0, у (0) — у0 определено в фазовой плоскости R2 для всех O^Z < оо. Действительно, если бы S(Z) было определено лишь на неко- тором наибольшем промежутке времени 0 Z < т+ < оо, то функция г2 (Z) = х2 (Z) у2 (Z) при Z—->т+ должна была бы принимать сколь угодно большие значения1). Докажем, что это не так. Введем функцию, определяющую энергию системы: V(x, y) = ^- + ^g(s)ds. о Заметим, что V (х, у) 0 на R2 и V = 0 лишь на том отрезке оси х, содержащем начало координат, где g(x) = 0. Положим V(Z) = V(x(Z), y(Z)). Тогда ^=yy+g(x)x = — f(x, y)y2 + yu(i). Далее, в силу элементарных неравенств (£+1) И ^[V(Z) + 1]<B[V(Z)+1]. Из последнего неравенства вытекает, что V(Z) + 1<[V(O)+1]^; г) В противном случае решение S (/) можно было бы в силу теоремы о существовании решения продолжить на более широкий интервал. (Прим, ред.)
1.2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 33 следовательно, И(0<[Г(0)+1]Л X на 0^/<т+. Так как G(x)« Jg(s)ds>0, то о ^<2[У(0)+1]^+=С\ т. е. |г/(/)|=^С для некоторой постоянной С. Так как t x(t) =x0+^y(s)ds, о то |л(0|С».+Ст+. Но отсюда следует, что функция V (t) ограничена на конечном интервале 0<[/<т+. Поэтому решение [5(f) определено при 0< t <+оо. Мы покажем теперь, что для каждого начального состояния (х0, Уо)€^2 ПРИ ^=0 можно выбрать такое управление u(t), удовлетворяющее ограничению | и (f) | В, что соответствующее решение, начинаясь из точки (х0, у9), приходит в произвольно выбранную окрестность начала координат. В следующем разделе этой главы будет обсуждаться вопрос о возможности приведения фазовой точки точно в начало координат за конечное время. Для любой постоянной Vo > 0 рассмотрим в фазовой плоскости кривую V(x, ^) = ^ + G(x)=V0. Эта кривая имеет две ветви f/ = ±K2(V0-G(x)) с общей точкой при G(x) = V0. Таким образом, эта кривая может состоять из двух отдельных ветвей; она может представлять собой замкнутую кривую, обходящую начало координат, или возможно кривую вида о или с в фазовой плоскости. . Рассмотрим свободный осциллятор, т. е. положим и (t) = 0, и заметим, что поскольку х=у, то решение x(t) будет возрастаю- щим при у > 0 и убывающим при у < 0. Кроме того, поскольку на оси Ох у — — g(x), то у будет [неотрицательным при х^О, у = 0 и неположительным при х2>0, у = 0. Возьмем теперь малый диск D с центром в начале координат и докажем, что решение 2 Э. Б. Ли, Л. Маркус
34 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 S(/) = (x(f), y(t)) может быть приведено в D за конечное время с помощью подходящего управления (см. рис. 1.6). Мы рассматри- ваем тот случай, когда g(x)#=0 при х=^=0, т. е. когда начало координат является единственной особой точкой. Если имеется более чем одна особая точка, то малым управлением и (t) можно предотвратить остановку системы во всех других особых точках, кроме начала координат. Сначала рассмотрим случай, когда точка (х0, у0) лежит во вто- ром квадранте; xQ < О, yQ > 0. Положим и (/) = 0 и будем следо- вать вдоль траектории S(t) до тех пор, пока не попадем либо в диск О, либо в первый квадрант. Одна из этих возможностей должна осуществиться, так как x(t) возрастает при у > 0, а тра- ектория S(t) не может достичь отрицательной полуоси х [где у = — g (х) > 0] и не может уйти в бесконечность, ибо она должна лежать в области V(x, У)<У (*о, Уо), поскольку V = — f(x, у)у2<0. Если точка (х0, yG) лежит в первом квадранте или траектория S(t) попадает в первый квадрант при возрастании /, то полагаем и(0=е—В < 0. Тогда у<^—В и траектория S(/) должна пере- сечь положительную полуось х и попасть в четвертый квадрант. В четвертом квадранте мы положим и(/) = 0 и тогда траектория S(t) попадет либо в D либо в третий квадрант. В третьем квад- ранте положим u(t) — B. Таким образом, с помощью описанного выше управления мы заставляем траекторию S(t) закручиваться по спирали (по часо- вой стрелке) вокруг начала координат. Поскольку V=— f(x, y)y2 + yu(t)^Q (и V < 0 при у=^0), то нетрудно видеть, что lira V (0 = 0. /-+ + 00 Однако область V (х, у) < е для достаточно малых е > 0 пересе- кается с D так, что спираль S(t) непременно войдет в D. Следо- вательно, фазовая точка может быть приведена в произвольную малую окрестность начала координат. Пример 2. Рассмотрим твердое тело, например, космический корабль, вращающийся в инерциальном пространстве вокруг своего центра тяжести с угловой скоростью <о (/) под действием управляю- щего момента и (/). Пусть со1; <о2, «>8—проекции мгновенной угловой скорости <о (t) на оси координат, совпадающие с главными осями инерции тела В. Тогда уравнения Эйлера движения твердого тела в фазовом пространстве R3 переменных (ш1( <в?, <в3) имеют такой
1.2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 35 вид: /= (/2 — /3) (02©з + Ы1 (0 > Л®2 = ( — Л) ®3®1 + «2 (0> /3®3 — (11 Iг) ®1®2 «з (О’ Здесь /х, /2, /„—главные моменты инерции твердого тела отно- сительно соответствующих осей, а мх, и2, «3—проекции и(/) на те же оси. Предположим, что управляющий момент создается находящимися на корабле реактивными двигателями, максималь- ная тяга которых не зависит от характера движения корабля В, т. е. |u,.(/)|<l, i= 1,2,3. Наша цель—регулировать век' чтобы он приближался к нулю. В следующем разделе мы рас- смотрим вопрос о существовании управления u (t), приводящего to (/) в точности к нулю за ко- нечное время. Определим кинетическую энергию системы Е — U 1®1 + 2®2 + и вычислим производную Ё вдоль любого решейия Ё = + 72®2®2+/3й>з«з = = <о1ц1 + <о2и2 + ®зЫ8. Положим Ui — —• у al (i = 1, 2, 3); если а—достаточно малая положительная постоянная, то |uz|^l (i=l, 2, 3) вдоль всей траектории ®(/), соответствующей управлению u = (Uj, и2, и3). Кроме того, при выбранном управлении Ё = —аЕ, так что с воз- растанием t величина Е экспоненциально убывает. Поэтому lim (о (/) = 0 и в сколь угодно малую окрестность начала коорди- /-►+00 нат можно попасть за конечное время. 2. Начальная точка или состояние х0—это заданный в фазо- вом пространстве вектор. В реальном физическом процессе ком- поненты вектора xQ и вектора x(t) могут представлять собой положение, скорости, угловые скорости, температуру и другие параметры, измеряемые и регистрируемые соответствующими при- борами (см. обсуждение вопроса о наблюдаемости в гл. 2 и 6). 2*
36 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 В задаче управления заранее определяется также и цель управ- ления, которая состоит в приведении объекта в заданное состоя- ние х± или, в более общем случае, в заданное множество конечных состояний G, называемое целевым множеством. Иногда целевое множество будет представлять собой непре- рывно зависящее от t (т0 sg: / компактное множество G(f)1). Это означает, что для каждого момента времени t из данного интервала задается непустое компактное множество G (/) в фазо- вом пространстве R". Непрерывность G(t) как функции действи- тельной переменной t определяется с помощью понятия расстояния между G(t) и G(t'), вводимого следующим образом: dist (G (t), G (/')) = max [max dist (P, G (/')), max dist(P', G(/))]. PeG(t) Р’ев(п Таким образом, для любого t и заданного е > 0 найдется такое б > 0, что dist (G (/), G (f)) < е, как только | f—11 < б. Если G (/) есть точка, непрерывно движущаяся по гладкой кривой £ (t) в Rn, то часто приходится рассматривать ошибку, или отклонение x(t) от желаемого положения: \ е(0 = х(О-6(0. Здесь под x(t) понимается выходной сигнал управляемого про- цесса (е/) x=f(t, х, и), а процесс управления величиной e(t) описывается уравнением e = f(t, е-Ч(0, = f е, и). В такой интерпретации целью управления является сведение ошибки e(t) к нулю. 3. Класс Д допустимых управлений обычно состоит из изме- римых функций и (t) на различных интервалах времени t0 t tlf причем каждое из этих управлений переводит объект из начальной точки х0 в одну из точек заданного целевого множества G(f), т. е. решение x(t) уравнения (<§0 x = f(t, х, и), x(t9) = x0 должно удовлетворять условию х(О€б(О* Предположим, что S автономная система, и точка х0 перево- дится в точку хх управлением (/) на интервале t0 t t-i- Если управление и2(0 на интервале переводит точку xt в х) Так обстоит дело в том случае, когда цель управления зависит от момента времени, в который заканчивается управление. (Прим, ред.)
1,2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 37 точку х2, то результирующее управление Ы =l —^1+М. + переводит х0 в х3. Поэтому нетрудно показать, что, не ограничи- вая общности, всегда можно считать началом управления ! = 0. Часто на функции из класса’ПА накладываются различные дополнительные ограничения; например, условие u(i)c£i, где Q—фиксированное компактное выпуклое множество в Rm, назы- ваемое ограничивающим множеством1). Кроме того, иногда за- дается заранее начало и конец [интервала времени, в течение которого происходит управление. 4. Критерий, или показатель качества представляет собой принятый количественный критерий эффективности каждого уп- равления и(!) на интервале из класса А. Если А]со- стоит из управлений, определенных на различных интервалах времени и приводящих х0 в целевое множество, то критерий ка. чества управления и (0 часто определяется следующим] образом; C(u)=$f°(/, x(i), u(i))dt, ^9 где f°(f, x, ц)—заданная непрерывная функция. Если f°(i, х, и)==1, то С(и) = !3—10, и мы получаем задачу оптималь- ного быстродействия. Иногда А состоит из управлений, действующих на фиксиро- ванном промежутке времени, например, от которых требуется лишь приближенное приведение системы в положение 1(0. Тогда критерий качества часто бывает таким: т С(и) = \х (Т)-т | + 5 Г (О х(0, и (0) di. t, В частности, весьма распространены квадратичные критерии качества, включающие среднюю ошибку управляемого движения х(!) и энергию, расходуемую при управлении u(i), т. е. т с (и) =g (X (Т)) + $ [х' (0 «70 X (0 + и' (!) и (!) и (/)] di. ^0 Здесь g(x)—неотрицательная функция, a W (i), U (!)—симметрич- ные положительно определенные (полуопределенные) матрицы, т. е. x'Wx>0 О0) и и'{/и>0£для любых ненулевых век- торов х, и. 1) В оригнвале aestralnt set». (Прим, рвд.)
38 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Г Л. 1 Задача оптимального быстродействия для линейных систем рассматривается в главе 2, а квадратичный критерий качества изучается в главе 3. Теперь рассмотрим задачу управления, включающую в себя: (1) процесс of, (2) начальное положение х0 и целевое множество G (f), (3) класс допустимых управлений Д и (4) критерий качества С (и), который определен для всех управлений и из непустого множества Д. Определение. Управление u*(t) из класса Д называется оптимальным по отношению к критерию качества С (и), если С(и*)< С(ы) для всех ы(0£Д. В главах 2 и 3 будет доказано существование оптимального . управления для линейных систем с различными критериями ка- чества. В главе 4 мы докажем довольно общие теоремы сущест- вования оптимальных управлений для нелинейных систем; в качестве примера приведем формулировку одной из таких теорем. Теорема 1. Пусть поставлена задача управления, т. е. за- даны: Система дифференциальных уравнений (<Sf) x?=zg‘(t, x) + tf}(t, x)uJ (i=l, ..., n, j = \, .. .,tri), где . . dgl (t, x) dhf; (t, x) g(t, X), x) и (fe=l, .... n) — непрерывные на R1 x Rn функции; 2) непустое выпуклое компактное ограничивающее множество Qc Rm; 3) начальное положение x0$Rn и непрерывно зависящее от t компактное целевое множество G(/)c7?n; 4) критерий качества t 1 С (и) = $ [g° (f, х (t)) + hOj(t, х (0)«/ (OJ dt, t 0 где gn(t, x) и h^(t, x)—непрерывные на RxX/?" функции. Пусть Q, x0, G)—класс измеримых управлений u(t)czQ на подынтервалах интервала пе- реводящих х(/,,) = х0 в x^gGfo). Предположим, что: (а) Д — непустое множество; (Ь) существует такое В < оо, что | х (t) | В для всех управ- ляемых движений x(t), соответствующих управлениям из Д. Тогда в классе Д существует оптимальное управление и* (/).
13 ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ УПРАВЛЯЕМОСТИ 39 Можно также доказать, что если класс Д(а)сД, состоящий ид допустимых управлений с фиксированным начальным моментом времени /0 = а непуст, то в нем существует оптимальное управ- ление [это верно и для подкласса Д (а, 0)сД управлений с фик- сированными начальным и конечным моментами]. Доказательство этой и других теорем существования, а также примеры систем, не обладающих оптимальными управлениями, будут приведены в главе 4. Все доказательства существования основаны на использовании следующих трех фактов: (1) Д—не- пустое множество, (2) множество Д слабо компактно, так что су- ществует предел и* (/) для подходящей последовательности управ- лений uk(t), на которых значения функционала С (и) убывают, (3) функционал С (и) обладает свойством непрерывности, так что lim С (ип) = С (и*). К сожалению, все эти теоремы существования не конструктивны. Поэтому для построения оптимального управ- ления требуется дальнейшее исследование. Для случая линейного управляемого процесса x = A(t)x-[-B(t)u с интегрируемыми коэффициентами легко видеть, что предполо- жение (Ь) сформулированной выше теоремы выполняется автома- тически. В следующем разделе мы рассмотрим предположение (а), которое связано с понятием управляемости. 1.3. Основные результаты теории управляемости В этом разделе мы обсудим возможность перевода системы из начального состояния х0 в точности в заданное состояние xt за конечный промежуток времени. Определение. Автономный процесс управления x^flx1, ...-, х", и1, , ит) (1=1, ... , п), где f (х, и) С С1 на R" х Rm, называется вполне управляемым, если для каждой пары точек х0 и хх из Rn существует ограниченное измеримое управление и (1) на некотором конечном интервале такое, что соответствующее движение x(t) переводит систему из точки х(0) = хо в точку х(/1) = х1. Замечание. Для неавтономного процесса x = f(t, х, и) понятие управляемости изменяется следующим образом: для каж- дого начального момента времени /0 процесс считается управляе- мым, если для любого начального положения х0 и любого конеч- ного положения xt существует такое ограниченное измеримое управление u(t) на интервале что соответствующее
40 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 движение x(t) переводит систему из точки x(Q=x0 в точку * (^1) = xv В главе 2 мы докажем следующую теорему об управляемости линейных систем: Теорема 2. Линейный процесс х = Ах-]-Ви, где А—действительная постоянная (пхп)-матрица, В—действи- тельная постоянная (пхт)-матрица, является вполне управляемым тогда и только тогда, когда ранг (пхпт)-матрицы [В, АВ, А‘В, ...» Ап-'В} равен п. В примерах, приведенных в разделе 1.2, рассматривалась задача приведения системы в начало координат. Были указаны случаи, когда из любого начального положения можно было привести систему в некоторую окрестность начала координат. Ниже мы покажем, какое управление следует применить, чтобы попасть в точности в начало координат. Определение. Для процесса x‘ = fl (х1, ... , хп, и1, ... , ит), i=l,..., п, где fix, и)£С1 на RnxRm, областью нуль-управляемости % назы- вается множество всех точек xa£Rn, из которых система может быть переведена в начало координат с помощью допустимого управления u(t) за конечный промежуток времени В главе 6 мы докажем следующую основную теорему о при- ведении системы в точку покоя. Теорема 3. Рассмотрим процесс xfssf^x1, ..., ха, и1....ит), i=\, ... , п, где f(x, на RnxRm. Предположим, что: (а) /(0, 0) = 0; (Ь) класс Д допустимых управлений включает все измеримые управления и (/), которые определены на конечных интервалах вре- мени и удовлетворяют условию | и (/) | е для некоторого е>0; (с) система линейных дифференциальных уравнений х — Ах-{-Ви с постоянными матрицами коэффициентов Л = (^(0, 0)) И В = (^(0> 0)) \dxJ / \дик /
1.3 ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ УПРАВЛЯЕМОСТИ 41 управляема, т. е. rank [В, АВ, АгВ, , Ап~1В]=п. Тогда область # нуль-управляемости содержит некоторую откры- тую окрестность начала координат в R". Чтобы показать, насколько сильна эта теорема, отметим одно ее прямое следствие, которое в главе 2 будет доказано незави- симо от теоремы 3. Следствие. Рассмотрим линейную систему управления х — Ах + Ви, где А—действительная постоянная пхп-матрица, В—действи- тельная постоянная пхт-матрица. Предположим, что а) Матрица А устойчива, т. е. все ее собственные значения X удовлетворяют условию Re % < 0; b) выполняется условие управляемости, т. е. rank [В, АВ, ... ,Л"-1В] =п. Тогда система из любой начальной точки х0 может быть пе- реведена в точку Xj = 0 некоторым измеримым управлением u(t) на конечном интервале Более того, и (Г) удовлетворя- ет условию | и (t) | е для произвольного е > 0. Приложения сформулированной выше теоремы к примерам 1 и 2 раздела 1, а также и к другим интересным специальным случаям мы предлагаем в качестве упражнений. В оставшейся части этого раздела мы познакомимся с некото- рыми задачами управления, в которых система описывается не матричным уравнением, а одним линейным дифференциальным уравнением высокого порядка. Рассмотрим линейную систему, описываемую уравнением x(re> + аг (t) xin~ « + ... + ап (0 х = и (t), где и (t)—скалярное управление, ограниченное по величине, а именно, лежащее в некотором интервале 3. Может возникнуть задача: перевести систему из начального состояния (х0, х0, х0, ... , Хол-1>) в желаемое состояние G, например, х=0, и далее сохранять это состояние управлением из 3. Задачи такого типа часто встречаются в теории одномерных и многомерных систем управления. Мы сейчас рассмотрим пример такой задачи; более подробно она будет изложена в главе 2. Пример 1. Рассмотрим линейный управляемый процесс х + 2х-|-2х+х=ы, |ы(0|<1. Предположим, что мы хотим привести к нулю скорость х и
42 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 ускорение х системы, а ее смещение х для нас несущественно. Иначе говоря, пусть требуется из любого начального состояния (х0, х0, х0) перейти в желаемое состояние х = 0, х = 0 и в даль- нейшем сохранять нулевые значения скорости и ускорения, ис- пользуя управление u(t), удовлетворяющее условию |ы(0|^1. Эту задачу можно записать и в виде системы трех дифференци- альных уравнений первого порядка х* = х2, х2 = х3, х® = —х1—2х2—2х8 + «(/)» вводя новые переменные х1, х2, х3. Целевое множество G будет представлять собой прямую х2=0, х3 = 0 в R3. Мы будем называть ядром множества G и обозначать символом core(G) совокупность всех точек из G, обладающих следующим свойством: для каждой точки x0£core(G) существует такое управление u(t) на интервале 0^/<оо с ограничением | и (t) | 1, что соответствующее реше- ние x(t), х(О) = хо не покидает множества G, т. е. х2(/) = х3(0 = 0 при 0 t < оо. Но тогда х2 (/) = х3 (/) = 0 и, следовательно, х1 (/) = и (t) и | х11 1. С другой стороны, любая начальная точка вида (xj, 0, 0), где | xj | 1, может быть навсегда задержана в G, если восполь- зоваться постоянным управлением u(rf) = xj. Таким образом, core(G) = {|x1|^ 1, х2 = 0, х3 = 0}, т. е. core(G) есть сегмент оси х1. Итак, задача, состоящая в том, чтобы привести систему в G и удерживать ее затем там, полностью совпадает с задачей при- ведения системы в ядро множества G. Следовательно, мы свели задачу приведения системы в G с дополнительным условием ее дальнейшего удерживания в G к более стандартной задаче при- ведения системы в новую цель — core (G) без дополнительных усло- вий. Отметим, что целевое множество системы core (G) является компактным выпуклым множеством в R3. Интересно, что управление, приводящее систему с последую- щим удерживанием в плоскость G' = {x2 = 0}, налагает на решение условие х2 = х3 = 0; таким образом, core (G') = core (G). Поэтому первоначальная задача двумерного управления, приво- дящего систему в G = {ха = 0, х3 = 0}, может быть заменена одно- мерной задачей приведения в область G' = {х2 = 0}. Этот факт является иллюстрацией одного общего результата, который будет получен в дальнейшем.
1.3 ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ УПРАВЛЯЕМОСТИ 43 Другой тип линейных задач теории управления, в которых появляются производные управляющей функции, можно назвать задачей с дифференциальным оператором управления. У линейных систем такого вида передаточная функция является дробно-рацио- нальной функцией, числитель которой определяется управляющей функцией и ее производными. Природа таких задач становится ясной из следующего ниже примера. Подробнее они будут изу- чены в главе 2. Пример 2. Рассмотрим линейную задачу с дифференциаль- ным оператором управления ( *У) х -f- Зх 2х = 2и ut где управление u(f) класса С1 подчинено ограничению |ы(/)|<1. Передаточная функция для разомкнутого контура имеет вид 2р+1 р« + Зр + 2- Отметим, что числитель 2/?+ 1 определяется видом правой части 2м 4- и. Пусть требуется перевести систему из начального состояния (х0, х0) в точку (0, 0) за минимальное возможное время. Чтобы записать эту задачу с помощью системы линейных уравнений в фазовом пространстве, положим х=у. Тогда получим следую- ' щую систему: х=у, у =—2х—Зу + 2м + м. В дальнейшем будет показано, что в классе С1 не существует оптимального управления для этой системы; поэтому требуется расширить класс допустимых управлений, включив в него раз- рывные функции. Для этого запишем нашу задачу (<&) в виде линейной системы несколько иного вида (см. главу 2, упражне- ние 4.5): (ef) х2 = х2-|-2м, х2 =—2х*—Зх2—5м. Передаточная функция системы (<§f) вычисляется следующим об- разом: рх1 = х24-2н, рх2 = —2х2—Зх2—5м, где х1, х2, м—соответствующие преобразования Лапласа. Таким образом, 2Р+г й р^ + 3р+2и- Заметим, что система ef не содержит производных от м и поэтому к ней можно применять обычную методику теории управления,
44 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 предложенную в главе 2. Следует также отметить, что фазовые координаты х, у = х теперь входят в следующем виде: х1 — х, х* = у—2и, а начальное состояние х1(0) = хо, ха(О) = хо—2и(0) зависит от управления u(t). Эту трудность, однако, можно обойти, исполь- зуя управления, у_которых и(0) = 0, или же заменяя начальную точку начальным ^сегментом х1 = х0, у0—2^х2^у0 + 2. Кроме того, можно вовсе не рассматривать систему (S), а считать си- стему исходным описанием нашей задачи с заданным началь- ным состоянием (xj, xj). Действительно, на практике эквивалентная система е/’ часто имеет удовлетворительную физическую трактовку, а уравнение S, содержащее дифференциальный оператор управления, выводится из системы <sf с помощью дифференцирования и последующего исключения неизвестных—операций, которые при применении к системе с разрывным управлением не являются, строго говоря, допустимыми. 1.4. Экстремальные свойства оптимальных управлений и их синтез В дифференциальном исчислении для нахождении минимума функции действительного переменного требуется провести иссле- дование критических точек, т. е. точек, в которых производная функции обращается в нуль. Аналогичной процедуре мы следуем в теории оптимального управления. В этом разделе мы сформулируем принцип максимума, смысл которого заключается в том, что каждое оптимальное управление является максимальным, т. е. «критическим» для заданной задачи управления. Мы рассматриваем здесь лишь автономные системы; более общий случай неавтономных систем будет подробно изучен в главе 5. Рассмотрим задачу автономного управления, в описа- ние которой входят: 1. Система (&) xz = f/(x1...х”, u1, ... , и“), i= 1, 2 ..., n, где f(x, м)^Сх в RnxQ. 2. Начальное состояние х0 и целевое множество G—непустое компактное подмножество в R". 3. Класс Д, включающий все измеримые управления u(t), определенные на различных конечных промежутках времени О t переводящие точку х0 в G и принадлежащие некото- рому непустому компактному ограничивающему подмножеству й в Rm.
1.4 ЭКСТРЕМАЛЬНЫЕ СВОЙСТВА ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ 45 <1 4. Критерий качества С (и) = J /° (х (0, и (0) dt, где f° (х, у) £ С1 о в R"xQ- Определение. Рассмотрим автономный управляемый про- цесс {&, х0, G, Q, Д, С}, описанный выше. Пусть и (0, — некоторое управление из Д, которому соответствует решение х(0 — (xz(0), 1=1, .... п. Рассмотрим вместо вектора х(0 п+1 -мерный вектор х(0 = (х“(0), а = 0, 1, .... п, где f х°(0= Jf«(x(0, и (t))dt. о п + 1-мерный вектор ц (0 = (г]а (t)), 0 < t называется сопря- женным решением длях(0, если rj(0 есть решение гамильтоно- вой системы ^ = ^ = №«(0). а = 0, 1, .... п, Ла = — Ло д^а (Х> U (0) • • • Лп ^а (*’ Ы (0)» не обращающееся в нуль ни в какой точке отрезка Здесь функция Гамильтона имеет вид Н (п, х, и) = Vе (х, и) + tjJ1 (х, и) + ... + тУл (х, и). Положим Af (f|, х)= max Н (q, х, и). иеп Тогда, по определению, управление ы(0, будет макси- мальным, если существует решение т) (0, такое, что 1. Н (г] (0, х (t), и (0) = М (т) (0, х (0) почти всюду на 2. М (г| (0, х(0) = О всюду на отрезке [0,0]; т]0 ^0. Следующая теорема называется принципом максимума для автономных систем. Теорема 4. Рассмотрим управляемую автономную систему (of, х0, G, Q, Д, С), описанную выше. Пусть u(t), — оптимальное управление из класса Д. Тогда u(t) является макси- мальным управлением. Заметим, что и(0 называется максимальным управлением, хотя оно доставляет минимум функционалу С (и). Чтобы не из- менять традиционные термины, принятые в литературе по управ- лению, мы будем мириться с этим несоответствием.
46 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Для пояснения природы принципа максимума применим его к следующей линейной задаче: 1. х= Ах-\-Ви, где А и В—действительные постоянные (пхп)- и (пх т)-матрицы соответственно. 2. Начальное положение х0 принадлежит области нуль-управ- ляемости, а целевое множество G есть начало координат. 3. Ограничивающее множество Q есть компактное выпуклое подмножество в Rm. 4. Критерием качества является продолжительность процесса управления: С (и)= dt — t^ о В этом случае функция Гамильтона имеет такой вид: Н (т], х, и) = т|0 + ц [Ах + Ви] = ц0 + Н (т], х, и), гдет^^), i= 1,.. .,п,— n-мерный вектор-строка и т] [Ах + Ви]=Н. Тогда М (т], х) = т104-т]Дх + шах'г]Вг/ = т|0 + Л1 (t|, х), где М = max И. Если и (0, О t 0,— максимальное управление, и€ Q то решение x(0 = (x‘(0), i= 1, п, а также сопряженное ре- шение л (0 = (Л/(0)» i = L ..., п удовлетворяют уравнениям x — Ax-}-Bu(t), т)=—т)Л; при этом х° = 0 г|0 = const. Принцип максимума означает, во-первых, что 1% г| (0 Ах (0 -|- п (0 Ви (0 = Ло + Л (0 Ах (0 + max г] (0 Ви ие а или q (0 Ви (0 = max т] (0 Ви и € Q почти всюду на интервале 0 t 0 и, во-вторых, что т)0 + г] (0 Ах (0 + max г] (0 Ви = О всюду на отрезке [О, /Д. Если вектор-функция т|(/) обращается в нуль в какой-либо одной точке интервала то она тождественно равна нулю на [О, /Д, так как является решением однородной линейной системы — т]Д. Но если т] (/) = 0, то ^0 = 0, что противоречит определению век-
Г.4 ЭКСТРЕМАЛЬНЫЕ СВОЙСТВА ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ 47 тора я (0- Следовательно, вектор-функция т](/) не обращается в нуль ни в одной точке интервала 0 t tt. Таким образом, в этом случае можно не рассматривать до- полнительные компоненты x° = t и 1% = const, т. е. перейти к n-мерным векторам x(t) и т](£) и искать максимальное управ- ление u(t) в зависимости от Н (т], х, и) и М (т|, х). Необхо- димо отметить, что сопряженное решение удовлетворяет вполне определенной системе дифференциальных уравнений т] = — т]Л, коэффициенты которой не зависят от управления и (/) и решения х (/). Таким образом, т] (/) полностью определяется начальными усло- виями. Так как условия принципа максимума однородны, т. е. допускают умножение т, (/) на любую положительную постоянную, то это можно учесть при выборе начальных условий. Рассмотрим важный частный случай, когда для описанной выше линейной автономной управляемой системы й представляет со- бой /n-мерный куб |ы>|< 1. Тогда условие т] (/) Ви (/) = шах г] (0 Ви означает, что каждая компонента управления u(t) может быть выбрана равной либо -|-1, либо —1 в зависимости от знака соот- ветствующей компоненты вектора i}(t)B. Таким образом, макси- мальное управление u(t) удовлетворяет равенству и (t)= [sgn п(0Я]' почти всюду, если только компоненты ц (/) В не обращаются в нуль на подмножестве положительной меры из интервала 0 t tt. Заметим, что это есть как раз то самое условие экстремальности оптимального управления, которое было выведено в примерах раздела 1.1 из геометрических соображений, связанных со свой- ством выпуклости множества достижимости. Теперь мы можем попытаться синтезировать максимальное управление u(0 = [sgnri(05]'. определив сначала сопряженное решение т] (t), а затем проинтег- рировав уравнение х= Ax-j-B [sgn т] (t)В]' с обратным отсчетом времени, начиная отсчет в начале координат х = 0 и заканчивая его в исходной точке х0. При этом мы про- буем различные начальные значения вектора т] (/), например, единичный вектор при t = 0, а затем строим и (t) и х (/) для t 0. Если построить таким способом все возможные максимальные управления и соответствующие им решения, то одно из них будет
48 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ гл. 1 оптимальным управлением (если такое вообще существует), пере- водящим точку х0 в начало координат. После этого мы возвраща- емся к прежнему направлению отсчета времени, сдвинув начало отсчета так, чтобы х0 соответствовало t = 0. Эта процедура уже использовалась нами при построении кривой переключения и син- тезировании оптимального управления в примерах раздела 1.1. Весьма важным для синтеза максимального, а следовательно, и оптимального управления является соображение единственности. Процесс управления, обладающий свойством единственности, мы будем называть нормальным; в дальнейшем будет развита специ- альная теория нормальных процессов управления. В частности, будет показано, что задача приведения к началу координат ли- нейной автономной управляемой системы х(п) + + ... + апх = и за минимальное возможное время при условии | и (t) | 1 является нормальной. Таким образом, при синтезе оптимального управления как релейного управления, возможно использование принципа мак- симума, максимальных управлений, а также кривых переключения. 1.5. Синтез оптимальных управлений для линейных систем второго порядка В этом разделе мы закончим построение оптимального по бы- стродействию управления для линейных систем второго порядка наиболее общего вида [рассматривается задача приведения системы из точки (х, х) в начало координат]. • Итак, рассмотрим систему х ± 2bx ± k2x = и, где и № > 0—константы, а управление подчинено ограни- чению | и (01 1. В разделе 1.1 уже рассматривался наиболее общий вид линей- ных систем первого порядка х±Ьх=и, |ы(/)|^1. Исследовались также некоторые частные случаи систем второго порядка, например, x±bx = u, |и(/)|<1 и x-]-k2x=u, |u(/)|<:i. В упражнениях было показано, что ограничение более общего вида на величину управления |«(/)|s^c, где с > 0,^сводится к стандартному ограничению | и (t) | 1 соответствующим измене-
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 49 нием масштаба. Рассмотренные ниже случаи развивают решение задачи синтеза оптимальных по быстродействию управлений для любых автономных линейных систем второго порядка. Рассмотрим вопрос о синтезе оптимального по быстродействию управления в задаче о приведении к нулю линейной системы (J?) х ± 2bx ± k2x = и с коэффициентами 5^0 и £2 > 0 и ограничением | и (t) | 1. За- метим, что соответствующая система уравнений (У) х- — [ о 1 Ld”L±^±26 является нормальной и управляемой. Следовательно, по теоремам разделов 1.2 и 1.3 существует единственное оптимальное управ- ление и*(0 на интервале 0 переводящее систему из за- данного начального состояния (х0, г/0), лежащего в области нуль- управляемости 1?, в точку (0, 0). При этом является открытым связным множеством в фазовой плоскости R2. В силу принципа максимума, сформулированного в разделе 1.4, оптимальное управление является максимальным, и выражается формулой u*(0 = sgnr]2 (0 почти всюду на интервале 0 t t*. Здесь сопряженное решение Я (0 = (т)х (0, т)2(0) удовлетворяет системе уравнений ^ = ±^4- 1%= — Л1±2&т]2 или П2 Т 26т]2 ± й2г]2 = 0. Заметим, что т]2 (0 не может быть тождественным нулем, так как в этом случае (0 = ± 2bi)2 (0—т|2 (0 = 0, что противоречит условию т] (0 0 на 0 t t*. В силу анали- тичности функции т]2 (0 она может иметь лишь конечное число нулей на интервале Вследствие нормальности системы 3? существует лишь одно максимальное управление, переводящее (х0, у0)- в (0, 0), а следо- вательно, и одно оптимальное управление ы*(0. Мы построим соответствующую кривую переключений y = W(x), на которой происходит переключение экстремальной траектории с решения системы (е?_) х = у, y — ^Fk2x^2by—l
50 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 на решение системы (еЛь) Х = у, y=^k2X+2by + l, и наоборот. Так как замена переменных х—>— х, у—>—у пере- водит в <^+, то ясно, что W (—х) = —W (х), и поэтому до- статочно искать кривую переключений лишь для х > 0. Таким образом, синтез оптимального управления u*(t) сводится к определению области 5? управляемости и построению кривой переключений y = W (х). Пр и мер 1. Демпфированный линейный осциллятор. Рассмот- рим задачу о приведении в начало координат за минимальное время системы (-=2”) x+2bx-]-k2x = u. Здесь 6 > 0 и k2 > 0—постоянные, и | и (t) | 1. Поскольку матрица А = 0 1 —k2 —2b устойчива, то в силу следствия из теоремы раздела 1.3 областью нуль-управляемости ‘в будет все пространство 7?2. Здесь имеется два качественно различных случая: 1) слабое демпфирование, Ь2—k2 < 0, 2) критическое и сильное демпфирование, Ь2—k2^Q. Рассмотрим сначала случай Ь2—k2 < 0. Тогда каждое реше- ние экстремальной системы 1 —2Ь (^-) х У. о 1 представляет собой спираль, закручивающуюся вокруг особой точки (положения равновесия) О_: х=—1/&2, t/ = 0, а каждое решение системы х] _ Г ° Г jj - \—k2 —2b х । fo] .у! ‘ LU есть спираль, закручивающаяся вокруг особой точки О+: х = р , у = 0 при t —>-оо. Любая экстремальная траектория, приводящая в начало координат, должна состоять из конечного числа кусков интегральных кривых систем и <sf+ с чередующимся переклю- чением. Анализ сопряженного решения т|2 (?) = aebt sin (со/ 4- Р), где а=И=0, 0 — произвольные постоянные, и со = ]/&2—Ь2, показы- вает, что промежуток времени между последовательными пере- ключениями равен Т = л/со.
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 51 Пусть S+ — решение системы <^+, которое при обратном от- счете времени исходит из начала координат (рис. 1.7). Опишем с помощью этого решения кривую переключения у = W (х) при х^О, а затем докажем справедливость этого построения. Построим кривую переключений, развертывая спираль S+ в точках пересечения с осью х. Пусть SY есть дуга траектории S+, ведущая из точки (0, 0) в направлении, противоположном указан- ному стрелкой на рис. 1.7, к предшествующей точке пересечения траектории S+ с осью х. Очевидно, что дуга S+ и ее отражение SL Рис. 1.7. Оптимальное’по быстродействию управление, приводящее систему в начало координат. График кривой переключения для системы x+2bx+k2x=u, | и (i) | < 1. Случай 1, пример 1: b2 — fc2 < 0, Ь > 0, fe2 > 0. относительно начала координат являются частью кривой пере- ключения, так как каждая точка дуги представляет собой точку переключения для максимальной или экстремальной траектории решения системы которая пересекает дугу и затем по ней приводит в начало координат. Рассмотрим последовательные дуги спирали S+: S+, S^., ...; каждая из них представляет собой половину оборота спирали S+ и начинается в точке пересечения спирали с осью х. На полуоси х 0 кривая переключения у = W (х) строится из дуги S* и дуг S+, ..., являющихся результатом переноса дуг S+, S’,... вдоль оси х. Таким образом, мы образуем непрерывную кривую y = W (х), однозначную по х на положительной полуоси х>0 и такую, что при возрастании х точки дуг S+, S2+, ... идут в том же порядке, что и точки дуг S+, S+, ... при возрастании (—t). Для х < 0 положим W (х) = —W (—х). Определим теперь син- тезирующую функцию Т (х, у) так, чтобы решения уравнения x+2bx + kix = y¥ (х, х) всегда давали бы оптимальные траектории, переводящие систему из любой начальной точки (х0, у0) в начало координат (0, 0).
52 теория и методы оптимального управления гл. 1 Для этого положим [для всех действительных (х, г/)¥=(0, 0)] —1 1+1 Для для для + (х, !/) = - 0 у > W (х) и на Si, y = W (х), у <W(x) и на Si. Чтобы проверить правильность нашего построения, начнем дви- жение с куска Si решения S+ системы ef+ и куска Si решения S_ системы Кривая переключения вправо от Si состоит из кусков решений системы §f+, взятых на интервалах Т=^- и ис- ходящих из точек Si. Рассмотрим точку Р1 = (х1, у1) на Si и обозначим через Ра = (х2, у2) точку, в которую мы придем через промежуток времени Т =-^-, двигаясь вдоль решения системы ^+. Тогда точки Pv О+ и Р2 будут лежать на одной прямой, и отношение длин от- резков РХО+ и О+Р2 равняется е~ьт. Это легко вычислить, учи- тывая, что точки Рх и Ра лежат на одном и том же витке спи- рали S+ с характеристикой затухания е~ы на расстоянии в пол- виткадОднако отношение длины отрезка Q2O_, где Q2 = (xi, i/i)— точка траектории S_, лежащая на прямой Pfi-^ к длине отрезка РХО_ также равно е~ьт. Из подобия треугольников находим, что yi = у2, а затем простым вычислением можно показать, что f \ 2 х2 = xi -|- *° +1J . Это означает, что дуга Si, входящая в кри- вую переключения, представляет собой результат параллельного переноса дуги Si, которая лежит на траектории S_ и является продолжением дуги Si. Но дуги S1 и S2 получаются друг из друга параллельным переносом, так как системы и §f+ пере- ходят одна в другую при замене переменных (х, у)—►(—х, —у). Таким образом, дуга Si является следующим за Si куском линии переключения у = W (х) при х > 0. Полное описание кривой y = W (х) получается повторением этого рассуждения. Обратимся к случаю (2) Ь2—k2^Q. Здесь каждое решение систем приближается соответственно к точкам О±, однако на каждом решении х может обращаться в нуль не более одного раза. Общее решение сопряженного уравнения имеет вид Т12(0=е6*(а + ₽0 ПРИ 62—k2 = 0 или т]2 (0 = aebt sh (р/ + 0) при 62—k2 > 0, где а и 0— постоянные и р = ]/&8—k2. В любом случае т]2 (/) имеет самое большее один нуль, а соответствующее оптимальное управление таково: и* (/) = sgn Т|2 (/)•
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 53 В случае (2) кривая переключений у = W (х) состоит из двух кусков решений Г+ и Г_. Здесь Г_ представляет собой решение системы проходящее через точку (0, 0), а Г+ — решение си- стемы <^+, лежащее в четвертом квадранте, как показано на рис. 1.8, и ведущее из начала координат. Таким образом, легко построить кри- вую переключений y = W(x), которая будет однозначной на всей оси х, а также соответствующую синтезирую- щую функцию —1 при у> W (х) и на Г_, 4-1 при y<W(х) и на Г+. ^ (*,*/) = { Пример 2. Линейный|осцилля- тор с отрицательным трением. Рас- смотрим задачу приведения в начало координат за минимальное время си- стемы х—2&х4-&2х = и. Рис. 1.8. Оптимальное по быстро- действию управление, приводящее систему в начало координат. График кривой переключения для системы х + 2Ьх ч- k2x=u, I и (t) | < 1. Слу- чай 2, пример 1: Ь2 — £2 > 0» Ь> 0, &2>0. Здесь b > 0 и k2 > 0—постоянные, система дифференциальных уравнений а |ы(/)|С 1. Заметим, что (<^) о Г —k2 2b х У не является устойчивой в начале координат (при и = (У), однако она управляема и нормальна. Так же как и в примере 1, для построения кривой переклю- чений и синтеза оптимального управления рассмотрим экстре- мальные системы Х = у, y = — k2x + 2by—l и (еЛ) Х=у, y = — k2x + 2by+l. Здесь снова возможны два случая: 1) слабое демпфирование, Ь2—k2 < 0, 2) критическое и сильное демпфирование, Ь2—k2^0. Рассмотрим случай 1, Ь2—k2 < 0. Здесь каждое решение си- стемы представляет собой раскручивающуюся спираль с цент- ром в точке О_: х = —^-, г/ = 0, а каждое решение системы <^+— спираль с центром в точке О+: х=-^-, у = 0, раскручивающуюся с возрастанием t. В наиболее общем виде сопряженную траекторию
54 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 можно представить так: т], (t) — ае~ bt sin (со/ + 0), где а, р—постоянные и <о = V k2—b2. Таким образом, экстремаль- ная траектория, приводящая в точку (0, 0), может иметь много переключений между дугами е/'_ и <^+; промежуток времени между переключениями всегда должен, однако, равняться Т = л/ы. Кривая переключения строится методом, аналогичным употреб- лявшемуся в примере 1. Пусть S+—дуга кривой S+ [S+ реше- ние системы £f+, исходящее из точки (0, 0)], отсчитанная от начала координат и соответствующая промежутку времени Т = л/со (при обратном отсчете времени). Пусть S+, S+—последователь- ные дуги кривой S+, каждая из которых начинается и заканчи- вается в точке пересечения S+ с осью х и соответствует проме- жутку времени Т = л/со. Тогда кривая y = W (х) будет состоять из дуги 5^, за которой будет следовать S+, а затем своего рода развертка спирали, с остриями в точках пересечения кривой S+ с осью х (рис. 1.9). Рис. 1.9. Оптимальное по быстродействию управление, приводящее систему в начало координат. График кривой переключения для системы x-2bx+k2x = w, | «(/)!<!. Случай 1, пример 2: b2-k2 < 0, b > 0, k2 > 0. / _Ьл \ Поскольку диаметр дуги SJ. равняется “ 4-1) , а диа- метры последующих дуг убывают, так как множитель е~Ьл/а < 1, то нетрудно вычислить, что y = W (х) определена для следующих значений х: 1+е-Ьп/ш 0 х < х+ = —. (1— Пользуясь нечетностью функции W (х) = — W (—х), можно доопре- делить W (х) на х_<х^0, где х_ = — х+.
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 55 Легко видеть, что область управляемости есть открытая область, ограниченная решением ведущим из точки (х_, 0) в точку (х+, 0) при у^О, и решением <^+, ведущим из точки (х+, 0) в точку (х_, 0) при у^О. Таким образом, синтезирующая функция определяется в ё следующим образом: Y(x, у) = ' —1 для у > W (х) и на S1, 0 для у= W (х), + 1 для у < W (х) и на S*. Теперь рассмотрим систем ef± исходит из случай 2, Ь2—&2^0. Каждое решение особой точки О± и имеет не более чем одну точку пересечения с осью х. Следовательно, каждая опти- мальная траектория, приводящая в точку (0, 0), будет иметь не более одного пере- ключения. Решения системы <^+ легко получить из решений (пример 1, слу- чай 2) подстановкой х—► — х, у—»-у, t—> — t. Решения е/_ аналогично полу- чаются из решений <^+ (пример 1, слу- чай 2). Пусть S*—дуга решения е/’+, веду- щая из точки О+ в начало координат. Тогда кривая переключений у = W (х) состоит из дуги S+ при х 0 и соответ- ствующей дуги SL системы e/L при х^0. Область управляемости ё представляет собой открытую область, ограниченную решением системы идущим из точ- ки О+ в точку О_ при у 0 и решением системы идущим из точки О_ в Рис. 1.10. Оптимальное по быст- родействию управление, приво- дящее систему в начало коорди- нат. График кривой переключе- ния для системы х-%bx+k*x=ut | u (t) | < 1. Случай 1, пр и- м е р 2: b*-k* > 0, Ь > 0,£8 > 0. точку О+ при t/>0 (рис. 1.10). Как обычно, синтезирующая функция определена в области ё (см. рис. 1.10) и имеет вид V(x, у) = — 1 для y>W(x) и на S1, + 1 для у < W (х) и на Si- Пример 3. Управление под действием отталкивающей силы. Рассмотрим синтез оптимального управления в задаче приведения к началу координат за минимальное время линейной системы х + 26х—k2x = u с постоянными коэффициентами b и k2 > 0 и ограничением | и (/) | 1. Здесь снова оптимальное управление м* (f) на интер- вале переводящее произвольную точку (х0, г/0), принад- лежащую области управляемости, в точку (0, 0), является единст-
56 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 венным максимальным управлением, переводящим (хс, у0) в (0, 0) и H*(0 = sgnr)2(0. Сопряженное решение i]2 (t) 0 удовлетворяет уравнению т|2—2Ц2—£2т]2 = П и имеет не более одного нуля; общее решение имеет вид т]2 (0 — aebt sh (vt 4- 0), где а и 0 — постоянные, a v — V b2-\-k2. Таким образом, u*(t) имеет не более, чем одно Рис. 1.11. Оптимальное по быст- родействию управление, приво- дящее систему в начало коорди- нат. График кривой переключе- ния для системы x+2bx-k2x—u, I « (О |< 1. переключение. Экстремальные системы (е^_) х = у, y = k2x—2by—\ и (е^+) х=у, y=k?x—2by + \ соответственно имеют особые точки О_: х— 1//г2, г/= 0 и О+: х = — 1/£2, y = Q, являющиеся особыми точками типа седла. Линия переключения составляется из двух кривых Г+ и Г_. Здесь Г+ — ре- шение системы ^+, проходящее через точку (0, 0) и лежащее в четвертом квад- ранте фазовой плоскости. Аналогично, решение Г_ системы проходит через точку (0, 0) и находится во втором ква- дранте (рис. 1.11). Область управляе- мости представляет собой открытую бес- конечную полосу, ограниченную прямыми И «/ = (—ь—V) • Картина не меняется при &>0, Ь = 0 и b < 0. Синтезирующая функция определяется как обычно: ( —1 при y>W(x) и на Г_, ^(х’ -f-1 ПрИ у < w (х) и на Г+. Упражнения 1. Рассмотрите управление гамильтоновой системой: дН , » ; дН , , . , о х1——У —----------т+v, 1=1, 2, л. dyt дх‘
1.4 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 57 Здесь (х1, х2, ...» х«, у1, ..., уп) = (х, у) точка фазового пространства R2n, а функция Гамильтона Н (х, у) принадлежит классу С2 в 7?2й. Управляющий вектор («, v) удовлетворяет ограничению |^|<1, |^|<1. Пусть Я (х, у) > 0 и |grad#(x, у) | > 0 в /?2д\(0, 0); Я (0, 0) = 0 и Яш Я(х, ^)= + оо. Покажите, что можно из любого начального со- 1*1+11И -> оо стояния (х0, у0) перевести систему в заданную окрестность начала координат. 2. Рассмотрите нелинейное дифференциальное уравнение x+f(x, x)'x+g(x) = Q, где f (х, у) и g(x)—функции из С1 на фазовой плоскости R2. Положим f(x, у) 5* О и xg (х) > 0 для х 0. X (а) Покажите, что если функция G (х) = J g (s) ds удовлетворяет условию: о lim G(x)=oo, то каждая кривая X -► 00 V(x. ») = £+<? (*) = П> О 25 представляет собой замкнутую кривую, содержащую внутри себя начало координат. (Ь) Пусть f (х, 1/)^0и g(x)=xe“*2 так, что нелинейное уравнение х+хе~*2 = О допускает линейную аппроксимацию i’+x=0 вблизи начала координат. Покажите, что глобальное поведение решений этих уравнений на фазовой плоскости будет качественно различным. 3. Рассмотрите описанные ниже системы управления с указанными кри- териями качества и целевыми множествами. Покажите, что в каждом случае систему можно из любого начального состояния перевести в соответствующее целевое множество, однако оптимального управления не существует. Устано- вите в каждом случае, почему не применима теорема существования, уста- новленная в разделе 1.2. (a) x=sin2raz, y=cos2n«, г=—1 в R3 при условии | Начальное состояние (0, 0, 1), конечное—(0, 0, 0); критерий качества — t C(u) = ^(x*+y*)dt. О Уьк а з а н и е. Постройте управления uk (t) на 0 t < 1, удовлетворяю- щие соотношениям sin2ttU£ (/) = sin2n;£/; cos 2пик (t) = cos 2nkt для £=1,2,3...; (b) х=ц, y=u, в /?3 при условии и2(/)-|-ц2(/) = 1. Переведите (О, 0, 1) в (0, 0, 0). Критерий качества t С (и, О
58 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ гл. 1 (с) х=1, у — ~хеУи в /?2 при условии 0<«(/)<2. Переведите (—1, 0) в (1, 0). Критерий качества i 1 С («) = J (2-у) dt=^ (2-у) dx. о -1 Указание. Для каждого решения х(/) = / — !, у (t) покажите, что 1 0 у (х) < —In х2 для х # 0. Тогда С (и) > (2 + In х2) dx = 0. Попробуйте -1 применить управление не(/) = 2—8 для малых 8 > 0. 4. Рассмотрите нелинейную систему х—х2—х2 = «2, | и (/) | в фазовой плоскости х, у = х. Покажите, что область нуль-управляемости це- ликом лежит в четвертом квадранте и, следовательно, не содержит никакой окрестности начала координат. 5. Запишите линейную систему с постоянными коэффициентами х(я> + а^п -1) + ... + апх = и в виде матричной системы первого порядка (с^) х = Лх+&«, положив к1 = х, х2 = х, ...» хл = х<я“1>. Используя теоремы, доказанные в разделе 1.3, покажите, что система of управляема. 6. Рассмотрите нелинейный управляемый процесс х(я>+/(х, х, х, ....х^-1), ц) = 0, где функция /(х1, ..., хя, и) принадлежит С1 в /?я+1, а управление и под- чинено ограничению | и (/) | 1. Кроме того, f (0, 0, ..., 0) = 0 и (0, ..., 0) f 0. Применяя теоремы, сформулированные в разделе 1.3, покажите, что область нуль-управляемости для соответствующей системы уравнений первого порядка в Rn содержит открытую окрестность начала координат. 7. Покажите, что система (<^) х= —х+и, #= —2# не является управляемой в /?2, исследуя картину интегральных кривых на фазовой плоскости. Произведя преобразование координат, х = 2х—у, 'y=x—yi получите соответствующую систему <ff. Проверьте, выполняется ли для нее алгебраическое условие управляемости раздела 1.3. 8. Рассмотрите примеры 1 и 2 раздела 1.2. (а) Покажите, что система может быть приведена в начало координат из любого начального состояния. (Ь) Проверьте в каждом случае выполнение всех условий теоремы сущест- вования раздела 1.2 и докажите существование управления, оптимального по быстродействию. 9. (а) Рассмотрите нелинейную автономную систему (<^) x=f(xt и) при u(t) £ Q,
ПРИЛ. I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 59 t переводящую х0 в хг = 0 и минимизирующую С (и) — J /° (х (/), u(t))dt как о в разделе 1.4. Сформулируйте в терминах управления и (/) и решений х(/), т] (/) принцип максимума для оптимального управления. (Ь) Сформулируйте соответствующий принцип для управления, максими- зирующего критерий С (и), 10. Рассмотрите систему *х — и—и2 с ограничением | ц (/) | С 1. Покажите, что оптимальным управлением, пере- водящим х0 =—1 в Xj = 0 за минимальное время, будет . Отметим, что в данном случае оптимальное управление не будет релейной функцией, переключающейся с +1 на —1. Приложение I Геометрическая теория обыкновенных дифференциальных уравнений В примерах 2 и 3 раздела 1.1 мы показали, как свести изу- чение одного уравнения второго порядка, например, x = f(t> х, х), к изучению системы двух дифференциальных уравнений первого порядка: Х = У, y = f(t, X, у). Аналогичным образом, вместо скалярного дифференциального уравнения высшего порядка можно рассматривать соответствую- щее векторное уравнение первого порядка, представляющее собой частный случай системы дифференциальных уравнений первого порядка: = х1, ..Xя), ха = х1, ..., Xя), xn = fn(t, х1....Xя). Эту систему дифференциальных уравнений можно записать так: х1 = (t, х1, .... xn) = f‘{t, х), i=l, 2, ..., п, или в виде векторного дифференциального уравнения (£Q x = f(t, х) или *’
60 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Решение представляет собой вектор-столбец, состоящий из действительных дифференцируемых функций аргумента t, определенных на неко- тором открытом интервале 3 и удовлетворяющих на нем системе дифференциальных уравнений х* (/) = /*(/, x(t)), i = l, 2, ...,п. В этом разделе предлагается геометрическая интерпретация векторного дифференциального уравнения ef как векторного по- ля в пространстве Rtt п действительных переменных (х1, ..., х"). Кроме того, мы введем терминологию и обозначения, употребляе- мые в теории векторных и скалярных функций и сформулируем основные теоремы, относящиеся к векторным дифференциальным уравнениям. При желании читатель может лишь бегло ознако- миться с этим материалом, возвращаясь к нему для детального изучения по мере того, как отмеченные здесь понятия будут встречаться в излагаемой далее теории оптимального управления. Обозначение множеств в Rn, п=1, 2, 3, ... Пространство Rn представляет собой совокупность всевозмож- ных наборов п действительных чисел (х1, ..., х"). Таким образом, R1 есть действительная прямая, a R2—действительная плоскость. Если точка или вектор х0 — (xj...х#) принадлежит некоторому подмножеству А из Rn, то пишут х0 € А. Если каждая точка А лежит в подмножестве В, т. е. А содержится в В, то пишут Л а В. Множество точек, принадлежащих AJt но не принадлежащих At, называют разностью множеств Аг и Ди обозначают Аг—А2; если же Лхс:Л2, то разность их будет пустым множеством, т. е. мно- жеством, не содержащим ни одной точки. Пересечением Лх П Л2 называется множество точек в R", принадлежащих как Лх, так и Л2, а объединением Л^Ла—множество точек, принадлежащих хотя бы одному из множеств Лх или Л2; аналогично определяются пере- сечение и объединение любого конечного числа подмножеств в Rn. Для множеств AaRn и B<=.Rm мы определяем их произведение A xBcRn+m как множество всех пар точек (х, у), гдех£ Л, у^В. Понятия P0€S, ЛаВ, Лх—Л2, Л1ПЛ2, ЛхиЛ2 и ЛхВ для подмножеств более общих пространств определяются аналогично. Геометрия в R" Нам понадобится в дальнейшем следующая норма в R" (не совпадающая с евклидовой): l*ol = l*ol + ko|+ • • • +|x?|, X0 = (xJ, xj, ...,X?)€P“.! С введением расстояния между точками х и у по формуле
ПРИЛ. I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 61 d(x, у) = |х—у\, Rn превращается в метрическое пространство, т. е. пространство, в котором определена действительная функция расстояния, удовлетворяющая следующим аксиомам: 1- уо)>0, если «/о=И=*о и d(x0, хо) = О. 2. d (х0, t/o) = ^(f/o> хо)- 3. d(x0, z0)<d(x0, y0) + d(y0, z0). Множество 6c Rn называется открытым, если для каждой точки х0 £ 6 существует число г > 0 такое, что множество точек {х | х С#л| ’• |*—х0|<г} целиком лежит в 6 (замена нормы |х—х0| евклидовой длиной х—х0 привела бы к точно такому же опреде- лению). Множество CcRn называется замкнутым, если множество Rn—С открыто в Rn. Открытое множество 6cRn не содержит своих граничных точек, в то время как замкнутое множество CcRn содержит все свои граничные точки. Объединение открытых множеств есть открыто j множество, а пересечение замкнутых—зам- кнутое множество. Объединение всех открытых множеств, содер- жащихся в некотором множестве А с Rtt, называется внутренностью множества А. Множество NcRn, содержащее множество А в своей внутренности, называется окрестностью множества А. Пересече- ние А всех замкнутых множеств в Rn, каждое из которых содер- жит А, называется замыканием множества А в Rn. Говорят, что точка Р принадлежит границе дА множества А, если каждая окрестность Р содержит как точки, принадлежащие А, так и точки, принадлежащие его дополнению Rn—А. Все эти определения и свойства открытых и замкнутых множеств верны в любом мет- рическом пространстве. Множество RcRn называется компактным, если К замкнуто и ограничено в Rn (т. е. К. замкнуто и функция |х| ограничена на К). Расстоянием от точки P$Rn до компактного множества RcR" называется кратчайшее евклидово расстояние от Р до точек множества К. Множество AcRn называется выпуклым, если для любой пары точек х0 и хх из А весь отрезок рх0 + (1—р)хх, где О < р С 1, лежит в А (здесь линейная комбинация векторов вы- числяется покомпонентно). Открытое множество 6с Rn называется связным, если любые две точки из 6 можно соединить непрерыв- ной кривой, лежащей в 6. Заметим, что всё пространство Rn яв- ляется открытым, замкнутым, выпуклым и связным в Rn, но не является компактным. Система’дифференциальных уравнений g(^) ? = f(/, х1, ..., хп), i=l, 2........п может быть интерпретирована геометрически, как векторное поле с компонентами f{(t, х) в каждый момент времени t в пространстве Ra. Мы называем Rn, или его подмножество, в котором опреде- лена система &f, фазовым пространством системы Решение
62 теория и методы оптимального УПРАВЛЕНИЯ гл. 1 системы в Ra представляет собой кривую х(/) = (%' (/)), задан- ную в параметрическом виде (с параметром t), касательный вектор которой или вектор скорости х (/) = (%'(/)) совпадает с вектором Если вектор-функция f(t, х) не зависит от времени, т. е. f (t, x)=sf (х), то система дифференциальных уравнений называется автономной. В этом случае векторное поле можно представить как поле скорости установившегося потока жидкости в Rn. Если f (хо) — 0> то хо есть особая точка, или точка равновесия автоном- ной системы a x(t) = x9—решение, которое на фазовой плоскос- ти изображается одной точкой. Периодическое решение x(t) си- стемы, т. е. такое, что для некоторого постоянного периода Р > О имеет место тождество x(t) = x(t + P), изображается в фазовом пространстве в виде простой замкнутой кривой. Этот геометри- ческий язык полезен при исследовании качественной картины поведения интегральных кривых системы Для того чтобы сформулировать фундаментальные теоремы существования, единственности и регулярности решений необ- ходимо ввести понятия непрерывности и дифференцируемости. Определения непрерывности и дифференцируемости в Rn Векторная функция f (х) со значениями в Rn называется непре- рывной на множестве A <z Rn, если каждая ее компонента f‘ (х1,... ,х") является непрерывной функцией на А. Далее, говорят, что f(x) принадлежит классу Ск, где k— 1, 2, 3, ..., на открытом мно- жестве 6а R", если каждая ее компонента f‘(х1, ..., х") непре- рывна и имеет непрерывные частные производные порядка k на множестве 6. Если f(x) принадлежит всем классам Ск, то пишут f (х) € на 6. Если f (х) является аналитической функцией на 6, т. е. если каждая функция f‘ (хх, ..., х") разлагается в абсолютно сходящийся степенной ряд в окрестности каждой точки х$6, то отсюда следует, что f(x) £Ca‘. Как было отмечено ранее, произ- водной векторной функции х (/) = (х‘ (/)) по t € R1 называется вектор- функция х (t) = (х* (0). Рассмотрим действительную систему дифференциальных урав- нений (е/) = х1, ..., х"), i=l, 2, ..., п, где функция f(t, х) определена и непрерывна на 3 x6<zR1+n, ScR1—открытый интервал, а 6—открытое множество в Rn. Предположим, что функции dfl(t, х)/дх^ непрерывны на 3x6. Тогда для каждой начальной точки (t0, х9)^3хб существует единственное решение системы £f: X = (f(t, t0, х0),
ПРИЛ. I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 63 проходящее через заданную точку х0 в момент времени /0: ф (^0» ^0» = и это решение определено в 3x6 на некотором максимальном промежутке времени т_ (/0, х0) < t < т+ (/0, х0), где оно удовлетво- ряет системе Эта основная теорема существования и единст- венности доказывается в учебниках по теории обыкновенных дифференциальных уравнений. Однако нам понадобится более сильная теорема существования, нежели описанная выше, так как нам придется иметь дело с си- стемами дифференциальных уравнений, у которых коэффициенты f(t, х) являются разрывными функциями от t. Такие системы играют важную роль в теории оптимального управления, поскольку они описывают поведение управляемого объекта под действием оптимальных управлений с мгновенными переключениями. Мы будем всегда считать, что f‘’(t, х)—измеримые по t функции для любого фиксированного х. Измеримые функции действительного переменного t составляют весьма обширный класс функций, вклю- чающий в себя все непрерывные функции, кусочно-непрерывные функции, а также пределы таких функций. Довольно затрудни- тельно привести пример неизмеримой функции; во всяком случае, мы будем сталкиваться лишь с измеримыми функциями (чаще всего с кусочно-непрерывными). Ниже мы дадим краткие сведения о функциях, измеримых и интегрируемых по Лебегу. Определения измеримых и интегрируемых функций на Rn Слабая компактность Подмножество N<zRn называется множестзэм меры нуль, если для него найдется покрытие, представляющее собой объединение счетного числа n-мерных кубов, общий объем которых меньше заранее заданного числа в > 0. Например, любое конечное или бесконечное счетное множество точек в Rn является множеством меры нуль. О двух функциях (х) и (х), определенных на AcRtt и отличающихся друг от друга на множестве меры нуль, говорят, что они совпадают почти всюду на А. Измеримые1) множества в Rn определяются, как элементы некоторого наименьшего се- мейства множеств в Rn, содержащего все открытые множества, все замкнутые множества, все множества меры нуль из R", раз- ность любых двух членов этого семейства, а также объединения и пересечения конечного или счетного числа любых его элементов. Действительная функция h(t), определенная на действительном интервале 3, называется измеримой, если для любых действи- тельных аир множество 11 £ 3 и а < h (t) < Р} является из- х) Речь' идет об измеримости в смысле Лебега. (Прим, ред.)
64 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 меримым в R1. Если функция h(t) измерима на 3, то существует замкнутое подмножество % в 3 такое, что функция h (t) непрерыв- на на а мера множества 3—% сколь угодно мала1). Если функция h(t) измерима на 3, то мы можем определить для нее интеграл Лебега 3 рассматривая соответствующие пределы интегральных сумм. Функ- ция h(t) называется интегрируемой на 3, если записанный выше интеграл, а также интеграл от | h (/) | суть конечные действитель- ные числа. Изменение значений функции h(t) на множестве меры нуль не влияет на величину интеграла. Если функция h(t) ку- сочно-непрерывна, а интервал 3 компактен, то значение написан- ного выше интеграла Лебега совпадает со значением обычного риманова интеграла. Пусть h(t) интегрируема на интервале 3 = (t0, Q. Рассмотрим неопределенный интеграл t Н (t)=^h (s) ds для tQ t tt. I Такой интеграл представляет собой абсолютно непрерывную функ- цию2). Можно доказать, что абсолютно непрерывная функция непрерывна и дифференцируема^почти всюду (т. е. на всем интер- вале 3, исключая множество меры нуль), и имеет место равенство (также почти всюду): Всякая липшицева непрерывная функция Я (?) является абсолют- но непрерывной3). Таким образом, основное отличие, возникающее г) Это есть следствие известной теоремы Н. Н. Лузина о С-свойстве измеримой функции, которое может быть положено в основу самого определе- ния измеримости. (Прим, ред.), Я 2) Функция f, заданная на интервале J, называется абсолютно непрерыв- ной на У, если для любого 8 > 0 найдется б > О такое, что для любой конечной системы попарно непересекающихся интервалов ^fk — (akl bk) (&=1, 2, . . п) из 3 с общей длиной, не превосходящей б, выполнено неравенство fc=l (Прим, ред.) 3) Говорят, что функция f (х) на интервале (а, Ь) удовлетворяет условию Липшица порядка а (0 < а^1), если существует константа А такая, что для всех xlt х2 из (а, Ь) имеет место неравенство | f (x2) — f (xj | А | х2—Xip. (Прим, ред.)
ПРИЛ.I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 65 из-за разрывности f (t, х), состоит в том, что многие из обычных формул дифференциального и интегрального исчисления верны лишь «почти всюду». В дальнейшем при доказательстве существования оптимальных управлений нам потребуется понятие слабой сходимости последо- вательности управлений. Последовательность {ип 1,2,3, ... действительных или векторных интегрируемых функций на неко- тором действительном интервале 3 называется слабо сходящейся к функции и* (/), если для любой ограниченной измеримой весовой функции я (0 имеем lira $ g (0 ип (0 dt = $ g (0 и * (0 dt. Можно показать, что множество всех измеримых на конечном интервале 3 и принимающих значения из некоторого компактного выпуклого подмножества векторных функций является слабо компактным. Это означает, что из каждой последователь- ности таких функций можно выделить подпоследовательность, слабо сходящуюся на 3 к функции из данного множества. Разумеется, предельная функция u*(t) определена лишь почти всюду на 3. Множество всех действительных функций, определенных на интервале 3, для которых ^\u(t)\P dt <. со (1^р<оо), 3 составляет пространство Lp. Если отождествить функции, отли- чающиеся друг от друга лишь на множестве меры нуль, и ввести норму по формуле ll«ll,=(J 1“<орлИ, то Lp станет полным нормированным векторным пространством (такие пространства часто называют банаховыми). Под пространст- вом L» мы понимаем множество всех существенно ограниченных, или ограниченных почти всюду измеримых функций с нормой ^11® = ess sup | и (t) |x). Если 3—компакт, то выполняется соот- ношение Ьрс.Ьг l^p^oo. Замкнутый шар в Lp для 1 < р < оо (т. е. множество || и В) является слабо компактным; на самом деле, соответствующая последовательность интегралов сходится для любой весовой х) По определению, ess sup | и (t) I = inf sup I v (t) I, где v (t) пробегает мно- жество всех ограниченных измеримых функций на совпадающих с и (/) почти всюду. (Прим, ред.) 3 Э. Б. Ли, Л. Маркус
66 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 функции g(/)£Lq на 3, еслиу+у=1. В частности, если р=1, то 9=оо. Случай р = 9 = 2 представляет особый интерес, и £2 на- зывают гильбертовым пространством. По определению, вектор (или матрица) u(t) принадлежит L„ на интервале 3, Is^p^oo, если каждая из его компонент и!(Г) принадлежит Lp. Это будет тогда и только тогда, когда J | и (f) р dt < оо. 3 Приступим теперь к формулировке основной теоремы существова- ния, единственности и регулярности для систем дифференциальных уравнений. Доказательство и подробное обсуждение ее можно найти в соответствующих учебниках. Теорема IA. Рассмотрим систему дифференциальных урав- нений = х1, ..., хп), i=l, .... п, где f(t, х) определено на некотором открытом множестве 5x6cRn+1. Предположим, что (а) для, любого фиксированного t£3 функции f‘ (t, х) принад- лежат классу С1 для х$6; (Ь) для любого фиксированного х£б функции f‘(t, х) измерим • по t на 3; (с) для любой пары компактных подмножеств ЗссЗ и Кс& существует интегрируемая функция m(t) на Зс, такая, что |f(t x)|<m(0 и x)|<m(/) для всех (t, х) С Зсх К. Тогда для любых начальных условий (t9, х0) из 3 х 6 существует единственное решение системы if x = <p(t t*, х0), такое, что <р(Л>» te, х0) = х„, определенное на некотором максимальном промежутке времени т_ (/2, х0) t Т+ (^q, Xq). Кроме того, вектор-функция <p(f, t0, х0) определена и непрерывна на некотором открытом множестве D с 7?1+1+п. Для любых фик- сированных t0 и х0 функция <р(£, /0, х0) абсолютно непрерывна по t и удовлетворяет векторному дифференциальному уравнению Лр {t, to, х0) _ dt f(t, <p(t, /0, x0))
ПРИЛ. 1. ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 67 почти всюду на т_</<т+. Для любых фиксированных t и tt функция <р (?, t0, х9) принадлежит классу С1 по х„ и вектор-функция д<р (/, /р, Хр) • _ । 2 и д4 ’ 1 ....... абсолютно непрерывна по t и удовлетворяет линейной системе дифференциальных уравнений J_(g<P< \ — у ^-(t <o(t t х'\}(—'\ dr(dx/J-L dx/t Эта основная теорема имеет большое число различных обоб- щений и модификаций. Мы перечислим их в следующих заме- чаниях. Замечания. 1. Предположим, что коэффициенты f(t, х, А) системы ef зависят от действительного векторного параметра А = (А1, ... , А“). Если f(t, х, А) определена на открытом мно- жестве 3 х 6 X А с Ri+n+n и если для каждого А„ £ А выполня- ются предположения (а), (Ь) и (с) нашей теоремы, то система имеет решение х = <р(/, х0, Ао), проходящее через точку (Zo, х0) при А = А0. Далее, если предпо- ложения (а) и (с) усилить следующим образом: (а') для любого фиксированного функции fl(t, х, А) при- надлежат классу Ck (k= 1, 2, 3, ...) по (х, А) из б X Л и (с') для любой тройки компактных подмножеств Зс с 3, К с б, L с Л существует интегрируемая функция т (/) на Зс, такая, что | Df (t, х, А) 1т (/) для всех (/, х, А) С Зс х К X L и для любого частного дифференцирования D порядка по (х, А), то решение <р(/, /0, х0, А) будет непрерывной функцией на некотором открытом множестве 6' с: ^i+i+n+»»( принадлежащей классу Ск по (х0, А). 2. Если функция f(t, х, А) непрерывна на множестве ?Х0хЛс/?1+“+в и удовлетворяет предположениям (а') и (с'), то предположение (Ь) выполняется автоматически. В этом случае решение <p(t, ta, х0, А) принадлежит классу С1 в 6'c:/?1+1+n+m и удовлетворяет системе of в каждой точке интервала т_ < t <т+. 3. Во многих задачах можно установить, что максимальный промежуток времени т_ < t < т+ не ограничен справа (т+ = + оо). В частности (как можно показать), так и будет, если 3 = (t0, Н-ОО) и решение, проходящее через точку (f0, х0), лежит в компактном подмножестве Кебе/?" для />/0. з*
68 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Приложение II Алгебраическая теория линейных дифференциальных уравнений В примерах 2 и 3 раздела 1 исследовались линейные процессы управления, описываемые дифференциальными уравнениями вто- рого порядка, причем задача сводилась к изучению систем диффе- ренциальных уравнений первого порядка на фазовой плоскости. Линейные процессы более высоких порядков сводятся к линейным системам, имеющим следующий общий вид: х1 = а} (0 х1+al (0 х? + ... + а* (t) Г+Ь{ (0 и1 + ... + Ь1т (0 и”, х2 = al (t) х*+а2 (0 ха + ... + аА (0 х”+Ь2 (0 “* + • • • + % (0 и". ? = а?(0х1-|-а?(0х2+ ... +а»(0хи + 6”(О«1+ • • • +%'(0«“- Эта линейная система дифференциальных уравнений описывает некоторую физическую систему с т входными (управляющими) переменными ит и с п выходными (управляемыми) переменными " х1 " х2 Процесс (объект) описывается заданием коэффициентов, возможно, зависящих от времени и образующих матрицы и В(0 = ГЫ(0 bl(t) .. bl(t)bl(t).. • • but) • . %(0-
ПРИЛ. II АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 69 Матрица A(t) с коэффициентами а) (О имеет порядок пхп, а ма- трица В (Z) = (b)(i))—порядок пх/п. Линейный процесс управления х1 = 2 а//(0х/+ 2 *4(0 t = l, 2,..., п i=i *=i или, применяя суммирование по повторяющимся индексам, х‘=^(t)x^+t/k(t)ufc, i = l,2, ... , п, записывается в матричных обозначениях так: (j?) x = A(t)x-\-B(t)u. Суммы и произведения матриц и векторов определены так, чтобы запись 2 в матричном виде была наиболее удобной. Ниже мы перечислим основные факты и формулы матричной алгебры и матричного исчисления, которые могут понадобиться нам в даль- нейшем. Читатель может обращаться к этому справочному мате- риалу по мере надобности, при чтении следующих глав книги. Алгебра постоянных матриц Матрицей называется прямоугольная таблица, элементами которой могут быть числа или функции. Векторы и скаляры являются частными случаями матриц. Рангом постоянной (nxm)- матрицы называется максимальное число ее линейно независимых строк (оно совпадает с числом линейно независимых столбцов). Пусть F = (/j) и G = (g))— (пхт)-матрицы с действительными постоянными элементами. Линейной комбинацией матриц aF-j-flG называется (пх/п)-матрица с элементами + в i-й строке и j-м столбце. Пусть Н — (hl) есть (тхг)-матрица. Произведением GH матриц G и Н называется (п х г)-матрица с элементами / т \ ( 5 g^hl 1 в i-й строке и &-м столбце. Вообще говоря, GH HG даже в случае квадратных матриц G и Н, когда второе произве- дение имеет смысл. Такое правило умножения матриц позволяет нам написать (afjXJ) = Ах и (t/kuk) = Ви в матричной записи задачи (J?). Пусть Л = (а)) квадратная (пхп)- матрица.^Транспонированной матрицей А' называется матрица, у которой на пересечении i-й строки и /-го столбца стоит эле- мент а{-. Иначе говоря, А' получается из А отражением относительно главной диагонали. Очевидно, что (Л')' = Л. Если А' = А, то матрица называется симметричной. Если х есть вектор-столбец, то х'—вектор-строка. Если А—симметричная матрица, и х'Ах > 0
70 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 (или ^0) для всех действительных векторов х=/=0, то матрица А называется положительно (или неотрицательно) определенной. Пусть А—квадратная (пхп)-матрица, и пусть для любого вектора у существует единственный вектор х, такой, что у = Ах. Тогда матрица А называется невырожденной, и решение х выра- жается через у в виде х = А~гу. Обратная матрица Л-1, суще- ствующая лишь в случае, если определитель матрицы А не равен нулю, может быть вычислена, если выразить х через у из системы у —Ах с помощью обычных методов. Очевидно, что (Л-1)_1 = Л. Следующие правила матричной алгебры легко доказываются для любых действительных постоянных матриц F, G и Н: 1) (F + G) + H = F + (G + H), 2) F + G = G+F, 3) F + (—F) = 0 или F—F = 0, где 0—nxm-матрица, состо- ящая из нулей и —F = (—1) F: 4) F + 0 = F, 5) (a0)F = a(0F) для чисел а, 0, 6) a (F + G) = aFaG, 7)<a+₽)F = aF + PF, 8) 1F = F, OF = 0 для числа 0 и нулевой матрицы 0. Если размеры матриц таковы, что можно образовать произведения этих матриц, то верны следующие правила: 9) F(aG + PH) = aFG + pF^ и (aG + рЯ) F = aGF + ₽#F, 10) (FG)H = F(GH). Для квадратных действительных (пхп)-матриц имеем 11) Ы = Л/ = Л, 0Л = Л0 = 0, где I—единичная матрица, элементы главной диагонали которой равны 1, а все остальные равны нулю, т. е. I = где , I 1, если i = /, 6',=J П ' ' ( 0, если j, 12) (Л + В)' = Л' + В', 13) (АВУ = В’А'. Для квадратных невырожденных (пхп)-матриц имеем 14) (XBJ-^B-M’1 и AA-^A-'A^-I, 15) (А-'У = (А')-\ Для квадратной (п х п)-матрицы А определим п собственных или характеристических значений {Xj, ... , %„}, которые являются корнями (считая кратные) характеристического уравнения det (Л—М) = 0. Если Л—действительная симметричная матрица, то все ее соб-
ПРИЛ. II АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 71 ственные значения действительны и существует невырожденная действительная матрица Р, такая, что (Г РЛР-! = [_0 A.„j Если матрица А имеет п различных комплексных собственных значений, то существует невырожденная комплексная матрица Р такая, что РДР-1 есть диагональная матрица. Правила 1)—15) верны и для матриц с комплексными элементами. Матричное исчисление Норму (пхт)-матрицы Д = (ау) с действительными или ком- плексными элементами определим следующим образом: |Д| = 21 а/1* I. i Тогда легко проверить следующие неравенства: 1) | аА | | а | [ А |, где а—число, 2) |Д + В|<| А | + |В|, 3) |ДВ|<|Д|.|В], где размеры матриц А и В таковы, что их суммы и произведения т определены. В частности, для вектора х с нормой | х | = 2 I Xs |> Z= 1 имеем 4) |Дх|<|Д||х|. Если элементы матрицы Д(/) = (<// (/)) представляют собой функции аргумента t, определенные на некотором интервале 3, то можно определить §A(t)dt п -±-A(t) Я как матрицы с элементами, соответственно, najty). Таким образом, матрица A (t) измерима, интегрируема и непрерывна, абсолютно непрерывна или принадлежит классу Ck, в том случае, когда все ее элементы обладают соответствующим свойством. Кроме того, 5) V 3
72 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 6> |4м(')||<|4г| всюду, где обе части написанных неравенств имеют смысл. Для квадратной, действительной или комплексной (пх ^-ма- трицы А можно определить матрицу ехрД = ^ = / + Л + <- + ^+---+4г+--- При этом сходимость последовательности матриц или ряда опре- деляется покомпонентно. Используя свойства обычных степен- ных рядов, легко показать, что: 7) е~А = {еА)~1 и е° = /, 8) еА-ев=еА+в, если АВ = ВА, 9) ^eAt = AeAt = eAt-A, 10) exp (PAP-*) = РеАР~1 и exp{Рdiag(Xv ... , %n)P-1} = P diag{^>, ..., Если каждое собственное значение матрицы А удовлетворяет неравенству Re < %, то имеет место следующая важная оценка: 11) leAtl^ceu при 0г^/<оо с некоторой постоянной с > 0. Если все собственные значения матрицы А удовлетворяют неравенству Re X,- < 0, то Л называется устойчивой матрицей, и | eAt |—>-0 при t—>-+оо. Применим теперь эти правила и законы матричного исчисления к общей теории систем линейных дифференциальных уравнений. Рассмотрим систему линейных однородных дифференциальных уравнений первого порядка = i = l, .... n, или, в матричных обозначениях, х=Л(0х. Здесь Л(0 = (о/(0)—действительная или комплексная (пх^-мат- рица, элементы которой есть функции от t, определенные на некотором действительном интервале 3. Совокупность п векторов- столбцов Гч>1 (01 Х1 = ф1(0 = L<p?(OJ • . Х" = ф»(0 = фИО' -ФЙ(О. образуют фундаментальную систему, или базис, решений на 3,
ПРИЛ. и АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 73 если (пхп)-матрица Гф1(О ••• ФН01 Ф(0 = Ф?(0 ф£(0 является невырожденной на всем интервале 3. Таким образом, столбцы некоторой (пхп)-матрицы X (0 образуют базис решений уравнения х = A (t) х на 3 в том случае, когда матрица X (t) есть фундаментальное матричное решение или, короче, фундаментальная матрица этого уравнения, т. е. Ах(0 = Л(ох(о и det X (0^=0 на 3. Если матрица А (0 интегрируема на каждом компактном подын- тервале интервала 3, то для заданных начальных условий t0^3 и х0 существует единственная абсолютно непрерывная фундамен- тальная матрица Ф (0 (или Ф (t, 0)), определенная на интервале 3, причем Ф(0) = /. Итак, решение системы х = Л(0х с начальным условием х(/0)=х0 имеет вид х(0 = Ф(0хо, причем это решение будет действительным, если матрицы Л и х0 действительны. Если хо = 0, то х(0=вО на всем интервале 3; поэтому нетривиальное решение х(0 не может обращаться в нуль на интервале 3. Если Л(0 = Л— постоянная матрица, то фунда- ментальная матрица, обращающаяся в единичную при t —10, имеет вид ф(0 = ел Рассмотрим теперь неоднородную систему линейных дифферен- циальных уравнений х=Л(0х+&(0, где (п х п)-матрица Л и n-мерный вектор-столбец b (t) интегрируемы на каждом компактном подынтервале данного интервала 3. Кроме того, пусть заданы начальные условия t0 С 3 и х0. Тогда сущест- вует единственное решение х(0 на 3, удовлетворяющее условию x(Q = xo- Эт° решение х(0 находится методом вариации произ- вольных постоянных по формуле t X (0 = Ф (0 х0 + Ф (0 $ ф-1 (s) b (s) ds, to
74 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 где Ф(/)—фундаментальная матрица соответствующей однородной системы х = A (t) х, причем Ф(/0)=/0. Непосредственной подста- новкой можно проверить, что указанная выше формула действи- тельно дает решение неоднородной системы. В самом деле, х (0 = А (О Ф (0 х0 + Ф (0 $ Ф-1 (s) b (s) ds ] + + Ф (О Ф"1 (0 b (t) = А (I) х (0 -f- b (0. Кроме того, это решение удовлетворяет начальным условиям X (/») = Ф (*о) Xq = 1ха = х0. Если Д(/) = Д—постоянная матрица, и /о = О, то Ф(0 = ел* и формула вариации произвольных постоянных принимает вид t х (0 = eAtx0 + J еА (s) ds. о Оценки качественного поведения решения x(f), встречающиеся в теории управления, а также в теории устойчивости, чаще всего основаны на анализе основной формулы вариации произвольных постоянных. Следующий простой пример иллюстрирует применение теории матриц к решению линейных систем дифференциальных уравнений. Пример. Рассмотрим демпфированный гармонический осцил- лятор х + 2Ьх 4- k2x = f (t), где b и k—действительные постоянные, a f(f)—действительная функция, интегрируемая на любом отрезке времени. Пусть k > 0 и k2 > b2. Рассмотрим однородную систему ?] = дН, L//J Ls/J где - Г ° Г [—k.2 —2b Можно проверить, что фундаментальная матрица решений этой системы имеет вид sin (at + «) 1 . -г- Sin (dt k —b sin (со/ + a) + co cos (co/ + a) sin co/ + -y cosco/ еА* = ^-е~ь*
ПРИЛ. II АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 75 где 0) = ]/^—b2, sina = y, cos a = у. Это решение проще всего вычислить с помощью элементарных методов решения уравнения х + 2bx + k2x = О при начальных условиях х(0)=1, х(0) = 0 илих(0) = 0, х(0)=1. Решение неоднородного уравнения с начальными условиями (х0, у0) при t — 0 дается формулой И] =eAt Гх°1 + <'-s> Г. °] ds. L* (0J L Уо J J L/(s)J о Первая компонента векторного решения x(t) = ^e~bt [^оsin (<o/-|-a) фу sinco/j + t + у J f(s)e-6</-s) sin <0 (/—s)ds о представляет собой искомое решение данного скалярного неодно- родного линейного дифференциального уравнения.
ГЛАВА 2 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ В этой главе будет подробно изложена теория оптимального по быстродействию управления для линейных процессов, определение которых будет дано в разделе 2.1. В разделах 2.2 и 2.3 рассматриваются качественные аспекты теории управления. Здесь дается определение множества дости- жимости, как множества всех точек, в которые может быть пере- ведена система из начальной точки х0 с помощью допустимых управлений u(t). Основные факты теории управляемости мы по- лучим, изучая геометрическую структуру множества достижимости. В последующих разделах мы обратимся к количественным аспектам теории управления. Здесь будет доказано существование оптимальных управлений и показано, что оптимальные управления обладают определенными максимальными и экстремальными свой- ствами (принцип максимума). Затем мы синтезируем искомые оптимальные управления при помощи соответствующих цепей обратной связи. Все понятия будут вводиться для общего слу- чая неавтономных линейных систем, однако подробное исследова- ние будет проводиться лишь для систем с постоянными коэффи- циентами. Приложение к этой главе содержит основные определения и свойства выпуклых множеств и, кроме того, доказательства некоторых математически более сложных теорем, обобщающих результаты раздела 2.2 относительно управляемости линейных систем. 2.1. Линейные управляемые процессы Рассмотрим линейный процесс, описываемый системой линей- ных дифференциальных уравнений Здесь коэффициенты A (t), В (/), v(t) обозначают заданные матрицы и векторы, описываемые ниже, и наша задача заключается в том, чтобы выбрать управление u(f) так, чтобы соответствующая тра-
2.2 управляемость: множество достижимости 77 ектория х (t) переводила бы систему из начального состояния хл в некоторое желаемое конечное состояние в Rn. На протяжении всей этой главы предполагается, что коэффи- циенты системы удовлетворяют следующим условиям: (1) A (t)—(пхп) -матрица, В (/) — (п х т) -матрица, a v (t) — n-мерный вектор-столбец; все они действительны и измеримы на всей оси времени t. (2) Нормы | A (t) |, | В (f) | и | v (t) | интегрируемы на любом ком- пактном подмножестве оси t. (3) Управление u(t) является действительным, ограниченным, измеримым /n-мерным вектором, определенном на некотором ин- тервале 3: (обычно t0<t<oo), принимающим значе- ния из непустого ограничивающего множества Йс7?'я и, возмож- но, удовлетворяющим еще и некоторым другим указанным ниже ограничениям. Решение x(t) представляет собой действительный, абсолют- но непрерывный n-мерный вектор на 3, удовлетворяющий соот- ветствующей системе дифференциальных уравнений W x = A(t)x+B(t)u(t) + v(t) (основные вопросы теории систем линейных дифференциальных уравнений изложены в приложении 2 к главе 1). В некоторых случаях мы будем накладывать на коэффициенты системы 3? или на множество Q дополнительные ограничения. Однако всюду в главе 2 мы считаем, что условия, гарантирующие существование решения системы дифференциальных уравнений, выполняются, и что, в частности, для решения х(/) с начальным условием х(/0) = х0 имеет место формула вариации произвольных постоянных t х (0 == ф (0 х0 4- Ф (0 $ Ф-х (S) [В (s) и (s)+V (s)] ds, где Ф (t)—фундаментальное матричное решение однородной системы х—A (t)x, удовлетворяющее условию Ф (/„) = /. Если A(t) = A—постоянная матрица, то Ф(/) = ел 2.2. Управляемость: множество достижимости Рассмотрим линейную систему («^) х = А (0 х Ц- В (/) и -I- v (/). Для заданного начального состояния х0 изучим множество К (Q точек Rn, в которые х0 может быть переведена с помощью управ- лений и(/)ей на
78 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Определение. Рассмотрим систему управления Неисход- ной точкой х0 и со множеством допустимых управлений u(f)cQ на Пусть через x(f) обозначаются соответствующие решения, проходящие через точку х (t0) = х0. Множеством дости- жимости К й, х0, t±) назовем совокупность всех концов траекторий х (/х) в Rn. Обычно для краткости мы будем опускать все величины, кроме конечного момента времени tt в обозначении множества достижимости Для удобства положим /С (Q = x0. Заметим, что К. (И, й, х0, /0, <х) есть просто результат сдвига К (<2, й, 0, /0, на вектор Ф (Q х0. Поэтому геометрия мно- жества достижимости К (3, й, х0, ^0, tt) не зависит от начальной точки х0. Для автономных линейных систем имеет значение лишь разность —/0, поэтому мы будем обычно полагать to = O. Ограничивающее множество Й будет, как правило, выпуклым и компактным. Оно может, например, представлять собой /«-мер- ный куб | иг1 1, i=l,2, ..., т. В приложении к этой главе мы докажем следующую теорему (предполагая для простоты доказательства множество й выпуклым, хотя эта теорема остается верной и для произвольного компакт- ного множества й). Теорема 1. Рассмотрим линейную систему в R": x=A(t)x+B(t)u + v(t) с компактным выпуклым ограничивающим множеством й, началь- ным состоянием х0 и управлениями u(t), определенными на ин- тервале tQ t h- Тогда множество достижимости К (G) является компактным, выпуклым и непрерывно зависит от tt при Доказательство. Для того чтобы доказать, что множество есть компакт, т. е. замкнуто и ограничено в Rn, покажем, что из любой последовательности точек хг (/х), х2 (fx), ..., хг (/х),... в/С(/х) можно выделить под последовательность, сходящуюся к неко- торой предельной точке х (/х) в К. (/х). Рассмотрим соответствующие решения хг (/) и управления иг (/) а й на /0 t /х для г = 1,2,3, ... По формуле вариации произвольных постоянных имеем t xr (t) = Ф (0 х0 + Ф (0 $ Ф-1 (S) [В (S) ur (S) + V (s)] ds, *0 где Ф(0—соответствующее фундаментальное матричное решение, такое, что Ф (/0) = I. Множество управлений и (t)cQ на t0 < t < tx является слабо компактным (в самом деле, множество всех функ- ций В (0 и (0 слабо компактно, что следует из леммы 1Л прило- жения к главе 2); поэтому существует подпоследовательность иГ( (О»
2.2 управляемость: множество достижимости 79 слабо сходящаяся к некоторому управлению и (f)<zQ на /0 t sC tlt так что t t lim J Ф-1 (s) В (s) uri (s) ds = (Ф-1 (s) В (s) и (s) ds. ‘**1, t. Пусть x(t)—решение, соответствующее управлению u(t). Тогда на интервале t0 t tx имеем t x(t) = Ф (0 х0 + Ф (0 $ ф-1 (S) [В (s) iT(s) 4- v (s)J ds = lim xri (t). t0 1 - “ Таким образом, lim xrj(/1)=x(Z1)€K(^i) i -> co и, следовательно, множество К. (t^ есть компакт. Для доказательства выпуклости К (tj) покажем, что отрезок (1- Х)х0(М + Ь*1(*1), соединяющий две точки х0 и (Q из К (^), весь лежит в К, (fj. Пусть и0(/)и ых(/)—управления, соответствующие решениям х0 (?) и хг(1\ Определим управления ux(/)c:Q на следующим образом: «х(О = (1-Х)«о(о+^1(П. Решение хх(0> соответствующее ux(t), имеет вид t хх (0 = Ф (0 х0+Ф (0 $ ф-1 (s) [В (s) их (s)+О (s)J ds. to Следовательно, {t X Ф (0 х0 + Ф (0 $ ф-1 (S) [В (S) Ыо (S) + V (s)J ds} + to ( t ч + А. < Ф (0 х0 + Ф (0 $ Ф-1 (s) [В (s) «! (s) 4- v (s)J ds > , to •* и поэтому A (^i) ~ (1—xo (^i) 4* ^xi (^i)> т. e. К (ti)— выпуклое множество. Будем теперь считать совокупность объектов (.S?, Q, х0, i9) фиксированной и изучим зависимость множества К. (ZJ от ti (fi > to)- Покажем, что для любого е > 0 найдется 6 > 0 та- кое, что расстояние между множествами К (ti) и К. (t3) становится
80 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 меньше е, как только —/21 < 6, т. е. мы покажем, что соот- ветствие t —> к (t) для t > t0 есть непрерывное отображение действительного луча в метрическое пространство, образованное непустыми компактными подмножест- вами в Rn (см. приложение 1 главы 1). Здесь под расстоянием между множествами (fj и К. (t2) понимается нижняя грань всех 8 > 0 таких, что каждая точка множества К (t2) находится не далее, чем на 8 от некоторой точки К (ti), так же как и каждая точка не далее, чем на е от некоторой точки Пусть u(t)cQ—управление с соответствующим решением x(t) на ин- тервале t0 < t С /j +1. Тогда для < tt, t2 < ti + 1 имеем х (t2) —х (ti) = Ф (t2) $ ф-1 (s) [В (s) и (s) + v (s)] ds— ^0 tx — Ф (t2) J Ф-1 (s) [B (s) u (s) + v (s)] ds+ f c - I + [Ф (ts)—ф (01 п ф (s)“x lB (s) « (8) + V (S)] ds 4-x0 J. На отрезке t0 t С h +1 непрерывные матричные функции Ф (t) и Ф-1 (t) ограничены по норме, т. е. 1ф(01<^, |Ф(0-1|<с1» для некоторой постоянной Cv В силу интегрируемости | В (t) | и | v (t) | и ограниченности | и (/) | получим оценку G+i Rol+ $ |®-1(s)||B(s)«(s) + v(s)|ds< С2. to Поскольку интеграл есть непрерывная функция пределов инте- грирования $ф-!(8) [B(s) n(s) + t>(s)]ds И Iф (О-Ф(^) ICI S A (s) ®(s)ds | < для заданного 8>0 и |/ — tx| <6, если 6 выбрать достаточно
2.2 управляемость: множество достижимости 81 малым. Таким образом, для |4—41 имеем I г - I Iх(4)-х(4) | < |Ф|• | $ Ф'1 (s) [В (s) и (s) + v (s)] ds I + G + 1 + |Ф(4)~Ф(4)|[ $ |Ф-Ч8)| |B(s) a(s) + v(s)|ds+ |х0|] to I X (4) X (4) | < + C2 • 2£^ 8« Теперь пусть точка x (4) £ К (4) соответствует управлению и (t) на t0 < t < tx. Определим u (/)c Q на t0 < t < tt + 1, приписав ему значения u(f) = u(t^ на 4С*С4+Ь и пусть %(/) будет соот- ветствующим ему решением. Тогда х(4)€ Д(4) и |х(4)—х(4)| <8. С другой стороны, если х(4) есть точка из К (4), соответствую- щая управлению u(t) на то снова продолжим u(OcQ на интервал 4^ *^4+Ь и получим |х(4)—х(41|<8. Приведенные выше рассуждения показывают, что расстояние между Д(4) и Д(4) будет меньше 8, как только |4—41 <6, где 6 > 0 зависит от в и 4- Аналогично можно показать, что расстояние между Д(4) = х0 и Д(4) меньше 8, если |4—41 достаточно мало. Таким образом, К (4) непрерывно зависит от момента времени ^>4 Теорема доказана. Следствие. Если Р—внутренняя точка множества Kitj), то существует окрестность N точки Р и 6 > 0 такие, что любое множество К. (t2) при 14—41 < ® содержит N внутри себя. Доказательство. Пусть х0(4), Xj(4), .... х„(4)—веР‘ шины n-мерного симплекса 3 (выпуклой оболочки множества, состоящего из n-j-l независимой точки1)), лежащего внутри мно- жества Д(4); Р—центроид этого симплекса, a N—внутренность симплекса, полученного из данного уменьшением всех длин вдвое. Пусть соответствующие управления п0(/), ..., u„(t) про- должены на интервал 4 t 4 + 1 • Выберем 8 > 0 столь малым, чтобы любой n-мерный симплекс Qo, Qi, Q2, •••, Q„, такой, что |Qf—xz(4)|<8, содержал N в своей внутренности. По теореме 1 существует 6 > 0 такое, что неравенства |х;(4)—xz(4) | < е, i = 0, 1, ..., п, выполняются при 14—41 <6- Поскольку А(4) содержит х0(4), .... х„(4) и явля- ется выпуклым множеством, то и множество N должно нахо- диться внутри Д(4). г) Точки Л40, Л4, ..., Мп в независимы, если векторы ....Ai0Af„ образуют линейно независимую систему. (Прим, ред.)
82 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Замечания. В теореме 1А приложения к данной главе до- казано утверждение теоремы 1 и ее следствие, без требования выпуклости множества й. Выпуклость й не гарантируется в даль- нейшем изложении и поэтому мы будем использовать теорему 1А. Действительно, в теореме 4 нам придется иметь дело с ограничи- вающими множествами й, которые вовсе не являются выпуклыми. Часто бывает необходимо выбирать управления u(t), лежащие на границе дй множества йс/?т. Вообще оптимальное управле- ние, как это будет показано ниже, обладает такими экстремаль- ными свойствами. Это будет следовать из того геометрического факта, что конечная точка х*(/*) оптимальной траектории х*(/) на Zo < / < находится на границе дК (Р) множества достижи- мости К (/*). Точнее, мы покажем, что х* (?) лежит в той части дК (/*)» которая не входит ни в какое множество К (0 для Определение. Пусть /С(/J — множество достижимости для процесса S? с начальным состоянием х0 и управлениями и(£)ай на Будем называть точку РедК(^) лежащей на новой границе К W) в том случае, если Р не принадлежало никакому множеству К (/) для /0 t < tlt т. е. ’» ре [дк^)~ Ниже мы будем исследовать управления и (t) на t9 t tlt которые переводят х0 в точки, лежащие на границе дК (Л)- Такие управления, называемые экстремальными, в основном определяют геометрию множества K(t) и играют важную роль в решении задачи оптимального по быстродействию управления системой S. Определение. Пусть u.(t) (t9^.t «С W—управление для линейной системы (,?) х — A(f)x + B(f)u + v(f), принадлежащее ограничивающему подмножеству йсй®, а х9— начальное состояние системы в момент t9. Если конечная точка х (ZJ соответствующего решения х (/) лежит на границе дК, (/х) множества достижимости К то и (t) называется экстремальным управлением, а х (/)—экстремальным решением на отрезке /0< Wi. Для того чтобы дать аналитическое выражение условия экстре- мальности, обратимся к линейной системе дифференциальных уравнений х — A (t)x и к соответствующей сопряженной системе П = — MW- Здесь л (0—«-мерный вектор-строка. Каждое решение последнего
2.2 управляемость: множество достижимости 83 уравнения имеет вид ц (/) = т]0Ф_1 (0, гДе Ло—постоянный вектор, а Ф(0 фундаментальное матричное решение системы х = A(t)x с Ф(^о) —Эту формулу для я (0 легко проверить непосредст- венной подстановкой т](/) в систему. Она дает решение системы, удовлетворяющее начальным условиям т] (/0) = т)0. Если т|0 Ф 0, то решение r](f) будет нетривиальным, т. е. не будет обращаться в нуль на интервале Если A(t) = A—постоянная матрица, то т) (/) = т]ое_(/_/«) А. Следующая теорема 2 дает нам основной аналитический аппа- рат теории оптимального по быстродействию управления линей- ными процессами, и является эквивалентом принципа максимума Понтрягина для этого случая. Теорема 2 утверждает, что управ- ление будет экстремальным, только если оно максимально (в смысле главы 1), что дает нам возможность в дальнейшем изложении обойтись без выражения «максимальное управление». Теорема 2. Рассмотрим линейный управляемый процесс в Rn (.S’) х= A(t)x+B(t)u + v(t) с компактным ограничивающим множеством Q и начальным поло- жением х0 в момент t0. Управление u(t)cQ (tg^.t^.t,) является экстремальным тогда и только тогда, когда существует нетри- виальное решение i\(t) системы т) = — такое, что для почти всех t из интервала tg^.t^.t1 имеет место равенство Я (/) В (t) и (/) — max ц (/) В (/) и. «ей Доказательство. Предположим, что управление u(t) (/# t экстремально и, следовательно, переводит х0 в х (/х) € С дК (/х) по траектории t х (0 = ф (О х0 + Ф (/) $ Ф-1 (S) [В (S) и (s) + V (s)] ds. to Поскольку К (ti)—выпуклый компакт, то существует гиперплос- кость л, опорная для К (Q в граничной точке x(/j). Пусть t|(/j)—единичный вектор внешней нормали к плоскости л в точке x(Q. Определим нетривиальное сопряженное решение т)(0 = П<>Ф"1(0» П(^) = П0Ф~1(^1)-
84 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 Затем вычислим скалярное произведение векторов т](/) и х(/): t П (/) х (0 = Vo + 5 П (s) [в (S) и (s) + v (s)] ds. ^0 Предположим теперь, что т] (t) В (0 и (/) < max п (О В (0 и ueQ на некотором ненулевом промежутке времени из интервала Определим управление и на так, чтобы выполнялось соотношение Я (/) В (/) и (t) = max п (t) В (t) и «ей (по поводу измеримости u(t) см. леммы 2А и ЗА приложения к настоящей главе). Тогда для соответствующего решения x(t) в Rn будем иметь *1 ti П (/х) х (tj = ПЛ + $ П (s) В (s) й (s) ds + Я (s) v (s) ds. » to to Поскольку ft <1 $ n (s) В (s) и (s) ds < J t] (s) В (s) и (s) ds, t0 to TO < n &)*&)• Но это неравенство противоречит построению вектора т) (#х) как внешней нормали к плоскости л в точке х(^). Действительно, оно показывает, что точка х(/х) отделена от множества K(ti) плоскостью л, что невозможно, так как х(/х) €К(/Х). Отсюда заключаем, что Н (/) В (t) и (t) — max т] (/) В (/) и иеа почти всюду на t0 t tv Обратно, предположим, что для некоторого нетривиального сопряженного решения п(О = '*1о<1>_1(О управление u(f)cQ удов- летворяет условию П (I) В (i) и (t) = max п (t) В (/) и UGQ почти всюду на Требуется показать, что соответствую- щая траектория x(t) оканчивается в граничной точке множества A(Q.
2.2 управляемость: множество достижимости 85 Предположим, что x(Q—внутренняя точка К^). Для соот- ветствующего сопряженного решения q (f) рассмотрим точку x(tj) из К (О> такую, что nGiWi) < П 01) х(1г). Пусть м(/)сй есть управление, которому соответствует траекто- рия %(/) Согласно предположению q (0 В (t) u(t)^.i\ (t) В (t) и (/) = шах q (t) В (t) и почти всюду на t0 t /х. Как и выше, найдем и придем к противоречию. Следовательно, Теорема доказана. Содержание теоремы 2 можно пояснить следующим образом. Если траектория x(t) приводит в граничную точку множества /С(/х), например, в его «юго-восточный угол», то движение почти всегда происходит в этом «юго-восточном» направлении с макси- мально возможной при заданных ограничениях скоростью. Однако движение вдоль решений системы S имеет свои особенности локально-геометрического характера, ибо в каждой точке х(0 соответствующее «юго-восточное» направление указывается пере- менным вектором т](/). Эти замечания мы выразим более точно в виде следствий из теоремы 2. Следствие 1. Пусть u(t)aQ —экстремальное управление системы S, с соответствующим решением x(t) и со- пряженным решением q(/), удовлетворяющими соотношению q (/) В (t) и (/) = max q (t) В (t) и ueQ почти всюду на Тогда на каждом подынтервале io t т < tv и (t) также будет экстремальным управлением с х (т) С дД (т). Далее, q (т) является внешней нормалью к опорной гиперплоскости nt для /С(т) в точке х(т). Доказательство. На подынтервале имеем q (/) В (t) и (/) = max q (t) В (f) и иеа почти всюду, и следовательно, u(t) экстремально на этом интер- вале, а потому х(т)£д/С(т). В теореме доказывается, что q(T)x(T)<q(x)x(T) для любой траектории х(т) на Пусть лх—гиперплос- кость, проходящая через точку х (т) и имеющая вектор q (т) своей
86 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 нормалью. Записанное выше неравенство показывает, что мно- жество Д (т) не содержит точек из того полупространства, в кото- рое направлен вектор т|(т)- А это означает, что является опорной гиперплоскостью для Д(т) в точке х(т). Следствие 2. Пусть K(f) (на интервале есть множество достижимости управляемого процесса Если для некоторого момента времени т из интервала t0 т tx множество К (т) имеет непустую внутренность, то множество К (t) будет иметь непустую внутренность для всех t из интервала т t ty. Доказательство. Пусть x(t) есть решение, точка х(т) которого принадлежит внутренности множества Д(т). Если бы точка х (f) для значения t из интервала т «С t Д была граничной точкой множества K(t), то вектор-функция x(t) была бы экстремальным решением. Но тогда точка х(т) лежала бы на границе множества Д(т). Поэтому x(t) на интервале должна быть внутренней точкой множества Д(Д. В теореме 2 показывается, что управление u(t) на переводит х0 в некоторую точку границы дК. (t^ множества К (Д) лишь в случае, когда т| (t) В (f) и (t) = max т] (f) В (t) и п. в. (почти всюду) ueQ для соответствующего сопряженного решения т](Д. Часто бывает так, что для каждой граничной точки Ру £ дК. (Д) существует единственное экстремальное управление и (t) £ Q (t0 t Д), пере- водящее х0 в Ру. Определение. Рассмотрим линейную управляемую систему (Я) х= A(t)xA-B(t)u-\-v(t), с ограничивающим множеством Q и начальным положением х0 в момент времени t0. Определенная таким образом задача назы- вается нормальной, если любые два управления Uy(t) и u2(t) (to^t^.t^, переводящие х0 в одну и ту же граничную точку Py^dKAt^, совпадают почти всюду. Теорема 3. Рассмотрим линейную систему в Rn х = A (t) х+В (t) м + у (t) с компактным ограничивающим множеством Q и начальным поло- жением х0 в момент времени t0. Задача (S, Q, х0, Д, Д) будет нормальной тогда и только тогда, когда выполнено следующее условие единственности: для каждого нетривиального решения т] (t) уравнения г] = — т]Л (t) и для любых двух управлений щ (t) и u2(f)c£i, удовлетворяющих условию г] (t) В (t) Uy (t) = т] (/) В (/) (t) = max г) (t) В (t) и п. в. и € Q
2.2 управляемость: множество достижимости 87 управления и± (f) и и2 (/) совпадают, т. е. иг (t) = и2 (0 почти всюду на интервале Если задача является нормальной, и если множество й содержит более одной точки, то множество достижимости K(t^ будет строго выпуклым-, тем самым, К (0) является компактным выпук- лым множеством с непустой внутренностью. Доказательство. Если множество й состоит из одной точки, то все управления равны между собой, и теорема, оче- видно, верна. Предположим теперь, что множество й содержит более одной точки. Пусть задача (J?, й, х0, /0, нормальна; покажем, что мно- жество К (0) строго выпукло. Предположим противное: пусть существует опорная гиперплоскость л, такая, что множество л П К (0) содержит более одной точки, а следовательно, содержит целый отрезок L. Пусть ua(t) и иь (/)сй переводят х0 соответ- ственно в концевые точки Ра и Рь отрезка L. Для любого измеримого подмножества De 3 рассмотрим дейст- вительный 2п-мерный вектор w (D) — Ф-1 (s) В (s) иа (s) ds D J Ф'1 (s) В (s) ub (s) ds где Ф(з), как обычно, фундаментальное матричное решение. Век- торнозначная функция множества w (D) принимает, вообще говоря разные значения. Так, например, w(3) = и ау(0) = О' О . J где 0— пустое множество. Ляпуновым показано (лемма 4А при ложения к этой главе), что существует такое множество D.ba.3 для которого «’(^•0 = Г//2 щ(5'-Р.в) = >о/2‘ гь/2 И Поскольку Pa=j£=Pb, то ra=£rb, и поэтому ни D.it ни 3—D.b не могут быть нулевыми множествами. Определим управления иг и и2 следующим образом: (О при W1 ~ (МО ПРИ t$3—D.b, = ПрИ l^3~~D*’ Ма ~\ub(t) при
88 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 I Тогда решение %! (О, соответствующее управлению Uj (0, имеет вид (0 = Ф &) х„ + Ф (/х) $ Ф(s) [В (з) иа (s) + v (s)]ds + D-. + Ф(^) $ ФЧ(«)[В(3)«6(3) + О(5)]^. Несложно показать, что х1(/1) = уРв4--^Р6, т. е. точка хх (fj есть , середина отрезка L. Решение, соответствующее управлению «2(0> также содержит точку х2 (/J = х1 (/х)=у Ра+у Рь. В силу нор- мальности задачи «1(0 = ««(О почти всюду на 3. Однако это оз- I начает, что ua(f) — иь (t) почти всюду на В5 и на 3— D.t. Но, | по предположению, Ра и Рь—разные точки отрезка L. Итак, мы | пришли к противоречию, и строгая выпуклость множества K(fx) I доказана. ! Пусть т] (0—нетривиальное сопряженное решение, и пусть л— | опорная гиперплоскость для строго выпуклого множества К(/х) 1 с внешней нормалью т]^). Если йх(0 и й2(0—любые два управ- и ления, Удовлетворяющие условию | т) (0 В (/) (t) = к] (t) В (?) й2 (?) = шах т] (?) В (?) и п. в. | и ей то оба эти управления переводят точку х0 в одну и ту же точку Рх из множества ллК(?х). В силу нормальности задачи j йх(?) = й4(?) почти всюду на 3. Обратно, предположим, что условие единственности теоремы 3 выполнено. Пусть Р£д/С(?х) и пусть я(0—нетривиальное сопря- женное решение, а вектор т]??х) является внешней нормалью к опорной гиперплоскости л к K(t^ в точке Р„ Пусть ых(?) и u2(t)(zQ—управления, переводящие х0 в точку Рх. По теореме 2 Я (?) В (?) «1 (?) = я (?) В (?) и2 (?) = max т| (?) В (?) и п. в. и € Q и из условия единственности вытекает желаемый результат: «1 (0 = «а (0 П. В. I Следовательно, задача (J?, Q, х0, ta, tr) является нормальной. 5 Теорема доказана. • Следствие. Если задача , 2, х0, ?0, Q нормальна, то для - любого т из интервала ?0 < т < ?х задача й, х0, tb, т) также будет нормальной. Доказательство. Предположим, что управления u^t) и и2(/), заданные на интервале переводят х0 в одну и ту
2.2 управляемость: множество достижимости 89 же точку Р0£дК(т). Тогда, используя соответствующее нетриви- альное сопряженное решение л (О, получаем т] (О В (О (/) = я (О В (0 ut (/) = max т] (t) В (t) и почти всюду на интервале Продолжим решение t\(t) на весь интервал t0 t tlt считая вектор л (t) внешней нормалью к опорной гиперплоскости щ для множества /С (0- Выберем уп- равление u(t)£Q на интервале т < t tx так, чтобы выполнялось соотношение Я (t) В (0 и (/) — max т] (/) В (/) и UGQ и затем продолжим ых (/) и иа (/) на весь интервал т t tlt полагая их равными на интервале т < t С Тогда иг (t) и и2 (/) переводят х0 в одну и ту же точку Р^К (^i)- По теореме 2 «х (/) и и2 (0 являются экстремальными управлениями, а следовательно, Рх€дК(/1). Однако (J?7, й, х0, /0, ^i)—нормальная задача, а зна- чит, «1(0 = (0 почти всюду на Поэтому и („S’, й, х0, t0, т)—нормальная задача. Замечание. Теорема 2 показывает, что управление «(0 (*0</</i), экстремальное для некоторой начальной точки х0, будет экстремальным_и для любой другой начальной точки 70, т. е. и(0 переводит х0 в граничную точку множества К(0, х0). Аналогично, теорема 3 показывает, что если („S’, й, х0, /0, — нормальная задача, то и задача (.S’, й, х0, t0, /х) лля любого другого начального положения хо С R" также будет нормальной. Позднее в этой главе мы продолжим исследование условий нормальности в связи с задачей синтеза оптимальных управлений. Используя первые три теоремы этой главы, мы убедимся, что свойства множества К(^), установленные в теореме 1, связаны с существованием оптимального управления, что теорема 2 опи- сывает и характеризует оптимальные управления как экстремаль- ные управления и что из теоремы 3 следуют теоремы единствен- ности, необходимые для синтеза оптимальных управлений. Следующая теорема показывает, что всегда можно ограничиться рассмотрением тех управлений и(()сй, которые лежат на гра- нице дй множества й. Для доказательства нам потребуется тео- рема 1А приложения к этой главе, так как придется рассмат- ривать в качестве ограничивающего множества множество й, не являющееся, вообще говоря, выпуклым. Поскольку управления и (/) £ дй часто реализуются физически при помощи механизмов, мгновенно переключающихся из одного крайнего положения на другое, то теорему 4 обычно называют общим принципом релейного управления (the general bang-bang principle).
90 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 Теорема 4. Рассмотрим линейную систему в Rn: С&) x = A(t)x+B (t)u-j-v(t), с компактным ограничивающим множеством й и начальным поло- жением х0 в момент времени f0. Пусть й0—компактное подмно- жество множества Й, выпуклая оболочка Н (Qv) которого совпадает с выпуклой оболочкой Н (й) множества й. Пусть есть множество достижимости для управлений ы(/)сй, определенных на интервале о Ко(О)—соот- ветствующее множество достижимости для а(/)сй0. Тогда мно- жество К(0) будет компактным выпуклым множеством, и Доказательство. По теореме 1А приложения к главе 2 множество /С(0) является выпуклым и компактным. Кроме того, в той же теореме доказывается, что во всех случаях, когда огра- ничивающее множество совпадает с одним из множеств Й, Й„ и Н (й), множество достижимости не меняется и совпадает с К(0)- Теорема доказана. Следствие 1. Пусть й0 = дй (й—ограничивающее множе- ство). Тогда соответствующее множество достижимости Ко(О) совпадает с K(t^. Следствие 2. Если й—выпуклый многогранник, а Йо—мно- жество его вершин, то Ko(t^=K{t^. Пример. Пусть для линейного процесса ограничивающее множество представляет собой m-мерный куб i=l, 2.....т. Пусть й0—совокупность его вершин. Тогда каждую точку из К(0) можно достичь, применяя релейное управление u(t), для которого | и1 (/)| = 1 при t sC tf Рассмотрим, однако, случай т=\, т. е. скалярную задачу x=b(t)u, — где b (t) = t* sin у и b (0) = 0 так, что b (t) С С1. Пусть х0 = 0, /0 = 0 и = 1. Тогда К (Q будет компактным интервалом — а < а= 1 = J | Ь (t) | dt. Заметим, что точки хх = а можно достичь лишь с О помощью управления u(t), имеющего бесконечное число переклю- чений на 1, а именно, в те моменты времени t, в которых 6(0 = 0. Этот пример показывает, что совокупность переключе- ний релейного управления вовсе не обязана быть конечной или иметь простую структуру.
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 91 2.3. Управляемость и устойчивость автономных систем Рассмотрим автономную систему (J?) x—Ax-j-Bu с действительными постоянными (п х и)-матрицей А и (пхт)-ма- трицей В. Мы предполагаем здесь, что начало координат х = 0 является положением равновесия для свободной, или неуправля- емой системы, для которой и = 0. Более общая автономная линей- ная система во многих случаях может быть приведена к такому же виду с помощью параллельного переноса осей координат в про- странствах х и и. В этом и следующем разделах мы будем зани- маться изучением управляемости, наблюдаемости и устойчивости автономных линейных систем; случай неавтономных систем разби- рается в упражнениях, а так же в теореме 6 главы 3. Мы не будем здесь накладывать никаких ограничений на управление, т. е. огра- ничивающим множеством £2 будем считать все пространство Rm. Наша задача—перевести систему из произвольной исходной точки х0 в произвольную желаемую точку за конечный промежуток времени. Определение. Автономная линейная система (J?) х = Ах+Ви с Q = Rm называется вполне управляемой (обладает свойством уп- равляемости) в случае, если для любой пары точек х0 и хх из Rn существует ограниченное измеримое управление u(t) на некотором конечном интервале 0</^^х, переводящее систему из точки х0 в точку хх. Следующая теорема дает удобный критерий управляемости ав- тономных линейных систем. Теорема 5. Автономная линейная система в Rn (.3?) х = Ах А-Ви, будет управляемой тогда и только тогда, когда ранг (пх пт)-мат- рицы [В, АВ, А*В....АП~1В] равен п. Доказательство. Предположим, что система 2! управляема, т. е. ее можно перевести из точки х0 в произвольную точку х, из R". Предположим, что при этом, вопреки предположению тео- ремы, rank [В, АВ, ..., А"-1В]< п. Тогда строки матрицы связаны линейной зависимостью, и сущест- вует ненулевой постоянный вектор-строка о такой, что о [В, АВ, ..., А"-1В]=0
92 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 ИЛИ vB = vAB = vAaB =... = vAn~1B = 0. По теореме Гамильтона—Кэли матрица А удовлетворяет своему характеристическому уравнению Ап = с1Аа-1 + сгАп~а+ ... +с„1, где сг, сг, ..., сп—некоторые действительные числа. Таким образом, vAnB = ctvAn~lB + ... + своВ = 0 и, по индукции, оЛв+*В = 0 для всех k — 0, 1, 2, 3, ... Отсюда = о [/+ Л?+-^j-+ ...] В = 0 для любого действительного t. Решение x(t), исходящее из точки хо = О и соответствующее управлению и (t), дается формулой t х (/) = eAi J e~AsBu (s) ds. о Поэтому vx (t) = J veA tt-^Bu (s)ds = 0 о для любого управления u(t). Таким образом, все траектории x(t) должны находиться в R" на гиперплоскости, ортогональной век- тору v. Однако это противоречит предположению об управляемости системы 3. Отсюда заключаем, что ранг матрицы [В, АВ, ... ..., Лв-1В] равен п. Обратно, предположим, что матрица [В, АВ, А2 В, ..., Л'!-1В] имеет ранг tv, докажем, что система S управляема. Пусть есть совокупность всех точек, в которые система может быть переве- дена из начала координат за промежуток времени 0 t 1 с помощью управлений, удовлетворяющих условиям |ы'|^1, t= 1, 2, ..., tn. Тогда множество будет компактным и выпук- лым в Rn. Предположим, что размерность множества меньше, чем п. Тогда существует единичный вектор v такой, что (1) \veA^~^Bu(s)ds = Q о для всех описанных выше управлений. Поскольку, если не считать ограничений на величину, управления u(i) являются произволь-
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 93 ными, то можно заключить, что (2) veA<l-s>B = 0, 0<8<1. При s=l получим vB = 0. Далее, дифференцируя равенство (2) по s и снова полагая 8=1, получаем vAB = Q. Продолжая этот процесс дифференцирования, выводим следующую цепочку равенств vB = vAB = vA*B = ... = vAn~1B = 0. Но это означает, что строки матрицы [В, АВ, ...,Аа~1В] ли- нейно зависимы, что противоречит нашему предположению, и зна- чит, размерность множества Ki равна п. Поскольку управление и(/) можно заменить управлением —«(/), то множество Ki симметрично относительно начала координат. Поскольку множество К® содержит открытое подмножество и вы- пукло, то оно должно содержать начало координат в своей внут- ренности. Если рассматривать управления, ограниченные условиями |и! |I, где 1= 1, 2, 3 ..., то соответствующие множества К® за- меняются на /KJ. Таким образом, множество достижимости К®, соответствующее точке х0 = 0, если не накладывать никаких огра- ничений на управления, будет представлять собой все простран- ство К". Рассмотрим теперь в качестве начальной точки произволь- ную точку х0 Rn- Тогда множество достижимости имеет вид К=елх0-|-К0, т. е. снова совпадает со всем пространством К”. Таким образом, система 2 управляема. Теорема доказана. Поскольку понятие управляемости автономной линейной си- стемы определялось нами геометрически, то свойство управляемо- сти никоим образом не зависит от выбора системы координат в Rn. Если мы произведем преобразование координат х — Рх, с действи- тельной невырожденной матрицей Р, то система 2 примет вид (2) х= Ax-f-Bu, где А = РАР~1 и В = РВ. Поэтому нам удобно ввести понятие линейной эквивалентности. Линейная автономная система (2) х — Ах + Ви называется линейно эквивалентной системе 2, если существует такая действительная постоянная невырожденная матрица Р, что А = РАР~* и В = РВ. Таким образом, линейно эквивалентные системы выражают одну и ту же физическую систему в разных координатах в пространстве Rn. Легко показать, что свойство управляемости инвариантно от- носительно преобразований координат, т. е. [В, АВ, А2 В, ..., = Р [В, АВ, Д2, ..., Ап~1В]
94 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 И rank [В, АВ, А*В, ..., Ап-Ч3] =гапк [В, АВ, А*В, ..., А'-'В]. Матрица [В, АВ, ..., ДП-1В] называется матрицей управляемости для системы «S’; ранг ее инвариантен по отношению к линейной эквивалентности. Для систем, обладающих свойством управляемости, управля- ющая функция может быть сделана непрерывной и сколь угодно гладкой без ущерба для ее управляющих качеств. Этот факт, ко- торый будет использован нами в теореме 8, доказывается в след- ствии. Следствие 1. Пусть система («S’) х=Дх+Ви обладает свойством управляемости в Rn. Тогда для любой пары точек хЛ и x^R" и любого произвольно малого интервала вре- мени 0 < / С существует гладкая управляющая функция и (I) € С” на интервале 0 <1Z переводящая систему из точки х0 в точку хГ Более того, для любого 8 > О существует управление и (/), удовлетворяющее ограничениям | и1 (t) | е, 11? (/) | ^ в, ... ..., (0 |^8 и переводящее систему 2 из начального положе- ния х0 в любую точку некоторой окрестности точки ел/«х0. Доказательство. Пусть /С»—множество достижимости, соответствующее начальной точке х0, интервалу времени 0 t (использование tr > 0 вместо = 1 не меняет дела) и ограничению на управления и (/)££“. Очевидно, что будет выпуклым мно- жеством. Поскольку любое ограниченное измеримое управление на можно равномерно аппроксимировать управлениями из С* (кроме, быть может, малых интервалов, на которых управ- ление равномерно ограничено), то Л® всюду плотно в R". Следо- вательно, /С« = Rn, и система может быть переведена из х0 в хх с помощью гладкого управления. Будем рассматривать теперь только гладкие управления и (f) € С“ на интервале удовлетворяющие условиям |и{(t) | 8, | и1 (t) | 8, ..., | (/)1 8. Пусть /С®—соответствующее мно- жество достижимости для начальной точки х0. Тогда /С^,—выпукло и симметрично относительно точки еА^х0. Если бы размерность Кга была меньше п, то существовал бы единичный вектор о такой, что v еА (s) ds = О о для всех допустимых управлений. Но отсюда следует, что 1>ел«1-5)В = 0 на интервале 0^s^/r Однако, как и при дока- зательстве теоремы, мы убеждаемся, что это противоречит управ-
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 95 ляемости системы 2. Отсюда следует, что Кг«, имеет размерность п и содержит внутри себя окрестность точки еА/1Хд, что и требовалось доказать. Понятие управляемости системы 2 играет важную роль при изучении области ё нуль-управляемости, т. е. множества тех точек в Rn, из которых система может быть переведена в начало координат за конечный промежуток времени с помощью допусти- мых управлений u(f), принадлежащих ограничивающему множе- ству QcRm. Область ё всегда связна; она будет открытой в том и только в том случае, если в ней содержится некоторая окрест- ность начала координат. Последнее утверждение непосредственно вытекает из теоремы о непрерывной зависимости решений систе- мы 2 от начальных условий х0 € Rn- Следствие 2. Рассмотрим автономную линейную систему в Ra: (j?) х=Ах+Ви с ограничивающим множеством QcRm, содержащим управление и = Ь в качестве своей внутренней точки. Тогда область ё нуль- управляемости является открытым множеством в R" в том и только в том случае, если система 2 обладает свойством управ- ляемости. Доказательство. Прежде всего заметим, что система 2 обладает свойством управляемости тогда и только тогда, когда таким свойством обладает система (2-) х = — Ах—Ви, поскольку матрицы [В, АВ, ..., Ап~1В] и [—В, АВ, —А2В, ... .... (— 1)” ЛИ-1В] имеют один и тот же ранг. Если управление и (/) переводит точку х0=0 в точку перемещая ее вдоль решения системы 2- на отрезке времени [О, /х], то управление u{tv—t) переводит точку хх в начало координат вдоль решения системы 2 за тот же промежуток времени. Отсюда следует, что множество достижимости /<_, соответствующее системе 2-, начальной точке х9 = 0 и управлениям и (f) <z й, в точности совпадает с областью # нуль-управляемости для системы 2. Итак, пусть система 2 (а следовательно, и система 2~) об- ладает свойством управляемости. Тогда, при дополнительном ог- раничении | и1 (t) | в для некоторого е > 0, соответствующее мно- жество КЕ_ содержит некоторую окрестность точки х0 — 0. Поскольку = то множество # содержит окрестность точки хо = О и, следовательно, ё является открытым множеством в R". Обратно, пусть ё—открытое множество в Ra. Тогда каждой точки С ё можно достичь, исходя из начала координат, двигаясь по решению 2- под действием управления из й. Следовательно,
96 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 # есть множество всех точек вида х = — еА <*~*йВи (s) ds, о где u(t)<=Q, а лежит в интервале О^^^оо. Предположим, что система «S’, не обладает свойством управляемости. Тогда существует единичный вектор v такой, что vB = v АВ—vA*B — ... = vA'^B = О, а значит, veAtB = О для любого действительного t. Но это означает, что область $ находится в гиперплоскости, ортогональной к вектору о, что не- возможно, так как # имеет непустую внутренность. Таким обра- зом, система S_, а следовательно, и система S, должна обладать свойством управляемости. Следствие 3. Рассмотрим автономную линейную систему в Ra: х=Ах-{-Ви с ограничивающим множеством QcRm. Предположим, что (а) и = 0 находится внутри £2; (б) система 2 управляема’, (в) матрица А устойчива, т. е. все собственные значения к матрицы А удовлетворяют условию Re к < 0. Тогда область нуль- управляемости ‘S совпадает с Rtt. Доказательство. Рассмотрим произвольную начальную точку Пусть на систему воздействует нулевое управление u(t)=O, пока соответствующая траектория x(t), приближаясь к точке хо = 0, не войдет в область <S. Но это означает, что тра- ектория х(/) может достигнуть начала координат за конечное время. Значит, т. е. 48=Rn, что и требовалось доказать. Если т— 1, т. е. В является вектором-столбцом Ь, то для си- стемы (<&) х—Ах+Ьи следующие три утверждения будут эквивалентными: (1) S обладает свойством управляемости; (2) rank [6, Ab, A2b, ..., Д',-1д1=п; (3) det [6, Ab, A2b, ... , A"-1 Z>] #= 0; (4) векторы b, bA, A4>, ... , A^b линейно независимы. Некоторые из этих элементарных критериев управляемости не годятся для т^2. Например, если взять 4 = 0 и В = 1, то
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 97 полученная система будет вполне управляемой, несмотря на то, что все столбцы матрицы АВ состоят из нулей. Таким образом, теория управляемости становится значительно более простой для случая т=1,|т. е. для скалярных управлений. Следующие че- тыре теоремы относятся именно к таким задачам управления. Часто линейным управляемым процессом в R" х = Ах+Ви с векторным управлением u(t)<=Rm можно эффективно управлять с помощью скалярного управления ц(0> если выбрать u(/)=qi(/), где с—постоянный вектор, а р (/)—скалярное управление. Тогда, обозначив через b постоянный вектор-столбец Вс, получим систему (jg\) x = Ax+bp со скалярными управлениями Такое сведение простран- ства управлений от Rm к R1 возможно практически всегда, кроме некоторых исключительных случаев; при этом свойство управля- емости системы остается неизменным. Возможность сведёния про- странства управления от Rm к R1 зависит лишь от жордановой формы матрицы А. Известно, что для любой комплексной (пхп)- матрицы А существует невырожденная комплексная матрица Р, такая, что РЛР-1 = (На§{Л1, Л2, .... Ak}, где каждая жорданова клетка ГХУ 1 О О Ху 1 О 0-] О О L0 О Ху 1 ОХу. / = 1,2, ... , k соответствует собственному значению Ху матрицы Л. Такая жор- данова каноническая форма матрицы единственна, с точностью до порядка расположения клеток А} вдоль главной диагонали. Если (п х п)-матрица Л имеет п различных собственных значений, то каждая клетка Лу=(Ху) будет (1 х 1)-матрицей. Матрица Л опре- деляет линейное преобразование комплексного n-мерного вектору ного пространства X в себя, причем каждой жордановой клетке Л- соответствует инвариантное подпространство Ху, в котором дейст- вует линейное преобразование Лу. Теорема 6. Рассмотрим автономную линейную систему (^) , х=Ах+Ви, x£Rn, u(f)czRm, обладающую свойством управляемости. Если любые две жордановы клетки матрицы А отвечают ее различным собственным значениям, Э. Б. Ли, Л. Маркуо
98 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 то существует такой действительный вектор с, что система (=2\) х = Лх + (Вс)р, y.ifyc.R1, является также вполне управляемой. В противном случае такого вектора с не существует. Доказательство. Если действительные матрицы А, В удовлетворяют условию полной управляемости rank [В, АВ, АгВ, ..А"-1 В]=и, то и комплексные матрицы А = РАР~1, В — РВ, где Р —невы- рожденная комплексная матрица, будут также удовлетворять этому условию. Пусть 4 = diag^lt Л2, ...,Ak} — жорданова каноническая форма матрицы А, где каждая из Aj является квадратной комплексной (п7 хп,)-матрицей вида Обозначим символом В строки матрицы В так, что ГРп 1 Р1»1 Pai Р«Ва Заметим, что щ-я строка матрицы А1 В имеет вид (^1)гР17г1 и в силу полной управляемости системы 2? 0ln, =# 0. Аналогично, ₽2„‘ 0, ... ...» Р^^О. Предположим теперь, что две какие-либо различные клетки, например, Лт и Л2, отвечают равным собственным значе- ниям, т. е. Х1 = Х2. Для такой матрицы Л и любого комплексного вектора b система х= Лх+ ftp (/) не будет обладать свойством управляемости при р^)_€J?1- Это сле- дует из того, что пг-я и пг-\-п2-я строки матрицы [b, АЬ,..., Ли-1д] равняются соответственно (blni, \blth, ..., Ь1П1) и (Ь2йа, X2fc2„,,...
99 2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ ..., и при \ = Х2 являются линейно зависимыми. Поэтому в этом случае система S не может быть сведена к обладающей свойством управляемости системе Обратно, предположим, что все клетки An . ..,АЙ соответст- вуют различным собственным значениям .... Выберем дей- ствительный постоянный вектор с так, чтобы для вектора Г b„ I Вс = Л = Ь1». Ki ^tn, выполнялись неравенства Л1И1 =#= 0, Л2„а #= 0,..., ЬкПк ¥= 0. (Этого можно добиться, взяв, например, элементы вектора b алгебраиче- ски независимыми над полем, порожденным элементами матрицы В.) Покажем, что тогда столбцы матрицы [Ь, А Ь, ..., А"~гЬ] будут линейно независимыми. Отметим прежде всего, что векторы b, (A—lkI) b, (А—\1)*Ь,.... (А—6 определяют в точности то же самое подпространство, что и век- торы Положим Ь, А Ь, А2 Ь, , А"*-1 Ь. I’Ll h = (A—'kkl)nkb= hti ^2п, т. е. h = А'Ч’Ь + линейная комбинация векторов {Л, А Ь, ... , А’- • -1 Ъ\. Тогда векторы h, (A—Kk.ll)h,...,(A—Xk.1l)^-t-ih определяют то же самое подпространство, что и векторы Л, АЛ, А«Л...................А»*-.-1 А. 4*
100 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Такими же вычислениями получим, что векторы b, (A—Kkl)b, (А-Ь.к1)*Ь, .... (Д— (A-%j)«*b, (Я—Vi)(4—М)"*£ • • •. (A—Vi /)п*->-‘(Л—К^Ь, (A-^lY>.. .(А-ХкГрЬ, (А-\/) (Д-М)"1.. • (А-Хк1)пк Ь, .... (А—%х Гр-1 (А—Ь31р ... (A—^Ip b определяют то же пространство, что и столбцы матрицы [b, АЬ, А'Ь,.... Д»-^. Последние пк строк векторов (Д—V)"*-1 b,.. .,(А—КкГ)2Ь, (A—Xkl)b, b образуют матрицу bknk 0 bknk 0 0 bknk , -0 0 0 ... Ькпк - у которой Ь*п*¥=0, а элементы под главной диагональю равны нулю. Заметим, что у вектора h последние пк элементов нули, и что ^Л-1, = Тогда легко вычислить, что векторы-столбцы (Д—М )”‘-1 (Л—[МГ • • • (Л—%*/)"» Ь,.... (Д—М) b, Ъ образуют треугольную матрицу с ненулевыми диагональными эле- ментами (%!—. (Хх—1Й)Л* Ь1Пу 0, ... , Ькпк #= 0. Поскольку определитель такой треугольной матрицы не равен нулю, то _ _ _ det [Б, АЬ...АВ-1Ь]^»О. Так как А = PAP-1 иЪ=Вс=РВс, то находим, что det [Вс, АВс, А*Вс, ..., А»-1 Вс] У= 0, так что система (J?x) х= Ах А-(Вс) и обладает свойствами управляемости при Теорема дока- зана.
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 101 В следующей теореме получена физически содержательная и с математической точки зрения удобная каноническая форма для управляемых процессов со скалярными управлениями. Теорема 7. Автономный линейный процесс х‘в)+а1х<”“1) + ... +а„х= и, и С R1 или соответствующая линейная система в фазовом пространстве Х1 = Х8 (й>) х"=— anxl— a„-t х*—... —а^Ц-и обладают свойством управляемости. Любая обладающая свойством управляемости система в Rn вида {2} х=Ах+Ви при управлениях u^R1 линейно эквивалентна системе вида S), Доказательство. Легко проверить, что для матриц условия вполне управляемости теоремы 5 выполняются. Рассмот- рим теперь вполне управляемый процесс 2. Определим действи- тельную невырожденную (пхп)-матрицу: Р = [Л"-1 Ь, Л»-8 &,..., A*b, АЬ, 6]. Введем новые координаты в R" преобразованием х=Р~*х, так что система 2 примет вид х= Р"1 АРх-{-Р~1Ьи. Непосредственным перемножением матриц проверяем, что 0 Ь = [Ап~*Ь, .... Ab,b] ... 0 Г 0 1 о или Р~*Ь = = Ьх и AP — PN или Р-1 АР = 7V, где # = г«1 а» 1 0 ... 0-] 0 1 ... о о L 1 J «»-t 0 0... 1 1_аж 0 0 ... 0.
102 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Постоянные ах, a2, ..., a„ однозначно определяются из разложения АпЬ — b + а2 Ап~2 &+...+ апЬ. Для системы ёТ> характеристическое уравнение соответствующей матрицы At имеет вид д;=—МГ1-МГа— • • • -ап/. Аналогично, применяя описанное выше преобразование координат Г 0 -] 0 к системе S), получим матрицы А и , если положить—ах= =av —a2 = a2, —ап = ап. Поэтому система 3? линейно экви- валентна системе 2). Теорема доказана. В следствиях из теоремы 5 мы изучали области нуль-управ- ляемости % для автономного линейного процесса S в простран- стве R", причем управления удовлетворяли условию и (f)a31ciRm. В следующей ниже теореме дается исчерпывающее описание того важного случая, когда область нуль-управляемости совпадает со всем пространством, т. е. когда можно, исходя из любой точки пространства, попасть в начало координат. Поскольку это будет уже не локальный, а глобальный анализ, то нам придется ввести некоторые предположения глобального характера относи- тельно 2 и Q. Теорема 8. Рассмотрим автономную линейную систему в Rn: (=?) х = Ax-j-bu, ugQ с компактным ограничивающим множеством QczR1, содержащим точку u = Q. Тогда область нуль-управляемости % совпадает cRn, если и только если выполнены следующие условия'. (а) система 3 обладает свойством управляемости', (Ь) все собственные значения А матрицы А удовлетворяют условию ReA^O. Доказательство. Если 2 не обладает свойством управ- ляемости, то в соответствии со следствием 2 из теоремы 5 суще- ствуют точки пространства Rn, из которых нельзя попасть в на- чало координат. Предположим, что матрица А системы 2? имеет собственное значение А с ReA>0. Тогда существует вещественное невырож- денное преобразование координат в Rn, у= Рх такое, что система 2 принимает вид где у = РАР~г у-\-РЬи, у1 = Ху1+Ьщ, если % > 0,
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 103 или + + t/2 = — P^ + a^ + M. если % = а+ф и а>0. Выберем начальную точку yQ£Rn так, чтобы yj было очень большим положительным числом (или чтобы число yf+yf было очень большим, во втором случае). Тогда > 0 (или (у1* + у2*) > 0 при t > 0 и любом управлении и из множества й. Таким образом, из точки уй нельзя попасть в на- чало координат под действием управления и (t)сй. Поэтому усло- вие % — Rn влечет за собой выполнение условий (а) и (Ь). Предположим теперь, что система 2 обладает свойством управ- ляемости и что для каждого собственного значения % матрицы А выполняется условие Rei^O. Покажем сначала, что можно ог- раничиться рассмотрением лишь случая, когда все собственные значения матрицы А чисто мнимые. Можно считать, что система 2 линейным невырожденным пре- образованием координат в Rn приведена к виду где каждое собственное значение \р матрицы Ар является чисто мнимым, а каждое собственное значение Х? матрицы Aq удовлет- воряет неравенству Re Х9 < 0. При нулевом управлении и (/) = 0 решения асимптотически устойчивой системы Xq := AqXq стремятся к х? = 0 при t—<--|-оо. Далее, если координаты xq вы- браны соответствующим образом, то радиальная составляющая скорости будет отрицательна, ^7 Xq Xq AyXq Xq для 0 Re Х^, и если в дальнейшем использовать управления и (t) с достаточно малыми нормами, то решение xq(t) будет оставаться внутри до- статочно малой окрестности Nq точки xq=0. Таким образом, если нам удастся, исходя из произвольной начальной точки, перевести обладающую свойством управляемости систему хр= АрХр+Ьри в достаточно малую окрестность Np точки хр = 0 с помощью уп- равлений u(t) с достаточно малыми нормами | и (/) |, то тогда из свойства управляемости системы 2 будет следовать, что %>=Rn. Поэтому можно свести нашу задачу к изучению такой вполне управляемой системы х = Ах + Ьи,
104 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 где матрица А имеет лишь чисто мнимые собственные значения. Нам надо показать, что такая система может быть переведена из произвольной точки x0£Rn в некоторую заданную заранее ок- рестность N точки х = 0 при помощи управления и (0 такого, что | и (0 | < 8 для ’ заданного 8 > 0. Этим завершится доказа- тельство нашей теоремы. В соответствии с теоремой 7, система 2 является линейно эквивалентной в R" системе S), определяемой следующим образом: (®) + + ... (D’ + Y,)x = «, где s>0, г^О—порядки дифференцирования, а т1( ..., — положительные постоянные; состояние системы определяется каж- дым из векторов (х, х, ..., х(п-1>) или (х, х', ..., х"-1). Рассмотрим сначала случай г = 0, s^l. Если $=1, то иско- мое управление легко построить (см. пример 1 главы 1). Более того, можно выбрать управление и (t) С С® на отрезке tQ t 0, переводящее систему из начальной точки х0 в точку xt = 0 так, что 1) и (0 = 0 в некоторой окрестности концевых точек t — ta и /=Л; 2) х\(0 = О в некоторой окрестности точки tv Эти ограничения накладываются на управления для того, что- бы можно было составить из них последовательность, сходящуюся к дифференцируемой функции. В оставшейся части доказатель- ства мы будем называть такие управления приемлемыми. Введем о-норму для управлений из С®: |и(О1о=|«(0Ц-|й(0|+... + |«(о)(0|; построение приемлемого управления u(t) с | и (01 „ в для задан- ных о^О и 8 > 0, переводящего систему Dx = u из произволь- ной начальной точки х0 в точку xt = 0, мы предоставляем читателю в качестве упражнения. Далее, считая, что такое приемлемое управление построено для системы Dx=u, применим математи- ческую индукцию, и будем считать, что существуют такие прием- лемые управления и для всех систем D'x=u, j = l, 2, ..., s—1. Рассмотрим систему] Dsx = и, которую мы разложим на две системы = | и Dg = «. Пусть ы(0—некоторое управление из С®, а х’(0, £(0 и г(0—соответ- ствующие ему решения с начальными условиями £0 = xis-1> и г0 = х0, zj1’=xJM, ..., z£s-s> =х?-2>. Заметим, что г (0 зх (0. Выберем сначала приемлемое управление «(0 на интервале 0 t 0 с ограничением | и (01 „ < 8, переводя щее систему D%=и
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 105 из начального состояния £0 = х^“1’ в конечное, состояние £х = 0. Это управление определяет также некоторое решение x(t) си- стемы Dsx = и, и переводит систему из состояния (х0, xj, ..., xj"1) в некоторое состояние (хх, х}, ..., xf“2, 0). Пользуясь предполо- жением индукции, найдем допустимое управление £ (/), определен- ное на интервале /х</</2 с ограничением |£(0L+i<e» пере- водящее систему Ds-1z = £ из состояния (хх, х}, ..., xsr2) в состояние (0, 0, 0). Положим теперь u(t)=Dl(t) на интер- вале /х < / /2; тогда и (/) будет приемлемым управлением на интер- вале переводящим вектор x(t) из начального положе- ния (х0, xj, .... Xs.'1) в конечное положение (0, 0, ..., 0), причем | и (/) 10 < е. Итак, заключаем, что для системы Dsx = и, s 1 всегда существует приемлемое управление и (/), для которого Iи (01 о < е> переводящее ее из любой начальной точки в начало координат (а:>0, «>0—наперед заданные числа). Теперь рассмотрим случай г 1, s — 0, так что система при- мет вид (Я* + Тх) (D* + ?2)... (£>2 + Тг) х = и. Для г = 1 используем метод, изложенный в примере 1 (раздел 1.2) и следствие 1 из теоремы 5 (глава 2) для построения приемле- мого (управления и (/) с ограничением | и (t) | „ < в, переводящего систему из заданного начального состояния в состояние покоя. Построение такого приемлемого управления мы вновь предлагаем в качестве упражнения. Пусть теперь г > 1, s = 0; снова приме- ним метод индукции. Запишем систему в виде (О» + ?2)... (D2 + Vr)2 = £, (D* + yJl = u, и рассмотрим некоторое управление и (t) 6 С" и соответствующие ему решения х(/), z(t), £(f) с подходящими начальными условиями ---- Y 5*1 —— 1*1 5г2Г-—3 у2Г—3 с0 ' л0’ ^0 — • • • > ^0 > £o = (Da + Y2)...(D2 + yr)x(0), £j = (£>2 + ?2) ... (D* + Tr)xJ(0), так что z(t) = x(t). Выберем сначала приемлемое управление u(t) на интервале 0 t /х с ограничением | и (/) | „ < 8, переводящее систему (О2 + у1)£=ы из положения (£., £J) в положение (0, 0). Это управление определяет решение x(t) системы S) и переводит ее из состояния (х0, xj, ..., х„г_1) в некоторое состояние (хх, х}, ..., ххг~1). Используя предположение индукции, найдем приемлемое управление £(/) на интервале с ограниче- нием | £ (/) | в+, < , переводящее вектор z (t) из начального
106 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 положения (xv х|, ...» хгг~3) в положение (0, 0, ..., 0). Положим и (t) = (D2 + уг) £ (/) на интервале tt; тогда и (t). является приемлемым управлением на интервале 0^/^/2, и переводит вектор х (0 из положения (х0, xj, ..., х2'-1) в положение (0, 0, , 0). Кроме того, ] g (/) | о+2 + Ti | В (01 „< е, откуда сразу следует, что Iи (01 е- Таким образом, при любых г 1, s = 0 для системы S) существует приемлемое управление и (t). Наконец, рассмотрим общий случай системы для г 1, s 1. Здесь положим (fH + Yi) ... (D* + Vr)z = £, = u и используем подходящие начальные условия для заданного управ- ления и(/)£С" и соответствующих ему решений x(Z), £(/), ?(/): — у* —1 ___ ^0 — л0» ^0 — л0’ • • • , *0 — л0 > I» = (О2+ ?!)... (Da + vz)x(0), ..., gs-1 = ps-i (D2 _|_ ?1) . . . (D* + Уг) X (0), так что z(f) = x(t). Сначала выберем приемлемое управление u(t) на интервале 0 t tt с ограничением | и (t) 10 < е, переводящее вектор Е (/) из положения (£0, ..., £s0-1) в конечное положение (0, 0, 0). Это управление переводит конец вектора x(t) из точки (х0, xj, ..., Xo'’+S~l) в некоторую точку (xv xj, ..., x2r+s-1). Выберем %(f) в качестве приемлемого управления на интервале t /2, переводящего вектор z (t) из положения (xlt хх, ..., х2'-1) в положение (0, 0, ..., 0) и удовлетворяющего ограничению | £ (/) |0+j < е- Положим и (/) = Dst (t) на интервале tt t tv Тогда и (/) является приемлемым управлением на интервале 0< * < Z2 с ограничением | и (t) | , < е, переводящим систему из состояния (х0, xj, ..., xjr+s-1) в состояние (0, 0, ..., 0). Теорема доказана для всех случаев. Следствие. Рассмотрим автономную линейную систему в R": (J?) х = Ах + Ви с компактным ограничивающим множеством Q а Rm, содержащим точку и = 0 внутри себя. Предположим, что никакие две жорда- новы клетки матрицы А не содержат одинаковых собственных значений матрицы А. Тогда область нуль-управляемости ё сов- падает со всем пространством R" в том и только том случае, если выполнены следующие условия: (а) система S обладает свойством управляемости; (Ь) все собственные значения А матрицы А удовлетворяют условию ReA^O. Доказательство. Если ё = R", то доказательство теоремы проводится совершенно так же, как и в случае т = 1. Обратно, если система 2 обладает свойством управляемости, и ReA^O,
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 107 то по теореме 6 мы можем заменить ограничивающее множество й некоторым компактным интервалом пространства R1, содержащим точку ы = 0. А тогда можно применить теорему 8, из которой следует, что ^=Rn. Если система (^) х — Ах + Ви обладает свойством управляемости в Rn, то ее можно, исходя из произвольной начальной точки х0, перевести в нулевую точку за конечный промежуток времени с помощью некоторого управления и (t) с Rm. Поведение такой системы резко отличается от ее пове- дения в случае, когда В = 0, т. к. тогда в силу устойчивости системы (все собственные значения % матрицы А имеют Re X < 0) все решения ее стремятся к началу координат при t— Определение. Автономная линейная система в Rn (J?) х = Ах -|- Ви называется стабилизируемой, если существует такое линейно зави- сящее от х управление u = Dx, что система х = Ах + BDx = (4 + BD)x устойчива, т. е. если найдется такая постоянная действительная тх «-матрица D, что действительные части собственных значений матрицы A-\-BD отрицательны. _ Если S и 3?—линейно эквивалентные системы, так что А = РАР-1_и В = РВ, и если 3?—стабилизируемая система, то и система 2 будет стабилизируемой. Действительно, если матрица (A + BD) устойчива, то и матрица P(A + BD)P-1 = A-f-BD (D = DP-i) также устойчива. Теорема 9. Рассмотрим автономную линейную систему в Rn (2) х=Ах + Ви с управлением и (t) с R1. Если система 2 обладает свойством управляемости, то она стабилизируема. Доказательство. По теореме 7 систему 2 можно заме- нить линейно эквивалентной системой вида х<п, + а1х(в-1>+... -\-апх — и, или х^х2, х2 = х8.....хл=—аус1—а„_1х^—...—а1хп + и. Возьмем произвольный постоянный вектор £)=(^л> •••» ^1)
108 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 и пусть и = djc1 н- . + drxn. Тогда наша система S) становится системой с обратной связью: +(^-<0 + ... + (a„-d„) X=0. В частности, можно получить устойчивую систему, если выбрать вектор D таким образом, чтобы характеристический многочлен имел вид %» + (ai_di)x»-i+ ... +(an_dn) = (X+ If; это можно сделать, полагая az—dt = (j^ при Теорема доказана. В последних двух теоремах этого раздела мы вновь вернемся к общему случаю многомерных управлений u(t)cRm, Мы изучим здесь некоторые, не обладающие свойством управляе- мости, системы, пытаясь либо выделить из них части, обладаю- щие управляемостью, либо аппроксимировать системами, облада- ющими управляемостью. Теорема 10. Рассмотрим автономную линейную систему в Rn: (d?) х = Ах+Ви. Существует единственное линейное подпространство С простран- ства Rn, такое, что (а) С—инвариантное подпространство для 2, т. е. каждая траектория системы, исходящая из точки, принадлежащей под- пространству С, целиком лежит в С и никакая траектория, начинающаяся вне С, не может привести в С. (Ь) если рассматривать только в подпространстве С, то си- стема 2 будет обладать свойством управляемости. Доказательство. Пусть С—множество всех тех точек в Rn, в которые система может быть переведена из начала коор- динат за конечный промежуток времени с помощью управлений u(t) а Rm. Покажем сначала, что С является линейным простран- ством. Пусть 0 < ti < /2; рассмотрим точки С: *1 xi (^i) ~ $ еА ’** (s) ds, о Хг (4) = $ (s)ds. о
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 109 В первом интеграле положим o = s-|-/2—tt и определим управ- ление следующим образом: 1 0 На 0 t ^2 — | Мп—Л + Q на /2—^<<т</2- Тогда *1 (*i) = $ еА и’~в) BUi (0)da и, следовательно, точки x1(i1) можно достичь из начала коорди- нат за время /2. Таким образом, линейной комбинации управле- ний U± (0 и м2 (0 на 0 < t < /2 соответствует аналогичная линей- ная комбинация точек хг{1^ и х2(/2). Следовательно, С является линейным пространством. Заметим, что множество С состоит из одной нулевой точки в том и только том случае, если 2? полностью неуправляемая система, т. е. если В = 0. В этом случае теорема верна, поэтому условимся считать, что размерность k подпространства С строго больше нуля. В силу конструкции пространства С никакая траектория си- стемы 2 из С не выводит. Ясно, что существует система коор- динат (х1, ..., х") в Rn такая, что подпространство С в R" задается уравнениями х*+1 = 0, ..., х" = 0, а система S может быть записана в виде Xi = Auxt + Д12х2 + BjU, Здесь мы использовали, что х2 = 0 на С. Заметим теперь, что ни- какая точка x = (xlt х2), для которой х2=/=0, не может быть пере- ведена в С, следовательно С—инвариантное подпространство. Будем теперь рассматривать систему 2? лишь на С, т. е. положим с) х2 = -AijXj+Вги, х2 = 0. Поскольку из начала координат можно попасть в любую точку С то на основании следствия 2 из теоремы 5 система 2?с обладает свойством управляемости в С.
по ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ Й ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 Пусть, наконец, С' есть любое инвариантное линейное под- пространство в Rn, в котором система S обладает свойством управляемости. Поскольку С инвариантно, то оно должно вклю- чать все точки, в которые можно попасть из начала координат, так что С с С'. Поскольку система S обладает свойством управ- ляемости в С', то из каждой точки С можно попасть в начало координат и, следовательно, С'а С. Поэтому С = С, и мы дока- зали единственность подпространства С, удовлетворяющего усло- виям (а) и (Ь) нашей теоремы. Тем самым теорема полностью доказана. Инвариантное подпространство С называется подпространст- вом управляемости для системы 2?, а система 2с—вполне управ- ляемой частью системы 2. Следствие. Пусть С—подпространство управляемости для системы (^) х = Ах 4- Ви. Тогда существуют координаты х — в Rn такие, что под- пространство С определяется в R" уравнением х2 = 0, а система 2 записывается в виде х1 Ахххх 4" А12хг 4* х2 == А22х2, Xi х2 . (Заметим, что хх = 0, причем размерность подпространства С совпадает с рангом мат- рицы [В, АВ, А2В, ..., Ап~1В]. Доказательство. Доказывая теорему, мы установили су- ществование требуемых координат х — если С = 0, т. е. если В = 0 и 2 полностью неуправляема.) Поскольку система 2С обладает свойством управляемости в С, то dim С = rank [Вх, AUBV А^В^ ..., A^i1B1]=k. Кроме того, rank[Bx, AUBV ..., =гапк[Вх, А11В1, ..., Однако АВ=| 0 I, 0</<п, где ГАи А1а1 ГВЛ [о 4J’ LOJ'
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 111 Поэтому _ dimC = rank [В,ЛВ,Л8В, .... А-ЧЗ] и из инвариантности ранга матрицы управляемости относительно линейной эквивалентности следует утверждение следствия. Теорема И. Рассмотрим автономную линейную систему в Rtt: С?,) х=ЛоХЧ-Вои. Если система обладает свойством управляемости, то сущест- вует такое 8Х > 0, что любая автономнаяЧшнейная система (J?) х=Ах-{-Ви, для которой |Л—ЛО|<8Х, |В—Во|<8, будет также обладать свойством управляемости. Если система S? не является вполне управляемой, то для любого в > 0 существует обладающая свойством управляемости система (.З^) i = A^+BjU, такая, что |ЛХ—Ло| <е, |ВХ—Во|<8. Таким образом, множество обладающих свойством управляемости систем открыто и всюду плотно в метрическом пространстве всех автономных линейных систем в Rn, где расстояние между системами определяется по формуле | Лх—Л0| + |В1—Во|. Доказательство. Если система З’о обладает свойством управляемости в Rn, то строки матрицы [Во, Л0В0, .... Л?-1В0] образуют систему из п линейно независимых векторов в про- странстве Я"*. Если |Л—Ло | < 8Х и |В—Во | < 8Х для доста- точно малого 8Х > 0, то строки матрицы [В, АВ, ... ,Л"-1В] должны аппроксимировать эти п векторов, и поэтому также должны быть линейно независимыми. Но тогда система (S’) х=Ах+Ви также будет вполне управляемой. С другой стороны, предположим, что система не является вполне управляемой. Для заданного 8 > 0 выберем такие мат- рицы Лх и Вх, чтобы | Лх—Ло | < 8, | Вх—Во | < в и чтобы элементы матриц Лх и Вх были алгебраически независимы над полем ра- циональных чисел (т. е. чтобы не существовало полиномиальной (имеется в виду полином с рациональными коэффициентами) связи между элементами матриц Лх и Вх—существование таких мат- риц Лх и Вх есть стандартное свойство арифметики веществен- ных чисел). Тогда rank [Вх, ЛХВХ, .... Л?-ХВХ] = п, поскольку ни один из (п хп)-миноров матрицы не может рав- няться нулю, так как каждый из них представляет собой
112 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 многочлен от элементов матриц Ах и Вг Следовательно, систе- ма обладает свойством управляемости. Теорема доказана. Несмотря на некоторую искусственность построений при до- казательстве теоремы 11, она имеет важный физический смысл. Из нее следует, что, вообще говоря, произвольно взятая авто- номная линейная система 3 скорее всего будет обладать свой- ством управляемости, т. е. управляемость является типичным свойством автономной линейной системы. В частности, для описа- ния реальной физической системы с приближенно известными параметрами всегда можно подобрать вполне управляемую си- стему S’. Однако иногда время, требуемое для приведения так подобранной системы в желаемое состояние, может быть столь велико, что выгоднее в качестве математической модели исполь- зовать систему 3, не обладающую свойством управляемости. Упражнения I. Для системы х=и, cfограничением | и (/) | 1 вычислить и изобразить множество достижимости К (к) для /1=1 и /1 = 2 с начальным положением хо = 0, хо = О; с начальным положением хо = О, х0 = 4. Указание: использовать теорему 2 и пример 2 главы 1. 2. Рассмотрите линейную систему в /?": (=2?) х = Л (0 х+В (/)«+»(/) с компактным ограничивающим множеством йс/?“ и начальной точкой х0 в момент /0. Точка называется вершиной множества К (/i), если через нее проходит несколько гиперплоскостей, опорных для К (/J. Пока- жите, что если точка x(/i) = P является вершиной множества К (/i), то точка х (т) будет вершиной множества К (т) для всех т таких, что /0 < т < ti 3. Рассмотрите автономную линейную систему х(п)+а1Х(й-1)+ . +апх=рти^+ ... +₽он, ₽т * 0. Покажите, что ее можно из любого начального состояния (х0, х0, • • • » *о<п”1)) перевести в состояние (0, 0, 0, ... , 0) за конечное время с помощью управ- ления 4. Рассмотрим автономную линейную систему в 7?": (J?) х=Ах-\-Ви с ограничивающим множеством содержащим точку tt = 0. (а) Покажите, что К (t2) для 0 < < /2» если в качестве началь- ной точки принять х0 = 0. [Указание: см. теорему 10.] (Ь) Покажите, что если множество Q выпукло и имеет непустую внутрен- ность, то внутренность множества К (/i) содержится в К» (/i). Здесь под К» (G) понимается множество достижимости для исходной точки х0 и управ- лений u(t)£Ca> в Q. [Указание: управление и (/) с: Q можно слабо ап- проксимировать управлением из С00, лежащим внутри Q.] 5. Для каких значений действительного параметра р система pil [2 Р-3] Rj Ь 2J 1 0j [а2 и1
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ ИЗ будет обладать свойством управляемости? Для каких р эту систему можно свести к обладающей свойством управляемости системе со скалярным управ- лением? 6. Рассмотрим автономную линейную систему в Rn: (X) х= Ax+Buf u£Rm. Если существует такой ненулевой m-мерный вектор w, что векторы Bw, ABw, A2Bw, , An~~1Bw линейно независимы, то система обладает свойством управляемости. Дока- жите это утверждение и приведите пример, показывающий, что обратное утверждение неверно. 7. Рассмотрим автономную линейную систему в Rn: (Jf) x — Ax-]-but u^R1. Пусть Л = Шаб{Л1, Л2, ... , Л*} —каноническая жорданова форма мат- рицы А, и пусть — соответствующий вектор t b, записанный, как в теореме 6. Докажите, что система <2? обладает свойством управляемости тогда и только тогда, когда выполняются следующие два условия: (а) никакие две клетки А^ и не имеют одинаковых собственных значений; (Ь) Ь1п^ 0, Ь2п* 9^ 0, ...» о* 8. В задаче Лурье—Летова из теории автоматического регулирования рассматривается линейная система в Rn\ (J?) х=Ах-\-Ьи с матрицей 4 = diag{%b %2, ••• » гДе все собственные значения X/ раз- личны. Покажите, что система линейно эквивалентна линейной системе с матрицей А=А и матрицей Г 1 “I 1 в том и только том случае, если система X обладает свойством управляе- мости. 9. В критерии устойчивости Рауса—Гурвица утверждается, что каждый корень X действительного многочлена Л« + а1Х«-1+...+ап=0 имеет отрицательную вещественную часть тогда и только тогда, когда > О,
114 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 k— 1, 2, ... Здесь а1 а3 аъ • • • а2Л-1 1 а2 а4 ... 1 Clt Uft 0 а3 ... а2£—з > » « Q II ел С? II 0 1 а2 ... a2k _ 4 0 0 ... йгЛ-5 0 0 0 ... ak где ak^Q. (а) Покажите, что если Re А «С О для всех корней А, то и для k~ 1, 2, ... , л. (Ь) Покажите, что если а^Ои для &=1, ...» л, то при л^З все корни А имеют отрицательную вещественную часть. Пример А4 + А2 +1 = О показывает, что это утверждение неверно при л = 4. 10. Покажите, что системы Dx — u и (D2-f-l)x = w обладают приемлемыми управлениями u(t) (в смысле теоремы 8), удовлетво- ряющими ограничению | и (/) j < 8, которые переводят их из произвольной начальной точки в начало координат. 11. Покажите, что автономные линейные системы (Я)\ х=Ах+Ви, обладающие свойством управляемости относительно скалярных управлений1) являются типичными в смысле теоремы 11. 12. Автономная линейная система в Rn (Jf) x=Ax+but u^R1 называется управляемой со сколь угодно малым управлением, если для любого 8 > 0 и любых двух точек х0 и Хх из Rn существует управление и (0, удовлетворяющее ограничению | и (t) | 8, которое переводит систему из состояния х0 в состояние Xi за конечный промежуток времени. Покажите, что система X будет управляемой со сколь угодно малым управлением в том и только том случае, если (а) £ обладает свойством управляемости; (Ь) каждое собственное значение А матрицы А является чисто мнимым. 13. Система из двух сцепленных пружин совершает в горизонтальной плоскости колебательное движение около положения равновесия. (Трение отсутствует.) Уравнения движения имеют вид х = — х), у = — k2 (у—х) + и, где х и у—отклонения свободных концов от их положений равновесия, > 0 и k2 > 0—коэффициенты жесткости пружин, a u(t) — управляющая сила, приложенная к концу второй пружины. Покажите, что такая система является управляемой со сколь угодно малым управлением (считать что движение происходит вблизи положения равновесия х=х=0, у = *у — ^). 14. Рассмотрим автономную линейную систему в Rn; (<S?) x=Ax-j~Bu х) См. теорему 6. (Прим, ред.)
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 115 с начальным положением xQ в момент /о = О и с компактным ограничивающим множеством Q. В предположении, что система обладает свойством управ- ляемости, множество И (Q) имеет непустую внутренность в а ранг мат- рицы В равен т, покажите, что компактное подмножество Z с Q обладает свойством «релейности», т. е. Kz (*i)333 (*i) Для всех 0 тогда и только тогда, когда Я(7) = Н(Й). [Указание: в теореме 4 утверждается, что из условия Н (Z) = H (Q) следует наличие у множества Z свойства «релейности». Для доказательства обратного утверждения предположим, что Н (Z) Ф Н (Q) и рассмотрим опорную гипер- плоскость л к Н (Q), не пересекающую множества Н (Z). Пусть тцВ — внешняя единичная нормаль к плоскости л при некотором гц. Возьмем точку (/J, в которой внешняя нормаль совпадает с гц. Это возможно, так как есть выпуклое тело и ранг матрицы В равен т. Тогда лю- бое управление uQ (t) cz Н (Q), переводящее систему из точки х0 в точку Ро, должно удовлетворять принципу максимума, а отсюда следует, что управле- ние u0(t) находится вне множества Н (Z) для всех t, близких к /J. 15. Пусть система х=Ах-\-Ьи обладает свойством управляемости, как в теореме 9. Покажите, что управление u = Dx можно выбрать таким обра- зом, чтобы собственные значения матрицы A-\-bD равнялись заранее задан- ным величинам (однако таким, чтобы матрица A-\-bD оставалась действи- тельной). 2.4. Управляемость и наблюдаемость Рассмотрим действительную автономную линейную систему (J?) х = Ах+Ви, где u£Rm—входной сигнал, или вектор управления, a x£Rn— решение, или вектор состояния системы. Может случиться, что лишь некоторые из составляющих вектора состояния или линей- ная комбинация его компонент имеют физический смысл, или вообще наблюдаемы. В этом случае описание системы дополняется уравнением наблюдения (6) со — Нх. Здесь Н—действительная постоянная (г хп)-матрица, определяю- щая наблюдаемый выход системы—r-мерный вектор со, завися- щий от n-мерного вектора состояния х. Совокупность уравне- ний S и 6, полностью описывающая зависимость выхода от входа, называется автономной линейной наблюдаемой системой. Пример. Рассмотрим систему х(л)+а1х(я-1)+ ... + апх = и, в которой наблюдаемым является лишь сам выход, но не его производные. Чтобы описать соответствующий процесс наблюдения,
116 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 надо к системе уравнений X1 1 о о —а, 0 о О добавить уравнение х» (О — [1 ... 0] О Для линейной наблюдаемой системы х= Ax-j-Ви, <л = Нх зависимость между входом и выходом дается формулой i со (t) = HeAt J e~As Bu (s) ds, о при начальных условиях хо = 0, / = 0. Если все составляющие вектора управления, кроме равны нулю, т. е. г 0 п “«-I о 1 =—ву на интервале О 8 и u(t) — O при остальных . значениях t, О j то , X a(t) = HeAt—\e~AsBejds при />в>0. В предельном случае, при в—*0, данная формула определяет решение, соответствующее единичному импульсу на входе системы, т. е. сигналу u(t) = d(t)ej (6(/)-функцию можно представить как
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 117 некоторую идеализацию ступенчатой функции, или, точнее, как некоторую меру с весом 4-1, сосредоточенную в точке / = 0). В пределе решение примет вид со (/) = HeAt Bej при t 0. Иначе говоря, элемент (», /)-матрицы W(t) = HeAtB при дает составляющую af(t) решения a(f), соответствующего импульс- ному сигналу и (0 = б (0 е}. Матрицей W (/) полностью опреде- ляются все связи между входом и выходом наблюдаемой системы. Действительно, для произвольного управления u(t) имеем t = (t—s)u (s) ds при f > 0, о где хо = 0 при / = 0. Поскольку соотношение между «(/) и ©(f) имеет вид свертки, то удобно применить преобразование Лапласа к функциям u(t) и <£>(/)• Обозначая их изображения через U (р) и Q(p), по- лучим матричную передаточную функцию Z (р) = L (W (t)) = e~pt dt. о Тогда соотношение, связывающее вход с выходом системы, примет вид Q(p) = Z(p)t/(p). Определение. Для автономной линейной наблюдаемой си- стемы (J?) х= Ах+Ви, матрица © — Н (х) при t^Q, пои t С 0 называется импульсно-переходной матрицей, или весовой матрич- ной функцией. Матрица, определяющая зависимость выхода от входа, СО Z (р) = L (W (0) = $ W (/) е-р* dt, о называется матричной передаточной функцией системы. В этом разделе мы убедимся, что весовая функция, так же как и передаточная функция, полностью характеризует все ас- пекты задачи наблюдения. В основной теореме 14 дается строгое оказательство точного соответствия между матрицами вида Z(p)
118 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 и процессами наблюдения. Сначала мы исследуем, какие из мат- риц Z(p) могут служить передаточными функциями; затем выде- лим два важных для приложений класса линейных процессов, а именно: класс вполне управляемых процессов, и класс вполне наблюдаемых процессов, а затем покажем, что эти классы в опреде- ленном смысле двойственны друг другу. В силу известных свойств матрицы eAt для постоянной (п х /^-мат- рицы А можно заключить, что HeAtB представляет собой (г х /и)-мат- рицу с элементами вида /°ea<cosp/ или /’e^sinf}/ (о = 0, 1, 2, 3,...) и действительными а, р, или конечными линейными комбинациями таких членов. Назовем такие (г х/и)-матрицы экспоненциально- полиномиальными матрицами. Теорема 12. Действительная г хт-матрица при U I 0 при t<Q является матричной весовой функцией для некоторого действи- тельного автономного линейного наблюдаемого процесса в том и только том случае, если является экспоненциально-полино- миальной^ матрицей. Далее, (гхт)-матрица Z(p) есть матричная передаточная функция для некоторой действительной автономной линейной наблюдаемой системы в том и только том случае, если каждый элемент матрицы Z (р) является действительной дробно-рациональ- ной функцией от р, степень числителя которой меньше степени знаменателя. Доказательство. Применяя элементарные формулы для преобразования Лапласа L (Ге** cos РО = (— 1)’ [(p_fa)2+p ] > L (t°eat sin ₽/) = (— 1)’ [ (P_a^+pa ] и обратные формулы L-1 = 777 Г/~~ iVTgg*l Для о>1, 0<р<о, \(р—ар J dtf L(°— О I J а также правила разложения на элементарные дроби, получаем, что 1FO(/) будет экспоненциально-полиномиальной матрицей тогда и только тогда, когда все элементы матрицы Z (р) являются дроб- но-рациональными функциями, у которых степень числителя меньше степени знаменателя. Таким обоазом надо доказать лишь первую часть теоремы.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 119 Поскольку весовая матрица для любой действительной авто- номной наблюдаемой системы имеет вид HeAtB (t 0), то матрица и ее преобразование Лапласа Z(p) должны иметь вид, указанный в теореме. Пусть теперь We (t) есть экспоненциально-полиномиальная матрица. Для доказательства теоремы мы должны построить автономную наблюдаемую систему, весовая функция которой вы- ражается через W0(t), как указано в теореме. Пусть ^о(О = (/,7(О). где /,7(0, пред- ставляет собой конечную линейную комбинацию членов вида /eeatcos0/ и Z’eetsinp/. Каждый элемент //7(0 является решением некоторого однородного линейного дифференциального уравнения с постоянными коэффициентами, например уравнения некоторого достаточно высокого порядка N. Следовательно, каждая из функ- ций Z,7 (/) представляет собой элемент фундаментальной (W х ^-мат- рицы решений eAti‘Cij, и если выбрать постоянные матрицы и С;7 соответствующим образом, то элемент lijit) будет стоять в левом верхнем углу. Построим теперь систему дифференциальных уравнений по- рядка Nrm, х —Ах, где А — diag {Ли, Л12, • •., А1т, Л21,..., Л2Я1, ..., Аг1,..., Агт}. Положим С = diag {Сп, ..., С1т,..., Сп, ..., Сгт} и рассмотрим матрицу eAtC = diag{eA^Cu, ..., eA™1Crm}, содержащую каждый из элементов Z,7(Z) в верхнем левом углу соответствующей клетки ел‘?С/7. Теперь остается выбрать постоян- ные матрицы Н и В± так, чтобы имело место'равенство Wtt(t) — HeAiCBl = HeAtB. В качестве таковых можно взять, например, матрицы, состоя- щие из 0 и 1, расположенных определенным образом. Так, для случая г = 2, /п = 3 надо взять /10.. .0110.. .0i 10...0i00.. .OiOO.. .0i00...0\ n ~ \00...0i00...0i00...0i10...0i10...Oj10...Oj ’ так, что [fpAtf* (^11* • • • * ; ^12* • • • * ; . . * ; 0 . . . 0 ; 0 • • . 0 I 0 0 t \0 ... 0 i 0 ... 0 ; 0 . . . 0 : Z?1* . . . * i Z2J* . . . * • /gg* • . . * / ’
120 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ Затем возьмем гл. 2 Г 1 0 0 [0 - 0 0 0 0 1 0 0 0 0 0 0 0 1 0 В - .2... 0 1 [ 0 Вх- ! 0 0 ! I 0 0 0 0 0 1 0 0 0 0 0 0 1 I 0 1 0 L. 0 0 0 J так, что HeAtCB1 = Rn lAi 4а 4а 4з J что и требовалось доказать. Теорема доказана. Рассмотрим автономную линейную наблюдаемую систему в Rtt: (j^) x = Ax-srBu, а = Нх. Постоянное линейное невырожденное преобразование в 7?" X = Рх позволяет преобразовать систему 2 к такому виду: (j^j х = Ах-\-Ви, а = Нх, где A = PAP~l, В — РВ, и Н = НР~\ Системы 2 и 2 являются линейно эквивалентными относительно линейного преобразования
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 121 х = Рх; линейно эквивалентные наблюдаемые системы имеют одни и те же характерные свойства. Например, весовые матрицы таких систем совпадают, поскольку они не зависят от координат х в R", т. е. W(f) = HeiA В = HP~tetpAP~lPB = HetAB, t 0. Из теоремы 10 следует, что любая линейная автономная система, наблюдаемая в Rn, (&) х=Ах+Ви, ®~Нх, линейно эквивалентна наблюдаемой системе канонического вид %! = Л х1Хх “Ь ^12^2 “I” Bjlt , х,=Л82х2 и со = Я1х1 + Hsxa. _ (Xi \ _ Здесь х=1 - )—координаты в Rn, а уравнение ха = 0 определяет \xi / обладающую свойством управляемости часть системы S, причем система 3 обладает свойством управляемости тогда и только тогда, когда совокупность координат х4 пуста, т. е. хх определяет все пространство Rn. Наблюдаемая система 3 называется пол- ностью неуправляемой (или свободной), если пусто множество координат xlt т. е. В = 0. Каждую систему можно разложить на систему, определенную на х, = 0: х1 = Л11х14-В1« (эта система обладает свойством управляемости), и на систему ха = Лих,—про- екцию системы 3 на подпространство хх = 0, которая полностью неуправляема. Таким образом, вполне управляемую наблюдаемую систему можно определить, как систему, не содержащую пол- ностью неуправляемой части. Аналогично можно назвать полностью ненаблюдаемой систему вида х= Лх+Bw, со = О, т. е. систему, у которой Я=0. Наблюдаемую систему, не имею- щую такой полностью ненаблюдаемой части, естественно назвать вполне наблюдаемой. Определение. Автономная линейная наблюдаемая система в Rn (J?) х= Ax-j-Bu, © = Ях называется вполне наблюдаемой, если она не является линейно
122 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 эквивалентной никакой ’системе вида т&ьг %1 = “Ь ^12*^2 Н“ -^1^, ==: </422^2 “F -^2^ И ~ (0 ==:: // 2^2> ' /* Xi \ Г] где x=l -1 1 и множество непусто.^ Заметим, что если система S? допускает такое представление с непустой группой координат х1г то сужение системы S на подпространство х2 = 0 (например, для ы = 0), имеет вид х1 = А11х1, <о = 0. Последняя система является полностью ненаблюдаемой. Ниже мы определим разложение произвольной линейной автономной системы на вполне наблюдаемую и полностью ненаблюдаемую часть, и покажем, что система 3 будет вполне наблюдаемой лишь в том случае, дели свободная система с и ж 0 не имеет нетривиального решения x(t), для которого бы со (0 = 0. Теорема 13. Автономная линейная наблюдаемая система в R” {3) х = Ах+Ви, а> = Нх является вполне наблюдаемой в том и только том случае, если двойственная динамическая система (•$?") х = А'х + Н'и, а> = В'х будет вполне управляемой. А это будет тогда и только тогда, rank \Н', А'Н', А'гН',... ,А'я-хЯ'] =п. Доказательство. Система 3 не является вполне наблю- даемой лишь в том случае, если существует такое преобразование координат х=|^1|=Рх (с непустой совокупностью коорди- ____ L лса J нат Xj), что А = РАР~Х = [ Л11 d12 1, L 0 А22 J и Я = ЯР-Х = (О, Я2). В = РВ = " Bi В.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 123 Но тогда под действием преобразования х = 5 = (в-i)' х - J коэффициенты системы S' примут вид Г Ап 0 1 L А'12 As* J и в'Р' = [в;, в;], p-i'H'= Г1 L я;] так что система S' будет неуправляемой. Аналогично можно показать, что если система S' неуправляема, то система S будет ненаблюдаемой. Итак, система S вполне наблюдаема в том и только том случае, если система S' вполне управляема, т. е. если rank \Н',А'Н',А'*Н'....А'п-1Н'] = п. Теорема доказана. Заметим, что система S' является двойственной к системе S и поэтому она вполне управляема тогда и только тогда, когда система S вполне наблюдаема. Отмеченное здесь свойство двой- ственности показывает, что теоремам об управляемости должны соответствовать двойственные к ним теоремы о наблюдаемости (см. ниже упражнение 4). Например, следующая лемма опреде- ляет ненаблюдаемую часть свободной наблюдаемой системы. Лемма 1. Рассмотрим линейную автономную систему (S) х = Ах, «> = Их, которая является полностью неуправляемой в Rn. Тогда сущест- вует единственное линейное подпространство И некоторой макси- мальной размерности 1(0^1^п) такое, что (а) подпространство ‘U инвариантно', (Ь) сужение системы S на подпространство QL есть полностью ненаблюдаемая система. Система S будет вполне наблюдаемой тогда и только тогда, когда ЭД = 0. В соответствующей системе координат х = ( -1 ), _ \ х2 ) в которой подпространство 41 задается уравнением хг — 0, данная система описывается так: х2 == Ац^1 "И A22х2, х2 == А22^2 и а = Я2ха.
124 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 На подпространстве хх = 0, которое будет нулевым система х2 = Л22х2, <о = Я«х2 при 1 = п, будет вполне наблюдаемой. Доказательство. Если 44х и 44,—два инвариантных под- пространства, на которых система 3 полностью ненаблюдаема, то со = Нх будет тождественно равняться нулю на подпространстве 44х4-44,. Следовательно, также будет инвариантным под- пространством системы на котором она полностью ненаблю- даема. Определим линейное пространство ‘IL как сумму всех инва- риантных линейных подпространств, на которых система 3 пол- ностью ненаблюдаема. Такое пространство ‘IL по построению будет инвариантным подпространством, на котором 3 полностью нена- блюдаема, причем любое другое подпространство с теми же свойствами будет иметь размерность, меньшую, чем ‘IL. т-> - Г X, В соответствующих координатах х= J L х. в которых под- '2 J пространство 44 задается уравнением х, = 0, система примет вид, указанный в формулировке леммы. Если /<п, то совокупность координат х2 система непуста, и спроектированная на это подпространство Х2 — Л22Х2, ю = Я2х2 будет вполне наблюдаемой; действительно, в противном случае пространство 44 допускало бы дальнейшее разложение х2 = -* , L х4 J что противоречило бы его свойству максимальности. Итак, размерность I typpt равняться п лишь в случае, когда Н = 0, т. е. когда система 3 полностью ненаблюдаема, и I = О лишь в случае, когда совокупность координат хх пуста, т. е. система 3 является вполне наблюдаемой. Таким образом, из равенства 44 = 0 [следует полная наблю- даемость системы 3. Обратно, если система 3 вполне наблюдаема, то в разложении, указанном в формулировке леммы, совокупность координат х~—пуста, т. е. 44 = 0. Лемма доказана. Ниже мы дадим удобную каноническую форму для линейных вполне наблюдаемых и вполне управляемых систем. Она потре- буется нам для построения примеров таких систем. Мы будем рассматривать здесь лишь случай т = 1, т. е. системы со скаляр- ными {управлениями u(t), так как для этого случая теорема 7 дает основную каноническую форму линейной вполне управляемой системы.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 125 Л е м ма 2. Рассмотрим наблюдаемую автономную систему в Rn: (J?) х= Ax+bu, u^R1, <о = Нх. Тогда система S? будет вполне наблюдаемой в том и только том случае, если многочлены D(j)) = pn+a1pn~1+ ... +att и (Р) = Ь11Р^ + Ьир"-* + ... + 61в, Nr (Р) = ЬпР”-1 + Ьпрп~* 4-... +Ьгп не имеют общих корней. Доказательство. В силу теоремы двойственности система S будет вполне наблюдаемой тогда и только тогда, когда система х = Fx-\-Gu будет вполне управляемой. Здесь
126 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Таким образом, система 2 вполне наблюдаема тогда и только тогда,гкогда rank [G, FG,Fa G, ..., F'*-1G] = n. Введем обозначение А [Р, Q] = [Q, P Q, P* Q, • • •, P’^Q], где P—(пхт)-матрица, a Q—n-вектор-столбец. Тогда A[P, Q] есть матричнозначная функция двух матричных аргументов Р и Q, линейная по Q. Вычислим значение этой функции при P = F и Q = Py, где Ру—столбец матрицы G. Рассмотрим сначала последовательность elt е2, ..е„ векто- ров-столбцов единичной матрицы I. Заметим, что ei+1 = Fet для 1 i п— 1. Ясно, что A [F, et] = [е^ ... е„] = / и A [F, е,] = A [F, F'-MJ = FZ-1A [F, ej = Fi~1 для 1 i п. Запишем /-й столбец матрицы G в виде Р/ = bjnPi + • • • + Имеем А [F, PJ =^„1 + ^^+ ... + b/1F"~1 = NJ.(F). Таким образом, ранг матрицы [G, F G, ..., Fn-1G] равен рангу ма- трицы [JVj(F), Ni(F), ..Nr(F)], поскольку эти две матрицы отличаются друг от друга лишь расположением столбцов. При вычислении ранга матрицы [Л\(F), ..., Nr(F)] для задан- ных многочленов А\, ...,Nr удобно воспользоваться той систе- мой (возможно, комплексных) координат, в которой матрица F имеет треугольный вид, например, гх 0 0 ... (П * о ... О Здесь %lt %2, ..., —собственные значения матрицы А, и сле- довательно, корни многочлена D(p). Тогда ранг матрицы [А\ (F), .... Nr(F)] совпадает с рангом следующей матрицы:
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 127 Предположим, что среди корней Х2, ...» А,и многочлена D(p) имеется корень, скажем, Х1; являющийся также корнем каждого из многочленов N1(p), N2(p), ..., Nr(P)- Тогда первая строка матрицы [УИ] будет состоять из нулей, и значит, ранг ее мень- ше п, т. е. система 3 является ненаблюдаемой. Таким образом, если система 3 вполне наблюдаема, то многочлены D, Nt, N2, ..., Nr не имеют общих корней. Обратно, предположим, что многочлены D, Nlt Nt, ..., Nr не имеют общих корней. Тогда не обращает в нуль хотя бы один из многочленов Nj, например, JVyl. Выберем тот столбец матрицы [Af], который содержит элемент на главной диагонали соответствующей (п х п)-субматрицы матрицы [А1]. Выберем такие столбцы матрицы [А1] для каждого значения Х2, ..., ясно, что полученные таким образом «-столбцов будут линейно независимы. Значит, матрица [А4] имеет ранг п, и си- стема 3 вполне наблюдаема. Лемма доказана. Следующая теорема, являющаяся основным результатом на- стоящего раздела, объединяет два подхода в линейной теории управления: теорию передаточных функций и описание наблюдае- мых систем с помощью дифференциальных уравнений. Теорема 14. Пусть Z(p)—ненулевая (гхт)-матрица, эле- менты которой есть правильные дробно-рациональные функции (степени числителей меньше степеней знаменателей). Тогда суще- ствует действительная автономная линейная система (3) х — Ax-j-Bu, (л = Нх вполне управляемая и вполне наблюдаемая, для которой Z (р) слу- жит передаточной матричной функцией. При т = \ такая система единственна с точностью до линейной эквивалентности. Доказательство. На основании теоремы 12 матрицу Z(p) можно представить в качестве передаточной функции некоторой автономной линейной наблюдаемой системы в RN-. (3) х = Ах-(-Ви, <д = Нх. [ха\ , обладающую Хь1 свойством, сформулированным в следствии из теоремы 10, то вполне управляемая часть системы 3 получится сужением ее на подпространство хь = 0, а вся наблюдаемая система запишется в виде ха = А-ааха ^abxb "4” ХЬ = ^bbxb И <о = Наха-(-Ньхь.
128 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Заметим, что совокупность координат ха непуста, так как иначе матрица В равнялась бы нулю, т. е. система 2 была бы пол- ностью неуправляемой, а ее передаточная функция—нулевой. Далее, система рассматриваемая лишь на подпространстве хь = 0, обладает свойством управляемости и записывается в виде (=^о) = ® СО == Н аХа. Система 2а имеет ту же весовую матрицу, что и система 2, ибо 'eiAaa * 1 ГВ 1 Тем самым передаточной функцией системы 2 а будет матрица Z (р). [хЛ , как указано xaJ в лемме 1, с тем, чтобы выделить вполне наблюдаемую часть си- стемы 2а. Тогда система 2а запишется в виде («S’д) = ЛцХ^ “1“ ^12Х2 BjW, ^22Х2 ”1” ^2^ И (0 = Н 2Х2. Здесь множество координат х2 непусто, ибо в противном случае На = 0, система 2а полностью ненаблюдаема и, следовательно, имеет нулевую передаточную матричную функцию. Далее проекция системы 2а на подпространство Xj = О вполне наблюдаема (в лемме 1 рассматривался случай, когда Во = 0, однако свойство наблюдаемости системы не зависит от Ва) («S’) — Л22Х2 “Ь ^2^> со = Я2х2. Покажем теперь, что система 2 обладает свойством управляемости. Система 2а порядка па вполне управляема и, следовательно, . Г * * * ... * 1 ГаП В АВ А3 В АПа~1В Па’ Таким образом, строки матрицы [В2Л22В2Л^В2 ••• ЛТЧ] линейно независимы. Из теоремы Гамильтона—Кэли следует, что rank [В2, Л22В2, Л22В2, •••» А^1Ва] = п, где п—порядок системы 2. Поэтому система 2 вполне управ- ляема и вполне наблюдаема. Весовая матричная функция систе- мы «S’ в точности совпадает с весовой функцией системы 2 а,
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 129 так как ГВ.1 = Н etA”B Q J --11 2С ^2’ Таким образом, система 2 имеет требуемую передаточную функ- цию Z(p). Наконец, покажем, что, с точностью до линейной эквивалент- ности, система 2 единственна в 7?". Доказательство проведем для случая т=\. В этом случае система " в удобной эквивалентной форме: 0 0 ... 1 0 ... let/; HaetA««Ba = (0, Я2) Q * ^Л22 может О" О быть записана го _| О о [Л-1 о —а'п —а'п со — Ьщ Ь1г n_s bin bit я-1 • ьи • Ь21 X. X = И О О О О О и О О О 1 G2 aiJ О -Ьт Ьг b', Матричная передаточная функция системы 2' имеет вид Г^(Р)1 где D' (р) == р» + а^р"-1 + ... 4-а'п, N'1(p)=bi1pn~i+ N’r(p)==b'npn-1+...+b'rn. Поскольку система 2’ вполне наблюдаема, то многочлены D', N[.....N'r не имеют общих корней (обратите внимание на то, что знак (') не означает здесь дифференцирования). Мы докажем, что матричная передаточная функция PW] лм. Э. Б. Лж, Л. Марну*
130 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 определяет соответствующую вполне управляемую и вполне на- блюдаемую систему единственным образом. При этом многочлены, входящие в передаточную функцию, взаимно просты и имеют вид D (р) = рп+а1р"-1 + ... + ап, ^r(p) = brlPn~1+ +br„. Тем самым мы покажем, что две вполне управляемые и вполне наблюдаемые системы в Rn, обладающие одной и той же переда- точной функцией, будут эквивалентны. Имеем 1 о D(p)~p'(p)’ и, значит, г D(p)N'i(p) = D'(p)Nj(p). Если р = ^ есть корень многочлена D(p), то имеется многочлен (Р)> Для которого Хх не будет корнем. Следовательно, число \ должна быть корнем многочлена D' (р). Отсюда следует, что мно- гочлены D (р) и D' (р) имеют одни и те же корни, а поскольку коэффициенты при их старших членах равны 4-1, то D(p) = D' (р) (степени многочленов равны по условию). Аналогично доказывает- ся, что Nf(p)^Nl(p) (1</<г). Поэтому размерности г и п системы S' определяются разме- рами матрицы Z (р) и степенью общего знаменателя D (р) в матрице Z (р) однозначно. Также определены и сами коэффициенты вполне наблюдаемой системы S'. Итак, S' есть единственная канони- ческая форма вполне управляемой, вполне наблюдаемой автономной линейной системы с передаточной функцией Z (р). Теорема доказана. Пример. Рассмотрим случай r==m=l и построим вполне управляемую и вполне наблюдаемую систему, имеющую в ка- честве передаточной матрицы дробно-рациональную функцию ДЦр) Ь1Р"-14-Ь2р"-34--.4-Ьп Щр) рп4-щрп х4---Ь«п ’ где многочлены AZ(p) и D(p) действительны и взаимно просты, причем N{p) ф 0. Систему, соответствующую такой передаточной функции, можно описать дифференциальным уравнением, в пра- вую часть которого управление входит под знаком дифференци- ального оператора: 4- а\х^п~^ 4- • • • + Дп* = 4- &2«("~2) 4-... 4- Ъпи,.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 131 Однако такое уравнение непосредственно не определяет наблюдае- мой системы, поскольку оно содержит производные от управляю- щей функции и (0. Здесь можно использовать разрывные релейные управления, однако при этом не обойтись без применения методов теории обобщенных функций. Но так как соответствующая теория нами не была предварительно развита, то мы обратимся к другому методу построения наблюдаемой системы, соответствующей данной передаточной функции. Рассмотрим систему х(в)+. + а„х=и, со = . + Ьпх, т. е. положим " 0 1 0 0 0 0 10 А= ’• 0 0 0 0 а„ —а„_х и Н = (bn, bn^lt .. •, &2> bi)- Такая система является вполне управляемой и вполне наблюдае- мой, а ее передаточной функцией будет N (p)/D (р). Напоминаем, что доказательство единственности системы, соот- ветствующей данной передаточной функции и обладающей свойст- вами управляемости и наблюдаемости, проведено нами лишь для случая т= 1 и опущено для более сложного случая /п> 1. Отметим также, что теорию управляемости и наблюдаемости можно распространить и на неавтономные линейные системы (см. упраж- нения), однако в этом случае удобные критерии, сформулирован- ные в теоремах 5 и 13, будут непригодны. Последней темой, обсуждаемой в этом разделе, будет задача следующего типа: найти такое управление, чтобы система из не- которого начального состояния х перешла за конечный промежуток времени в заданное непустое целевое множество G, и в дальнейшем оставалась в этом множестве. Наиболее интересным здесь будет случай, когда наблюдаемыми являются несколько компонентов вектора состояния—х1, х2, ..., хг и их требуется привести к нулю и далее сохранять их нулевые значения. В этом случае целевое множество G будет линейным подпространством х1 = 0, х2 — 0, ... ..., хг — 0 пространства Rn. Определение. Рассмотрим линейную автономную систему в Р”: (=2?) х = Ах + Ви 5*
132 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 с компактным ограничивающим множеством QcRm и целевым множеством GcRn. Назовем ядром множества G и обозначим через core(G) совокупность всех точек xr^G, для которых суще- ствует допустимое управление u(0<=Q на оо, такое, что под его воздействием система из точки xt перемещается далее по траектории x^tjcG на 0^/<оо. Из этого определения следует, что если требуется перевести систему в желаемую область G и затем удерживать ее в этой области, то можно просто сказать, что требуется перевести систему в область, являющуюся ядром области G. Таким образом, задача приведения системы из точки х0 в область G с дальнейшим удер- живанием траектории системы в G может быть сведена к задаче приведения системы в ядро области G без какого-либо рассмотре- ния дальнейшего поведения системы. Теорема 15. Рассмотрим автономную линейную управляемую систему в R": (J?) х= Ах+Ви, с компактным выпуклым ограничивающим множеством &<zRm и замкнутым выпуклым целевым множеством G. Тогда core(G) есть замкнутое выпуклое подмножество множества G. Более того, core (core (G)) = core (G). Доказательство. Пусть xt и x2—начальные состояния системы, из которых она переводится в область G с помощью управлений щ(t) и ut(t)£Q на 0t < со соответственно. Тогда t Xj (t) = eAtxt 4- eAt J e~ AsBut (s)ds, /=1,2. о Если 0 X 1, to Xxx (0 4- (1 -X) x2 (0 = eAt (Xxx 4- (1 -X) x2) 4- t 4- eAi $ e~AsB (Кщ (s) 4- (1 —X) ut (s)) ds, о и поэтому управление [Xax(04-(1—X)«2(0]c:Q на 0^/<оо переводит систему из точки [Ххх4~(1—-М*»] в область G. Таким образом, core(G) есть выпуклое множество. Пусть хх, х2, ...—последовательность точек из ядра множе- ства G и lim xft=x£ G. Пусть щ (0, и2 (t),... —соответствующие k -* 00 им управления, удерживающие хх, Xg, ... в G. Выберем такую под- последовательность _точек (мы будем обозначать ее снова хх, хг,...), чтобы lim uk(t) — u(t)c:Q в смысле слабой сходимости на любом k -+ 00
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 133 конечном интервале Тогда решение, соответствующее предельному управлению, будет х (t) = eAtx+eAt J е~ AsBu (s) ds о и _ x(t)= lim х*(0 k -* 00 для любого ^фиксированного Поскольку G—замкнутое мно- жество, то x(t)<=.G для всех ^>0. Поэтому xCcore(G) и core(G) является замкнутым множеством. Если точка х„ принадлежит ядру G, то некоторому управлению u(flcQ на интервале 0</<оо соответствует решение x0(t)cG. Но тогда для любого фиксированного t^O x0(f) служит началь- ной точкой некоторой траектории, целиком лежащей в G с управ- лением u(t)cQ. Следовательно, х0 (i) С core(G) для любого t^O. Таким образом, х0 С core (core (G)) и, значит, core (core (G)) = core (G). Теорема доказана. Часто бывает затруднительно установить, компактно ли ядро G, даже если G является линейным подпространством пространства R" (см. пример в разделе 1.3). Однако в задачах на быстродействие наиболее отдаленные части области G обычно исключаются из рассмотрения. Поэтому задачи с компактным целевым множеством встречаются достаточно часто. В случае, когда множество G является линейным подпростран- ством, соответствующую управляемую систему называют системой с регулированием по многим компонентам. Следующая теорема по- казывает, что такие задачи чаще всего можно свести к задачам с регулированием по одной компоненте. Теорема 16. Рассмотрим автономную линейную управляемую систему в Rn: (J?) х — Ах-[-Ьи с компактным ограничивающим интервалом QczR1, содержащим точку и = 0. Предположим, что система 3? обладает свойством управляемости, и возьмем некоторое подпространство я прост- ранства Rn. Тогда существует такая гиперплоскость л размер- ности п—1, что core (л) -»core (л). Доказательство, соте (л) является замкнутым выпуклым подмножеством множества л, непустым, так как оно должно содержать точку х = 0; следовательно, оно имеет непустую внут- ренность, порождающую некоторое линейное подпространство
134 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 в R" так, чтобы подпространство л. HjCn размерности (п—г)._сог&(л^ должно совпадать с core (л). Выберем координаты х Хг kJ X1 задавалось уравнениями х О (если лх состоит из одной х - точки—начала координат, то совокупность координат х2 пуста). Запишем систему 2 в виде %1 ЛцХ^ Ч” ^12^2^1^» Х% s= ^21X1 Ч" ^22^2 Ч" • Предположим, что Ьг = 0. Тогда в тех точках core (nJ, где хх = 0, имеем х=0 и Лиха = 0. Поскольку в подпространстве лх имеются внутренние точки core (nJ, то Л1а = 0. Но это означает, что Xj = Лиха, что противоречит управляемости системы. Поэтому ^#=0. Определим новые координаты в пространстве Ra так, чтобы подпространство лх задавалось соотношением ха = 0, причем ' го-i О \ и запишем i“i a)+i ... ап ^12 ~= 2г+1 • • • ап_ Предположим, что k-я строка матрицы А1г, 1 ненулевые элементы. Тогда х* = a*+1xr+1 Ч- •.. Ч- а£хп = О г содержит во всех точках core (nJ. Но это означает, что core (ла) содержится в пересечении подпространств х1 = х2= ... = хг = 0 и а*+1х,+1Ч-... Ч-ап^” = 0> что противоречит предположению о том, что размерность core (nJ равна (п—г). Таким образом, ГО 0 ... О П 2'+1 • • •
2 4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 135 Для любых двух точек (х1а, 0) и (х1Ь, 0) в /^существует управ- ление uflcR1, переводящее систему из первой точки во вторую вдоль траектории x(f). Но тогда управление й (0 = arr+1xr+1 (0 + ... + агпхп (0 + и (t) переводит систему из х1а в х1Ь в подпространстве Rr вдоль реше- ния системы х =Апхг + М(0. Таким образом, система £ обладает свойством управляемости в Rr и ____ ____ Р=[Л^, A^bv .... Anbv М является невырожденной (г х г)-матрицей. _ Введем новые координаты в подпространстве х2 = 0: хх = Ру. Тогда система 3? запишется в таком виде: У = + р-ч^и, хг= А21Ру + М- Теперь, так же как в теореме 6, непосредственным вычислением можно показать, что система 3? принимает простой вид: = + У2 = а2У1 + //3, У3 = а3'/1 + У4, .... t/r-1 = ar_1y1 + t/r, yr = а,*/1 + a'r+1xr+1 + ... + а£х" + и, И 2- _ _ _ _ х2 = Аг1Ру+ А22х2 +Ь2и, где ап а2, ... , аг—некоторые действительные постоянные. Рас- смотрим теперь гиперплоскость л, определяемую уравнением у1 = 0 в R". Тогда лхал, а значит, core (nJ с core (л). Возьмем точку Q, принадлежащую core (л). Существует решение, исходящее из точ- ки Q, соответствующее управлению «(0cQ, такое, что г/1 = 0, и значит, i/2 = 0; но тогда у2 = 0, и значит, t/3 = 0. Продолжая эти рассуждения, получим, что уг = 0, у2 = 0, у9 = 0,... ...,г/г = 0 для решения, исходящего из точки Q- Таким образом, Q С core (л2) и core (л) = core (лх) = core (л). Теорема доказана.
136 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Упражнения 1. Для автономной наблюдаемой системы с весовой функцией W (t) по- казать, что если на входе системы действует управлением^), гдем(/) = 0 при I < 0, то выходной сигнал системы при начальном состоянии хо = О будет иметь вид 00 ©(/) = J W (s)u(t — s)ds при t^Q. — оо 2. Построить линейную автономную систему, обладающую свойствами управляемости и наблюдаемости, и имеющую передаточную матричную функцию Г 1 "1 Z(p) = Р р*+р р D*— D 3. Показать, что для автономной наблюдаемой системы передаточная мат- ричная функция Z (р) может быть интерпретирована как амплитудно-частотная характеристика периодических колебаний, возникающих на выходе системы под действием синусоидального входного сигнала с единичной амплитудой. 4. Рассмотрим линейную систему в Rn: (J?) х=А (t)x+B(t)u с управлениями и (/) с: Rm и матрицами А (/), В (/), имеющими непрерывные элементы на всей оси /. Будем называть вполне управляемой системой, если для любой пары точек х0, х± из Rn и для любого начального момента /0 су- ществует управление u(t) на некотором интервале t< t19 переводящее систему из х9 в х1# В следующих упражнениях развивается теория управляемости для неав- тономных систем Для простоты будем обозначать начальное состояние х0 в момент времени /0, через {х0, /0}. (а) Пусть С (/0)—совокупность точек xQ£Rn таких, что из начального состояния {х0, /0} система может быть переведена в начало координат. Показать, что С (t0) есть линейное подпространство /?", и что существует момент времени /0 > /0, такой, что из любой точки {х0, /о}€{С(^о)> М си- стема может быть переведена в {О, /0}. (Ь) Из любой точки {х0, *о}€{С(*о), М система может быть переведена в любую точку {Xi, /1}£{С (/i), /i} для (с) будет вполне управляемой в том и только том случае, если каждое из множеств С (t0) совпадает с Rn. (d) Определим симметричную пол у определенную положительную матрицу tt V (<о. G) = J Ф (<о. О В (О В' (0 Ф' (<„ 0 dt, to гдеФ(/, /0)—фундаментальное матричное решение уравнения x~A(t)x, а Ф (^о» *о) = Л Показать, что преобразование W при — tQ переводит простран- ство Rn в область R [W (/0> ^о)] = С (/0)« Поэтому необходимым и достаточным
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 137 условием полной управляемости системы будет невырожденность матрицы №(/, при любом /об#1- (е) Говорят, что наблюдаемая система x=A(t)x-\-B(t)u, a) = H(t)x в пространстве Rn вполне наблюдаема при если двойственная к ней система (JT) х = — А' (/0—t)x— Н'(to—t)u, u = B' (tQ—t)x обладает свойством управляемости при i^tQ (т. е. С (/0) = /?”). Будем назы- вать полностью наблюдаемой, если это верно при всех Показать, используя эти определения, что автономная система будет полностью наблю- даемой тогда и только тогда, когда rank [Я', А'Н', ..., А'п-1Н'] = п. 5. Рассмотрим линейную систему вида (®) ^+<h (/) ...+«„(/) х = 6х (/) и<п~» + ...+Ьп (0 п, где коэффициенты Ьп (/) —гладкие функции,, принадлежащие С00 на всей оси t. Тогда, если заданы начальные условия х—х= ... = х(и“(а) (Ь) (с) * * * * * * * * 1) = 0 при 1 = 0 и входной сигнал u(t)(t^O) есть гладкая функция, то существует вполне определенное решение системы, или выходной сигнал х (/)• Рассмотрим наблюдаемую систему: (Jf) + x2 = x3 + G2(/)«, in-1 = x« + Gw_1(0tt, xn = — a„(t)x1—...—a1 (f)xn + Gn (/) и И (0 = X1. Пусть a0 s 1, Go = 0, а для 2 «С i «С n (а) Показать, что коэффициенты G,(/) можно вычислить, исключая после- довательно из 3? неизвестные х2, х8, ..., хп и требуя, чтобы оставшееся урав- нение для х1 совпадало с уравнением S). (Ь) Показать, что решение системы уравнений % щ — х1 (/) с начальной точкой хо = О, / — О и входным сигналом м (0) = н (0)= ... =ц<й*2> (0) = 0 в точности совпадает с соответствующим решением х(/) уравнения (с) Обычно утверждается, что система <=5? обладает свойством полной управ- ляемости, если 0„(/)^0. Исследовать управляемость системы xv^x*-{-tu9 х2 = и при этом условии. 6. Рассмотрим управляемую систему в J?2, определенную уравнением х=и с ограничением | и (f) |< 1. Пусть целевое множество G есть прямая х1+х2 = 0; определить core (G). 7. Рассмотрим множество всех автономных наблюдаемых систем в Rn с управлениями u£Rm и х==Лх4-Вн, (д = Нх. Показать, что типичная система (в смысле теоремы 11) будет вполне управляе- мой и вполне наблюдаемой.
138 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 2.5. Оптимальное по быстродействию управление для линейных систем В этом разделе мы докажем основные теоремы существования и единственности оптимального управления для линейных систем. Далее, мы установим принцип максимума, который определяет оптимальное управление как экстремальное управление, и исполь- зуем его для построения оптимального управления с помощью метода кривых переключения. В каждом случае мы вначале будем излагать общую теорию для систем, коэффициенты которых зави- сят от времени, а затем будем более подробно останавливаться на автономных системах, давая для них критерии, удобные для вычислений. Мы будем изучать задачу об оптимальном по быстродействию управлении для линейной системы в Rn: (2) х=А (0 х+В (0 и -f- v (I), где матрицы коэффициентов A(t), B(f) и v(t) интегрируемы на каждом конечном интервале оси t, в соответствии с предположе- нием первого раздела этой главы. Ограничивающее множество й будет неДустым компактным подмножеством в Rm, а целевое мно- жество G(t)—непустым компактным, непрерывно меняющимся во времени при Предполагается, что класс допустимых управлений Д состоит из всех измеримых вектор-функций и(/)сй, определенных на различных конечных промежутках времени т0 <7 Ti и переводящих систему из начального состояния х0 при t = r0 в целевое множество G(tj) при t = tv Теорема 17. Рассмотрим линейную управляемую систему в Rn: {2} х=Л(0х+В(0 + о(/) с компактным ограничивающим множеством Q<zRm, начальным состоянием x0£Rn и компактным целевым множеством G(t), не- прерывно меняющимся по времени на интервале To^Z^Tj. Если существует управление и (/)сй на т0 t ^т1; переводящее си- стему из состояния х0 в область G (^), то существует и опти- мальное по быстродействию управление и* (/) а й на т„ t Ti> переводящее систему из состояния х0 в область G (/*). Доказательство. Если х0€С(т0), то будем считать время управления равным нулю, т. е. /* = т0. Предположим теперь, что хо$С(то), и рассмотрим управления u(t) на интервале т0 t tlt где т0 < Zj^Tj. Рассмотрим множество достижимости К. (/J, соот- ветствующее начальной точке х9 в момент времени т0. Обозначим через t* точную нижнюю грань значений tlt таких, что множество К (fx) пересекается с G (Q. В силу непрерывной зависимости мно- жеств К (/J и G (/,) от времени t± совокупность моментов времени tlt таких, что пересечение множеств К (/х) и G (ZJ непусто, представ-
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 139 ляет собой замкнутое подмножество в R1. Поэтому есть первый момент времени, когда произошло пересечение К (/) и 6(f), и он определяет минимальное время управления. Пусть и* (0ей (т0 t t*)—некоторое управление, переводящее систему из х0 в К (Г) Л G (t*). Тогда и* (/) и является искомым оптималь- ным управлением. Теорема доказана. В доказанной выше теореме существования (теорема 17) мы отыскивали оптимальное по быстродействию управление и* (/)ей на интервале т0 < t < t*, переводящее систему из начального состоя- ния х0 при / = т0 в целевое множество G(f*). Если не фиксировать начального момента времени, а просто искать оптимальное управ- ление на некотором конечном интервале т0 tJ t t\ т, то можно доказать существование такого управления, рассматривая предел t*0 последовательности начальных моментов времени /ov) та- ких, что время управления /*('|)—?ov) монотонно убывает. Сформулированное ниже следствие дает критерий существова- ния оптимального управления для автономной системы. Следствие. Рассмотрим автономную линейную систему в R": (2} х=Ах+Ви с компактным ограничивающим множеством QczRm, начальным состоянием х0 и началом координат в качестве целевого множества системы. Предположим, что ((а) точка и = 0 лежит внутри £2; (Ь) система 2 обладает свойством управляемости; с) матрица А устойчива, т. е. каждое собственное значение X. матрицы А удовлетворяет условию Re X < 0. Тогда существует оптимальное по быстродействию управление u*(t)<zQ, переводящее систему из начального состояния х0 в начало координат на интер- вале времени 0 < / < Доказательство. В силу следствия 3 из теоремы 5 область нуль-управляемости для системы 2 совпадает со всем простран- ством R". Таким образом, существует управление м(/)с£2 на 0 t tt, переводящее систему из точки х0 в начало координат. По теореме 17 существует и оптимальное управление и* (t)cQ на переводящее систему из х0 в начало координат, что и требовалось доказать. Теорема доказана. Если т= 1, т. е. QaR1, то условие (с) можно заменить более слабым предположением: (с') все собственные значения X матрицы А удовлетворяют условию ReX^O (см. теорему 8). Для неавтономных линейных систем имеется полезный крите- рий глобальной устойчивости (см. упражнение 6), однако непо- средственно установить требуемую в нем управляемость системы бывает затруднительно.
140 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Следующая теорема, известная как принцип максимума для линейных систем, устанавливает важные экстремальные свойства оптимального управления. Фактически, при достаточно общих предположениях относительно нормальности системы, эти экстре- мальные свойства полностью определяют оптимальное управление. Во всех последующих теоремах этого раздела мы будем предпола- гать, что целевое множество системы есть компакт, непрерывно меняющийся во времени. Необходимо лишь предположить, что это множество замкнуто и меняется по времени непрерывно в том смысле, что его пересечение с любым постоянным компактным множеством меняется непрерывно. Теорема 18. Рассмотрим линейную систему в Rn: (J?) x=A(t)x+B(t)u + v(t) с компактным ограничивающим множеством QczRm, начальной точкой x0£Rn и непрерывно меняющимся на интервале т0 t компактным целевым множеством G(t). Пусть u*(t)cQ на интер- вале —оптимальное по быстродействию управление, пе- реводящее систему из состояния х0 в целевое множество G (t*) вдоль траектории Тогда управление u*(t) является экстремаль- ным, т.\е. т (/) = max л (/) В (/) и = л (t) В (t) и* (f), иеа а значит, М (f) = max т) (0 [Л (/)х* (t) 4- В (f) и 4- и (/)] = «ей = п (0 [ A (t) x*(t) + B (/) и* (0 4- V (0] почти всюду на интервале т0 Здесь под г] (/) понимается нетривиальное решение сопряженной системы п=—М(0, а Л (Г)—внешняя единичная нормаль к гиперплоскости, опорной для множества достижимости K(t*) в точке лежащей на границе дК (/*). Далее, если G(f) = G, т. е. целевое множество неизменно во вре- мени, то точка х* (/*) лежит на новой границе множества К (t*). В этом случае, если матричные функции 4(f), В (f) и v(t) непре- рывны, то нормаль л (f*) можно выбрать так, чтобы Af(f»)>0. Если, кроме того, множество G выпукло, то л (f*) можно выбрать так, чтобы удовлетворялось условие трансверсальности, а именно, чтобы вектор л (f‘) был нормалью к опорной гиперплоскости, раз- деляющей множества К (f*) и G.
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 141 Доказательство. Конечная точка траектории х*(Г) должна лежать на границе dK(t*). Действительно, если бы х*(/*) лежала внутри К (t*), то по теореме 1 некоторая открытая окрестность N точки х* (t*) лежала бы внутри К (/) для всех t, достаточно близких к t*. Но тогда из непрерывности G(t) следует, что G пересе- кается с N при некотором < Г, а это противоречит оптималь- ности и* (t). Следовательно, х*(Г)€М(**), а это означает, что «*(/)—экстремальное управление. По теореме 2 для экстремального управления u*(f) существует нетривиальное решение сопряженного уравнения rj (/), такое, что т(/) = П(0В(0«*(0 и м (0=Т) (О [Л (О X* (0+в (I) и* (0+V (0] почти всюду на интервале т0 < t < t*. В качестве т] (I) можно вы- брать любое решение системы т] = —т]Л (0, такое, что вектор г] (/*) является внешней нормалью к опорной гиперплоскости области К (/*) в точке х* (t*). Будем считать теперь G (/) = G постоянным непустым компакт- ным множеством в Rn. Тогда из оптимальности управления «*(/) по быстродействию следует, что х* (/*) С К (t*) Л G лежит на новой границе К (t*). Поскольку вектор-функция х? (/) может и не быть дифференцируемой при t = t*, то для доказательства того, что М(/*)>0, придется применить предельный переход. Для любого момента времени t найдется гиперплоскость л (/), лежащая посередине между К (0 и концом траектории х* (Г), иначе говоря, гиперплоскость, проходящая через середину кратчайшей хорды между х* (f) и К (/), и перпендикулярная к ней. Если вы- брать tx из интервала т0 < t*, то гиперплоскость л (/J будет разделять точки х*(/1) и х*(Г). Таким образом, в некоторый мо- мент > tlt составляющая скорости х* (?х) = А х* (?х) + 4- В (ii) и*(?х) -f-о (?х), направленная вдоль единичной нормали к) (/х) к гиперплоскости л(/х), смотрящей из полупространства, содер- жащего К(^), будет положительна. Выберем теперь ta из интер- вала ?х < ta < t*, и пусть ?2 > tt таково, что я (/2) х* (?2) > 0. Таким образом, определим последовательность моментов времени ^0 < ^1 < ^2 < • • • < ... < t*, для которых П (Q [Л (?„) х* (Q + В (<) U* (4) 4- V (Q] > 0. Воспользуемся теперь компактностью целевого множества Q и
142 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 сферы единичных направлений, чтобы выбрать подпоследователь- ность, которую мы по-прежнему будем обозначать tv, такую, что ’ существуют следующие пределы: limu*(Q = «£Q, lim я(Q = л(/*), lim 'n(Q = 1l(H- V СО V -> 00 V -+ 00 Тогда л(/*) является гиперплоскостью, опорной к K(t*) в точке с внешней единичной нормалью т] (t*). Из непрерывности матричных и векторных функций A(t), B(t), v(t) и х*(/) следует, что П (И [А (/*) х* (/*) + В (t*) и + v (/*)] > О, поэтому Л4(Н>0, что и требовалось. Если целевое множество G выпукло, то можно повторить все предыдущие рассуждения, считая n(t) плоскостью, перпендику- лярной к кратчайшей хорде между G и К (/) и делящей ее попо- лам. Тогда предельная гиперплоскость л (/*) и единичная нормаль »](/*) удовлетворяют условию трансверсальности. Для । автономных линейных систем принцип максимума может быть дополнен таким следствием: Следствие. Рассмотрим автономную линейную систему в Рп: (J?) х = Ax + Bu + v, с компактным ограничивающим множеством Qc Рт. Пусть u(t) ей —любое экстремальное управление, т.е. М (f) =з шах я (/) [Лх (t) + Ви 4-к] = т] (t) [Ах (f) + Ви (t) + о] «е й почти всюду для соответствующих решений x(t) и т) (/). Тогда вектор-функция M(t) постоянна на Доказательство. В силу леммы 2А приложения к на- стоящей главе вектор-функция М (t) абсолютно непрерывна и имеет производную почти всюду. Вычислим производную M (t) в некоторый момент t = ilt для которого она существует. Для t2 > имеем М (tJ-M (/х) > т) (f2) [Ax(t2) + Bu (/2)+u]-T) (it) [Ax(h)+Bu (tJ+v] ^2— A A в предположении, что вектор х (0 удовлетворяет системе 2? и век- тор-функция М (0 удовлетворяет принципу максимума в момент /г Прибавляя и вычитая в числителе правой части т, (/2) Ах (ZJ, а
2 5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 143 затем переходя к пределу при f2—находим (Q > П &) А 'х ft) + я (Q Ах ft) + л (Q [Ви (Q + v] И Л4ft) ^‘ЦА [Лх4-В« + п]—т)Д4х—[Bu+t>] = 0. Аналогичным вычислением можно показать, что М ft) 0, а сле- довательно, М (/) = 0 почти всюду на т0 < t < тх, т. е. функция М (t) постоянна. Теорема доказана. В следующей теореме доказывается, что при условиях нор- мальности, наложенных на систему, принцип максимума являет- ся как необходимым, так и достаточным условием оптимальности. Для этого достаточно показать, что оптимальное управление представляет собой единственное экстремальное управление, пере- водящее систему из состояния х0 в выпуклое целевое множество G и удовлетворяющее условиям трансверсальности. Используя результаты этой теоремы, мы получим возможность построить оптимальное управление как функцию положения х системы в пространстве R". Теорема 19. Рассмотрим линейную систему в R": (S) x=A(t)x+B(t)u + v(t), с компактным ограничивающим множеством QcRm, начальным состоянием системы x0£Rn и постоянным целевым множеством G. Пусть матричные и векторные функции A(t), B(t) и v(t) не- прерывны при и (а) задача (S, й, х0, т0, t) нормальна при t > т0; (b) G—компактное выпуклое множество в Rn; (с) для любой точки x(t)£G и момента времениТ^т0 имеет- ся управление и (t) а £2 на интервале / < оо с соответствую- щим решением х (t) с G, не экстремальное на любом интервале t <t Пусть щ (t) ей (т0 t и иг (/) сЙ (т0 t =С Q—экстре- мальные управления, удовлетворяющие условию трансверсальности, а именно, для соответствующих сопряженных решений (I) и т|2(/) векторы т|1 ft) и ц2 ft) являются внутренними единичными нормалями к гиперплоскостям, опорным в G. Тогда и Mi (0 — и2 (0 почти всюду при т0 t t*, и, следовательно, щ^) = и*(1) является единственным оптималь- ным по быстродействию управлением, переводящим систему из точки х0 в G.
144 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Доказательство. Если /х = ^2, то область достижимости пересекается с выпуклым множеством G в точках хх(/х) и х2(/х), конечных точках траекторий, соответствующих управле- ниям их(0 и «2 (0 соответственно. В силу нормальности системы область /С(/х) является строго выпуклой и не может содержать в своей границе никакого отрезка прямой. (Если /х=т0 или если множество й состоит из одной точки, то справедливость теоремы очевидна, и потому эти случаи опускаются). Однако в силу условия трансверсальности существует опорная гиперплоскость л, разделяющая множества К. (/х) и G. Если то отрезок, соединяющий эти точки, должен ле- жать в множестве К(/х)Лб. Следовательно, этот отрезок должен принадлежать гиперплоскости л, а значит, и множеству дК (/х). Но это противоречит строгой выпуклости К(/х), и следовательно, хх(^х)= х2(/х). А тогда из нормальности системы следует, что ых (/) = ы2 (t) почти всюду на интервале т0 t tv Предположим, что < /3- Тогда строго выпуклое множество К (t2) отделяется от множества G общей опорной гиперплоскостью. Однако из предположения (с) следует, что внутренность множества К (f) пересекается с G при всех t > tv и в частности, при t = /2. Но в этфм случае множество К(/2) не может иметь опорной ги- перплоскости, отделяющей его от G. Отсюда следует, что /х = /2. Итак, мы показали, что каждое экстремальное управление, удовлетворяющее условию трансверсальности, а в частности, и оптимальное управление u*(t) на интервале должно совпадать с их(/) почти всюду на = Теорема до- казана. Ниже мы приведем три следствия, в которых рассматриваются автономные линейные системы. Для таких систем предположения (а) и (с) можно заменить другими, легко проверяющимися гипо- тезами. Мы займемся также случаем, когда единственность опти- мального управления имеет место лишь при фиксированном на- чальном моменте времени, например, при 6<ZtsZt*, и даже при этом условии управление tf(t) определено лишь почти всюду. Следствие 1. Рассмотрим автономную линейную систе- му в Rn: (J?) x = Ax+Bu+v, с выпуклым многогранником QczRm в качестве ограничивающего множества и начальным состоянием x0$Rn. Предположим, что выполнено условие нормальности: (а) векторы Bw, ABw, ..., линейно независимы для любого ненулевого вектора w, направленного вдоль ребра много- гранника й (или просто вдоль й, если это отрезок). Тогда задача (S?, й, х0, 0, t) нормальна для всех t > 0. Если и, (0сй (0 t /х) есть экстремальное управление, то управле-
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 145 ние их(/) должно быть (почти всюду) кусочно-постоянной функ- цией, знамения которой лежат в вершинах многогранника й, и которая может иметь лишь конечное число разрывов, называемых переключениями. Если выполнено условие (а), и кроме того, (Ь) целевое множество G выпукло и компактно; _ (с) для любой точки x£G существует управление u(f)a.Q на интервале 0<Z/<oo, с соответствующей ему траекторией x(t)<zG, причем u(t) не является экстремальным управлением на открытом интервале 0 < / < fx, тогда любое экстремальное управление их(/)сй на интервале О t tx, переводящее систему из состояния хй в целевое мно- жество G и удовлетворяющее условию трансверсальности, должно совпадать почти всюду на с единственным оптималь- ным управлением Доказательство. Сначала мы должны показать, что из условия (а) следует нормальность задачи на любом интервале О t тг Предположим, что задача (S’, £2, х0, 0, тх) не являет- ся нормальной. Тогда существуют два различных управления «ДО и и2(0> такие, что т] (I) Виг (t) — я (/) Вщ (/) = шах т| (/) Ви ueQ почти всюду на 0<7^тх, где x\(t) = x\^~At, и на некотором ненулевом подынтервале S интервала Для каждого фиксированного момента t рассмотрим действи- тельную линейную функцию от и, Ft(u) — x\(t)Bu. Поскольку й есть выпуклый многогранник, то функция ГДм) достигает мак- симума при и g й, лежащем на той из граней й, где и постоян- но (здесь под гранью многогранника понимается либо пересе- чение опорной гиперплоскости с дй либо само Й). Таким обра- зом, в каждый момент t С S линейная функция Ft (и) принимает свое максимальное значение на некотором (возможно, на не- скольких) ребре et. Поскольку Й имеет конечное число ребер, то существует такой положительный промежуток времени 5хсЗ, в течение которого функция Ft (и) принимает максимальное значение, например, на ребре ег. Пусть о>=#0 — вектор, парал- лельный ребру тогда т]ое_<лВа» = О при Так как левая часть дифференцируема всюду, за исключением, быть может, счетного множества изолированных точек в St, то —W™ABw = 0 почти всюду на Sr Повторяя этот процесс, находим, что т]ое~tABw = 0, т]ое-<лЛВ«> = О, ..., r\ne~tAAn~,Bw~ 0.
146 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В . ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Но отсюда следует, что векторы Bw, ABw, A2Bw, ..., An~1Bw все ортогональны к вектору т1ве_м#:О, а значит, они линейно зависимы. Это противоречит предположению (а); отсюда заключаем, что рассматриваемая задача нормальна. Переопределим экстремальное управление щ(Г) на множестве меры нуль так, чтобы т] (0 Вщ (0 = max т] (0 Ви и € Q всюду на 0 t tv Тогда значения щ (0 будут почти всегда ле - жать в вершинах многогранника Q, поскольку максимум Ft(u) достигается лишь в вершинах в силу нормальности системы. Совокупность моментов t, когда Ft(u) достигает максимума на некоторой вершине, представляет собой открытое множество в R1, в то время как дополнение его, включающее в себя множество переключений, есть замкнутое множество. Если щ (0 имеет бес- конечное число разрывов, то выражение r| (Q Ви достигает мак- симума на целом ребре е многогранника й,в каждый из бесконеч- ного числа моментов времени {0}. Отсюда следует, что т] (0) Bw = О, где w—единичный вектор, параллельный ребру е. Поскольку т) (0 Bw является действительной аналитической функцией с бес- конечным числом нулей, то отсюда можно заключить, что г|(0Bw = 0 для всех t из интервала О^/^0. Но тогда г|ое_<лВи> = О, r)oe_tAABw = 0, ..., т]ое-/лДп-1Вда = О, что противоречит условию нормальности. Итак, у экстремального управления Uj(0 на интервале О^/^0 может быть лишь ко- нечное число переключений. Из предположений (Ь) и (с) следует, что ti — t* и (0 = и* (0 почти всюду на 0 t 0 = t*, как и в теореме 19, что и требовалось доказать. Следующее утверждение вытекает непосредственно из след- ствия 1, но мы сформулируем его отдельно в силу его важности для приложений. Следствие 2. Рассмотрим автономную линейную систему в Rn: х = Ах + Ви + и, с т-мерным кубом | и^ | 1 в качестве ограничивающего множест- ва й. Пусть выполнено условие нормальности: Bw, ABw, ... ..., An~1Bw линейно независимы при любом единичном векторе w, направленном вдоль ребра й, или вдоль й, при т = 1. Тогда любое экстремальное управление u(f)cCi на интервале O^/<i0 будет иметь вид jz(0 = sgn(T](0 В)' (почти всюду),
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 147 где x\(t) — ^e~tA—нетривиальное сопряженное решение. Таким образом, u(t) представляет собой релейное управление, т. е. и (t) кусочно-постоянно и каждая компонента вектора и (t) при- нимает^лишь значения ±1, и имеет конечное число переключений. Требование, чтобы векторы Bw, ABw, ..., An~1Bw были линейно независимыми при любом единичном векторе w, параллельном ребру выпуклого многогранника Q (либо самому Q, если это отрезок), называется условием нормальности. Если (J?) х = Ах-\-Ви, где wcQ удовлетворяет условию нормальности, то система 2 обладает свойством управляемости. Действительно, из существования хотя бы одного единичного вектора w, такого, что векторы Bw, ABw, ..., An~1Bw линейно независимы, следует, что векторы [В, АВ.....ЛП_1В] j = l, 2, ..., п линейно независимы, где через w(l> обозначены n/n-мерные векто- ры-столбцы, у которых на местах с номерами (i—1)/п+1, ..., im стоят компоненты вектора w, а на остальных местах—нули. Если т = \, т. е. Q есть отрезок оси R1, то условие нормально- сти является необходимым и достаточным условием управляемо- сти системы J-?. Следствие 3. Рассмотрим автономную линейную систему в R": (.S?) х=Ах-}-Ви, с многогранником в качестве ограничивающего множества QcRm, содержащим внутри себя упоавление и = 0, и началом координат х = 0 в качестве целевого множества G. Предположим, что система S’ удовлетворяет условию нор- мальности. Тогда для любой точки х9 из области нуль-управ- ляемости б существует единственное экстремальное управление u*(f), переводящее систему из х0 в начало координат, и это управление u*(f) будет оптимальным. Если матрица А устойчива, то б = Rn, и поэтому из любой точки x0£Rn систему можно перевести в начало координат с помощью единственного экстремального, а именно, оптимального управления. Доказательство. Существование единственного экстре- мального управления, переводящего систему из х0 в начало ко- ординат, следует из теоремы 17 и следствия 1. Утверждение, что б = Rn, если А устойчива, верно в силу следствия 3 тео- ремы 5.
148 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Теперь мы можем использовать теорему 19 для синтеза опти- мального управления с помощью кривых переключения и попятного движения от целевого множества (для автономных управляемых систем, подобных тем, которые рассматривались в следствии 1). Для синтеза оптимального управления надо проделать следующее: 1. Рассмотреть систему дифференциальных уравнений нашей задачи и сопряженную систему с обратным отсчетом времени х = —Ax—Bu(t)—v, т| = 1]Л, с начальными условиями х(0)адСи с вектором т|(0)—в качестве внутренней единичной нормали к опорной гиперплоскости мно- жества G в точке х(0). Используются лишь те начальные усло- вия, для которых М es max г] (0) [ Ах (0) + Ви + о] 0. Управле- «ей ние u(t) определяется из принципа максимума т] (t) Bu(f) = max т] (t) Ви. ueQ 2. Найти единственные начальные условия (х(0), т](0)), кото- рым соответствует решение x(t), проходящее через началь- ную точку х (0) в некоторый момент /* > 0. 3. Снова вернуться к прежнему отсчету времени и положить х*(0 = х(Г—0 и т1*(0 = П(^—0 на Тогда управление u*(f), определяемое из соотно- шения Я* (0 Bi? (t) = max if (/) Ви на 0^ будет оптимальным управлением, а х* (/)—соответствующей ему траекторией, по которой система переходит из начальной точки х9 в G. Вычисления на этапах (1) и (2) могут выполняться на анало- говых или цифровых вычислительных машинах, если заданы уравнения системы и ограничения. Тогда для каждой начальной точки х9 £ /?“ соответствующее оптимальное управление может сохраняться в запоминающем устройстве машины для дальней- шего использования. Для запоминания информации об оптималь- ном управлении удобно пользоваться описанием кривой переклю- чений. Кривая переключений W в Rn—G состоит из всех тех точек x(t), которые соответствуют моментам, когда управлением (t) пре- терпевает разрыв. Подразумевается, что т] (/) Ви (/) — max ц (/) Ви. UEQ Здесь x(t) и т](0—экстремальные решения, удовлетворяющие соответствующим условиям трансверсальности в G, описанным
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 149 в п. 1. Для случая т = 1, когда Q представляет собой отрезок кривая переключений имеет сравнительно простой вид— это некоторая кривая на фазовой плоскости (как показано в примерах главы 1), или гиперповерхность в пространстве боль- шей размерности Rn. В этом случае кривая W разделяет R"—G на два открытых множества: Л4+, на котором и 7И_, на котором и——1. Синтезирующая функция ч / +1 для х£М+, У (х) = < , _ .. ( —1 для х£Л4_ и дает нам искомый синтез оптимального управления для си- стемы х— Дх4-ВЧг (х)4-о. Если m> 1 и Q есть m-мерный куб|и11< 1 в Rm, то удобно рассматривать кривую переключений отдельно для каждой компо- ненты экстремального управления u(0=sgn(r|(/)B)'. Изложение общих свойств таких кривых переключений является слишком громоздкой задачей. Однако в следующих двух приме- рах подробно показан этот важный метод синтеза оптимальных управлений. Пример 1. Рассмотрим автономную управляемую систему в R*-. хг = х2 + и, х2 — —х2 4- и, с ограничивающим множеством Q: | и | 1 в R1. Мы хотим син- тезировать оптимальное по быстродействию управление, приводя- щее систему на прямую х1 = 0, с последующим удерживанием ее на этой прямой. Таким образом, целевым множеством системы будет G = core{x1 = 0}. Если траектория системы лежит на прямой х1 = 0, то х1 (/) = О, х2(0 = —u(t) и, значит, |х2|<1. Обратно, из любой точки xj = 0, | х21 1 система может быть переведена в область |х2|<1 с помощью управления u(t) = —x$e~2t для t^Q. Таким образом, G = {x1 = 0, |х2|< 1}. Заметим, что G—компактное вы- пуклое множество в R2; кроме того, систему можно из любой точки (xj, Хо) С G перевести в G с помощью не экстремального управления «(0 = —xfy~2i (f^O). Проверяем, что условие нор- мальности для матриц В =
150 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 и вектора &у=»1, направленного вдоль Q, выполняется; тем самым система 3 вполне управляема, и по теореме 8 областью нуль- управляемости для нее будет все пространство /?*. Тогда из теоремы 17 и следствия 1 из теоремы 19 вытекает, что из любого началь- ного состояния система может быть переведена в область G с по- мощью единственного экстремального управления, удовлетворяюще- го условию трансверсальности, а именно, оптимального упра- вления. Мы воспользуемся методом «попятного» движения от целевого множества. Запишем систему 3 и сопряженную систему при об- ратном отсчете времени: хг =—х*—и и u = sgn(t]1-|-T|a), ? = Х2 — и, П1 = 0, П, = П1 — Па- Заметим, что вдоль решения сопряженной системы, где ^ = 0, и •П1 + Па=П1 — Йа=— П1 — Па. ТЭК ЧТО Г]1-|-Т]2 = C1-j-C2e-/. Таким образом, экстремальное управление u(t) может иметь не более одного переключения на 0 t < оо. Рассмотрим все экст- ремальные управления, удовлетворяющие условию трансверсаль- ности, и попытаемся построить кривую переключений W в R2—G. Возьмем начальные условия xJ = O, |х?| < 1, Пю = ± Ь п20 = 0. Тогда T)a + 11i = ±2Te~t и, значит, такие управления вовсе не имеют переключений. Возьмем значение и— — 1, и определим кривую Г_ = {х1 = — 2e‘+2f+2, № = 2ef—1, f>0}, исходящую из точки xJ = O, xg=4~l. Покажем, что все точки кривой Г_ принадлежат кривой переключений W. Экстремаль с начальными условиями xi==0, 4-1, i]lo==cos0, T)M = sin0 при любом фиксированном 0 из промежутка л 0 2л совпадает с Г_ до тех пор, пока Hi (0 + П» (0 < 0- Но tli(O + T12(O = (sin9—cos0)e~* + 2cos0 при Таким образом, для каждого 0 из интервала л 0 ^Зл/2 находим u(0 = sign(T)x(0+ns(0) = —1 ПРИ Для каждого 0 из интервала Зл/2 < 0 < 7л/4 функция (sin 0 — — cos0) e“* + 2cos0 имеет лишь один нуль на положительной полуоси (0) > 0. Легко показать, что функция (0) монотонно убывает от + оо до 0 при возрастании 0. Таким образом, сущест- вуют экстремальные управления, удовлетворяющие условию транс- версальности в G, имеющие переключение с и =» -f-1 на и = — 1 в заранее заданной точке кривой Г_, и далее ведущие систему вдоль траектории Г_ в целевое множество G.
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 151 Определим Г+ как кривую, симметричную кривой Г_ относи- тельно начала координат. Тогда получаем кривую переключения № = Г+иГ_. Заметим, что соответствующая кривая x2 = W(x1) разбивает множество R*—G на две части. Определим синтезирую- щую функцию — 1 для x*>W(x1) и на х* = Г_(х1), 4-1 для х* < W (х1) и на х’ = Г+ (х1). ^(х1, х2) = Оптимальные траектории, соответствующие различным начальным состояниям из R*—G, изо- бражены на рис. 2.1. Пример 2. Рассмот- рим автономную управляе- мую систему в R3 X = и или (J?) х1 = х2, х2 = х9, х’= и, Рис. 2.1. Кривая переключения и синтез опти- мальных управлений для системы хг=х2 + и, х*=-х*+и, целевое множество GJ х»=0, 1. с ограничивающим множе- ством Q:|и| 1 в R1. Тре- буется найти оптимальное по быстродействию управ- ление, переводящее систему в начало координат. Теоре- мы 8 и 17 гарантируют существование такого управления для любого начального состояния из R3, а следствие 3 из теоремы 19 показывает, что это опти- мальное управление и есть единственное экстремальное управле- ние, переводящее систему в начало координат. Для построения кривой переключений снова применим метод «попятного» движения. Запишем систему «S’ и сопряженную сис- тему при обратном отсчете времени: х1 = —х2, х2 = —х9, х8 = —и, где и — sgn т]8 (/), т]1 = 0, п2 = т|1, Пз = П2- Заметим, что т]3 = 0, так что т]8(/) = Лзо 4-П20 4* Пю **/2; поэтому каждое экстремальное управление имеет не более двух переклю- чений, соответствующих нулям функции т|в (/), расположенным на положительной полуоси. Определим кривую Г+ как траекторию, /3 исходящую из начала координат при и = 41, т. е. х1 = —g-,
152 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 х» = -^-, х8 = —t при t > 0. Поскольку начальные условия т]10, ц20, ц30 можно выбрать так, чтобы т]3 (t) > 0 при 0 < t < tlt Яз (0 < 0 при tx<t < < 4-оо и Яз (О > О ПРИ t > произвольных О < ti < <4-00, то каждая точка кривой Г+ может оказаться точкой переключения управления с и — — 1 на управление и = 4-1 для экстремального управления, переводящего систему в начало координат вдоль траектории Г+. Для каждой точки Г+, определяемой некоторым значением t > 0, вычисляем решения системы дифференциальных уравнений с обратным отсчетом времени, соответствующие значению управ- ления и — — 1. Обозначая независимую переменную через s (s > 0), запишем эти решения в виде , s8 s2/ st» I» . s2 ... t» , , х ~ 6 2 2 6 ’ Х ~ 2 ++ 2 ’ х ~s Для t > 0, s О эти уравнения определяют поверхность переклю- чений 1F_, содержащую кривую переключений Г+. Определим теперь кривую Г_ как траекторию, исходящую из начала ^координат и соответствующую управлению и= — 1: /3 /2 Xх = -Г-, х8 = —=-, x3 = t При t > 0. О £ Теперь интегрируем нашу систему с обратным отсчетом времени, используя в качестве начальной точки любую точку Г_, а в ка- честве управления и — 4-1. Тогда получим поверхность переклю- чений tF+: , I» . t»s . is» s» . I» . , s2 . . „ * — 6 + 2 + 2 6’ X ~ 2 2 ’ X ~ t S при s > 0,f > 0. Полная поверхность переключений W = W_ U1F+ будет содержать полную кривую переключений Г = Г+иГ_. Пока- жем, что поверхность W разбивает пространство R3, а кривая Г разбивает поверхность W (в Г включается начало координат). Действительно, W есть однозначная функция^переменных (хх, х8). Чтобы проверить это, возьмем произвольную точку (х1, х8) и убе- димся, что единственное значение параметров (s, t) определяет точку (х1, х2, х8) на поверхности W. На WL имеем хх = ^—s/2 (s>0, t>Q), а на W+ xx = ^4-s/2 (s>0, />0). Таким образом, если х = (х8)8/6, то s = 0. Если х1 <0, то следует
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 153 выбрать точку на Г_, где х2 = (х8)а/2; в противном случае выби- раем точку на Г+, где х2 =—(х8)8/2. Если х1 < (х3)3/6, то ищем точку на если же х1 > (х3)8/6, то на W+. Пусть, например, х1 < (х8)3/6, тогда ищем корень t > 0 уравнения s^+jx1—<^]=0 или (х8 + 0^+[х1—-^]=0. Поскольку левая часть этого уравнения представляет собой мно- гочлен третьей степени от t и в точке f = 0 касательная к его графику горизонтальна, то легко видеть, что этот многочлен имеет лишь один положительный корень. Аналогичным образом можно показать, что и на W+ имеется лишь одна точка, в которой х1 > (х3)8/6. Таким образом, поверхность W разбивает пространство R3 на две области: М+, где х2—>4-°°. и Л4_, гдех2—>—оо. Поскольку кривая Г_ соответствует границе Wгде параметры принимают значения t = Q, s > О и, аналогично, Г+ соответствует границе IF+, то ясно, что Г разбивает поверхность W на две части. Если начальная точка (xj, xj, х?) лежит в М+, то мы приме- няем управление и = + 1 > пока траектория не достигнет W+. Затем производим переключение, и используем управление и = — 1, пока не достигнем Г+, затеи переключаемся на и — 4-1, и вдоль Г+ пе- реводим систему в начало координат. Если начальная точка при- надлежит 7И_, то всюду в переключениях будут обратные знаки. Таким образом, синтезирующая функция имеет вид V (х1, х2, х8)= < + 1 в М+, — 1 в М_, — 1 на W_’— Г+, + 1 на W+—Г_, 4-1 на Г+, — 1 на Г_. ПримерЗ. Рассмотрим автономную управляемую систему в Rn, определяемую уравнением x(n,+a1x(B-1)-}-aax<"-2)+ ... 4-а„х=и, с ограничением на управления | и | 1 в R1. Требуется перевести систему из начального состояния (х0, х{,п, ..., xj”-1’) в х = 0 за минимальное время и в дальнейшем удерживать ее в этом состоя- нии. Соответствующая система дифференциальных уравнений в R* будет иметь вид (-2Э х = Ах 4- Ьи,
154 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 где ” 0 1 0 0... 0“ 1 ” 0 1 0 0 1 0 ... 0 0 Л = , 6 = . . . 0 0 0 0... 1 0 _~~ап —ап-1 ... —ах_ 1 1 _ 1 _ Легко видеть, что множество соге(х1 = 0) есть начало координат; оно является целевым множеством нашей задачи. Система 2 вполне управляема, а следовательно, нормальна. В этом случае область нуль-управляемости % является открытым связным под- множеством Rn и мы предположим, что начальная точка хоё#. Тогда существует единственное экстремальное управление, пере- водящее систему из х0 в начало координат, и оно является опти- мальным управлением и* (t) на интервале с соответст- вующим решением х* (/) и сопряженным решением ч* (0- Здесь под ч* (/) понимается нетривиальное решение системы Ч= — М или ч' = — Я'ч', где Ч = (П1. Чя> •••» П»)- Имеем * 41=а„Чя, %= — П1+а»-14», п»=— Ля-1+О1Чл. Последовательно исключая переменные, получим дифференциальное уравнение относительно чп(0: —«хПл —а.С’э> +•••+(— 1 )"ад» = 0. Оптимальное управление удовлетворяет принципу максимума Ч* (f)bu* [t) = max 4* (0 bu, так что u*(t) = sgn4n(0 почти всюду на интервале Заметим, однако, что при рассмотрении общего вида системы n-го порядка практическое применение метода кривых переклю- чений и изучение геометрии множества Ч? сопряженно с большим трудностями. Эти трудности в исследовании кривых переключений и запоми- нании их описаний (в вычислительных устройствах) указывают на нецелесообразность применения описанных методов для управляе- мых систем порядка выше третьего. В приложении А мы опишем метод, позволяющий непосредственно определять оптимальное управление системы без рассмотрения этих геометрических тонкостей.
2.5 оптимальное по выстреДйЙ519ЯХ> управление 155 Однако, хотя в общем случае полное описание кривой пере- ключений для систем высокого порядка весьма затруднительно, существуют два важных случая, для которых легко установить некоторые свойства, относящиеся к переключениям управлений системы. Теорема 20. Рассмотрим автономную линейную систему в R": (£?') х=Ах+Ьи, с ограничивающим множеством й:|ы|^1 в R1. Предположим, что система вполне управляема, а значит, нормальна. Если все собственные значения матрицы А действительны, то любое экстремальное управление имеет не более п— 1 переключе- ний на полуоси 0^/ < оо. Если все собственные значения матрицы А имеют ненулевую мнимую часть, то любое экстремальное управление имеет беско- нечное число переключений на полуоси 0^/< оо. Таким образом, для любого положительного числа N > 0 существует такое началь- ное состояние х0 С R”, для которого соответствующее оптимальное управление, переводящее систему из х„ в начало координат, имеет более N переключений. Доказательство. Поскольку система S вполне управляе- ма, то по теореме 7 можно ввести такую систему координат, в которой матрицы коэффициентов системы примут такой вид: " 0 1 0 0 ... О' i 0 - 0 0 1 0 ... 0 0 А = • • • • • , ь = • 0 6 0 6 ... 1 6 1 ап ^я-1 . . . 1 1 _ 1J Тогда систему S можно описать с помощью одного уравнения n-го порядка: xw4-а1х<я-1>-+-... -|-o„x=u, |ы|<1. Экстремальное управление u(t) имеет вид u(0 = sgmi(0. где т] (t) есть последняя компонента нетривиального решения системы
156 ОПТИМАЛЬНЕЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Собственные значения {Хх, Х2, 1Г} матрицы —А' равняются собственным значениям матрицы А, взятым с обратными знаками, следовательно, они будут действительными или комплексными одновременно с собственными значениями матрицы А. Предположим, что все собственные значения матрицы А дейст- вительны. Тогда т| (/) — Рх (/) eKit 4-... + Pr(t) е***, где действительные многочлены Pj(t) имеют степени —1, а п.]—кратность собственного значения Ху (1 j г). Но пх 4- и24-... ... 4- пг = п и в силу известного свойства экспоненциальных многочленов (см. ниже упражнение 13) функция т] (t) может иметь не более п—1 действительных нулей (—оо < t < оо). Отсюда следует, что экстремальное управление u(t) имеет не более п—1 переключения на 0 t < оо. Предположим теперь, что все собственные значения матрицы А имеют ненулевые мнимые части, а значит, то же самое верно и для собственных значений Xy=ay4-iPy матрицы—Д'. В этом случае П (0=[Рх (0 cos рх (О 4- Qi (0 sin р^] 4- • • • ' ... 4-& [Р, (0 cos Р/ 4- (0 sin pr /], где Рх(0» Qi(0» •••• Рг(0» Qr(0—действительные многочлены, не все равные нулю. Для простоты обозначим через ах наиболь- шее из чисел ах, а2, .... аг, входящих с ненулевыми коэффициен. тами в выражение для я (0- Тогда Я(/) 2 (ayCosPy/4-6ySinP/)4-P(0- Здесь ^0 и тригонометрическая сумма Т(0 = 3 (Д/cosРу/4-6/SinР/) не равняется тождественно нулю. Остаточный член Р (/) таков, что lim e-»*4-feR(t) = 0. t -* 00 Заметим, что Т (t) является конечной тригонометрической сум- мой с нулевым средним значением на интервале 0 < оо. Кроме того, для некоторого 8 > 0 найдется такое L > 0, что сумма Т (I) принимает значения, большие, чем 8 и меньшие, чем —в, на каж- дом интервале длины L. (Это следует из теории почти-периоди- ческих функций, или из непосредственного изучения выражения Пусть Г>0 таково, что
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 157 для Тогда функция (/) = т (/)+е~^Ч~к R (t) должна иметь нуль в каждом интервале t tr + L при > t. Тем самым функция я (0 имеет бесконечное число нулей, а управле- ние u(t) имеет бесконечное число переключений на интервале О «С t < 00 • Поскольку оптимальное управление для заданного начального состояния х0 получается из экстремального управления с помощью попятного движения из начала координат, то существуют такие точки х0 g Rn, для которых оптимальное управление и* (t) на ин- тервале 0 t t* имеет число переключений, большее наперед заданного числа N. Теорема доказана. Другой метод синтеза оптимального управления основан на применении изохронных гиперповерхностей в Rn. Пусть Т (х)—ми- нимальное время, требуемое для перевода системы из начального состояния х в целевое множество; тогда геометрическое место точек в R", для которых T(x) = t при />0, называется изохронной гиперповерхностью, отвечающей значению параметра t. Вдоль оптимальной траектории х*(0 на интервале имеем Т(х*(0) = -< VT(x*(/)) x*(Z) = —1 всюду, где существуют вектор-строка vT«=gradT и производная х*(0. Ниже мы покажем, что вектор—VT (х) можно использовать вместо сопряженного решения я (О ПРИ синтезе оптимального управле- ния u*(t). Чтобы упростить доказательство этого факта, будем предполагать, что целевое множество G есть начало координат, и что существует единственное экстремальное управление, перево- дящее систему из начального состояния в начало координат, как в следствии 3 из теоремы 19. Теорема 21. Рассмотрим автономную линейную систему в R": (3?) х= Ах+Ви, с компактным ограничивающим множеством QcRm, содержащим внутри себя точку и = 0. Предположим, что система {.S?, £2} нор- мальна на любом интервале, а область нуль-управляемости совпа- дает со всем пространством Rn. Пусть Т(х)—минимальное время, требуемое для перевода системы из начального состояния x£Rn в начало координат. Тогда Т (х) непрерывна в Rn, а изохронные
158 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 гиперповерхности Т ( x) — t для каждого t > О образуют семейство замкнутых выпуклых гиперповерхностей, моно- тонно и неограниченно ^раздувающихся* с ростом t. Доказательство. Рассмотрим множество достижимости для tt > 0, начального состояния хо=*О и управлений из Q. Каждое из множеств /С (/J является компактным строго выпук- лым, причем для (см. замечания после теоремы 3, а также упражнение 4 к разделу 3). Мы докажем, что геометрическое место точек, для которых Т (х) = t±, в точности совпадает с границей множества К (it) в Rn. Пусть хх С дК (0) так, что существует лишь одно экстремальное управление щ (0 на интервале 0 t < tt, переводящее систему из состояния х0 в состояние хх. Поскольку —0 есть оптимальное управление, переводящее систему из хх в х0, то Т (xj = tt. Обратно, точка х*, для которой Т (х*) = tlt является концом оптимальной траектории х* (0, по которой система переходит из х0 в х* (0) = х*. Таким образом, точка х* принадлежит границе множества К(1д, и мы показали, что изохронная поверхность Т (х) = есть не что иное, как замкнутая выпуклая граница множества К(0) в R". Заметим, что изохронные гиперповерхности семейства Т (х) = для 0 > О не пересекаются, и каждая из них замыкается вокруг начала ко- ординат. Кроме того, эти гиперповерхности монотонно и неогра- ниченно расширяются с ростом от 0 до оо, поскольку также меняются множества К(0). Для доказательства непрерывности вектор-функции Т (х) в R" положим Т (xj ss: ti. Далее, для некоторого е > О рассмотрим слой, заключенный между гиперповерхностями T(x) = t1—ей Т (х) — = 04-е. (Если х1 = 0, то Т(х1) = 0 и рассуждения не меняются.) Тогда для достаточно малого б > 0 окрестность | х—хх | < б лежит внутри этого слоя, а значит, | Т (х)—0 | < е. Таким образом, Т (х) непрерывна в точке хп а следовательно, в каждой точке Rn. Тео- рема доказана. Следствие. Предположим, что Т(х)^С1 в некотором от- крытом подмножестве 6cRn, не пересекающемся с кривой пере- ключений автономной системы {2} х=Ах-{-Ви. Тогда тах[—v?(х)] [Ax-j-Bu] = 1 в 6. и € Q Если, кроме того, ограничивающее множество Q есть т-мерный
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 159 куб | и11 1, то для каждой точки х С 6 оптимальное управление имеет значение Т (х), где T(x) = -sgn[VT(x)B]. Доказательство. Пусть x*(t) —оптимальная траектория, по которой движется система, переходя из точки хг С 6 в начало координат под воздействием управления u*(t). Тогда Т(х*(0) = -< и, значит, V Т (х* (0) х* (0 = V Т (х* (0) [ Ах* (0 + Ви* (0 ] = — 1 при и х*(0с6. Таким образом, вектор V? (хх) на мно- жестве 6 не обращается в нуль, а значит, определяет вектор внешней нормали к гиперплоскости, касательной к изохронной гиперповерхности в точке хг. Отсюда ясно, что вектор VT (хг) отличается лишь на положительный множитель от вектора г] (/*) сопряженного решения, соответствующего оптимальному управле- нию u*(t*—t), которое переводит систему из точки хо = 0 в точку хх. Тогда вектор—Ви*(0) имеет максимальную возможную проекцию на направление ^Т(хг), или — VT (хх) Ви* (0) = max [— VT (хх) Ви]. ueQ Отсюда шах {— V? (хх) [Лхх + Ви]} = — VT (хх) [4х + Ви* (0)] = 1. Поэтому в каждой точке х£в имеем max [—VT (х)] [Ax-|-Bu] = 1. ueQ Наконец, рассмотрим в качестве Q /n-мерный куб|и7’|^1. Тогда оптимальное управление, переводящее систему из точки хо = 0 в точку ххСб, будет иметь вид и* (/*— 0 = sgn [—ц (0 В] и поэтому в каждой точке хх£б 44x0 = sgn[—n(/*)B] = -sgn[VT(xi) В], что и требовалось доказать- Из этого следствия вытекает метод синтеза оптимального управления u*(t), использующий изохронную функцию Т(х). Сформулируем его следующим образом: 1. Найти явно функцию Т'(х), решив систему дифференциаль- ных уравнений в частных производных: У>Т[Лх -|- В] = —1 в Л4+, У Т[Ах — В] = — 1 в Af_.
160 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ.2 Здесь под й понимается интервал | и | 1, а М + и —области, где оптимальное управление принимает значения соответственно j-1 и — 1. 2. Определить синтезирующую функцию Т (х): Т(х) = — sgn [VT (х) В] для x^Af+(jAf_. Этот метод, однако, содержит все те трудности, с которыми мы сталкивались в методе кривых переключений. Действительно, ведь для определения областей М+ и Af_ необходимо найти кривую переключений. Затем придется решать задачу Коши для уравне- ний в частных производных относительно Т (х), где краевые усло- вия есть значения функции Т (х), вычисленные на кривой пере- ключений. Оптимальные траектории являются характеристиками этих уравнений в частных производных, поэтому для вычисле- ния Т (х) должны быть вычислены и оптимальные траектории. Метод изохронных поверхностей интересен теоретически; иногда он представляет интерес и с вычислительной точки зрения, однако было бы затруднительно дать достаточно полное и общее изложение этого метода. Мы завершим эту главу об управлении линейными системами доказательством того факта, что минимальное оптимальное время t* и оптиккльное управление «*(/) в некотором смысле непрерывно зависят от всех условий задачи управления {.S?, й, х0, tn, G}. Эта непрерывная зависимость позволяет заменять сложные физические задачи их идеализированными математическими моделями, и по- лучать при этом достаточно близкие к действительности прибли- женные оптимальные управления. Для простоты будем рассматри- вать автономные системы с началом координат в качестве целевого множества G и многогранную область й в качестве ограничиваю- щего множества. Поскольку ребра многогранника й играют важ- ную роль в условии нормальности, мы обозначим через Eq мно- жество всех единичных векторов в Rm, параллельных ребрам й (или самому й, если это отрезок). Теорема 22. Рассмотрим автономную линейную систему в Rn: (<?} х^Ах-\-Ви, с выпуклым ограничивающим многогранником QcRm, содержащим и = 0 внутри себя. Пусть выполняется условие нормальности: векторы Bw, ABw, ..., An~l Bw линейно незавцсимы для любого w £ Eq. Пусть далее х0—начальная точка из области % нуль-управляемости, а и* (f)c£i (0 /*) — оптимальное управление, переводящее систему из состояния х0 в начало координат вдоль траектории х* (/). Рассмотрим возмущенную автономную систему в R": (^) х = Ах+Ёи,
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 161 с выпуклым ограничивающим многогранником и начальным состоянием х0. Тогда для любого е > 0 существует такое S > О, что из неравенства | А—Л| + |В—В|-j-|x0—*ol + dist(Q, й) + dist(Eq, Eq) <6 следует, что точка х0 лежит в области нуль-управляемости % системы Д, что система {Д, й, х9} нормальна, и что сущест- вует единственное оптимальное управление u*(t)c& на интервале переводящее систему из состояния х0 в начало коорди- нат вдоль траектории х* (/). Далее, ?|<е и |х*(/)—х*(0|<8 на ^т*=тш[/*, ?*], т* $ I и* (t) — U* (/) I dt < 8. о Доказательство. Поскольку всякий определитель непре- рывно зависит от своих элементов, то существует > 0, такое, что из неравенства Д — Д1А—А | + |В—В | +1 х„— х01 + dist (Й, й) + + dist (Eq, Eq) <6x следует, что det[Bo>, ABw,.. .,A"-1Bffi>]5^0 для w£Eq. Выберем теперь > 0 столь малым, чтобы существовала компакт- ная кубическая окрестность N управления и = 0, лежащая вну- три всех тех й, для которых dist (й, й) бг Мы будем рассма- тривать лишь те задачи {Д, Й, х0}, для которых \Д— каждая из них является нормальной, вполне управляемой, и имеет в качестве области нуль-управляемости некоторое открытое мно- жество Возьмем любое 8 из интервала 0 < 8 < 1 и пусть $ (е/2, N)czRn есть множество тех точек, в которые система может быть переве- дена из начала координат за время 8/2 с помощью управлений и(/)аМ вдоль траекторий, являющихся решениями системы Д. В силу управляемости системы Д каждое из множеств ^(в/2,М) должно содержать вписанный шар радиуса г > 0 с центром в на- чале координат. Небольшое изменение коэффициентов Д приводит к некоторому изменению множества % (s/2, N), причем для нового & Э. Б. Ли, Л. Маркус
162 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 выпуклого множества радиус вписанного шара будет больше, чем г—£ для заданного £ > 0. Таким образом, г является полунепре- рывной снизу функцией матриц Л и В, а поэтому г имеет поло- жительный минимум ге>0при |Л—Л| + |В— Пусть ы*(/)сй (()++<:/*)—оптимальное управление, перево- дящее систему из состояния х0 в начало координат вдоль реше- ния х* (t) системы и пусть и (t)cCl—любое управление с ре- шением x(t) системы такое, что | и* (t)—м(/)|<б2 на интер- вале 0 sC t < t* + 1 (и* (t) = 0 для t > t*). Тогда, если | 3?—S? | < < б2 < бх, где б2 > 0 достаточно мало, то мы находим, что | х* (/) — — х(/)| 1 на интервале 0^/^/* + 1. Это следует из формулы вариации произвольных постоянных, которая выражает решение x(t) как непрерывную функцию от Л, В, х0 и "«(/). Но тогда |x(f*) | < (г6/2|еЛе/21"1, а значит, е^е/2х (/*)£# (е/2, N). Та- ким образом, система может быть переведена из точки x(t*) в на- чало координат с помощью управления из Май вдоль траектории системы S? в течение промежутка времени 8/2. Отсюда следует, что ХоС&Ди оптимальное время управления для перевода системы из начальной точки х0 в начало координат будет /* < t* + 8/2. Если те же рассуждения провести, поменяв местами задачи {J?, й, х0, /*} и Й, х0,/*}, то получим, что /*</* +8/2 и, значит, |/*—?*1<е для 1^—J4< 62 (62 > 0). Пусть теперь \S?—3? | < б2, и*(/)ай, (0^/^/*) и и* (/) ей, (0<+^7*)—соответствующие оптимальные управления, а х* (/) и х* (/)—их траектории. Из непрерывной зависимости решений от Л, В, х0 и и (/) вытекает, что существует 8Х > 0, такое, что из не- равенства т» ] и* (i) — й* (/)1 dt < 8Х < е для т* = min (/*, ?*) о следует, что (возможно, при меньшем б2 > 0) I х* (/) —х* (/) | < 8 на интервале 0 t т*. Мы докажем, что для любого е2 > 0 существует такое положи- тельное б < б2, что из неравенства | 3?—S | < б следует, что |и*(0—и*(/)|<82 вне некоторого промежутка времени длитель- ностью в2 из интервала 0^/^т*. Этим мы завершим доказа- тельство теоремы.
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 163 Принцип максимума гласит, что т] (/) Ви* (0 = шах т] (/) Ви ue Q для некоторого сопряженного решения x\(t), так что управление и* (0 кусочно-постоянно в вершинах множества й. Отсюда следует, что существует такое постоянное 0 > 0, что решения^х* (/) и x(t) системы 3?, соответствующие управлениям и* (t) и и (/) из й, мо- гут удовлетворять неравенству |х*(/*)—х(/*)| < 0 лишь при । и* | вне некоторого промежутка времени длины е2 из интервала 0 t t*. Используя непрерывность оптимального времени управления t*, доказанную выше, найдем положительное б8 < 62, такое, что | х* (/*)— — х* (/*) | < у при | 2—21 < 68. Выберем положительное S4<68 так, чтобы при | .S’—S? | < 64 существовало бы управление и(t)ай, для которого | «*(/)—«(0|<б4 на И |х*(Н-х(Н| <у. Тогда Iи*(t)-u*(0|<[и*(t)—u(t) | +1 й* (0 -й(01 < -J-+б4 всюду вне некоторого промежутка длины е2 из интервала 0 f t*' Положим, наконец, 6 = min , 64) . Тогда из неравенства \3? — — S | < 6 следует, что | и* (t)—и* (01 < в2 всюду вне некоторого промежутка времени длины е2 из интервала Итак, при подходящим образом выбранном в2 > 0 и соответст- вующем ему 6 > 0, имеем X* J | и* (t)— и* (01 dt < 8Х < е о и |х*(0—х*(0|<е на (К Кт*, что и требовалось доказать. Если от нормальной задачи {.S’, й, х0} перейти к некоторой возмущенной задаче {J’, й, х0}, такой, что |Л—Л01 + |В—Я0| + |х—x0| + dist(^ Й)<6, то мы не можем утверждать, что эта возмущенная задача имеет
164 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 единственное оптимальное управление u*(t) c:Q, переводящее си- стему из х0 в начало координат за время ?♦. Однако можно показать, что каждое оптимальное управление u*(f) задачи {&, Q, £0} аппроксимирует управление u*(t) в смысле теоремы 22. Упражнения 1. Рассмотрим управляемую систему х=А (t)x+B(t)u с управлениями и cz Q. Требуется перевести систему из начального состояния х0 при / = 0 за минимальное время в движущуюся точку х = G(t), скользящую по гладкой кривой. Покажите, что подстановка у=х—G(t) сводит эту задачу к задаче о переводе соответствующей системы из точки 0о=хо—6 (0) в точку 0 = 0 вдоль траектории, являющейся решением уравнения у=А (/) 04-В(/)и+ +у(/). Вычислите v(t). 2. Рассмотрим управление, приводящее за минимальное время в начало координат систему хх = — a^+^w, х2 =— а2х2 + &ам» хп = —апхп-{-Ьпи, где все fy # 0, ау > 0 и | и | < 1. Покажите, что координаты начальной точки х0 и моменты переключений /х < t2 < ... < /г_х экстремального управления и, переводящего эту точку в начало координат за время trt связаны системой трансцендентных уравнений: bj °7 L z ...+(_l)r-ieaA-. (/=1 2......п} Знак (±) определяется первоначальным значением управления u=± 1. Покажите, что можно считать г^п и определить оптимальное время t* как минимальное tr, для которого такое решение (0 < < /2 < • • • < М указан- ной системы уравнений существует. 3. Для каких значений действительного параметра р управляемая система 1 | ~2 Р х2 J L 0 —1 с ограничивающим множеством Q: | и11 1, | а21 1 будет удовлетворять ус- ловию нормальности. 4. Вычислите кривую переключений W и наметьте синтез оптимального по быстродействию управления для системы х = и с ограничением | и |«С 1 и целевым множеством G: (х1)2 + (х2)2 1 (круг на фазовой плоскости). Про- верьте выполнение условий устойчивости, нормальности и трансверсальности. 5. Рассмотрим задачу минимального по быстродействию управления системой хх =— х1—x2-j-w1, х2 = — x2+wx + «2 в /?2, с ограничениями ] и11 <; 1 и | и21 1 и началом координат в качеств
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 165 целевого множества. Найдите кривые переключений и для составляю- щих w1 и и2 управления, и наметьте решение задачи синтеза оптимальных управлений. Проверьте выполнение условий устойчивости, нормальности и трансверсальности. 6. Пусть А (0, ^0—действительная непрерывная (пХп)-матрица. Пред- положим, что существует такое 8 > 0, что собственные значения симметриче- ской матрицы A (t) + А' (0 в любой момент /^0 будут меньше, чем — е. Доказать, что система дифференциальных уравнений х = А (0 х устойчива в начале координат, т. е. для любого ее решения х (0 lim х(0 = О. t -* 00 ^Указание: (х'х) = х' (Д + Д') 8 (х'х). j 7. Рассмотрим линейную управляемую систему (<£) х—Ах-\-Bu-\-v (t), где А и В—постоянные матрицы, удовлетворяющие условию управляемости rank [В, АВ, А*В, ..., А*-*В] = п, а вектор-функция v (/) непрерывна йа /?х. Предположим, что ограничивающее множество Q cz Rn компактно и строго выпукло, а целевое множество G удовлетворяет условиям (Ь) и (с) теоремы 19. Докажите, что в этом случае управляемая система нормальна и обладает свойством единственности экстре- мальных управлений, трансверсальных к G, как и в теореме 19. Разберите случай, когда и = 0, G есть начало координат, и точка w = 0 лежит внутри Q. 8. Рассмотрим множество всех автономных управляемых систем (J?) x—Ax-^Bu+v в Rn, с фиксированным выпуклым многогранником Й с: Rm в качестве ограничива- ющего множества. Требуется показать, что, вообще говоря, система удов- летворяет условию нормальности; точнее, что пары матриц (4, В), соответствую- щие нормальным системам, образуют открытое плотное множество в метрическом пространстве, состоящем из всевозможных пар матриц (см. теорему 11). 9. Рассмотрим систему х= 4х+&н, где Д—действительная (2х2)-матрица с комплексными собственными значениями а ± (0 > 0) с ограничивающим множеством й:| и | 1 в R1. Предположим, что система обладает свойством управляемости. Тогда для t > 2л/0 множество К (t) не имеет вершин, т. е., в каждой граничной точке множества К (0 существует единственная опорная гиперплоскость (см. упражнение 2 к разделу 3). 10. Рассмотрим линейную управляемую систему (&) х=4 (t)x+B(t)u+v(t) в с непрерывными в У?1 А (0, В (0 и v (0, начальным состоянием х0 и компакт- ным ограничивающим множеством й ci Rm. Покажите, что множество К (0 зависит от t непрерывно в смысле Липшица на некотором компактном интер- вале т. е. dist (К (ti), К (t2)) < k | ti—t21 (т0 <ti<t2< r2) для некоторого постоянного k > 0. 11. Рассмотрим линейную управляемую систему (%) x=A(t)x+B(t)u+v(t) в Rn с непрерывно меняющимся, непустым, компактным выпуклым ограничивающим множеством Й(0с;7?от(тр^/^Т1). Пусть Xq—начальное достояние системы,
166 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 a G (t) — компактное непрерывно меняющееся целевое множество Докажите, что K(t) есть компактное, выпуклое, непрерывно меняющееся ножество. Получите отсюда теоремы, аналогичные теоремам существования 1 м 17. Докажите аналог теоремы 2 и сформулируйте принцип максимума для икстремальных управлений т) (/) В (t) и (0 = max т] (/) В (/) и почти всюду. 12. Рассмотрим линейную управляемую систему в Rn x=A(t)x + B(t)u + v(t)t начальным состоянием х0 в момент времени т0 и фиксированным компактным целевым множеством G. Рассмотрим управления и (/) на различных интервалах времени т0 < i «с с ограничениями || и ||2 = J ц2 (s) ds «С 1, и (/) с Q, где Q —- То замкнутое выпуклое множество в содержащее и = 0. Докажите, что К (t) есть компактное, выпуклое, непрерывно меняющееся множество, и получите отсюда аналоги теорем существования 1 и 17. Определив новую функцию х° (/) = J u2 (s) ds, получите соответствующую То управляемую систему в Rn+1: х = А (/) х+В (/) u-\-v (t), х*=и? (О, с начальным состоянием (х0, 0) и компактным цилиндром 6Х[0^х°^1/ в качестве целевого множества. Единственным ограничением на управления теперь будет и (t) a Q. Принцип максимума для такой нелинейной системы будет обсуждаться ниже. 13. Пусть Pj{t)—действительный многочлен степени 1 (1^/^г) и пусть Xi < Х2 < ... < Хг, где Ху—различные действительные числа. Дока- жите, что функция Т1(0 = ^1(0^*<+--.+Рг(0еМ имеет не более ni + na+ • • • +лг— 1 действительных нулей. (Указание использовать индукцию по г. Если функция rj (t) e~Krt имеет п1 +пг действительных нулей, то ее пг-я производная должна иметь nx+ ... + действительных нулей.) 14. Рассмотрим автономную систему в /?", обладающую свойством управ- ляемости (J?) х=Ах-\-Ви с компактным выпуклым ограничивающим множеством Q a Rm, содержащим точку и = 0 внутри себя. (а) пусть Ui(0 (0<: t< fi) и u2(f) суть экстремальные управ- ления, переводящие систему из состояния х0 в начало координат. Покажите, что /1==/2 = /*—минимальное оптимальное время управления. (Ь) Если {£, Icq, —любая достаточно близкая управляемая система того же типа, то ?* близко к /*. 15. Рассмотрим линейную систему в Rn <%) jf=A(t)x+B(t)u+v(t),
2.5 ОПТИМАЛЬНОЕ rid БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ ief с выпуклым многогранником в качестве ограничивающего множества Q с: Rm> начальным состоянием xQ в момент времени то = О и постоянным компактным целевым множеством G. Предположим, что л(о=ло+м1+^л2+..., в (о=во+/в1+/ав2+-.«, v (0 = ио+^1+*Ч+ — суть действительные аналитические матрицы при /^0. Покажите, что если задача нормальна, то оптимальное управление и* (/) на интервале ()</</♦ кусочно-непрерывно (если доопределить его на множестве меры нуль), и имеет конечное число переключений между вершинами Q. Более того, если п = 2, то из условия det | В0зу, ( —ЛоВо+Вх) оу | #0 для любого ребра w множества □ следует нормальность задачи управления. 16. Рассмотрим линейную управляемую систему (J?) x=A(t)x+B(t)u в /?л, р де A(t)£Llt B(t)£Lqt \^q< оо, на некотором интервале t < Т. Класс приемлемых управлений составляют m-мерные векторы u(t) на различных интервалах удовлетворяющие условию о m \ 1/Р I и1 (0 dt ) 1.1. где—ф—= 1, а при р=оо берется ограничение ess sup |wz(/)|^l. 0< 1 Покажите, что множество достижимости К (/х), соответствующее начальному состоянию х0, будет компактным, выпуклым, непрерывно меняющимся по времени Для заданного компактного, выпуклого целевого множества G сформулируйте соответствующую теорему существования для оптимального по быстродействию управления и* (t) системы на интервале Пред- положим, что А и В постоянны, и выполнено условие управляемости rank [В, АВ, А2В, ..., Аи"1В] = п, а также предположим, что 1 < р < оо, так что единичный шар в Lp является строго выпуклым множеством. Докажите, что оптимальное по быстродействию управление и* (/) на интервале 0 является единственным и удовлет- воряет принципу максимума и{* (0 = | tA (/) \^Р sgn (0 (i = 1, ..., m), где и (/) = т]* (/) В, а т)* (/) = т]ое“^ — некоторое нетривиальное сопряженное решение. Кроме того, управление и* (/) лежит на границе единичного шара в Lp (Указание: использовать слабую компактность и выпуклость единич- ного шара в Lp для доказательства свойств К (/х) и теоремы существования. Принцип максимума следует из неравенства Гёльдера и соответствует его крайнему частному случаю — случаю равенства.)
168 оптимальное управлений в Линейных системах Гл. 2 Приложение Выпуклые множества Подмножество Р действительного векторного пространства V называется выпуклым, если отрезок (1 —X) Р2, 0 % 1, соединяющий любые две точки Р1( Р8 множества К., целиком лежит в Р. Примерами выпуклых множеств могут служить пустое множество, одна точка P$V, отрезок, соединяющий две точки Рп Р8€К а также все пространство V. Пересечение выпуклых подмножеств V есть выпуклое множество. Мы будем иметь дело в основном с выпуклыми подмножествами действительного n-мерного векторного пространства Р". Выпуклые подмножества R" всегда являются связными множествами, однако они могут быть открытыми или замкнутыми, или ни теми и ни другими, как показывают следующие примеры: п 1) гиперплоскость л: 2 fl,xz4-6 = 0, где а#=0, в декартовых i=l координатах (х1, ..., х") в Р"; п 2) замкнутое полупространство 2 aix‘ + (или ^0); п 3) открытое полупространство 2 aix' + b > 0 (или < 0); п 4) открытый (или замкнутый) шар 2 (х‘—xj)2 < г2(или ^г2) /=1 с радиусом г > 0 и центром в точке х0; 5) n-мерный куб | х* | a, i = 1, ... , « с длиной ребра 2а > 0 или «-мерный куб, у которого выброшены некоторые из гранич- ных точек. Замыкание К, а также внутренность К (int К) выпуклого мно- жества К с Rn являются выпуклыми множествами; более того, int /С == и int Р = int К.. Размерностью выпуклого множества KcRn называют размерность г^п единственного наименьшего линейного многообразия L (Р) cz Р", содержащего К. Непустое выпуклое множество К имеет непустую внутренность относительно L (Р); далее, если Р компактно, то Р топологически эквивалентно замкнутому r-мерному шару. Для произвольного подмножества М с Rn определим его вы- пуклую оболочку Н (М) как пересечение всех выпуклых множеств, содержащих М, т. е. Н (М) есть наименьшее из выпуклых мно- жеств, содержащих М. Таким образом, множество М будет вы- пуклым тогда и только тогда, когда М = Н (М). Если множество М компактно, то и множество Н (М) компактно, и каждая точка множества Н (М) есть выпуклая комбинация некоторых л-f-1 точек из М. Выпуклая оболочка конечного множества точек
ВЫПУКЛЫЕ МНОЖЕСТВА 169 ПРИЛ. Я(Р0, Рг......Рк) называется выпуклым многогранником. Если точки Ро> Pi> • • • > линейно независимы в Rn (точнее, век- торы Pt—Ро> Р2—Ро, .... Pk—Ро линейно независимы), то Я(Р0, Pi......РА) называется k-мерным симплексом. В частности, одномерный симплекс—это отрезок, двумерный симплекс—тре- угольник, а трехмерный—тетраэдр. Можно доказать, что ком- пактное подмножество McR" является выпуклым многогранником тогда и только тогда, когда оно представляет собой пересечение конечного числа замкнутых полупространств. Произвольное зам- кнутое выпуклое подмножество KcRn есть пересечение счетного числа замкнутых полупространств. Говорят, что гиперплоскость л разделяет два множества Afj и /И2, если М± лежит в одном из замкнутых полупространств, ограниченных л, а Л12—в другом замкнутом полупространстве. Два непересекающихся выпуклых множества и /С2 можно разделить гиперплоскостью в Rn, если множество имеет не- пустую внутренность, или если замкнуто, а множество К, компактно. Пусть R—замкнутое выпуклое множество в R”. Гиперпло- скость л, имеющая общие точки с К и такая, что /("лежит в одном из полупространств, образованных л, называется опорной гипер- плоскостью к /С. Через каждую точку множества дК проходит гиперплоскость, опорная к замкнутому выпуклому множеству KcR*- Точка Р называется крайней точкой выпуклого множества К с. Rn, если Р не лежит ни на каком из отрезков Н (Р1г Р2), соединяющих точки Р^Р и Р2 =/= Р из К. Каждая опорная гипер- плоскость к компактному выпуклому множеству KcRn содержит по крайней мере одну крайнюю точку К. Более того, К есть выпуклая оболочка множества своих крайних точек. Замкнутое выпуклое множество К, содержащее более одной точки, называется строго выпуклым, если любая его опорная гипер- плоскость имеет только одну общую точку с R. Строго выпуклое множество KcRa всегда имеет непустую внутренность, и каждая из его граничных точек является его крайней точкой. Теперь мы предлагаем несколько лемм, необходимых для дока- зательства теорем 1 и 2, а также для получения более сильного результата в теореме 1А. Все эти результаты будут затем исполь- зованы при исследовании линейных управляемых систем («S?) x = A(t)x+B(t)u + v(t) с управлениями «(/), определенными на 3: и прини- мающими значения из ограничивающего множества Q с Rm. Здесь A(f), B(t) и v(t) — интегрируемые матричные функции. Лемма 1А. Пусть Q—компактное выпуклое множество в Rm, a —семейство всех измеримых вектор-функций и (t) на
170 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 действительном компактном интервале 3. Тогда множество & является слабо компактным. Доказательство. Пусть Uj(0, 0,(0,..., «А(0—после- довательность функций из гГ, и мы хотим выбрать из нее подпо- следовательность Uk( (t), слабо сходящуюся к некоторой предельной функции и (0 в т. е. такую, что lim $ h (0 Ukt (0 dt = J h (0 и (0 dt “ s 3 для любой ограниченной измеримой n-мерной вектор-функции h(t) на интервале 3. Нам требуется лишь доказать слабую сходимость для каждой компоненты «*,(0. Поэтому рассмотрим последова- тельность вещественных скалярных функций wk(t), равномерно ограниченных на интервале 3: Ясно, что функции wk(f) принадлежат гильбертову пространству ^2 (^0» 0)’ Пуср> <рх(0, <р2(0, ••• > ф*(0 •••—полная ортонормальная система действительных функций (например, тригонометрическая система). Разложим функцию wk(t) в обобщенный ряд Фурье по этой системе: ayft (0 ~ (0 + a|<p2 (0 + ... Обобщенные коэффициенты Фурье а{ равномерно ограничены, поскольку / = » 3 Поэтому можно выбрать такую подпоследовательность wkl(t) по- следовательности wk(t), что существует предел lim ah=Y1. /г! -> оо Далее из последовательности wkl выберем подпоследовательность wki(t) такую, что существует предел lim о&=т«. /г 2 -► оо Продолжая аналогично, для каждого / построим подпоследова- тельность wkj такую, что для всех соответствующая после- довательность i-x коэффициентов Фурье сходится к нулю. Затем из этих ^подпоследовательностей выберем диагональную подпоследо-
ПРИЛ. ВЫПУКЛЫЕ МНОЖЕСТВА 171 вательность Wv(t)=Wu(t), .... О»Л'(0=И»»(0. ••• . элементы которой имеют разложения1) (0 ~ ₽1<Р1 (О + (0 + ••• liin = (/ = 1,2,...). k -+ 00 Для каждого конечного целого k и действительного 6 > О имеем (т1)2+(т2)2+---+(т*)2<С!4-б. Таким образом, и значит, по теореме Рисса—Фишера существует измеримая функ- ция w(t) на 3, имеющая разложение W (!) ~ У (0 + ?аФ2 (0 + • • • Мы утверждаем, что lim Wk'(t) = w(t) kf -* со в смысле слабой сходимости на 3. Действительно, пусть ф(/)— действительная ограниченная измеримая функция, такая, что 1ф(0КС2 на 3. Тогда существует конечная сумма (например, тригонометрический многочлен) р(О=ь»ф1(0+...+ьЧ(0> являющаяся хорошим приближением для ф(/): $|ф(0—Р(0 |2d/<62 3 для заданного е > 0. Заметим, что lim J Р (0 wk- (/) dt = lim 4-... 4- bzpzfe) = k' -► 00 Cj k -* co = 61y14-... 4-^zYz = J P 3 r) Автор пользуется стандартной процедурой, часто именуемой «канторз- вым диагональным процессом». (Прим, ред.)
172 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Произведем оценку | $ Ф (0 wk- (0 dt — $ ф (0 w (/) di | < IJ Р (wk—w) dt I + з з з + | $ (Ф—P)Wk'dt—(ф— P)aydd. з з Используя неравенство Шварца, получим | $ ф —w) d/1 е + Сг8 + Cjg, 3 для всех достаточно больших k'. Таким образом, слабая сходи- мость Wk< (t) установлена. Из векторной последовательности ик (t) выберем подпоследо- вательность ик1 (t), которая покомпонентно слабо сходится на интер- вале 3 к некоторой вектор-функции и (/) так, что lirn ( h (/) (0 dt = 5 h (t) и (t) di для любой ограниченной измеримой вектор-функции h(f) на 3. Остается показать, что и (f) а й на интервале 3 (заметим, что и (t) может быть изменена на множестве меры нуль, без изменения интеграла J h (t)u (t) dt). Пусть 3 (л) OjX1 + ... +а„хп + b = 0 или ах + b — О есть гиперплоскость, опорная к й, так что й лежит в замкнутом полупространстве ах + 6^0. Пусть Е—подмножество интервала 3, на котором аи (t) ф- Ь > 0. Тогда в силу слабой сходимости последовательности ukl(t) lira ( х£ (0 (aukl (t) + b)dt = J %£(/) (ай (t) + b) dt, 3 3 где равняется +1 на E и 0 на 3—E. Но 3 и если множество Е имеет положительную меру, то $Хв(0(^(0 + ^)^>0. 3 Это противоречие показывает, что Е имеет меру нуль, а значит, точка u(t) находится по одну сторону от плоскости л почти всюду
приЛ ВЫПУКЛЫЕ МНОЖЕСТВА 173 на 3. Однако множество Q является пересечением счетного числа замкнутых полупространств, и значит, и (/) a й всюду, кроме некоторого объединения счетного числа множеств меры нуль. Таким образом, и (/) а Й почти всюду на 3. Лемма доказана. Замечание. В предположении, что |«| равномерно ограни- чено, можно усилить эту лемму, а именно: lim $ h (0 uk( (0 dt = $ h (/) dt з 3 для каждого интегрируемого вектора h(t) на 3. Для доказатель- ства достаточно получить соответствующий результат для после- довательности скалярных функций wk(t), слабо сходящейся к w(f) на 3. По условию, существует константа С такая, что и |о»(/)|<С на 3. Пусть функция ф(/) интегрируема на 3-, выберем полином так что $|ф(0—P(f)\dt<&. 3 Для подпоследовательности Wk’(t) получим lim ( Р (t) (w^ (t)—w (t)) dt — O. k' <“ 3 Тогда из оценки, полученной в лемме, следует, что lim J ф (/) (o»v (0 —w (/)) dt = О, и соответствующий результат справедлив для последовательности векторов Uk{(t). В частности, пусть Л(8) = х*(8)Ф“1(5)б(8) на t^s^t^ где функция xf(s) = l на интервале и 0 на остальной части интервала 3, функция Ф($) непрерывна, а функция B(s) интегрируема на 3. Тогда для любого фиксированного t из 3 t t lim $ Ф"1 (s) В (s) uk( (s) ds = J ф-i (s) В (s) й(s) ds. t, t. Лемма 2A. Пусть й—компактное множество в Ra, a r|(i) абсолютно непрерывный вектор на 3. Для каждого t£3 положим т (/) = max т] (/) В (/) и. иеа
174 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Тогда функция m{t) интегрируема на 3. Если матричная функ- ция В (/) непрерывна {или абсолютно непрерывна), то т (t) непре- рывна {или абсолютно непрерывна). Доказательство. Пусть Е—некоторое замкнутое подмно- жество в 3, на котором матричная функция В (/) непрерывна; покажем, что функция m{t) измерима на Е. Возьмем любое дей- ствительное число а и рассмотрим множество Еа а Е, на котором т (/) а. Покажем, что каждое из таких множеств Еа замкнуто, а следовательно, функция m{t) измерима на Е. Если Еа не замкнуто, то существует последовательность _ tk *t, где tk и t принадлежат Е, и m{tk) а> но т (/) < а. Для соответствующей последовательности точек fn{tk) = n{tk)B{ik)u/e^a. Выберем подпоследовательность, обозначаемую также так чтобы ик —> и Q. Тогда v ___ т {t) lim т {tk) = т) (/) В (/) и а. k -► ао Это противоречие показывает, что множество £а замкнуто. Пусть теперь Е1г Ег, ... , Et, ... — последовательность замкну- тых подмножеств в 3, таких, что мера {3—Ег)^2-1, /=1,2,3 и функция В (/) непрерывна на Et (существование таких множеств Et следует из измеримости В (/)). На каждом из множеств функция m{t) измерима, а значит, m{t) измерима и на их объе- динении, которое отличается от 3 на множество меры нуль. Таким образом, функция m{t) измерима на интервале 3. Поскольку величины | г] (/) | и | и | ограничены на 3, то функция m{t) инте- грируема на 3. Предположим теперь, что матричная функция В {f) непрерывна либо абсолютно непрерывна на 3. Фиксируем tt и t2£3 и пусть т (h) = Л (ti) В (ti) ui> € Й, i — 1, 2 ... Тогда m (tt)—m {Q < я (Q В (Q «2—n (Q Ж)м2 = = [я(^)В(4)-п(/1)В(/1)]«8, /п (Q—т {IJ > я (h) В {Q и^—я (О В {Q иг = = [я(4)ад-п(/х)В(/1)] «1-
ВЫПУКЛЫЕ МНОЖЕСТВА 175 ПРИЛ. Из этих оценок непосредственно следует непрерывность или абсо- лютная непрерывность функции m(t), что и требовалось доказать. Лемма ЗА. Пусть Q—компактное множество в Rm, а <р(/, и)—действительная т-мерная вектор-функция, непрерывная по (t, и) для u£Q и любого действительного t. Для произвольного фиксированного t множество Q) = {x€/?n|x = B(0q>(*> “) Для Й} есть компакт в Rn. Пусть g(t)—измеримая п-мерная вектор- функция такая, что g(f)£B (/) <р (t, Q) для любого действительного t. Тогда существует измеримая т-мерная вектор-функция и (t) с Q такая, что g(t)=B(f)<p(t, u(t)) для всех действительных t. Доказательство. Для каждого фиксированного t0 рассмот- рим все точки и £ й, для которых B(Q<P(6>. u)=g(t0). Выберем u(t9) так, чтобы его первая компонента «*(/„) имела возможно меньшее значение. Если имеется более, чем одна такая точка и, то потребуем, чтобы «2(/0) было наименьшим, и так далее. Таким путем определим единственный вектор и (/0) a Q. Докажем, что u(t) есть измеримая функция. Достаточно показать это для компактного интервала 3. Предположим, что компоненты и1 (/), ... , и5"1 (t) измеримы на 3 (если $=1, то ничего не предполагается), и докажем, что us(t) измеримо на 3. Рассмотрим систему замкнутых множеств Et <= 3, 1=\, 2, 3, ... такую, что мера (3— и функции и1^), ..., B(t), g(f) на Et непрерывны. Выбе- рем произвольное число а и покажем, что подмножество в Elt на котором us (/) а, замкнуто. Предположим противное, т. е. будем считать, что существует последовательность tk—► ?, где tk и t принадлежат Et, и (*л) < а < hs (t). Выберем подпоследовательность, вновь обозначаемую tk, такую, что limu(/A)==u£Q. k-><x> В силу непрерывности соответствующих функций на множестве
176 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Е[ имеем u' и1 (t) — и1, 1 = 1,2, ..., s— 1, —g(0. B(Q —В(0, так что B(F)(p(F, w) = g(F). Но us а < us (?), что противоречит определению us(t). Следовательно, функция us(t) измерима на Е(. Отсюда, как и в лемме 2А, следует, что функция us(f) измерима на интервале 3. В силу предположения индукции вектор-функция u(t) будет измеримой на 3. Отсюда видно, что вектор-функция и (t) измерима на всей действительной оси, что и требовалось доказать. Лемма 4А. Пусть y(t)—интегрируемая т-мерная вектор- функция, определенная на компактном интервале 3. Для любого измеримого подмножества Еа.3 рассмотрим т-мерный вектор xE=^y(t)dt. \ Е Совокупность векторов хЕ, отвечающих всевозможным измеримым подмножествам Е в 3, обозначим через К. Тогда К—выпуклое подмножество в Rm. Если, кроме того, вектор-функция y(t) огра- ничена, то К есть компакт. Доказательство. Мы предлагаем здесь сжатое доказа- тельство этого важного факта из теории меры. Будем рассматри- вать интервал 3 и о-алгебру & всех измеримых по Лебегу под- множеств 3. (о-алгеброй называется совокупность подмножеств 3, замкнутая относительно операций взятия счетных объединений и пересечений, а также дополнений; в частности, в ст-алгебру вхо- дят само 3 и пустое множество 0.) Мы будем рассматривать также некоторые о-подалгебры ‘Нс.® (причем все такие подал- гебры будут неатомистическими, что означает, что если лебегова мера р(Е) > 0 для Е^Щ, то существует подмножество Е^сЕ из ‘IL такое, что 0 < р (Et) < р (Е)). Прежде всего отметим, что для любой o’-алгебры сущест- вует непрерывное семейство множеств Da, O^a^l, где Da^‘U, Da,c:Da,t тогда и только тогда, когда ax^a2, и р(Da) — ар(3). Для простоты будем считать р(5) = 1, так что p(Da)=a при O^a^l. Такое непрерывное семейство легко построить с по- мощью аксиомы выбора как некоторую максимальную линейно упорядоченную цепочку множеств в ‘И. Пусть теперь f(t)—действительная интегрируемая функция на 3, а ‘U—a-алгебра. Тогда существует a-алгебра ‘IL^cz'U, на кото-
ПРИЛ. ВЫПУКЛЫЕ МНОЖЕСТВА 177 рой J f di = n (Е) J fdt (для упрощения вычислений положим е я р (3) = 1 и J f dt = 1 ) . Для доказательства этого факта мы сна- 3 чала построим множество 2^6% на котором Jfd/ = l/2n Bi р(£1) = 1/2. Для того чтобы убедиться в существовании Е1г используем непрерывное семейство Da, Osg^as^l в eU. Заметим, что u.(Da—D 1 \=4- для а из интервала l/2<a^ 1 и ин- I а~) 2 теграл от функции f по множеству Da—D i представляет ““Т собой действительную непрерывную функцию q>(a), такую, что fq>(l) + q>^y^j^2 = y. Таким образом, для некоторого проме- жуточного ах из интервала 1/2получим <р(а1) = 1/2. Далее, разделим каждое из множеств Е1 и Е2~3—Ег на два подмножества E3,Et и Es, Et соответственно так, чтобы J fdt = El — l/4 = p(£z). Продолжая аналогично, получим счетное множество таких множеств Е, и затем рассмотрим a-алгебру ‘U1, порожден- ную всеми этими множествами. Поскольку fdt и р (Е) Е являются мерами, определенными на <М1, и они совпадают на ука- занном выше счетном семействе множеств Еи Ег, ..., то имеем j f dt = р (£) для всех Е £ (llv Е Повторяя это рассуждение конечное число раз, получим сле- дующий результат. Пусть f = (f1, ..., fft) —действительный ft-мер- ный вектор, состоящий из интегрируемых функций на 3. Тогда существует о-алгебра 41 а: S3, на которой ^fdt = n(E)\fdt для всех Е^'Н. е з Теперь легко доказать выпуклость 2С= (0 | . j Предположим, что = \y(t)dt = a3, Ft Е, и рассмотрим промежуточную точку для некоторого А из промежутка 0<А.< 1,
178 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Возьмем 2т-мерный вектор у* (t) = (у (f) (t), у (t) %2 (/)), где Xi(0 и Хг(0—характеристические функции множеств Ft и F2 соответственно. Пусть 41—о-подалгебра алгебры такая, что $ У* (t) dt = V^(E)^ у* (t) di = Н (Е) (01), Е g 41. Е 3 \аи/ Пусть Da—непрерывное семейство множеств из 4L такое, что p(Da) = a. Положим F = (DxПЛ)U [Р—^x)nF2]. Тогда ^y(t)dt = $«/(0X1(0^+ 5 ^(ОХг^^^ + П—%)a2. F dk 3-ox Следовательно, К. является выпуклым множеством. Компактность К мы здесь доказывать не будем, но доказательство может быть получено использованием рассуждений, аналогичных примененным для доказательства теоремы 1А. Лемма доказана. Теорема 1А. Рассмотрим, линейную управляемую систему в Ra {3} x = A(t)x + B(t)u + v(t), с компактным ограничивающим множеством й, начальным состоя- нием х' и управлениями и(/)сй на интервале 3: Тогда множество достижимости К(^) является компактным, выпуклым, и непрерывно меняется по при Более того, если множество й заменить его выпуклой оболочкой И (й) и через обозначить соответствующее множество достижимости для управлений u(t)<=H(Q) на интервале то Доказательство. Используя, как и при доказательстве теоремы 3, результат Ляпунова, легко показать, что множество K(ii) выпукло. Формула вариации произвольных постоянных для управления н(/)с:й и соответствующего ему решения x(t) имеет вид t х (0 = Ф (0 х0 + Ф(0 Ф -1(s) [S (s) u (s) + v (s)] ds. Поскольку й есть компакт, матричная функция Ф({) непрерывна на 3, a B(f) и v(t) интегрируемы на 3, то ясно, что множество K(tj) ограничено. Следовательно, замыкание К(^) является ком- пактным выпуклым множеством в Rn. Мы покажем, что К (ti) = К (Q или, короче, К—К. _ _ Пусть Ро—некоторая точка в К. Поскольку внутренность К совпадает с внутренностью К, то выберем Р0£дК. Предположим
ПРИЛ. ВЫПУКЛЫЙ МНОЖЕСТВА 170 сначала, что существует опорная гиперплоскость л к /С, такая, что лГ|К=Ро- Пусть т](/х)—единичный вектор, ортогональный к л и направленный в сторону того полупространства, которое не содержит К. Рассмотрим сопряженное решение: т] (/) = г]оФ-1 (0. где т1(/1) = т]0Ф-1(/1). Тогда в силу лемм 2А и ЗА существует управление u(f)czQ, для которого tj (t) В (t) и (t) = max ц (/) В (/) и = т (t). Для соответствующего ему решения х (/) в R" имеем т] (tj) х = max т| (tj x = max ц (/x) x. xeK x6X Таким образом, х(/х)^лГ)^ и_x(t1) = P0^K. В случае, если точка Р0£дК не является единственной точ- кой пересечения опорной гиперплоскости с К, следует выбрать опорную гиперплоскость л так, чтобы пересечение лЛК было компактным выпуклым множеством Зх наименьшей возможной размерности. Мы покажем, что Зхс:/(, если Зх представляет собой отрезок прямой, и укажем, как изменить рассуждение в случае более высокой размерности. Определим q(Z) для гиперплоскости л так же, как и раньше. Для каждого t £ 3 рассмотрим компактное подмножество Qf в Q, такое, что i\(t) В = Управление u(t) переводит систему из точки х0 в некоторую точку отрезка Sx тогда и только тогда, когда u(/)c:Qt почти всюду. Пусть т]1(/1)—внешняя нормаль к Зх в его крайней точке Рх. Определим соответствующее сопряженное решение т]х(/) и пусть тх (t) = max т)х (/) В (/) и. u£Qt Тогда, используя небольшое обобщение лемм 2А и ЗА, покажем, что /пх(/)—измеримая функция, и что существует измеримое управление ux(f)czQt такое, что П1 (0^(0 «1(0 = "4 (9- Мы докажем, что их(/) переводит систему из точки х0 в крайнюю точку Рх отрезка Зх.
180 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Поскольку Р^К, то существует последовательность управле- ний ц,(0ай с решениями Xj(t) такими, что limx/(0) = P1. /-►со Так как П (h) (ti) П (0) Pi = П (ti) Po, TO limr)(0B(t)Uj(t) — m(t) no мере, /-►CO т. e. для любого 8 > 0 существует подмножество 3 меры s, вне которого 1^(0—i\(t)B(t)Uj(t)\<& для всех достаточно больших j. Для каждого в > 0 положим те (0 = max цх (0 В (0 “> где под й/, в понимается подмножество в й, на котором т| (0 В (t)u ^m(t)—8. Заметим, что множество Й/, 8 компактно и те(0 — измеримая функция. Кроме того, для каждого t € 3 lim Qit в = й|, lira mt (t) = tn (t), 1 e-*0 * e->0 причем обе последовательности являются невозрастающими. Иначе говоря, если управление u(t) переводит систему из х0 в некото- рую точку вблизи Sx в /С, то оно должно лежать в Йй , всегда, за исключением, быть может, некоторого малого промежутка вре- мени. Выберем малое 8 > 0. Тогда для достаточно больших j имеем И/(0<=Й#,. на 3, за исключением, быть может, его некоторого подмножества меры в. Поскольку лЛ/С = 31, lim t]i (0) Xj (Q = lim sup тц (0 х == (Q Pv j-*V> /-*00 X где верхняя грань берется по всем х € К таким, что Я(0)х>п(0)^о—у- Таким образом, для заданного 8 > 0 существует 8Х (0 < < в) такое, что I (0 — (0 В (0 Uj (0 | < 8 всюду, кроме множества меры 8, для всех достаточно больших /. По теореме Егорова lim m, (0 = /пх (0 е-»о
ПРИЛ. ВЫПУКЛЫЕ МНОЖЕСТВА 181 почти равномерно на 3 и, следовательно, lira Tii (t) В (/) иj (t) = /пх (t) в смысле сходимости по мере на 3. Отсюда следует, что сущест- вует последовательность, которую мы снова будем обозначать Ujit), такая, что почти в каждой точке t$3 lira т) (/) В (0 и, (/) = /п (/)== т] (О В (t) ux (/), /-►со lira ть (О В (0 uj (0 = т1 (t) = т)1 (t) В (/) ux (t). }->» Поскольку управление Uj(t) переводит систему из точки х0 в точку <-Plt то предельное управление их(/) переводит систему из х0 в Р1г и значит, Таким же образом можно построить управление иг (t) € й, переводящее систему из х0 в другой конец Р4 отрезка Sv Поскольку множество К выпукло, то весь отрезок S^K. _ Если же Р0£дК не лежит ни на какой опорной гиперплос- кости, пересекающейся с К по отрезку прямой, то выберем та- кую опорную гиперплоскость л в Ро, чтобы пересечение л Л К было компактным выпуклым множеством S наименьшей возможной раз- мерности. Если S имеет размерность два, то рассмотрим границу S относительно плоскости L(S), натянутой на S. Каждая точка границы может быть отделена опорной прямой к S в плоскости L(S) или же лежит на отрезке, являющемся пересечением S с такой прямой. В любом случае повторение приведенного выше рассуждения показывает, что граница множества S относительно L(S) лежит в К, а значит, и само S принадлежит выпуклому множеству К. Если множество S имеет размерность три или выше, то рассмотрим границу S относительно линейного много- образия L(S), натянутого на S и далее теми же рассуждениями, что и прежде, докажем, что Sc/C. Таким образом, каждая точка P«GdK принадлежит К, и значит, К=К. Наконец, покажем, что /С(/1) = Кн(<1) или К.=Кн- Оба мно- жества /С и Кн выпуклы и компактны, и К.С.К.Н- Поэтому, если показать, что К плотно в Кя, отсюда будет следовать, что К = Кн. Предположим сначала, что ин (f) <= Н (О)—ступенчатая функция с конечным числом значений, принимаемых на пересекающихся интервалах 3t, ..., 3S, покрывающих 3. Запишем ин(t) = UHt+ ... + ин,, где инj постоянно на j-м интервале 3jc,3 и равняется нулю на остальной части 3. Управление unt может быть представлено на L
182 ОЙТИМАЛЬНбЕ УПРАВЛЕНИЕ & ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 интервале З^.^^Л^тг в виде «я. = Xo«oi+...+%„ып1> т. е. как выпуклая комбинация вектора ы01, ..., ип1 из □. В силу выпуклости Л существует управление uJ/jcQ на Зи переводя* щее систему из х0 в ту же точку Хя(тх), что и uHl. Теперь возь- мем хн (тх) в качестве начальной точки и воспользуемся управ- лением ин, на 3a:r1^t^.xa, чтобы найти управление иа(/)<=□ на За, переводящее систему из хн (тх) в ту же точку, что и управ- ление ин,. Продолжая этот процесс, построим управление «(О = “i (0 + и, (0 + ... + us (0 с Q, где Uj(t) = Q на при i#=j, переводящее систему из х0 в ту же точку Xh^i), что и управление un(t) на 3. Каждое управление u(t)<zH(Q) на 3 непрерывно на замкну- том подмножестве ЕсЗ таком, что мера множества (3—Е) сколь угодно мала. Поскольку множество Н (Q) выпукло, то можно изменить u(t) на открытых интервалах, покрывающих 3—Е, продолжив и (t) туда линейным образом так, чтобы полученная функция. u(t)cH(Q) была непрерывна на 3. Затем выберем точки на u(t) и построим ступенчатую функцию «н (Q), равно- мерно аппроксимирующую u(t) всюду, кроме некоторого мно- жества сколь угодно малой меры. Таким образом, решение xn(t), соответствующее «я(0, равномерно аппроксимирует решение x(f), соответствующее u(t) на 3. Следовательно, К плотно в Кн и К=Кн- Теорема доказана.
ГЛАВА 3 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ С ИНТЕГРАЛЬНЫМ ВЫПУКЛЫМ КРИТЕРИЕМ КАЧЕСТВА В настоящей главе мы изложим теоретические основы оптими- зации систем с интегральным критерием среднеквадратической ошибки (и с некоторыми более общими критериями) на фиксиро- ванном отрезке времени. В первой части главы рассматривается лишь критерий среднеквадратической ошибки и применения соот- ветствующей теории. Во второй части вводятся общие выпуклые интегральные критерии и рассматриваются системы, в которых на управляющую функцию наложены дополнительные ограниче- ния. Полученные результаты, а именно, необходимые и достаточ- ные условия оптимального управления, выводятся из геометри- ческих свойств множества достижимости. 3.1. Значение интегрального критерия качества Интегральный критерий качества используется в тех случаях, когда главным является оценка показателей системы управления в среднем на выбранном промежутке времени, а кратковременными отклонениями от идеала можно пренебречь. Так, например, при построении систем управления часто употребляется критерий мини- мума среднеквадратической ошибки. Этот критерий достаточно детально изучен, и оптимальное управление определяется как яв- ная функция некоторых линейных параметров управления, зави- сящих от коэффициентов и начальных условий линейной системы (см. примеры ниже, в разделе 3.3). Несмотря на то, что системы, рассматриваемые в этой главе, являются линейными, они сыграют важную роль в исследовании нелинейных задач наведения и управления, используемых при полетах в космическом пространстве, в силу того, что уравнения в вариациях, получаемые с помощью линеаризации в окрестности известного решения нелинейной системы, являются линейными уравнениями.
184 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Во многих физических задачах выбор конкретного интеграль- ного критерия качества является достаточно сложной проблемой. На практике, если выбор критерия не очевиден, обычно стараются найти такой критерий, чтобы соответствующее ему оптимальное решение было бы нетрудно построить, и в то же время, чтобы оно служило достаточно близким приближением к идеальному. После того как оптимальное управление построено, необходимо прове- рить, удовлетворяет ли управляемая таким образом система ос- тальным физическим требованиям. Пока свойства различных опти- мальных управлений не изучены более подробно, этот метод ап- проксимации и последовательной корректировки является наиболее эффективным. Таким образом, мы видим, что изучение отдельных оптимальных управляемых систем полезно с той точки зрения, что такие исследования можно сформулировать в виде определен- ных* математических задач, решение которых дает различные ме- тоды синтеза оптимальных управлений. 3.2. Интегральный квадратичный критерий качества Оценка качества управляемой системы с помощью интеграла от квадрата ошибки, взятого по фиксированному промежутку вре- мени, дает критерий качества системы, для которого сравнительно легко найти оптимальное управление. Мы начнем с изучения об- щих свойств линейных управляемых систем этого класса. Будет показано, что оптимальные управления являются экстремальными управлениями, удовлетворяющими принципу максимума, и соот- ветствующими границе множества достижимости (необходимое ус- ловие). Будет установлено взаимно однозначное соответствие между такими граничными точками и экстремальными управлениями (достаточное условие). В следующем разделе мы используем раз- витую здесь общую теорию для решения целого ряда отдельных задач. В этом разделе будет рассматриваться линейная управляемая система х=Л(0х+В(0«. где Л (0 и В (0—непрерывные (пхп)- и (пх/п)-матрицы на заданном конечном промежутке времени t Т. Пусть n-мер- ный вектор состояния системы x(t), имеющий в исходный момент времени заданное значение х(/0)=х0, под действием /п-мерного управляющего вектора u(f) в конечный момент времени Т полу- чает значение х(Т). Критерий качества управления выражается так: т C(u)=g (х (Т)) + J [х’ (s) W (s) х(s) + и' (s) U (s) и (s)]ds. t.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 185 Здесь g(x)— заданная действительная непрерывная функция на Rtt, a W (s) и U (s)—действительные квадратные матрицы, непрерыв- ные и симметричные на интервале ta s Т. Предполагается также, что матрица W (s) неотрицательно определена, а матрица U (s) по- ложительно определена для всех s, т. е. W (s) = W (s) 0 и U (s) — U' (s) > 0, так, что х' (s) W (s) х (s) — || x(s) ||if 0 и и' (s) U (s) и (s) = || и (s) ||Ь > 0, если и (s) =£ 0. Найти оптимальное управление—это значит найти минимум функционала С (и) на мно- жестве всех измеримых управлений и (s), для которых т $ II “(s) l|yds< оо. ^0 Ниже в этом разделе мы будем придерживаться указанных сейчас обозначений и предположений. Кроме того, мы можем потребовать, чтобы управление приводило систему в заданное целевое множество в R". Поскольку положительно определенная матрица U (s) не- прерывна и ограничена, то легко видеть, что т J||«(s)||(?ds< оо *9 тогда и только тогда, когда вектор-функция u(t) принадлежит гильбертову пространству L2(t0, Т), т. е. т т $ и’ (s) и (s)ds = J || и (s) ||2 ds < оо. t, t» Такие допустимые управления всегда интегрируемы, и соответствую- щие им непрерывные решения x(t) ограничены на интервале В силу неотрицательности (полуопределенных) норм х' (s) W ($) х (s) = || х (s) ||ur > О, и' (s) U (s) и (s) = || и (s) ||b > 0 при и (s) =£ О, можно ожидать, что функционал С (и) имеет минимум, во всяком случае при некоторых ограничениях на g(x(T)), обсуждаемых в теореме 2. Для удобства обозначений положим t Хи (0 = $ [|| Xtt (s) ||£ 4-1| и (s) lib] ds *9 и рассмотрим решение ха (t) = (х„ (t), ха (t)) в Ra + 1 для каждого уп- равления u(t). Сначала мы рассмотрим случай g-(x)==0; при этом
186 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 мы убедимся, что полученные результаты являются основой для исследования общего случая. Определение. Рассмотрим управляемую систему в Rn: (J?) х — A(t)x+B(t)u, с критерием качества т Со («)= $ [||x(s) 11^ + 11 ^0 Множество достижимости К = К(Т, х0) есть совокупность конеч- ных точек траекторий хи(Л = (4(Л. ха(Т)) в Rn+1, соответствующих всевозможным допустимым управлениям u(t) на Всюду в этом разделе через будет обозначаться множество достижимости для системы (J?) с критерием качества Со (и). В силу нелинейности функционала Со (и) множество К (Т, х0) существенно зависит рт точки х0. Очевидно, что К. лежит в полупространстве х° > 0, за исключением, быть может, одной точки, соответствую- щей нулевому управлению и (t) == 0. Выпуклость множества Л вы- текает из соотношений выпуклости для нормы II 1цх (s) + (1 -1) и2 (s) ||8У = №II и, 111г + 21 (1 -1) uiUu2 + + (1 -1)М| «2 |с/ С V || ||Ь + 1(1 -1) [|| и. ||2У + || и2 ||М + +(1Ik II Ъ=Ml «1 (s) ||Ь+(1 -Л) II «з (s) ||М и, аналогично, II и, (S) HSz < 1 И Xtti (S) |[Sz + (1 -1)|| XU2 (s)||^ при 0^1^ 1. Лемма. Рассмотрим управляемую систему в R": (2) x = A(t)x + B(t)u, с критерием качества т C0(u)= $[l|x(s)||^ + ||u(s)||Mds /о и множеством достижимости К с /?п+1. Тогда ортогональная проекция множества К на гиперплоскость х° = 0 есть линейное многообразие. Кроме того, если точка у = (уа, У)€.К, то вся по- лупрямая х°^у°, х — у лежит в К.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 187 Доказательство. Формула вариации произвольных по- стоянных т ха (Т) = Ф (Г) х0 + Ф (Т) $ Ф-* (S) В (s) и (s) ds, to где Ф(0—решение уравнения x = A(t)x с начальным условием ф(/0) = /, показывает, что точки хи(Т)—Ф(Т)х0 заполняют все линейное подпространство х° = 0, когда и пробегает линейное пространство L2(/0, Т) допустимых управлений. Пусть теперь управление и (t) переводит систему из начального состояния (0, х0) в точку (у°, у) из К. Построим управление «(/) = «(/) + такое, что т (1) $®-1(s)B(s)u?(s)Js = 0, ^0 Т (2) 5||х0(з)|^ + ||м(з)||уа8 = 1/0 + 6 to для заданною Ь^О. Пусть ul(s) = X(s, T)Pi + x(s, I±^)₽2+...+x(s, ^jp„+1 и и'р (s) = 0 для j = 2, 3, ... , tn при t0 s Т. Здесь функция X (s, h) определяется по формуле ( 1, если sCA, X (s, h) = < „ ( 0, если s > «, а постоянные Р1( Р2, ..., Ря+1 будут определены ниже. Для того чтобы выполнялось условие (1), потребуем, чтобы T + tp Т 2 Рх J®-4s)b1(s)ds+₽g J Ф-*(«Ж(з)Л+ ... i» t, T + ntp n +1 ..•+₽.« $ ®-1(s)^(s)ds = O, to где b^s)—первый столбец матрицы В (s). Таким образом, усло- вие (1) выполняется, если определить п-f-l действительных чи- сел рх, р8, ..., рл+1 как нетривиальное решение системы п ли- нейных однородных скалярных уравнений. Для каждого действи- тельного р Q значения рР = (рР1( рР2, ..., ррп+1) вместе 9
188 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 соответствующим управлением « (S) = Й (s) + Up? (S) =й (8) + ри₽ (S) удовлетворяют условию (1). Выберем теперь р#=0 так, чтобы выполнялось условие (2). Имеем т т Со («) = $ [|| Ха || V + II и ||М ds = j [|| x-+pup IIV +1| й + pup (IM ds. Для краткости положим xB(s) = O(s)x0 + Po(s), так что т Со («) = $ III X- + рРа IIV +1| й + рИр ||u] ds = ^0 р Т Т = $ IK IIV +||й||М^ + 2р $ [x-WP +u'Uu?] ds + t. *' т +р‘ S [II Л, II» +ll“fIIM*- /0 Поскольку Up (s) ф 0, то коэффициент при ра положителен, сле- довательно, выбрав р соответствующим образом, мы можем по- требовать, чтобы два последних члена равнялись наперед задан- ному числу Тогда Со («)=!/*+&• Лемма доказана. Теорема 1. Рассмотрим управляемую систему в Rn: (S) х = A(t)x+B(t)u, с критерием качества т Со («)=$ [||Х ||V+||u НМ ds. ^0 Тогда множество достижимости K<zRn+1 выпукло и замкнуто. Доказательство. Пусть x1 — (}d>l,x^nxi = ()^, хг) две точки в К, соответствующие управлениям ux (s) и иг (s) на интер- вале t9^s^T. Пусть У = (У°, У) = ^х1-\-(1—Х)хг для 0<Х<1. Для того чтобы доказать выпуклость К, необходимо построить управление, переводящее систему из (0, х0) в у. Положим u(s) = Auj (s) 4- (1 —К) и, (s).
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 189 Тогда (s) = Хх± (s) 4- (1 —X) х2 (s), так что (Т) ~ Ххх 4- (1 —%) х2 = у. В силу выпуклости норм получим т т (Л=$ [|| хй II2»7+II « НМ ds < к S til А II + II «х им ds+ tn *0 + (l-l)$[||x8||^ + ||u,HM^ И Однако К содержит всю полупрямую х°^х£(Т), х = у, и сле- довательно, содержит у. Значит, К выпукло. Полезно также показать, что даже в нелинейных координатах (|/х®, х1, ...» х") в полупространстве х®0 пространства /?”+1 множество К выпукло. Для этого нам потребуется построить управление, переводящее систему из точки (0, х0) в точку z = (z°, z)=X(]/’xj, xj + fl—ха). Снова получаем, что управление й (s) = (s) 4- (Г— X) иг (s) переводит систему из состояния х0 в состояние х- (Л = ^х + (1 — Ц х2 = z. Введем теперь обозначение t(s)__(хts) \ = 0 \ \«(s)y‘ () ^0 U(s)J и определим норму lll^lll2 = $ II S(s)l|v ds. ^0 Тогда из неравенства треугольника III Х5х 4- (1 -X) 111 < к HI III + (1 -X) III III следует, что
190 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 По предыдущей лемме точка г вновь принадлежит К и, значит, множество К является выпуклым и относительно координат (j/х®, х1....х"). В дальнейшем мы используем координаты (|/х®, х1, ..., х") в х® 0; множество К замкнуто по отноше- нию к этим координатам тогда и только тогда, когда оно замкнуто в обычных координатах (х®, ... , х"). Мы будем считать также, что множество К имеет непустую внутренность; в противном случае все дальнейшие построения можно проводить внутри линейного многообразия, натянутого на К. Как показывает лемма, каждая граничная точка р = (|/р°> р) множества К имеет опорную гиперплоскость с внешней нор- малью, направленной в сторону гиперплоскости х° = 0. Следова- тельно, существует точка q — (0, q) такая, что р— единственная точка в К, ближайшая к q. Точнее, р определяется как единст- венная точка из К, удовлетворяющая условию |Р°1 + 1|Р—<?ll2 = inf {|r°|-H|r—<7||2}- г еК Мы закончим доказательство теоремы, показав, что для каждой заданной точки (0, q) существует точка р в К, удовлетворяющая этому условию. Рассмотрим последовательность управлений mz(s) таких, что т lim { J [|| xt (s) ||^ + Цц,- (s) ||2У ] ds 4-1| xz (Т)—q ||®} = а, i -> со / 4о где а= inf {|r®| + ||r—<71|2}. г <=к Для каждого управления uz(s) запишем решение xz(s) = Hz(s) + Pz(s), где S Н(S)=Ф(s) х0, Pl(s) = ф(s) J Ф"1 (ст)В (ст) И,- (tf) da, и определим функционал т j(“) = $ [||X (s) UJk +1| U(s) ||&] ds + II x(T)—q IP— т - IM-||ff(T)- *9
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 191 J (и) = 2Р' (Г) (Я (T)—q) +1| Р (Г) IP + + $ [|| Р (s) |ft + 2Я' (s) W (s) Р (s) +1| и (s) ||М ds. f» Непосредственным вычислением находим + = (B,)+1,/W + + (Я (T)—q)' (Pi (T)-Pj(T»+ 5 Н’ (s) W (s) (P{ (s)-Pj(s))ds. t O i Далее имеем -$ tf4s)WWPz(s)-P,(s))ds = I Pi (T)-Pj (T) 11» fry Pi (s)—Pj (s) II» | Ui (S)-UJ (s) IP 1 “I 2 К + J Lil 2 |k+| 2 llt/J /о (ц. _|_ ц. \ —P. так что л J 1 rr, 4, Г/ Ч OQ1^ р;(’’)-Р/(П||« I f Г] Я,И-Р;(!) «,(>)-»/<!) IM. + J [|-----2---- r+ -------2----IH*; /о так как левая часть J (и,-) + J (ыу)—20 положительна и стремится К НУЛЮ При I, /—>-00, то т lim J||«z(s)—uAs)\\uds = O. г. / -» « <0 По теореме Рисса—Фишера последовательность {и,} сходится в Ц (t<>> Т) к некоторому предельному управлению и* (s) с соответ- ствующим решением x* (s). Таким образом, $ [|| х* (s) ||Sz +1| «*(s) ||ft ds +1| x* (T)-q |p = a, /о
192 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 и следовательно, точка (|/р°, р) = (Ух^*(Т),х* (Т)) принадле- жит. /С Поэтому К = К и множество К. замкнуто. Теорема доказана. Управляемой системе в Rn: х= A(t)x + B(t)u, можно поставить в соответствие критерий качества 1/2 ГТ ^0 и определить, таким образом, соответствующее множество дости- жимости К. с Rn+1, состоящее из всех точек (С (и), х(Т)). Отме- тим, что доказательство приведенного ниже следствия содержится в доказательстве теоремы 1. Следствие. Рассмотрим управляемую систему в Rn: (J?) х = A (t) x-f- В (f) и, с критерием качества Г т [1И1^ 1/2 Сои — первый для Тогда соответствующее множество достижимости К а /?"+1 вы- пукло и замкнуто. Аналог следующей теоремы существования, а также и другие результаты этой главы, верны как для критерия g(x(T))-|-C0 («), так и для g(x(T)) + C0(u), однако мы будем проводить все дока- зательства лишь для критерия второго типа, оставив самостоятельных упражнений. Теорема 2. Рассмотрим управляемую систему в (.S?) x=A(t)x+B(t)u, с критерием качества т C(«)=g(x(T))+$[||x|^+||u||?/]ds. /о Rn: Если либо a) S(x) > а» т- е- функция g(x) ограничена снизу, b) ^(^i + (l+^)^)<^(^i) + (l— tyg(x2), 0< g(x) есть выпуклая функция, то существует оптимальное управление, минимизирующее наш критерий. Доказательство. Рассмотрим множество достижимо- сти К с 7?"+1, соответствующее управляемой системе 2 с крите- рием качества (который рассматривается как дополнительная либо
3,2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА ИЗ а? Рис. 3.1. Оптимальное решение» лежа- щее в выпуклой области достижимости. т r -1 координата) х° (Т) = $ || х ||V +1| и ||у ds. Тогда по теореме 1 мно- л J жество К. выпукло и замкнуто. Поскольку каждое приемлемое управление и (0 определяет точку (х® (Т), х0(Т)) то нужно лишь показать, что минимум дей- ствительной функции g(x)+x° достигается в К (рис. 3.1). Если g (х) > а, то lim [g(x) + x°] = +оо X® —> CD равномерно на К. Таким образом, существует число а > 0, такое, что минимум [g(x) + x°] на К до- стигается на компактном множе- стве [х°^а]. Предположим теперь, что g(x) выпуклая функция. Для любого действительного числа сх подмножество в l?n+1, для которого Я(х) + х°<с1( является замкнутым и имеет непустую внутренность. Кроме того, это множество выпукло, поскольку из неравенства g(*l)+*l<Cl и g(x2) + x«<C! следует, что g (Ххх + (1—X) х2) + Хх?+(1 — %) х% < сх. Рассмотрим постоянное число сх такое, что соответствующее ему множество пересекается с К, и докажем, что это пересечение ограничено, и следовательно, компактно. Из этого утверждения будет непосредственно следовать существование оптимального управления. Пусть л—гиперплоскость в Яп+1, такая, что g{x)-\-x<>^!.cl Адя точек (х°, х), лежащих ниже л; например, можно взять гипер- плоскость, опорную к этому выпуклому множеству. Мы покажем, что для точек (х®, х) б К с достаточно большими | х | выполняется неравенство x°>ZQx| для заданного постоянного й > 0. Такие гочки (х°, х) из К должны лежать выше л, а значит, удовлетво- ряют неравенству g(x)4-x° >сг. Установив это, мы получим требуемую компактность, чем и завершим доказательство теоремы. Для точек (х°, х) из К имеем т |х(Т)|<|Ф(Т)х0|+ $ |O(T’)O~1(s)B(s)||u(s)|ds. t о ? Э. Б. Ли, Л. Маркус
194 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Если | х(Т) | >2|Ф (Т)х„1 и |Ф(Т)Ф-Чз)В(5)|<Л1 (te^s^T), то т \ Iи ($) I ds 2м Iх I* П Пользуясь неравенством Шварца, получаем Т гт --«/г J\u(s)\ds^c2 J || и (s) l[2ds LZo для постоянного с2 > 0. Таким образом, если I х (Т) I >2|Ф(Т)х0|, то т |х (Т) I2 С J II и (s) II2 ds < csx° (Т). ^0 Следовательно, для достаточно больших | х (Т) | имеем x»(T)>fe|x(T)| и точки (х°(Т), х(Т)) из К лежат выше гиперплоскости л. Ог- сюда следует, что замкнутое пересечение множеств gMH-x’CCj и К ограничено, а значит, компактно. Теорема существования доказана. Поскольку действительная функция g(x)4-x° монотонно убы- вает с убыванием х°, то оптимальное управление должно перево- дить систему в точку, лежащую на границе К в 7?п+1. На самом деле мы рассматриваем выпуклое множество К внутри линейного многообразия L(K), натянутого на это множество; оптимальное управление должно переводить систему в точку, лежащую на границе К относительно L(K). Таким образом, наиболее, важное значение имеют те управления, которые переводят систему в точки, лежащие на границе К относительно А (К). Определение. Рассмотрим управляемую систему в Rn (.3?) х= A(t)x + B(t)u, с множеством достижимости Л с: Rn+1, соответствующим крите- рию качества С0(и). Управление u(t) на интервале переводящее систему из точки (0, х0) в некоторую граничную точку множества /( (относительно линейного многообразия ЦК)), называется экстремальным управлением, а соответствующая ему траектория — экстремальной траекторией.
3 2 интегральный Квадратичный критерий качества 195 Следующая теорема, которая является выражением принципа максимума для рассматриваемой нами задачи, [утверждает^ что выражение По ||“11у + 11 (0 и достигает максимального значения при u=u(t), где u(t)—неко- торое экстремальное управление. Здесь т] (!) = (л#> Л (0) представ- ляет собой (п+1)-мерный вектор-строку с постоянной компонен- той Ло < 0- Поскольку то максимум выражения л® IIи Ну + достигается лишь при U(4~ 2|Ло1 Теорема 3. Рассмотрим управляемую систему в Rn: (J?) х= A(t)x+B(t)u. Управление u(t) с соответствующим решением x(t) (tQ^t^T), является экстремальным в том и только том случае, когда су- ществует (п + \)-мерный вектор л (/) = (л0, И (0)> удовлетворяющий уравнению Л — —2ц0 х' (t) W (t)—л^ (/), постоянная л0 < 0» такой, что По II«(0 Пу + И (0 В(0«(0 = max КII “ Ни + Л (0^(0“} ueRm или и (0 = — gi- U~* (/) В' (!) л' (0 почти всюду. Доказательство. Пусть x(t)—решение, соответствующее управлению гдел(0 = (Ло> Л(0)—вектор, удовлетворяющий дифференциаль- ному уравнению Л = — 2л.х'(0№(0—л4(0, а постоянная ц0 < 0. Поскольку в предположениях теоремы участ- вует, по существу, лишь отношение л/Ло> то Для удобства изло- жения можно выбрать Ло = —1/2. Мы докажем. что Л(Т)х(7’)> п(Т)щ для всех точек со = (со0, со) из R, отличных от х (Т) = (х° (Т), 7*
196 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 х(Т)). Из этого неравенства мы заключим, что х(Т) лежит на границе (относительной) множества К. Здесь со(/) есть общее ре- шение, соответствующее управлению u(t)9 и определенное равен- ствами ®° (0 = $[Н ® (8) ||^ + II U (s) ||^]ds, t co (t) = Ф (t) х0 + J Ф (О Ф-1 (з) В (s) и (s) ds. Имеем 27 (П (0 ® (Ь) = — у со® + W + П® = = — у [11®11»' + 11ы11у] т]Л(о + яЛ<о + г]5н. Интегрирование от /0 до t дает — у ®° (0 + П (0 ® (0—П (Z<X = * = j ( — у [1| ® Ни/ + II« НМ + [<»'№ (з) х (а) + т)В (а) и (а)]}• ds. Для случая, когда «(s) = «($) = £/-1 ($) В'(s) rf (s) и ю(а) = х(а), это выражение имеет более простой вид: - у*(0+Ч (0*(0-n^Xo^jjDlx^iruz + IIrj'^ll^-B'Jds. Очевидно, что выражение—у || и ||у + т|Ва достигает максимума лишь при u = t/~x (а) В'(a) rf (s). Значит, если u(s)=^u(s), то -у II «(8) Ну + r\B (a) и (8) < у1| П' (8) . Далее, из неравенства ||x(s)—«»(s) ]|«z >0 следует, что у || X(s) IIV > (а) х-11| е(a) ||V • Таким образом, если почти всюду на не выполняется равенство u(0 = u(0> то — у х® (0 + Т| (/) х (0—п (/») х0 >—у со® (0+п (0 <о (/)—n (te) х0.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 197 Следовательно, П(7)£(7)>п(7)й(7) . - для всех ю(Т)^х(Т) из К. Но это неравенство означает, что существует гиперплоскость, опорная к Д’ в точке х(7) с внеш- ней нормалью т) (7). Поскольку т]0 < 0> то опорная гиперпло- скость не может пересекаться с множеством К. по его внутрен- ним точкам, а может пересекать К лишь по граничным точкам (относительным). Таким образом, управление u(t) и решение x(t) экстремальны. _ Обратно, предположим, что управление u(t} порождает траек- торию х(0 = (х°(0, х(0), ведущую в точку х(Т)£дК. Пусть rj(7") = (—у, rj (7))—внешняя нормаль к К. в точке х(Т); опре- делим п (0 как решение сопряженной системы Ч=Р(0У(0-Л4(0. Мы должны показать, что = почти всюду на интервале Предположим, что и(0 не удовлетворяет принципу максимума на некотором подмножестве А —интервале ненулевой длины [можно считать подмножество А компактным, а управление и(0 ограниченным на А], где —у|1ы1|у + + iq(0B(0 u(0+6^ max Г—-^-||u||y+:q(0jB(0u] для некого- рого б > 0. Для каждого малого в > 0 определим возмущенное управление и (0 — / (0Л(О на подмножестве А, меры в из А, I «(0 на остальной части 0«^^7. Пусть соответствующим решением будет х,(0 так, что |х,(0—х(0|С<ав для некоторой постоянной q. Как и выше, получим т П(7)5(7)—(7) < jy II*—x.l&dt—j f>dtбе Дв для постоянной с,. Таким образом, для достаточно малых 8 > 0 П(Лх.(7)>п(7)х(7), что невозможно, еслн_т)(7) есть внешняя нормаль к Д в точке х(7). Следовательно, и(0 должно удовлетворять принципу мак- симума. Теорема доказана.
198 .ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 В теореме 3 утверждается, что управление u(t) является эк- стремальным тогда и толькб тогда, когда оно максимально (в смысле главы 1). Поэтому мы в дальнейшем не будем пользоваться тер- мином «максимальное управление». Следствие. Рассмотрим управляемую систему в Rn: (&) x = A(t)x + B(t)u с критерием качества т C(u)=g (X (Т)) + J[|| X (S) ||2^ + If и (S) ||&] ds. ^0 Пусть и* (t)—оптимальное управление с соответствующим реше нием x*(t) на интервале Тогда u*(t) является экстре- мальным , управлением, т. е. существует п-мерный вектор л (t), удовлетворяющий уравнению л=?'(0^(0—л^(0, такой, что и* (/) = U'1 (/) В7 (/) л' (0 почти всюду. Условия нормальности, ‘ которые обеспечивают единственность экстремального управления, переводящего систему из точки (0, х0) в граничную точку множества К., для наших систем, линейных, с интегральным квадратическим критерием качества, выполняются автоматически. Таким образом, максимальное условие теоремы 3 является как необходимым, так -и достаточным условием опти- мальности данного управления.. В теореме 4 мы докажем эту единственность, а в теореме бив примерах следующего раздела будем применять доказанные свойства к построению оптимальных управлений. Теорема 4. Рассмотрим управляемую систему в R": (&) • x=:A(t)x+B.(t)u, с множеством достижимости К с. Rn+1, соответствующим крите- рию качества С0(и). Пусть ut(i) и u^t)—экстремальные управле- ния с соответствующими решениями x^t) и x2(t) в Rn+1 на ин- тервале t0^.t.^.T. Если . х1(7’) = х2(Т), то почти всюду. Доказательство. Пусть л (Т) =.(— у > ’i (Т)) есть внеш- няя нормаль к К в точке х1(Т) = х1(Т) и. пусть л(0—соответ- ствующее решение уравнения л=х;(/)и7(/)-лЛ(0
3 2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 19Й Тогда, как показано в теореме 3, u1(t) = u2(t) = U~1(t)B'(1)ц' (/) почти всюду. Действительно, в противном случае ~ число т] (Т) х1(Т) = = ?](Т)х2(Т) было бы меньше, чем т|(Т)<в для некоторого w С Теорема доказана. Теорема 5. Рассмотрим управляемую систему в Rn: (2) x=A(t)x + B(t)u, с критерием качества т C(u) = g(х (Т)) + $ [|| х ||2uz +1| и ||Яds = g(x(Т)) + Со (и), /о где g(x)—некоторая выпуклая функция из С1. Тогда существует единственная гиперповерхность Sm из семейства g(x)+x° = c, касательная к . следовательно, т есть оптимальное значение критерия качества. Кроме того, существует единственное экстре- мальное управление, а именно, оптимальное управление u*(t), с помощью которого достигается та единственная точка, где Sm касается К- Далее, система дифференциальных уравнений х A(t)x-YB(t)U~i(t)B,(t)’f\', имеет единственное решение, удовлетворяющее граничным условиям хЦп) = хй и т](Т) = —ygradg(x(T)), а именно, оптимальное решение х*(/) и т]*(/) такое, что управ- ление u*(t) = U-l(t) В' (ОС (О является оптимальным на интервале tQ t Т. Доказательство. Прежде всего мы покажем, что имеется единственное постоянное т такое, что Sm касается К [множества достижимости, соответствующего критерию Со(«)], т. е. выпуклое множество g (х) + х° т пересекается с К, но отделяется от его относительной внутренности общей опорной гиперплоскостью л*, касательной к Sm. Отсюда будет следовать, что т есть минималь- ное значение критерия. По теореме 2 пересечение множества К с совокупностью точек, удовлетворяющих неравенству g(x) -|-х0 с, является компактным множеством для всех достаточно больших с-
200 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Поэтому мы определим т как нижнюю грань всех таких чисел с, для которых рассматриваемое пересечение непусто. Для с > т гиперповерхность 8С пересекается с К по относительно внутрен- ним точкам множества К, а для с<т гиперповерхность вовсе не пересекает К- Таким образом, только при с=т гипер- поверхность 8С может лишь касаться К. Пусть Р—точка, принадлежащая К Л $т и пусть л*—каса- тельная гиперплоскость к Sm в точке Р. Тогда л* не будет раз- делять К. и Sm лишь в том случае, если л* пересекает множе- ство К по его внутренним точкам. Предположим, однако, что имеется (относительно) открытое множество N внутренних точек в К, лежащее ниже гиперплоскости л*. Тогда и весь конус с ос- нованием N и вершиной Р лежит ниже л*, и внутри /С. Однако Sm касается л* в точке Р, так что Sm будет пересекать К по внутрен- ним точкам. Но это невозможно по определению т. Следовательно, гиперплоскость л* разделяет К и Sm. Предположим теперь, что множество K(]Sm содержит две различные точки Рг и Ра. Тогда и весь отрезок, соединяющий их, лежкт в К Л Sm, а значит, он входит в относительную границу К. Рассмотрим экстремальные управления u1(f) и ua(t) с решениями хг (t) и х2 (0, приводящими в точки Рх и Р2 соответственно. Заме- тим, что управления их(0 и ua(t) должны отличаться друг от друга на некотором множестве ненулевой меры из Рассмотрим управление у [их (0 + иа (0] с соответствующим решением х(0 = (х®(0, х(0). Здесь х(Т) = |[х1(Т)+х2(Т)]. Однако мы покажем, что ^(T)<4[x?(T)+xS(T)]. Имеем «• т=j [|| +1| “(i)+“’w ||’„] * - /о Т =J{Tll^llr+yx;^(S)x2+l||x2||^+i|iM^ + +у и'г и (s) иа + у || U2||y } ds.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 201 Используем очевидные неравенства 24 (з) W (з) х, (з) < || хх (s) HV +1| ха ||’г и (з) и (s) иа (з) < II«! (з) ||2У 4- II иа На, справедливые всюду, где иг (з) =/= «2 («)• Тогда т т х» (Т) < у J [|| хх || V + II «г II?/ ] ds 4- у J [II Ц*г 4- II «з ||&] ds, to *0 так что х°(Т) < у [х?(Т)4-х?(7,)]1 как и утверждалось выше. Полупрямая х°> х°(Т),х=х(7’) лежит внутри К, откуда следует, что и середина отрезка, соединяющего точки Рх и Ра, лежит внутри К. Но -^-(Р^Р^ находится на относительной границе множества К. Это противоречие доказывает, что множество К П Sm состоит в точности из одной точки Р. По теореме 4 существует единственное экстремальное управле- ние, переводящее систему из точки (0, х0) в точку Р£К, значит, это и есть оптимальное управление u*(t). Следовательно, точка Р = (х0*(Т), х*(Т)) должна быть достигнута при движении по оптимальной траектории х*(/). Вектор г)*(Т)==^—-1, является нормальным к Sm в точке Р=х*(7’), где т]*(Г) =—g-gradg'(P). По теореме 3 функции х*(<) и 1]*(0 удовлетворяют уравнениям х= A (t)x+B (О U-1 (t) В' (0 rf, i] = x'W (t)—i]A(t) с граничными условиями х* (/о) = ХО, if (Л = - 4 grad g (х* (Г)). Пусть теперь x(t), ц(£)—любое решение этой совместной системы дифференциальных уравнений с заданными граничными условиями. Тогда х(^) = (х°(0, х(0) есть решение, определяемое экстремаль- ным управлением и (/) = U~l (/) В’ (t) rf (t). Более того, П (Т)х(Т) = - |х« (Т) 4-n (Т)х (Г) > п(Т) ® для всех <оу=х(71) из К.. Таким образом, вектор rj(T) = f—у>л(Л)
202 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 является внешней нормалью к опорной гиперплоскости п множе- ства К в точке х(Т). Кроме того, х\(Т) есть внутренняя нормаль к гиперповерхности Scb х(Т), поскольку г] (Т) = — 4-gradg(x (Т)). Таким образом, гиперповерхность Sc касается множества Л в точке х(Т) ил есть их общая опорная гиперплоскость. Но тогда Sc — Sm и х(Т) — х*(Т). В силу единственности экстре- мального управления, переводящего систему из состояния (0, х0) в состояние х* (Т), находим, что u(t) — u*(t) почти всюду, и зна- чит, х(/)=%*(/) на интервале Итак, окончательно, т)(0 есть единственное решение уравнения П = х*'(0^(0—М(0 с п(л = — ^&adg(x*(T)) и, значит, П (0 = П* (0 на /0 < t < Т. Теорема доказана. Если нам нужно перевести систему из заданной начальной точки х0 £ Rn в некоторое желаемое состояние, то естественно потребовать, чтобы система (jg7) х= A(t)x+B(t)u обладала свойством управляемости. Система 2 будет вполне управляемой, если для любой пары точек х0, xt С Rn существует ограниченное измеримое управление и it), переводящее систему из точки х(/0) = х0 в точку х(Т) = х1. Случай полной управляемости легче поддается геометрическому анализу, так как тогда множе- ство достижимости К имеет непустую внутренность в 7?”+1, и сле- довательно, граница множества К относительно L (К) — Rn+1 со- впадает с обычной границей. Теорема 6. Рассмотрим управляемую систему в Rn: (2} х=Л(0х+В(0«, с множеством достижимости KczRn+1, соответствующим крите- рию качества С „(и). Система 2 обладает свойством управляемо- сти на интервале t0^.t^T тогда и только тогда, когда мно- жество К имеет непустую внутренность в Rn+1, а это будет в том, и только в том случае, если матрица Т М(Т) = \ ф-1 (0 в (0 В' (/) (Ф-1 (0)' dt _ *9 невырождена.
3,2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 203 Доказательство. Ортогональная проекция множества К на подпространство х° = 0 представляет собой совокупность всех концов траекторий в Rn: т х (Т) = Ф(Т)х0 + Ф (Т) J Ф-1 (/) В (t)u (0 dt. Если система S! обладает свойством управляемости, то множество всех концов траекторий {х (Т)} совпадает со всем пространством Rn, и значит, множество К имеет непустую внутренность. С другой стороны, если К имеет непустую внутренность, то в силу леммы к теореме 1 {x(T)} = Rn. Но это означает, что множество всех точек вида т заполняет все пространство. Значит, совокупность всех концов траекторий, начинающихся в произвольной фиксированной точке пространства 7?", совпадает со всем Rn. [Здесь u(t) пробегает пространство L2, однако, так как измеримые ограниченные функ- ции плотны в 12, можно считать, что все управления u(t) огра- ничены]. Таким образом, в этом случае система £ обладает свойством управляемости. Рассмотрим теперь (л х п)-матрицу М (Т). Поскольку т М' (Т) = J [Ф-1 (0в (t) В' (О (Ф-1 (/))']'dt=м (ту ^0 а также т £'М (Т) £ = $ (В’ (ф-1)' £)' (В' (Ф-Х)Х) dt О *0 для любого n-мерного вектора С, то матрица М (Т) симметриче- ская и неотрицательно определенная. Предположим, что матрица М (Т) невырождена, и докажем, что система 3? вполне управляема. Для заданных точек х0 и определим управление u{t)^B'(t)^(t))^9 где постоянный вектор £ определяется формулой ^м-чтиф-чОл^х,]. о этом случае х1^Ф(Т)х0 + Ф(Т)Л1(Т)^
204 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 ИЛИ т X,=ф (Г) ХО+ф (Г) $ Ф-1 (/) в (0 U (0 di, /о что и требуется. С другой стороны, предположим, что система S обладает свойством управляемости. Если матрица М (Т) вырождена, то существует постоянный вектор £#=(), такой, что т ?м (Т) С = $ II В' (f) (Ф-1 (0)' С |М=0- t о Но это означает, что В’ (/) (Ф"1 (/))' £ = 0 на интервале t Т. Поскольку система 3! обладает свойством управляемости, то ко- нечная точка Ф (Т) £ может быть достигнута системой, исходя из начала координат, с помощью управления u(t) и, значит, т £=$<D-i (t)B(t)u(t)dt. Но тогда V т т о < п= $ £'Ф-1 (0 В (t) и (0 dt = $ (В'(0 (Ф-1 (О)=0. t, /. Это противоречие указывает на то, что М(Т)—невырожденная матрица. Теорема доказана. В частности, если матрица Ф-1 (/) В (/) В' (/) (Ф-1 (/))' невырож- дена хотя бы в один из моментов t, то матрица М (Т) будет не- вырожденной матрицей, и система 3 будет обладать свойством управляемости на интервале 3.3. Иллюстрирующие примеры и специальные задачи В этом разделе мы рассмотрим вопросы синтеза управления с обратной связью для различных оптимальных управляемых систем, опираясь на теорию, изложенную в предыдущем разделе. Вначале будут рассматриваться задачи, в которых целевое множе- ство не задано заранее, затем задачи с заданным целевым множе- ством и, наконец, задачи с неограниченным временем управления. Критерий качества т C(u)=g (х (Т)) + $ [|| х (s) ||^ +1| и (s) ]|Ь] ds. /о Пример 1. C(u) = x'(T)Gx(T) + xa(T), где постоянная сим- метричная матрица G = G'^0, т. е. g(x)=x'Gx, является неотри- цательно определенной квадратичной формой, и значит, выпуклой функцией. По теореме 5 существует единственное оптимально
3.3 иллюстрирующие примеры и специальные задачи 205 управление и* (t) с соответствующим решением х* (f). Они опре- деляются как единственные решения уравнений х = Л(0х+В(0[/-1(0В'(Оп'» П = х'№(0 —гИ(0, удовлетворяющие условиям х(/0)=х0, т]'(7’) = — Gx(T), где «♦(0=с/-Ч0В'(0п*'(0- Оптимальная траектория х* (t) = (х°* (0, х* (/)) приводит систему в ту единственную точку, в которой квадратичная поверхность Sm;Xo_|_x'Gx = m касается множества К (см. рис. 3.1). В этой задаче можно получить оптимальное управление в явном виде, применив линейную цепь с обратной связью и переменным по времени усилением. Целесообразность такого метода следует из анализа примера 4 первого раздела главы 1. Мы попытаемся выразить оптимальное управление в виде u*(t) = E*(t)x* (0, где Е* (0—известная матрица, не зависящая от х0, а именно, = где E(t) есть решение нелинейного матричного дифференциального уравнения Ё (0 = W (t)—A' (0 Е—ЕА (t)—EB (0 U-1 (0 В' (0 Е с начальным условием Е(Т) =— G. Поскольку G—симметричная матрица, и матрица Ё(0 также симметрична, как видно из напи- санного выше выражения для нее, то решение Е(0 есть одно- значно определенная симметричная матрица. Мы покажем, что решение х(0 уравнения х = А (0х+В(0 [£/-1 (0 В' (0Е(0х], х(/0) = х0 является оптимальной траекторией х*(0 и, таким образом, управ- ление и* (0 = U-1 (0 В' (t) Е (0 х* (0 является оптимальным. Пусть х(0—указанное выше решение; положим т| (0 = х'Е (/). Тогда непосредственным вычислением можно показать, что (х(0, т](0) есть решение системы х = А (0 х+В (0 U-1 (0 В' (0 я', Я = х'1Г (0 — тр4 (0, удовлетворяющее условиям x(Q=x0, rf (T) = — Gx(T). Таким образом, х(0=х*(0 и n(0=tl*(0 в силу свойства единственно- сти, установленного в теореме 5. Таким образом, управление с обратной связью и*(0 = Е*(0х
206 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ. КРИТЕРИЙ КАЧЕСТВА гл. 3 автоматически дает нам оптимальную траекторию х* (/) для любого начального состояния х0. Если состояние системы внезапно изме- нилось в результате воздействия внешнего импульса, то управле- ние с обратной связью вернет систему из возмущенного состояния на оптимальную траекторию. Заметим, что мы вычисляем матрицу Е* (f) = В (/)£(/) после того как найдено решение Е (t) нелинейного дифференциаль- ного уравнения. Это нелинейное уравнение является уравнением типа Риккати, и может быть проинтегрировано в элементарных функциях лишь в некоторых отдельных случаях (см. ниже упраж- нения 1 и 2). Однако существуют стандартные численные методы, позволяющие получить достаточно точно матрицу E*(f). Остается одна тонкость—надо доказать, что решение Е(/) указанного выше нелинейного уравнения определено на всем интервале Если это не так, то норма | Е (/) | стано- вится неограниченной при t, стремящемся к ^ерхней границе Т. Тогда для любого заданного а существуют /0 и х0 такие, что ХцЕ(1^ х0> а при | х01 = 1 и /0 < Го < Т. Но, поскольку матрица Е (f) не зависит от х0 и то используя ^оптимальную траекторию, исходящую из точки х0 на интервале можно записать т|* (/q, хо) х* (/0, х0) ~ XqE (^о) хо a. Однако любое сколь угодно малое возмущение х0 4- 6х0 начального состояния х0 вызывает малое смещение соответствующей траекто- рии; поэтому точка х*(Т, х04-6х0) должна находиться внутри некоторого компактного множества, лежащего под гиперповерх- ностью Set с> tn. Отсюда следует, что норма ] х* (Т, х0) | равно- мерно ограничена при | х01 = 1 и tQ < Т, а значит, и соот- ветствующие решения х*(/, х0), г|*(/, х0) указанной выше линей- ной системы дифференциальных уравнений также равномерно ограничены. Это противоречит предположению о том, что x'qE (/о) х0 > а для произвольного а, и следовательно, норма | Е (t) | ограничена и решение Е (/) суще- ствует на всем интервале tQ^.t^T. т Пример 2. С(и) = е’ (T)Ge(T) + $[||e(OHV + ||«(OHM^. W to ошибка выражает отклонение траектории х (t) от желаемой идеальной траектории £(/) на интервале Как и раньше,
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 207 предположим, что . . G = G'>0, W = (0>0, -U (t) = U' (0 > О, а |(/)—непрерывно дифференцируемая вектор-функция. Кроме того, мы перейдем к более общей линейной управляемой системе 2?, вводя известную непрерывную возмущающую силу п(<): х= A (t)x + B(f)u + v(t). Рассмотрим в качестве переменной нашей управляемой системы не x(t), а ошибку e(f). Тогда получим уравнение: (£+) A + + e(Q = e0 = x0—g(/0), где функция со (/) вычисляется следующим образом: «(/)= + Положим еще е(/) = (е°(/), e(f)), где t (/) = $ || е (s) ||V +1| и (s) ||1/ ds, /о t t е (0 = Ф (/) е0 + Ф (0 $ Ф"1 (s) В (s) и (s) ds + $ Ф (/) Ф-1 (s) со (s) ds, *0 ^0 и определим множество достижимости К+= {е(Т)} = {е°(Т), е(Т)}. Это множество К+ есть результат параллельного переноса множе- ства К для со (/) = 0 на постоянный горизонтальный вектор У ч О, Ф (Т) Ф-1 (s) со (s) ds \ Следовательно, К+ замкнуто и выпукло ^0 ' в Rn+1. К линейной системе 2+ с критерием качества С(и) = т = e'(T)Ge(T) + ^ [h(s)||V + [I и (s) ||у] ds приложима вся теория пре- дыдущей главы. В частности, существует единственное оптималь- ное управление и* = П'(О с соответствующим ему оптимальным решением Действи- тельно, е* (/) и ц* (/) представляют собой единственное решение системы ё = А (/) е+В (О U-1 (О В' (0 т|' + со (О, ri — e'W (/)-—(/) с граничными условиями e(tQ) =е0 = х0—1(/0) и ^'(Т) = — Ge(T). Оптимальное управление и* (/) является, конечно, оптимальным
208 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 управлением и относительно решения х* (0 = <?*(/)+ £(/). Попробуем рассчитать оптимальное управление в виде цепи с обратной связью и переменным коэффициентом усиления: и*(0=Л*(04-£*(0«*(0- Здесь = и £•(/)= С/"1 (0 5'(0^(0» где функции h(t) и E(t) определяются из уравнений E = ®(t)—A'(f)E-—EA(t)—EB(f)lJ~'l(t)B'(f)E, где Е(Т) = —G, Л = — [E(t)B (t)B' (0 + Л' (0] h—Е (/)©(/), где ft(T) = 0. Тогда, как показано в примере 1, Е (убудет симметричной матри- цей на интервале a h(t) определяется из указанного Рис. 3.2. Синтез системы с обратной связью. выше дифференциального линейного уравнения. Заметим, что h(t) и Е (/), а тем самым и h* (/) и Е* (f), не зависят от х0. Легко показать, что решение e(t) уравнения е --= А (0 е + В (/) [Л* (0 + Е* (/) е] + <о (/) с начальным условием e(t0) = ee является оптимальным решением Положим и проверим, что пара (е (/), л (/)) удовлетворяет системе дифферен- циальных уравнений, единственным решением которой является (е*(0, Таким образом, оптимальное управление, построенное как управление с обратной связью, дается выражением «*(0=Л*(0+£*(0« или и* (0 = h* (0—Е* (0 g (0 4- Е* (t)x. На рис. 3.2 мы даем блок-схему управляемой системы с этим управлением.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 209 Замечания. Имеется интересная интерпретация множества К. для системы примера 1 (или сдвинутого множества К.+ для си- стемы примера 2). Рассмотрим множество К в (п-|-1)-мерном пространстве с координатами (х°, х); очевидно, что если система 3? вполне управляема на интервале t0 t Т, то граница множе- ства К представляет собой однозначную функцию К (х) векторного аргумента х. По определению, К(х) есть минимальное значение критерия C0(w) = x° при перемещении системы из х0 в целевую точку х. Вычислим теперь это минимальное значение т V (х0, Q = х*' (Г) Gx* (Т) + $[ || х* |Г^ +1| и ||Ь] ds to для управляемой системы с начальными условиями x(rf0) = x0. Рассмотрим производную от x'E(t)x вдоль оптимальной траекто- рии x*(t), исходящей из х0, при оптимальном управлении и* (/)= = и~г (/) В’ (t) Е (I) х* (t); тогда получим х’Е (0 х + х'Е (t)x+х'Е (t) х= = [Ax-\-BU~1B'Ex]'Ex-\-x'E [Ax-\-BU~1B'Ex]A-x'Ex. Интегрируя и используя дифференциальное уравнение, определяю- щее Е (t), получим т х*' (Т) Е (0 X* (Т) -х9Е (Q х0 = $ [ II х* (s) ||uz +1| «* ||5] ds. t. Когда основной функционал С (и) принимает значение С (и) = =х' (Т) Gx (Г) 4-х° (Т), то V (х0, /0) = — х'0Е (t0) х0. Это явное вы- ражение для минимального значения критерия подтверждает ре- зультаты, полученные на основе метода динамического программи- рования в примере 4 первого раздела главы 1. Пример 3. С (и) = £х (Т) + х° (Т), где £ =/= 0 —фиксированный n-мерный вектор-строка. В силу теоремы 5 существует единствен- ное оптимальное управление u*(t) с соответствующим решением х* (0- Оно определяется через единственное решение системы х = А (/) х+ В (0 U-1 (/) В' (t) т]', т| = х'Ц7(/)—г]А(0» удовлетворяющее начальным условиям х (t0) = х0, х\(Т) = — у С, причем И*(О = {/-1(ОВ'(ОЛ*'(О-
210 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Мы не будем здесь строить оптимальное управление в виде цепи обратной связи (см. упражнение 9), а дадим непосредственное реше- ние двухточечной краевой задачи для системы с постоянными коэффициентами. Пусть задана система в R2: X1 = X2i х2 = и, с начальными условиями х1 (0) = xj, х2 (0) = xj. Пусть критерий качества имеет вид 1 С (и) = х1 (1)+Х* (1)4- $ {(X1 (0)2 4- («(0)2} dt о для скалярных управлений и (0 на интервале 0 t 1. Система для определения оптимальных решений х* (0 и r|* (t) имеет вид Х1 = Х2, X2 = Т|2, TIj^X1, П2 = —Т11- причем х1 (0) = xj, х2 (0) = xj, r]1(l) = r|2(l) = —у и и* = Для любых начальных условий Л1(0) = Лю, Л2 (0) = Лго можно определить решение указанной выше системы с начальными усло- виями (xj, xj, r|io> Лао)- Действительно, Л1 (0=Ф (0 *• + Ф (0 Х14- Ф (0 Лю + Ф (0 Лоо, Л2 (0 = —ф (0 xj — ф (0 X2—ф (0 Т]1О 4- ф (0 т]20, где 1 Г t , t t , t 1 ф(0 = —sin —T=-ch —cos-7=^sh—= . KT L /2 /2 К2 KT J Однако (т]10, t|20) связаны конечными условиями: —у = ф(0^4-ф (l)^o 4-ф(0 Лю 4-Ф (l)il2o, —у=—Ф(1)х1—ф(1)х2—ф(1)111о4-ф(1)П2о- Из этих двух уравнений определим г]10 и т]20 как функции от (xj, х„). Таким образом, решение (х1^), х2(0, г|1(0, г|2(0) вполне определяется управляемой системой критерием качества С (и) и начальными условиями (xj, х0. Если в каждый момент времени t из интервала 0 t 1 определить (Лю, Лго) в зависимости от текущего или возмущенного состояния системы (х1 (0, х2 (0), то можно рассматривать управ- ление «*(0 = Л2(0 4- как управление с обратной связью.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 211 Задачи с подвижными концами Существуют такие задачи управления линейными системами с интегральным критерием качества, в которых систему требуется перевести из одной заданной точки не в фиксированную точку, а в любую из точек некоторого целевого множества. Здесь мы рассмотрим те дополнительные условия, которые возникают в связи с требованием, чтобы конец траектории принадлежал целевому множеству. Снова рассмотрим систему в 7?": G?) x=A(t) + B(t)u, с критерием качества т Со («) = х« (Т) = $ [||х (s) ||uz +1|«(s) ||iz] ds, как и в разделе 3.2. Пусть G—непустое компактное выпуклое целевое множество в 7?". Требуется выбрать такое управление u(t)cRm, минимизи- рующее критерий С0(ы), которое переводило бы систему из точки х (t0) = хв в некоторую точку х (Т) £ G. Для простоты предположим, что система S обладает свойством управляемости на интервале /0 t Т, так что область достижимости К = {х° (Т), х (Т)} является замкнутым выпуклым множеством, обладающим внутрен- ними точками в 7?п+1. Если бы система S не обладала свойством управляемости, то все рассуждения можно было бы проводить внутри линейного многообразия L (Л), натянутого на множество К в Rn+1, если только G пересекается с L(K). Множество G лежит в пространстве 7?” с координатами х. Рассмотрим в пространстве 7?"+l с координатами (х°, х) цилиндри- ческое множество G = G х R1. Поскольку система 3 обладает свой- ством управляемости, то пересечение G с К есть замкнутое выпуклое множество. Мы хотим перевести систему из точки (0, х0) в Gf|7< так, чтобы значение х°(Т) было минимальным. Очевидно, что оптимальное управление u*(t) существует. Минимальное значение х° на G Г) К достигается в некоторой общей граничной точке х* (Т) = (х°* (Т), х* (Т)) множеств G и К [если только оптимальное управление, минимизирующее Со (и) в задаче с нефиксированным целевым состоянием, не переводит систему из х0 в G—этот случай сводится к примеру 1, и поэтому здесь не рассматривается]. Таким образом, оптимальное управле- ние u*(t), переводящее систему из состояния (0, х0) в состояние х* (Т), дается выражением
212 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Здесь я(0=(—у’ таково> что П^х'№(0—т]Л(0, а т|(Т)—нормаль к К в точке х*(Т). Рассмотрим горизонтальное поперечное сечение Р:х° = х°*(7) в R"+1. Тогда, если считать, что G совпадает с Ъ Л Р, можно показать, что множества G и К П Р разделяются общей опорной (п—1)-мерной плоскостью л в Р. Действительно, г\(Т) есть нормаль к л, причем внутренняя по отношению к G. Теми же рассуждениями, что и в теореме 5, можно показать, что задача обладает единственным оптимальным управлением и* (0, а х* (t), я* (0 находятся как решения системы х = А (0 х + В (0 и-1 (0 В' (0 Т|', n = x'W (t)—v\A (0, где x(t0) = x0, x(T)£dG и t](7)—внутренняя нормаль к G в точ- ке х(Т). Пусть целевое множество G в Rn определяется неравенством у(х)^0, где у(х)—выпуклая функция из С1 такая, что grad у О на 9G. Тогда граничные условия принимают вид: х(/0)=х0, •у (х (7)) =¥ 0 и т) (7) =—k grad у (х (7)) для некоторого k > 0. По - следнее условие называют обычно условием трансверсальности. Пример 1. Рассмотрим линейную систему в Р2: хх=ха, х* = и со скалярным управлением и (0 на интервале 0 t 1 и крите- рием качества 1 C(«)-J(«(0)a^. о Начальное состояние системы (х1 (0), х2 (0)) = (0, —3), а целевое множество есть круг G: (хх)а-|-(х2)2<1 в R*. Эта система обладает свойством управляемости, и следовательно, существует единственное оптимальное управление и* (t). Мы найдем и*(0 = пИ0 из системы дифференциальных уравнений х1=ха, х2 = т]а, ^ = 0, ii2 = —П1 с граничными условиями х1 (0) = 0, х2 (0) = — 3 и условием транс- версальности ЙЯ)]—k[5(1)] при <х1<1))2+<ха(1))2=1> k>Q-
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 213 При любом выборе начальных данных ч1(0) = г|м, Ла (0) = Лао мы можем найти соответствующее единственное решение данной системы дифференциальных уравнений . Tli(O = 1lio> П2(0 = — W+Пм» Х1 (0=^+^-3<, #(/) = -^+W-3. Для того чтобы при t = 1 удовлетворялись условия трансверсаль- ности, нужно потребовать выполнения следующих соотношений: T|i (1) = Пю ~ k*1 (D = б" Лю ~2 Ла® * П2(1) = — Л1о + Л2» = — Ь2(1) = — — уЛю + Л*®— з) . и (Лю)2 + (—Л1в+Л2о)’ = £* Для некоторого k>0. Два линейных условия на (г]10, т]2()) дают _ З6(т+Л) 12(fe*+6&) Ли— fca_|_ 16*4-12 ’ г,20-_*24-16*+12' Окончательное квадратичное условие будет выполнено, если урав- нение #4-32#—80#—480/г—2448 = 0 будет иметь положительный корень. Но этот многочлен четвертой степени можно разложить на множители: (k—6) (# + 38# + \48k + 408) = 0. Таким образом, уравнение имеет положительный корень fe=6, а второй множитель не имеет положительных корней. Следователь- но, k = G, т]1о==6, к]20 = 6 и оптимальное управление имеет вид «*(/) = _6/4-6 (0</<1). Пример 2. Рассмотрим автономную систему в /?", обладаю- щую свойством управляемости (^) х= Ax-i-Bu, с критерием качества С (и) = j и' (s) Uu (s) ds. о Мы хотим привести систему из состояния х (0) = х0 в состояние х(Т) = = 0 с минимальным показателем качества С (и). Найдем решение системы уравнений х= Ах-\-я=— т]Л,
214 интегральный выпуклый Критерий качества гл. 3 удовлетворяющее условиям х(О)=хо, х(Т) = 0. Оптимальным управлением будет «*(/) = С/Здесь r]*(/) = C'e~At, а по- стоянный вектор С определяется из условия х(Т) = 0, так что -Т -1-1 J e~AsBU~lB'e~A's ds х0. _о J Для случая п = 2, т=1 задача примет вид 2Л С (и) = J u2 (s) ds, о и надо вычислить /2« ____| С Г COS S Lsins Тогда —sins’ coss coss sins’] —sins cossJ —x0Ml — «/o/nj Уо. ’ u* (t) = — sin t—— cos t. Этот пример показывает, каким образом ошибка x(t) может быть приведена к нулю за конечный промежуток времени с минималь- ной затратой энергии. Соответствующее оптимальное управление можно выразить в явном виде как функцию начальных условий и некоторых других параметров для широкого круга линейных управляемых систем. Регулирование на бесконечном интервале Если рассматриваемый интервал tv t Т становится беско- нечным, т. е. Т =-[-оо, то изложенная выше теория приводит к проблеме регулятора т. е. к задаче поддержания общей ошибки системы на оптимально малом уровне. Мы упростим исследование, рассматривая лишь автономные линейные системы в Rn: (З?) х = Ах + Ви, где А и В—постоянные матрицы. Далее, критерий качества для управлений u(t)c:Rm на интервале 0^/ <оо имеет вид со C(«) = nik(s)||^ + ||«(s)||2dds, о где W =W' > 0 и U = U'>Q также постоянные матрицы. До- пустимыми считаем управления u(t), измеримые на интервале 0 t о° и такие, для которых критерий качества сходится
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 215 к конечному значению. В частности, допустимыми будут все управ- ления u(t) из пространства L2(0, оо) интегрируемых с квадратом функций; кроме того, отметим, что все соответствующие им реше- ния x(t) также принадлежат L2(0, оо). В самом деле, можно по- казать, что litnx(Z) = O. t -* оо Задача может и вовсе не иметь допустимых управлений, на- пример, при В = О, А = I, х9 ф 0. Если система 3? обладает свой- ством управляемости, то для того, чтобы определить допустимое управление на интервале 0^/<оо, можно взять управление, переводящее систему из точки х9 в начало координат за конечное время и далее равное нулю. В следующей ниже теореме дается синтез цепи обратной связи для оптимального управления в задаче построения регулятора. Предварительно, однако, нам придется доказать лемму Ляпунова для отрицательно определенных матриц. Лемма. Рассмотрим уравнение, коэффициентами которого являются действительные матрицы H'E' + EH = Q, где Q = Q' > 0. Тогда решений Е = Е' <0 существует в том, и только в том случае, если Н —устойчивая матрица (т. е. все собственные значения матрицы Н имеют отрицательную действи- тельную часть). Доказательство. Если Н—устойчивая матрица, то тре- буемое решение дается сходящимся интегралом Е = —-^ен'{ QeHtdt. о Очевидно, что Е = Е' < 0; интегрированием по частям получим Я'Е' = — J Н'ен'* QeH‘dt = —[<?«'' QeHt ] “ + J ен'{ QeHt dt о о или H'E' = Q—EH, что и требовалось. Обратно, предположим, что матрица Е = Ег < 0 есть решение нашего уравнения. Рассмотрим систему линейных дифференциаль- ных уравнений в R": х = Нх. Продифференцируем по времени квадратичную функцию v (х) = = —х'Ех (имеющую эллипсоидальные поверхности уровня,
216 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 заключающие начало координат) вдоль решения х (t) О —х'Ех—х’Ех=х’ [—Я'Е'—ЕН] х. Тогда ^= — x'Qx<0 и x(t)—>0. Таким образом, Н—устойчивая матрица. Лемма до- казана. Теорема 7. Рассмотрим автономную систему в Rn, обладаю- щую свойством управляемости, («S’) х= Ах+ Ви, с критерием качества * I C(«)=5[|lx(0l^ + ||«(0||y]dt W = W’>0, U = U’>0, о определенным на множестве всех допустимых управлений и (t) a. Rm (О < оо). Тогда существует единственная симметричная отри- цательно определенная матрица Е, удовлетворяющая уравнению А'Е + ЕА + EBU-'B'E = W, для любого начального состояния x0£Rn существует единственное оптимальное управление u*(f), определяемое формулой j Таким образом, оптимальное решение x*(t) удовлетворяет асимп- тотически-устойчивой системе дифференциальных уравнений х = (Д + BU~1B'E) х, С (и*) — — х'ЛЕха есть минимальное значение критерия качества. Доказательство. Предположим, что существует решение x*(t), я*(0 системы уравнений х = Ах + В U ~ 1В 'я', т| = х'1Г —т)Д, удовлетворяющее условиям х(0) = хо, х(оо) = 0, т](оо) = 0. Тогда покажем, что соответствующее управление и* (t) = U~1B'v^'(t) является единственным оптимальным управлением, a x*(t)—оп- тимальной траекторией, исходящей из точки х*(0) = х. Поскольку x*(f), т]*(0 являются решениями автономной линейной системы, и поскольку они убывают при /->оо, то они должны убывать экспоненциально, и следовательно, u*(t) является допустимым управлением.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 217 Пусть <&(t)—решение, соответствующее любому допустимому управлению u(t) на интервале 0^/<оо. Положим t “° (0 = Пие <s) И* + И “ II»] ds’ о и дальше будем рассуждать так же, как в теореме 3. Если «(/) отличается от и* (0 на некотором положительном промежутке времени, то из доказательства теоремы 3 следует, что — ух°(оо) + т](оо)х(оо)—г](0)хо > — —у <0° (оо) + Т] (оо) (О (оо)—г] (0) х0 и значит, Со (и*) < Со (и). Следовательно, u*(t) является единственным оптимальным управ- лением. Теперь построим необходимые нам решения x*(t), т|*(/) ука- занной выше системы дифференциальных уравнений, используя постоянную симметричную отрицательно определенную матрицу Е. Определим х* {t) как решение системы дифференциальных уравнений х = (Л+В(/-1В'Е)х с начальным условием х0 и положим i\* = x*'(t)E. Тогда, используя решение Е уравнения А'Е 4- ЕА + EBU^B'E = №, легко проверить, что x*(t) и rj* (/) являются искомыми решениями. Покажем, что х* (оо) = т|* (оо) = О, установив, что матрица (A-]-BU~1B'E) устойчива. Из условия, наложенного на Е, непосредственно следует, что (Л + BU~1B'E)' Е + Е(А + BU-^B'E) = W + EBU-'B'E. Поскольку EBU~1B'Е = Еу U как симметрич- ная матрица, то из леммы следует, что (Л -\-BU~1B'E) есть устой- чивая матрица, что и требовалось. Чтобы вычислить оптималь- ное значение критерия качества, продифференцируем выражение х'Ех вдоль оптимальной траектории х*(/); тогда получим [**' (0 Ех* (/)] = х’Ех+х'Ех= = (Ax + BU-'B'ExY Ех+х'Е (Ах+BU~lB’Ex).
218 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Используя алгебраическое условие на Е, интегрированием послед- него соотношения получим t х*' (0 Ех* (/) — х'0Ех0 = J [|| х* (s) ||uz + II и* (s) I|y] ds. о Таким образом, —x'0Ex0 = G(u*). Вопрос о существовании и единственности отрицательно опреде- ленной матрицы Е для вполне управляемых систем рассматривается в упражнениях, следующих за этим разделом. Теорема доказана. Пример 1. Рассмотрим скалярное уравнение х = — x-\-u.(t), х(О) = хо и критерий качества C(«)=J[x* (/) + «»(/)] Л. о Уравнение для определения Е имеет вид (-1)£ + Е(-1) + Е8=1. Выберем Е=\—У 2 < 0; тогда оптимальное управление будет u*(/) = (l—K2)x*(f), а оптимальное решение х* (/) = х^-^. Упражнения 1. Уравнение движения ротора имеет вид х=и, где х—кинетический момент ротора, a u(t) —скалярный управляющий момент относительно неподвижной оси вращения. Если управление и (t) на интервале 0 «С t < 1 пропорционально силе тока, то общая затрачиваемая энергия равна 1 ан2 (/) dt,где а > 0 — постоянный коэффициент. Мы хотим уменьшить на- о чальную скорость х0 вращения ротора. а) Использовать критерий качества С (и) — х (1)2+ аи2 (/) dt и синтези- о ровать оптимальное управление в виде управления с обратной связью. Вычис- лить минимальное значение критерия качества. Ь) Использовать критерий качества С (и) — х (1)+ aw2 (/) dt и вычислить о его минимальное значение.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 219 1 с) Рассмотреть критерий качества С (и) — txu2 (t)dt для управлений, при- о водящих систему из состояния xQ в состояние покоя. Вычислить минималь- ное значение критерия качества. 2. Уравнение движения осциллятора имеет вид х+х—и, где (х, х) — состояние системы, а и (t) — управляющая сила на интервале 0=С?^2л. При / = 0 система находилась в состоянии (0, 1) и мы хотим сдви- нуть фазу колебания на л/2, получив движение g(/) = cos/. Пусть 2Л С (и) = J [(х— cos /)3 + (*+ sin i)2 4-и2 (/)] di. Записать дифференциальные урав- о нения для элементов матрицы обратной связи Е (/), как в разобранных выше примерах. Заменить e(t) разностью [е (t + h)~е с малым шагом h > 0 и наметить схему численного решения соответствующих разностных уравнений. 3. Синтезировать оптимальное управление и* (/) для задачи x~j~x — u 00 с критерием качества С (и)— J [х2 (/) + х2 (/) + м3 (/)] dt. Найти минимум С (и) о при начальном состоянии системы х(0) = 0, х(0) = 1. 4. Найти оптимальное управление и* (/) на интервале которое переводило бы систему из состояния (0, 0, — 3) в целевое множестве G:(x1)2 + (x2)2-|-(a:3)2=C 1. Система имеет вид х=и или, в 7?3, 1 х1 — *2, х2 = х3, х3 = м, С (и) = J и2 (/) dt. о 5. Рассмотрим управляемую систему в Rn: (^) x=A(t)x+B(t)u Т с критерием качества Со (и) = [|| x(s) ||uz + l|и || заданном на множе- но стве управлений и (/), определенны хна. интервале в Rm. Пусть R=^>(T), х(Т)} — множество достижимости в Rn+\. Показать; что любой точки xgК можно достигнуть, используя непрерывное управление и (i) (tQ^t^T). ... . : & Рассмотрим уп ра вл яющукг систему в Rn: (^) x=A(i)x+B(i\u V2 т определённым на L^o. J множестве управлений й (/) из Rm на интервале t^^t . Пусть К — мно- жество всех точек {С© («)» хи (Т)} в Rn+1- а) Доказать, что единственным оптимальным управлением и* (t) является управление, минимизирующее функционал Со (и) = [Со (и)12.
220 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Ь) Пусть g(x)—строго выпуклая функция из С1, т. е. g(Xxi + (l — м*2) < tygfa), 0 < % < I, Ж15*Ж2, и пусть функция g(x) ограничена снизу. Доказать, что если критерий качест- ва имеет вид С (w) = g(x(T)) + C0 (и), то имеется единственное оптимальное управление, а именно, и* = (/) В' (0 т)*'(0 с соответствующей оптималь- ной траекторией х* (0. Здесь вектор-функция (х* (0, л* (0) есть решение си- стемы уравнений x=A(t)x+B(t)U-i(t)B'(t)n', 4 = x'W(t)-^A(t), удовлетворяющее условию X (/о) = х«. П (Г) = - /ёда grad g (х (Т)). 7. Рассмотрим систему в Rn: (J0 х==Л(0х+В(0|4 т а) с критерием качества С (и) = J |[ х (s) ds, определенным на мно- жестве управлений и (0 с Rm (/0 t «С Т), удовлетворяющих ограничению т Доказать, что в этом случае существует оптимальное уп- равление и* (i). Если (0 > 0, то показать, что оптимальная траектория х* (0 единственна. [Указание: использовать слабую компактность единич- ного шара в La (f0, T).J т b) Пусть критерий качества С (и)*= J || u (s) ||^ ds задан на множестве h управлений u(t)cRm таких, что соответствующие им решения т удовлетворяют условию J || x(s) 1. Доказать существование единст- во венного оптимального управления и* (0 при условии, что существует хотя бы одно допустимое управление. [Указание: пусть и№ й слабо, так что C(u(*>)\infC(w). ТоЬда limC (и№)£*С (и). Это последнее неравенство^ следует из того факта, что обобщенные коэффициенты Фурье вектор-функции и сходят- ся к соответствующим коэффициентам вектор-функции и*.] 8. Предположим, что матрица Е(0=Е'(0 есть решение уравнения E — W (0-А' (0 Е—ЁА (0—ЕЙ (.0 U-1 (0 В' (t)E, удовлетворяющее условию £(Т)=—G, как и в примере 1 раздела 3.3. Дока- зать, что Е (0=[фз (О-Ф* W GJ (Ф1 (О-Фз (О О-1, где ¥(/)= р**1’М
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 221 есть фундаментальное матричное решение системы х= Л (0 х+В (0 U-1 (0 В' (0 if, П = х'Г(0 —т]Л (0, удовлетворяющее условию ^(Т) = /. Написанное равенство для Е (0 выпол- няется в некоторой окрестности точки t = T, точнее, до тех пор, пока матрицы [фз—Ф^] и невырождены. 9. Рассмотрим управляемую систему в Rn: (<#) х=Л(0х+В(0и, т с критерием качества С (и) = & (Г) + J [|| *(s) ||тг + ||и (s) ||а} ds> гДе 2 есть ненулевой постоянный вектор. Проверить, что оптимальное управление реали- зуется в виде цепи обратной связи и* (/)=(/ -1 (0 В’ (t) [h (0 + Е (0 х* (0), где £ = W (i)E—EA (t)—EB (f) V1 (0 В' (0 E, h= -[£ (0 В (0 U-1 (0 В' (t)+Af (0] h с граничными условиями £ (Т)=0, ft(T)=—^'/2. 10. Рассмотрим автономную систему в Rn: х=Ах-$-Ви, СО с критерием качества С (и)— J [||x(s) ||^ + || w(s) ||^]ds (см. теорему 7). Пока- о зать, что V (х) = — х'Ех есть функция Ляпунова для оптимизированной системы x^lA+BU-'B'Elx. Иначе говоря, проверить, что: a) V (х) > 0 для х * 0 и V (0)=0; b) V (х (0) < 0 для х 0. 11. Пусть Q = Q'^O и пусть Л—действительная устойчивая (пХ^-мат- рица. Показать, что CD £„ = IlZ.!.)”-1 С tneA,tQe^ dt, n=0, 1,2, ... ЛI J есть единственная симметричная матрица, удовлетворяющая уравнению (Л Э»*1 F+ (Л+1 (Л')« FA+/”+4 (Л')»-1 FA*+ • • • \ / . \\.^ / /л+ 1 \ ... + ( ) ЛТЛ«+ГЛ«+1 = р. \ п / /п-4-1 \ Здесь биномиальные коэффициенты имеют, как обычно, вид ( ) = \ г / =(„4.” jlr) jf । • [Указание: проверить, что Л'Fn+FnA = Fn.lt F-X = Q,
222 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Для доказательства единственности упростить вычисления, сделав преобра- зование координат 4 =P~14P, F — P'FP, Q = P'QP.] 12. Решить уравнение A'F -\-FA-Q относительно F — F', где л Г 0 И л Г1 1 — 1J’ [о 1J’ 13. Рассмотрим автономную систему в Р": (J£) х=Ах-\-Ви, с критерием качества C(u)=J[||x(S)||2z + ||«(S)||2,]dS, W = W'>0, U = U'>0, О как и в теореме 7. Пусть и (/) < оо) —некоторое допустимое управле- ние, т. е. управление, для которого С (и) < оо. Доказать, что lim х(/) = 0. (Указание: если lim | х (t) | > в > 0, то для любого X > 0 существует бес- /->00 конечное количество моментов времени 71 00, таких, что |х (^1)] = в, но |х(0|<-|- в некоторый момент t из интервала + Фиксируем достаточно малые в > О и т > 0. Тогда найдется такое б > О, что /i + Т ’ J | и (t) | dt > б. Поэтому существует £ > 0 такое, что || u(t) ||ц dt > £> О для бесконечной последовательности моментов времени Zj-^oo.) [et е “ ДЛЯ уп- e е2 J равляемой системы х—ах = и, 00 с критерием качества С(«)= J [x'lFx+yw2] dt, где О (Указание: согласно теореме 7 надо решить относительно Е уравнение A'E-\-EA = W — — Г** е*21, где 4=Г011, V Lee, ef J [а о] г__s___— 1 и проверить, что если е — — уа—у у2а2~Ру^1, e1 — w—~ееъ—ае%> е2 — — — yw2 — 2уе, то матрица Е является действительной и отрицательно опре- деленной). 15. Рассмотрим управляемую линейную систему в Rn: (<£) х=Ах+Ви,
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 223 с критерием качества 00 C(“)=ni№+ll“l|cdd/- w >°> и > °’ о как и в теореме 7. Доказать существование и единственность отрицательно определенной матрицы Е, удовлетворяющей уравнению W—A'E—ЕА— ЕВ[/“1В'Е = 0, и такой, что u—U~rB'Ex есть оптимальное управление, минимизирующее критерий качества, причем С(а) = — xqExq. Ход доказательства намечен в следующих пунктах: а) В примере 1 раздела 3.3 симметричная матрица D(t) на интервале удовлетворяющая уравнению D = W + A'D + DA— DBU-'B'D, D(0) = 0, определяет усиление в цепи обратной связи Е (t) = — D (— t) для соответст- вующей оптимальной управляемой системы на конечном интервале §<КТ. Оптимальное значение критерия качества при начальном состоянии х0 равно (Т) х0. b) Если 0 < 7\^Т2, то 0 < D (7\)D (Т2) в том смысле, что x'D (Ti) x<x'D (Т2) х для всех x£Rn. с) Пусть D—стабилизирующая матрица для системы (J?) х= Ах + Ви, u = Dx, т. е. такая, что матрица A—A-[~BD является устойчивой. Проверить, что lкачение критерия качества для допустимого управления u(t)~DeAtx0, x(t) = eAtxQ на 0«Cf<oo со равно С(и)~Хо0хо, где 0= J eAt\W -\~D'UD}eAt dt. Следовательно, D(T)^0 о для всех О «С Г < оо. d) lim D (Т) — Da> существует и D (Т) < D& 0. т -><х> е) Матрица D& является решением уравнения W-\-A'D-[-DA — — DBU~1B'D = Q. Тогда Е=—D® и есть искомая отрицательно определен- ная матрица. Единственность решения Е следует из формулы С (и*) ——х'0Ех0. 3.4. Интегральный выпуклый критерий качества Мы займемся теперь линейными управляемыми системами в Rn: U7) x = A(t)x + B(t)u, с интегральным критерием качества т с (и) =g (х (Т)) + $ [f° (/, х)+Л° (/, u)]dt, ^9
224 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 где А (/), B(t), g(x), f° (t, x), h°(t, u)—непрерывные матричные и векторные функции своих аргументов (t0 t Т, х £ R", и g Rm). Будем также предполагать в этом разделе, что /°(/, х) и Л°(/, «) — выпуклые функции при любом фиксированном /; кроме того, f°(f, х)>0, h°(t, u)>a|u|/' для некоторых постоянных а>0 и р>1. Эти предположения о положительности, которые, как будет показано в упражнениях, могут быть ослаблены, необходимы для существования оптималь- ного управления (минимизирующего критерий качества) в классе измеримых управлений с конечным значением критерия качества. Прежде всего мы рассмотрим случай g (х) = 0. Как и раньше, мы изучим геометрию множества достижимости К = К(х„, T)czRn+1, состоящего из конечных точек х (Т) всех траекторий х (0 = = (x°(f), x(f)) системы x = A(f)x+B(t)u(t), х° = /»(/, x) + h°(t, u(t)) с заданным начальным состоянием х0 (/) = (0, х0). Здесь под управ- лением и (t) на интервале t„ t Т понимается любое допустимое управление. Используя неравенство т т Со (и) = J [/° (t, х)+/г° (t, u)] dt > a J | и (t) dt, мы получим, что любое ограниченное измеримое управление u(t) является допустимым; кроме того, каждое допустимое управление u(f) принадлежит Lp(to, Т), а значит, и L^o, Т). Из предполо- жения о выпуклости функций f°(t, х) ц h9(t, и) легко извлечь, что выпуклая комбинация допустимых управлений также будет допустимым управлением. Конец траектории х(Т) можно вычислить, как обычно, по формуле вариации произвольных постоянных, t х(Т)=Ф (Т) х0 + Ф (Т) $ Ф’1 (s) В (s) и (s) ds. 11> Кроме того, х°(Т)=С0(и). Для упрощения наших рассуждений предположим, что систе- ма 3? обладает свойством управляемости на интервале t0 t Т. Отсюда будет следовать, что проекция множества К(х0, Т) на подпространство в Rn+1 с координатой х есть все Rn, иначе нам пришлось бы все время вводить линейное многообразие, натяну- тое на К. Многие из наших результатов являются непосредствен-
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 225 ними обобщениями теорем раздела 3.2. Однако в силу большей общности задач, рассматриваемых в этом разделе, мы не сможем получить здесь элементарный синтез оптимального управления в виде цепи обратной связи, как это делалось для квадратичных критериев качества; вместо этого мы будем сводить построение оптимального управления к двухточечной краевой задаче, которую можно решать различными численными методами. Лемма. Рассмотрим систему в Rn, обладающую свойством управляемости: (^) x = A(t)x+B(t)u, с критерием качества Со (и) и множеством достижимости KcRn+1. Тогда ортогональной проекцией К на гиперплоскость х® — 0 будет все Rn. Далее, множество К, представляющее собой совокупность вертикальных лучей, лежит выше гиперповерхности х° = а1|х|^ для всех достаточно больших | х | и некоторого постоянного at > 0. Доказательство. Поскольку система 2 вполне управляе- ма, то точки х(Т) должны заполнять все пространство Rn, когда управление «(/) пробегает линейное пространство ограниченных измеримых функций. Так как каждое допустимое управление и (t) из (/0, Т) можно аппроксимировать ограниченным управлением, и поскольку выпуклая комбинация допустимых управлений есть снова допустимое управление, то очевидно, что проекция множе- ства К на гиперплоскость х° = 0 представляет собой все про- странство Rn. Пусть управление u(t) переводит систему из точки (0, х0) в точку у = (г/°, у) в К. Построим управление uf (t) = u(t)-\- Р«₽ (0> такое, что т (1) $O-1(s)B(s)«₽(s)ds = 0 и (2) С0(И(,) = 1/« + 6 для любого заданного Этим будет показано, что К есть совокупность вертикальных лучей. Пусть Е—замкнутое подмно- жество_ненулевой меры из интервала t0 t Т, такое, что управ- ление u(t) непрерывно и ограничено на Е. Положим XB(t) = l при t из Е и XE(t) =0 в остальной части интервала, и построим разбиение интервала [?0, Т] /0 < tr < t2 <... < tn+1 < Т, такое, что т т ^XB(t)dt=i^XE(f)dt, tk ' t9 Й==1, 2, п+1. 8 Э. Б. Ли, Л. Маркус
226 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Тогда, используя те же обозначения, что и в лемме, предшествую- щей теореме 1, положим 4 (s) = [X (s, tn+1) рх + X (s, tn) . + X (s, Q р„+1] ХЕ (О и u'p(s) = 0 для /=2, 3, ...,т на Снова выберем ненулевой вектор Р = {РХ, р2, .... 0„+1} так, чтобы уСЛОВиё (1) ВЫПОЛНЯЛОСЬ ДЛЯ И. (0^0. __ Поскольку ир(0 = О при t^E и управление u(t) ограничено на Е, то управление uf (t) является допустимым при любом фикси- рованном р^О. Заметим, что Со (и0) = Сл (и) = у°, и С0(и.)> т г > a J | ир (0dt, так что ^0 lim С0(Ир)= 4-оо. р -> 00 Поскольку С0(Ир) непрерывно по р, то существует такое р^О, что Co(Hp) = #o4-£> что и требуется. Чтобы получить оценку, указанную в лемме, заметим, что для каждого1 допустимого управления и (0 т |x(7)KA14-/5|n(0|d/, *0 где kt = | Ф (Т) х01 и 1= max |Ф(Т)Ф_1(0В(0|. В силу выпук-' t т лости | и к как функции от | и | имеем неравенство "Т ~\р т J|«(0|dZ <$|и(0КЛ|Т— J t. Таким образом, х«(Т) = С0(и)>а Гг V J|u(0|dd >а Г1 ।~fel 1р|Т—/0|i-/>. J Отсюда следует, что для всех | х (Т) | 2kt имеем *в(П>й?|х(Т)р|т-г.Гл Лемма доказана. Теорема 8. Рассмотрим систему в R", обладающую свой- ством управляемости: {S} x=A(t)x + B(t)u,
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 227 с критерием качества т Co(«)=$[f°(^ x)+h0(t,u)]dt. to Тогда множество достижимости KcRn+1 замкнуто и выпукло. Доказательство. Доказательство выпуклости множества д проводится так же, как и в теореме 1. Для доказательства замк- нутости множества К воспользуемся неравенством lim inf Со (uk) Со (а), k -► оо где uk(t)— последовательность управлений, слабо сходящаяся к й(/). Доказательство этого неравенства, которое является вы- ражением одного общего свойства выпуклых функций, приведем в заключительной части доказательства теоремы. Рассмотрим последовательность точек хк (7) == (х%(Т)~, хк(Т)), соответствующую управлениям uk(t), и сходящуюся к х = (х°, х) в Rn+1. Поскольку последовательность х^(7) = С0(ыА) ограничена, то функции ик (t) лежат внутри некоторого замкнутого шара в банаховом пространстве L р (t0, Т). Следовательно, можно выбрать подпоследовательность, которую мы вновь обозначим uk(t), слабо сходящуюся к u(t). Предполагая, что указанное выше неравенство верно, легко получаем, что u(t)—допустимое управление с соот- ветствующим ему решением (х°(/), x(t)) и lim xk(t) = x(t), lim inf х£(7) > (7). k -> co k —* co Таким образом, x(T)—x и х°(Т)^х°. Поскольку множество К представляет собой совокупность вертикальных лучей в Rn+1, за- ключаем, что точка х принадлежит К, и значит, К замкнуто. Докажем ^теперь использованное нами неравенство. В силу того, что ик (t) и и (/) лежат в некотором замкнутом шаре пространства ^(^о» 7), они должны быть равномерно ограничены в простран- стве Lj (t0, Т) и, значит, для нормы | хк (t) | и x(t) также имеет место некоторая равномерная оценка. Таким образом, г т lim $ f° (t, хк (0) dt=\f<> (t, х (0) dt. k -* “ t. Итак, остается лишь показать, что Г т lim inf J й° (i, ик (/)) dt > f h° (t, и (t)) dt. 8*
228 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Пусть С — некоторое замкнутое подмножество интервала /0 t Т, на котором управление и (/) непрерывно, а следова- тельно, ограничено, a S—компактный шар в Rn, внутри которого содержится а (С). Для каждого фиксированного t рассмотрим вы- пуклую гиперповерхность в Rm+1, описываемую уравнением ua = h0(i, и). Для каждого и t из интервала рассмотрим все опорные гиперплоскости к поверхности и) в точке (о, h°(t, о)), т. е. гиперплоскости и° = у(0(«—v)+h.°(t, о). Множество Н всех таких гиперплоскостей является компактным подмножеством (2т-}~ 1)-мерного евклидова пространства с коор- динатами (/, v, у). Поскольку ни одна из опорных гиперплоско- стей не является вертикальной, то ясно, что имеет место равно- мерная оценка |Т|<С1ВД. Зададимся теперь некоторым е > 0 и определим управление v (/) = t\XE1 (/)+vsXEa (t) + ... + vgXEg (0 для t € С, и v(t)=u(t), если t не принадлежит С. Здесь под XEi(t), XEi(t).. .XEq(t) понимаются характеристические функции непере- секающихся измеримых множеств Ег, ..., Е9, на которые разбито С, а постоянные векторы vlt v9 выбраны так, что |«(0-*Ф)|<8|Т-/о+1|-Ч?г\о(0с:5, и Для каждого t £ Ег построим опорную гиперплоскость к гипер- поверхности u° = h°(t, и) в точке (t>v h°(t, t>x)). Пусть ее уравнение Можно считать, что функция ух(/) ограничена и измерима на Ег (см. приложение к главе 2). Так как гиперповерхность ы°=Л°(/, и) лежит выше своей опорной гиперплоскости, то получим h°(t, и)—h*(t, для всех u£Rm. Таким образом, для t^,Ei имеем fc = l, 2, 3, ... Используя аналогичные неравенства для каждого из множеств Ег, ..., Ед, а также разложение у (0 = ух (0 XEl (/) + у, (/) ХЕг (0 + ... + у9 (0 XEq (О,
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 229 получим ((t «А (0) Л > J Л® (л I» (0)л + $ Т (0 («А (0 -° (0) dt. с с с Для больших k —► оо в силу слабой сходимости имеем $ V (0 («ДО—«(0 + « (0—v (0) dtl < 8 + е. с I Кроме того, по предыдущей оценке J | h° (t, v (t))—h9 (t, и (0) | dt < 8. c Поэтому J Л® (t, uk (/)) dt $ h° (t, и (0) dt—38. c c Очевидно, что существует последовательность замкнутых мно- жеств С^сС^СцС.... такая, что lim Cz = [/0, Г], и на каждом I -* оо из которых управление u(t) непрерывно; повторим наши рассуж- дения для каждого из них. Поскольку' последовательность т uk(t))dt ограничена, а последовательность Л°(/, u(/))XCi(0 ^0 монотонна по Z, то очевидно, что существует предел т lim J Л® (t, и (0) dt = ft® (t, и (/)) dt. Итак, для любого заданного 8 > 0 существует константа С, та- кая, что т т ^h*(t, ик (0) Л > $ Л® (/, ик (0) Л > J ft® (t, и (0) dt—4в Cl для всех достаточно больших k. Следовательно, т т lim inf U®(/, uttfidt. t. t. Теорема доказана. Следствие. Рассмотрим, систему в Rn, обладающую свой- ством управляемости (^) x=A(t)x+B(t)u с критерием качества C(u) = g(x(T)) + Cor(u).
230 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Если: а) функция g(x) > b, т. е. g(x) ограничена снизу в Rn или Ь) функция g(x) выпукла в Rn, то для системы («S’) существует оптимальное управление. Доказательство. Доказательство следует из теоремы 2 и оценок, установленных в лемме предшествующей теореме 3. Для системы «S’, обладающей свойством управляемости с кри- терием качества С0(и), управление u(t), переводящее систему из точки (0, х0) в граничную точку множества К в 2?n+1, называется экстремальным управлением, а соответствующая траектория — экстремальной траекторией. Конечно, оптимальное управление системы «S’ с показателем качества C(u)=g(x(T)) + C0(u) также переводит систему по траектории х(/) = (х°(/), x(t)) в граничную точку множества К и, значит, является экстремальным. Как и раньше, мы охарактеризуем экстремальные управления с помощью принципа максимума. В этой части теории под сопряженным решением, соответствую- щим и(ф и x(t), мы будем понимать n-J-1-мерный вектор-строку т1(О = (т1о, л(0), координаты которого удовлетворяют линейной системе (Л) Ло = 0, n = —Ло^(Л т]Л(О. В дополнение к обычному предположению о непрерывности, упо- мянутому в начале этого раздела, мы будем в дальнейшем пред- dfQ полагать, что функция х) непрерывна на интервале при х б Rn. Из свойства выпуклости f° (t, х) тогда следует, что f° (t, x)—f° (t, х)^д£ (t, х) (х—х). Т е о р е м а 9. Рассмотрим систему в Rn, обладающую свойством управляемости x=A(t)x+B(t)u, с критерием качества т Со (и) = $ [/«(t, x) + h° (t, м)] dt. _ ^0 _ Управление u(i) с решением x(t) будет экстремальным в том и только том случае, если существует вектор ?) (t) — ("По» Л (0), удовле- творяющий системе (Л) ло = О, Ло<О» Л=—*(0)—М(0>
2 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 231 и такой, что принцип максимума выполняется почти всюду на интервале [/0, Т]: Я0Л° (*» “(0) + Я(0В (/)«(0 = max [я<Л° (Л «) + Я(0В (t)и], и Доказательство. Пусть управление «(/), соответствующее решение х (/) = (х° (t), ~х (/)), и сопряженное решение я (t) = (я0. Я (0) удовлетворяют системе # ' =A(t)x+B(t)Z(t), 1 ’ x« = fo(t, x)+h«(t, u(t)), x(fe)=(O, x0), а также системе А при Яо < 0 и сформулированному выше прин- ципу максимума. Мы покажем, что Я(7’)х(0>Я(Т)®(7’), где со (/) — (со0 (0> ®(0) есть решение, соответствующее произволь- ному допустимому управлению и(/). Из этого неравенства сле- дует, что точка х(Т) лежит на границе множества К и что век- тор я (Т) есть внешняя нормаль к К в этой точке. Из уравнений 3? и А следует, что 37 [Я (0 ® (0] = Яо®° + Я® + Я® И я (Т) а (Т) — я (/о) Хо = =j {яо р°(Л ®) —*)®] + [я<Л° (t и) + я5«]|^. Пусть теперь управление u(t) равняется u(t), а решение равно x(t); тогда получим я(Пх(Т)-я(их0 = {яо [f° (Л X)—d-^(t, х)х-] +[я0Л°(/, ы) + яВм]}^. Из принципа максимума и условия выпуклости следует, что ПоЛ°(^ ^(О) + я(ОВ(О«(О>Пой°(Л + и Л(Л (о)-Л(Л £)>^(U)(0-I), откуда вытекает, что я(Т)х(Т) >я(Г) ® (Т). Тем самым u(t) является экстремальным управлением.
232 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Обратно, предположим, что u(t)—экстремальное управление, так что соответствующая траектория х (0 = (х®(0, x(t)) ведет из точки (0, х0) в точку х(Т), лежащую на границе множества X- ! Пусть л(Т,) = (ч]0, к\ (Т))—внешняя нормаль к К в точке х(Т). Очевидно, что т]0 < 0; для простоты примем т]0=—1. Определим я(0 как решение сопряженной системы Л с заданными гранич- ными условиями т](Т) при /=Т. Требуется доказать, что —Л°(6 «(0)4-т|(0В(0«(0=тах[—А°(Л и) 4- т| (0 В (0 и] 5 и почти всюду на интервале Доказательство усложняется из-за того, что сопряженная си- стема Л зависит от основного решения х(0. Чтобы обойти эту трудность, мы введем одно построение, которое в дальнейшем будет применено при доказательстве принципа максимума для наиболее общих нелинейных систем. Сущность этого метода со- стоит в том, что в течение некоторого короткого промежутка . времени tY t tх 4- в на управление и (t) накладывается импульс- ’ ное вдЬмущение; на этом промежутке управление ы* (0 не удов- летворяет принципу максимума. Возмущенное управление u* (t) т J&.&T приращение, выражаемое формулой J [тъ/*0 ы) 4~ Я (0 X ~ » 'о I ХВ(0«]Л ПРИ вычислении т] (Г) со (Т), что противоречит пред- положению о том, что х(Т) лежит на границе К. Изложим теперь это доказательство подробно. Предположим, что управление u(t) не удовлетворяет принципу максимума в те- । чение некоторого положительного промежутка времени из интер- вала Определим управление ы(0 по формуле —h°(t, й(0)4-т](0В(0и(0=тах [— h°(t, u)-\-x\(t)B{t)u]. ? и 1 Очевидно, что управление u(t) ограничено, и его можно выбрать I измеримым, как показано в приложении к главе 2. Пусть С— I компактное подмножество_ненулевой меры из интервала t0 < t < Т, на котором управления и (t) и и (0 непрерывны, и удовлетворяют неравенству —Л" (0 и (0) + п (0 В (0 и (0 < — h° (I, й (0)+П (0 В (0 и (0 -6 для некоторого постоянного 6 > 0. Выберем момент 0 € С, для которого множество (0, 0 4-е) П С имеет меру в [14-0 (в)] для
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 233 малого 8 > 0 рдесь lirnO (e)==OJ. Определим возмущенное управ- ление = / на Сп^’ *1 + 8>’ 8' \ и (/) в остальной части интервала /0 t Т. Тогда, для достаточно малых 8>0, решение x*e(t), соответствую- щее управлению u*(t), равномерно аппроксимирует x(t). Точнее, легко показать, что I х» (/) —х (О I < Й8 для некоторого k > О на интервале Поскольку производная ^-(f, х) непре- рывна, то IP(t, x(t))(xt(t)-x(t))<eO^. Из предыдущих вычислений для rj (Т) со (Т) следует, что П(Т)Х(Т)-П(Т)^(Л< т < J [р(л хио)-Р(^ х(о)(хе*(о-х(о)] dt- -б8[1+0(8)]. Тогда, для достаточно малого 8 > О r\(T)'Xe(T)>i\(T)x(T). Однако это невозможно, поскольку л(Т) является внешней нор- малью к К в_граничной точке х(Т). Следовательно, экстремальное управление u(t) должно удовлетворять принципу максимума с сопряженным решением Теорема доказана. Следствие. Рассмотрим систему в R", обладающую свой’ ством управляемости: Г(^) x = A(t)x+B(t)u с критерием качества т C(«W(x(T)) +J [p(t x) + h*(t, u)]dt, ^0 где 'функция g(x) 'выпукла, а функция h°(t, и) строго выпукла, т. е. для 0< 1 < 1 и иг=^и2 и для любого фиксированного t h*(t, ХМ1 + (1—X)u8)<W(/, u1) + (l— иг). Тогда любые два экстремальных управления, переводящие систему из точки (0, х0) в одну и ту же граничную точку множества
234 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 К, должны совпадать почти всюду. Кроме того, существует единственное оптимальное управление. Доказательство. Пусть и(t)—экстремальное управление, а х(0 = (х° (t), x(t))—соответствующее решение. Пусть далее т](0 = (—1> л(0)—соответствующее сопряженное решение, так что вектор т] (Т)_является внешней нормалью к К в точке х (7). Тогда управление u(t) удовлетворяет принципу максимума —№(t,u (0) -|- т) (t) В (0 и (0 = max [—ft® (t, и) + я (0 В (0 и] = т(0. и Пусть теперь управление и(0 вдоль соответствующего реше- ния а>(0 переводит систему из (0, х0) в ту же самую точку ©(Т)=х(Т). Если управление и(0 не удовлетворяет принципу максимума при заданном т|(0, то т $[—ft°(f, й(0)4-т)(0В(0«(0]Л> Т I > $[—й°(0 и (0) + я(0В(0ы (0] dt. *0 Тогда вычисления, проведенные в теореме 9, показывают, что п(Т)х(Т)>п(П®(П=п(Пх(Т), что невозможно. Таким образом, заключаем, что управления u(t) и и(0 удовлетворяют принципу максимума почти всюду на интервале Рассмотрим теперь управление у[и(0 + «(0]. Из строгой выпуклости ft°(/, и) следует, что -А°(л (0+у« (0) +п (0 B(t)^ [й (0 + и (0] > >l/n(0 + 4-m(0 всюду, где u(0=#u(0. Из предыдущих рассуждений заключаем, что управления и(0 и а(0 совпадают почти всюду. Поскольку g(x) есть выпуклая функция, то должно сущест- вовать оптимальное управление и* (t), являющееся экстремальным и переводящее систему из точки (0, х0) в то подмножество гра- ницы множества К, где функционал x9-\-g(x) достигает своего минимума. Из теоремы 5 следует, что функционалах0+ g'(x) может достигать минимума лишь в одной точке Р множества К. Следо- вательно, и*(0 есть единственное экстремальное управление, пе-
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 235 реводящее систему из точки (0, х0) в точку Р, что и требовалось доказать. Замечания. Даже в случае, если Л®(/, и) не является строго выпуклой функцией, можно получить вполне определенное экстремальное управление u*(t, т| (/)) для каждого заданного со- пряженного решения А именно, для каждого фиксирован- ного t и заданного г] следует выбрать u*(t, ц), исходя из прин- ципа максимума —h°(t, и*) + т]В(0“* = 1пах + и Если функция Л® (t, и) строго выпукла при каждом t, то прин- цип максимума однозначно определяет управление и* (t, т]). Одна- ко, если даже Л® (t, и) просто выпуклая функция, то можно одно- значно определить u*(t, т|), выбрав среди точек Rm, удовлетворя- ющих принципу максимума, точку с наименьшими координатами. Иначе говоря, выберем u*(t, r]) = (u*1, и*2, ..., и*“) так, чтобы и*1 было минимальным из всех возможных решений принципа максимума, затем выберем и*2 минимальным среди всех решений с выбранным значением и*1 и так далее, пока не получим u*(t, т)). Если вектор-функция т] (/) непрерывна, то u*(t) = =u*(t, л(0) будет приемлемым управлением (см. приложение к главе 2). Следующая теорема показывает, что u*(t, т]) можно интерпре- тировать как оптимальное управление, определенное на основе синтеза цепи обратной связи. Теорема 10. Рассмотрим управляемую систему в Rn (^) x = A(t)x+B(t)u, с критерием качества т С(«) = я(х(Т))+$[/®(/, x)+h°(t,u)]dt. ^0 Предположим, что функция g{x)^O выпукла в Rn. Тогда суще- ствует решение x?(t), if (t) системы уравнений x=A(t)xA-B(t)t?(t, ц), n = ^(t,x)—r[A (0, такое, что x(Q=x0, nCO = — gradg(x(T)). Здесь управление u*(t, т|) определено из принципа максимума —h°(t, u*) + i\B(t)u*=max[—h°(t, и)+ (/)«], a u*(t)^=u*(t, rj* (t)) является оптимальным управлением с соот- ветствующей оптимальной траекторией %♦(/).
236 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Если функция h°(t, и) строго выпукла при любом, t, то реше- ние х*(1), т]*(/) единственно, и u*(t) есть единственное опти- мальное управление. Доказательство. ^Рассмотрим гиперповерхности <$с: x°4-g(x) = C в Rn+1. Тогда, как и в теореме 5, существует един- ственная гиперповерхность Sm из этого семейства, такая, что Sm касается К, а т есть оптимальное значение критерия качества. Пусть = (—1, т]* (Т))—нормаль к касательной гиперплоско- сти к S„ в некоторой точке Пусть, далее, «•(/) — экстремальное управление, переводящее систему из точки (0, х0) в точку Р=^*(Т) вдоль траектории х*(/)==(х°*(/), х*(/)). Опре- делим ц*(/) = (—1, т]*(/)) как решение системы **(/))-nA (t), удовлетворяющее условию т]*(Т)= — gradg(x*(T)). Из теоремы 9 следует, что управление u*(t) удовлетворяет принципу максимума с сопряженным решением if(/), т. е. u*(t)~ ~u*(t, tf(/)). Таким образом, x*(Z), Л* (0 есть искомое решение указанной выше нелинейной краевой задачи. Е<упйЛ°(/, и)—строго выпуклая функция от и при любом фиксированном t, то множество 5ЛЛК содержит единственную точку Р, как показано в процессе доказательства теоремы 5. Тогда из следствия из теоремы 9 вытекает, что оптимальное управление «*(/) и соответствующее ему решение ^(^единствен- ны. Точно так же и т]*(/) определяется однозначно, как решение линейной системы дифференциальных уравнений с граничными условиями т] (Т) = —grad g(x*(T)). Теорема доказана. Примечания к задаче с подвижными концами. Рассмотрим систему в R”, обладающую свойством управляемости (^) х=Л(/)х4-В(/)и, с критерием качества C(a)=g(x(T)) + C.(U), как и в теореме 10. Мы хотим перевести систему из начального состояния х0 в заданное целевое состояние ХхСД" с минималь- ным значением критерия качества. Будем считать h°(t, и) строго выпуклой функцией при любом фиксированном t из интервала При этих условиях система обладает единственным оптималь- ным управлением и’ (/), переводящим ее из точки х0 в точку хг. Действительно, рассмотрим подмногообразие/: х=хх в /?л+1. Здесь /ПК есть отрезок вертикальной прямой. Тогда и*(/) переводит 1
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 237 систему из точки (0, х0) в точку (х°*(Т), xj, где х°*(Т) есть са- мая низкая точка отрезка /ПК и С(и*) ==g(Xi) + x°*(T). Далее, если x*(t), я* (О—некоторое решение системы уравнений х = A (t)x+B(t)u*(t, я), n=^-(t *)—М(0» такое, что х(/0)=х0, х(Т) = хх, то u*(t) = u*(t, я*(0)> а пред- ставляет собой оптимальное решение, соответствующее Рассмотрим теперь при тех же предположениях [система 2 обладает свойством управляемости на и/г*(/, и) строго выпуклая функция от и при любом /] задачу о приведении си- стемы из начальной точки х0 в фиксированное компактное вы- пуклое целевое множество G: у (х) О в Rn. Здесь у (х)—некоторая выпуклая функция класса С1, причем grady(x)=/=0 на границе G, представляющей собой гладкую выпуклую гиперповерхность. Как и в рассуждениях раздела 3.3, рассмотрим цилиндрическое множество G=GxR1 в «+1-мерном пространстве с координатами (х°, х). Поскольку система вполне управляема, то множество G пере- секается с множеством К по замкнутому выпуклому множеству, и значит, существует оптимальное управление u(f), переводящее систему из состояния х0 в G и минимизирующее функционал С (и). Для того чтобы еще более упростить задачу, предположим, что g(x) = 0, так что С(«) = С0(и). Тогда минимальное значение х° достигается в СПК в единственной общей граничной точке х*(Т) = (х°*(7'), х*(Т)) [если только оптимальное управление, ми- нимизирующее С0(ц) вне зависимости от целевого состояния, не будет все же переводить систему из точки х0 в G; этот особый случай, соответствующий равенству я (Т) = 0 в теореме 10, мы исключаем из рассмотрения, так как он имеет место тогда и только тогда, когда излагаемый ниже метод не дает решения за- дачи]. Таким образом, существует единственное оптимальное управление «*(/), переводящее систему из точки х0 в G, причем соответствующая траектория заканчивается в точке х*(Т). В точ- ности как в разделе 3.3, можно получить управление u*(t) из любого решения х*(/), я*(0 системы x = A(t)x+B(t)u*(t, я), П = х)—яЛ(0, удовлетворяющего условию х(/0)=х0, у(х(Т)) = 0, а также усло- вию трансверсальности П (Г) = — k grad у (х (Г))
238 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 для некоторого k > 0, полагая и* (/) = «*(/, т]*(/)). При этомх*(/) будет соответствующей оптимальной траекторией. Пример 1. Скалярное уравнение х — х-\-и описывает простую управляемую динамическую систему; в каче- стве критерия качества рассмотрим функционал С(и) = ±- о Задача управления заключается в том, чтобы пере- вести систему из начального состояния х(О)=хо в целевое со- стояние х(1) = 0 с минимальным значением критерия качества. Из принципа максимума следует, что и** । * Г । 1 —+ =max T + n«J или и*=р/гь Таким образом, надо решить систему х=х+^тГ. П = — П с граничными условиями х(О)=хо, х(1) = 0. Поскольку т] = т|ов“<> имеем х=е*х0-~ пУ’ [e~tl3—е‘]. Граничные условия дают nJ/a = ^ 1)-х и оптимальное управление будет иметь вид и* (/) = х0 (е~ I)-1 е~ Ч*. Пример 2. Рассмотрим управляемую систему в Rn-. x = A(f)x-\-B(t)u, с критерием качества I с V/₽ для некоторого заданного р (1 < р < оо). Требуется минимизиро- вать функционал С (и), переведя систему из заданного началь- ного состояния х0 в целевое состояние хх в Rn. Рассмотрим множество К (k) с R" достижимости, соответству- ющее совокупности управлений, удовлетворяющих условию
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 239 Легко показать, что множество K(k) выпукло, компактно и непрерывно расширяется с ростом k, поскольку множество Д' (k) есть объединение горизонтальных слоев К(х0, Т) a Rn+1 при постоянном уровне х° = £р. Наименьшее k, при котором множество K(k) включает в себя точку хп будет минимумом критерия качества. Оптимальное уп- равление u*(f) единственно, как показано в теореме 10 и после- дующих замечаниях. В случае скалярного управления, /п=1, надо решить уравнения х — A(f)x + B(f)u*(t, t|), т) = —М(0 при граничных условиях х(/0) = х0, х(Т) = хг Тогда м*(0 = =«*(/, я(0)> где ( I 1 । -J— — я 5(f) р-1, если | —— т]В(/)р’-1, если т]В(/)<0. В предельном случае р = оо положим || и || «, = sup | и1 (/) |, 1 i /и, (фактически, lim ||u||/,=sup|u/(Z)|, где супремум не р -* со учитывает значения на множестве меры нуль1). Для простоты рассмотрим автономную систему (S) х = Ах+Ви, с критерием качества С(ы) = [|и||ю на интервале и предположим, что система S нормальна в m-мерном кубе | и11 1. Как следует из главы 2, множество Д' (k) является вы- пуклым, компактным, и непрерывно расширяется с ростом k. Поскольку система S обладает свойством управляемости, то существует такое минимальное k*, при котором точка хх = 0 будет впервые принадлежать множеству /((#•). Таким образом, сущест- вует единственное k* > 0, при котором имеется решение системы уравнений х = Ах -|- В sgn (т)В)' k, т] = — т]Д, удовлетворяющее условиям х(О)=хо, х(Т) = 0. Единственным оп- тимальным управлением будет и* (0 = sgn (if (0 В)'(0</<Т), То есть II «||« = max (ess sup |), t = l, 2. m, t £((<>, T] (Прцм. ped.)
240 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 ибо и* (/) есть также оптимальное >по быстродействию управление, удовлетворяющее ограничению || и ||« Л*. * Если отбросить условие, что промежуток времени управления должен быть фиксированным, и рассматривать произвольные ко- нечные интервалы то оптимальное управление может и не существовать. Например, рассмотрим скалярную управ- J ляемую систему | х = и, где требуется перевести систему из состояния х(0)=0 в состояние х (^) = 1 за некоторый конечный промежуток времени 0 t * с минимальным значением показателя качества С (и) —1| и || р, | 1 <р^оо. Для каждого 8>0 рассмотрим управление м(0=тф1 на интервале оо ж S8 dt J -j-r-r расходится, I в-» о г + 1 | и значит, хотя и существует интервал 0 /х (е) такой что . х (/х (е)) = 1, но оптимального управления на любом интервале О t tf, удовлетворяющего условию || и* (/) || р = 0, не суще- ствует. Примечания к задаче о регулировании на бес- конечном интервале. Пусть теперь промежуток времени будет бесконечным, при сохранении всех остальных предположений, перечисленных в начале раздела 3.4. Мы объеди- ним все результаты для этого случая в одной большой теореме. Теорема 11. Рассмотрим автономную систему в R”, обла- дающую свойством управляемости: (J?) х — Ах-\-Ви, с критерием качества <х> C(u)=l[F>(x)+he(u)]dt, О где функция /°(х)^0 является выпуклой, причем fe(x) — O тогда и только тогда, когда х = 0; функция h°(и)^а\и\? строго вы- пуклая и й°(0) = 0. Тогда существует. единственное оптимальное управление и* (t) на интервале 0 t < оо с соответствующим решением x*(f). Предположим, что ни одно собственное значение матрицы А не имеет нулевой действительной части. Тогда для того, чтобы допустимое управление и (t) было оптимальным с соответствую- щим решением x(t) на интервале < со, необходимо и доста-
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 241 точно, чтобы u(t) удовлетворяло принципу максимума т)оЛ° (и (t)) + rj (t) Ви (0 = max [л<Л° («) + П (О 5«] и почти всюду, где я (t) = (я0, Я (0) удовлетворяет сопряженной си- стеме уравнений т1о = 0> Я = —По —я А, с Ло < о и И (°0)= О- Доказательство. Поскольку система 3 обладает свойст- вом управляемости, ее можно перевести из начального состояния х0 в начало координат при /=1, а затем удерживать ее там при помощи управления и = 0. Таким образом, существует по край- ней мере одно допустимое управление, с конечным значением М критерия качества. Построим теперь оптимальное управление u*(t) на интервале 0^/<оо, как предел слабо сходящейся последовательности оптимальных управлений на конечных интер- валах времени. Считая, что в начальный момент времени t = 0 система нахо- дилась в состоянии х0, для каждого конечного интервала вре- мени k—\, 2, 3, ... обозначим через uk(t) опти- мальное управление, минимизирующее критерий качества k Ck(u) = [f°(x) + ^e(u)l dt. Положим Ck(tu*k) — mk, и заметим, что О /иА^тА+1^Л1, поскольку управлению ы£+1(/) на интервале 0^/^^ не может соответствовать меньшее значение критерия СО качества, чем управлению u*k(t). Так как J [мы о можем положить u*k (/) 0 для t > й], можно выбрать подпосле- довательность Ukt(t), слабо сходящуюся к пределу u*(f) на каждом компактном интервале. Для каждого конечного Т > 0 будем иметь т о т < lim inf J [f°(x*. (0) 4-Л0 (uk. (/))] dt < lim mki M. ki-*a> q kf+n Поэтому u*(t) есть допустимое управление с конечным значе- нием критерия качества С(и*) = т^.М. Покажем теперь, что т = lim tnk, и что u*(t)—единственное оптимальное управление k -* <ю
242 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 на интервале 0^/< оо. Так как последовательность управлений Uk. (t) слабо сходится к и* (t) на конечном интервале О t то т $ [Г (X* (0)+Л° («* (0)] dt С lim inf mk( 0 и, значит, m lim tnk. k-*a> 1 Однако никакому допустимому управлению на интервале | 0^/<оо не может соответствовать значение критерия качества, меньшее tnk (для некоторого k), так как это противоречило бы оптимальности управления u*k(t) на интервале Таким образом, пг= Нттл и управление u*(t) на интервале 0^/<оо является оптимальным управлением, доставляющим минимум т критерию качества С (и). Пусть u*(t)—другое оптимальное управление, отличающееся от «*(/) на некотором ненулевом промежутке времени из интер- вала 0’^ t < оо. Рассмотрим управление и* (t) = у [u* (t) + и* (/)] на интервале 0^ t < оо. В силу строгой выпуклости функции Л° (ы) С (и*) < | [С («*) + С (й*)] = т,^ что невозможно. Следовательно, u*(t) является единственным (почти J всюду) оптимальным управлением. fl {Покажем теперь, что управление u*(t) удовлетворяет принципу | максимума, причем под сопряженным решением = (r]J, т]*(0) I понимается предел соответствующих сопряженных решений для I управлений u*k{(t) на конечных интервалах времени. Для каждого 1 ki пусть r\k( (t) = (т]о*4, тМО)—есть сопряженное решение, coot- I ветствующее i4t(f) на интервале где гр-ДО) есть еди- " ничный вектор, Лолг < 0» = 0 и ПокЛ0 (ы*г (0) + Пй (0 ВиЬ (0 = max [т]о*Л° (“) + (0 Ви]. и ’ Выберем теперь подпоследовательность, сохранив прежнюю ну- мерацию, так чтобы lim (0) = Л* (0), fef-* со и определим т)*(0 как сопряженное решение, соответствующее u*(t) с этими начальными условиями. Предположим, что управление u*(f) не удовлетворяет прин- 1 ципу максимума с вектором т|*(0 в качестве сопряженного реше- ।
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 243 ния на интервале 0^/<оо. Тогда для некоторого конечного Т > 0 и 6 > 0 имеем пЖ (и* (0) + П* (0 Вы* (0 + 26 < т]^0 («(0) + П* (0 Вы (0, для некоторого управления u(t) на компактном подмножестве А длины 6 > 0 из интервала 0 t <1 Т [можно считать, что управ- ления «*(/) и u(f) непрерывны и ограничены на А]. Тогда для достаточно больших Л,- и для имеем i\okih° (и* (0) + (0 Ви* (0 + 6 < r]ofei/i° (uki (0) + tiftj (0 Вм а; (/) Это неравенство имеет место, так как вектор-функции равномерно аппроксимируют вектор-функции rf (/) на интервале а управление u’ki(t) удовлетворяет принципу макси- мума с вектором г]^^) в качестве сопряженного решения. Отсюда, как и в теореме 9, следует, что kt kt $ [Л(х*(/))+/г°(ы*(0)]Л-62>$ [f9(x*kt(t)) + h°(uki(t))]dt=mki. 0 о Но тогда С(м*)^624-/и, что невозможно. Итак, u*(f) должно удовлетворять принципу максимума на интервале 0 t < оо с вектор-функцией г]*(0 в качестве сопряженного решения. Покажем теперь, что r|J < 0 и rj* (оо) = 0. Очевидно, что Яо < 0, так как иначе Ло = 0, и в принцип максимума будет входить ли- нейное однородное условие, которое не может быть выполнено. Заметим, что вектор-функция т]* (t) удовлетворяет системе линей- ных дифференциальных уравнений 1i = — Так как х*(оо) = 0 [решение, соответствующее любому допусти- мому управлению, должно стремиться к началу координат; см. упражнение 13 раздела 3.3] и f°(x) = O в том и только том слу- чае, когда х = 0, то lim (х*(/)) = 0. Действительно, неболь- шое уточнение этого рассуждения показывает, что для каждого 8 > 0 существует момент времени Т > 0, такой, что (0)| < 8 и | ~ (х* (0) | < е для всех t>T и для всех достаточно больших k[. Напомним также, что lim я** (0 = П* (0 ki -> 00 равномерно на компактных интервалах, и более того, что x\ki(ki)=O. Пользуясь принципом максимума, найдем, что последовательность
244 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 сходится к управлению а последовательность х^(/) сходится к и, следовательно, последовательность -^-(хлД/)) df° сходится к (х* (/)), причем все это равномерно на любом компактном интервале. Теперь формула вариации произвольных постоянных дает t П*(О=П*(О)«"Л<+ С -^^(х* (з))е-л «-‘'ds. о Если все собственные значения матрицы А имеют положительную действительную часть >%>0, то |e~Af | С1е-И на интервале 0<7<°° при постоянном Cv Пользуясь тем, что-~>(х*(/))—*0, легко доказать, что rf(oo) = 0. С помощью линейной замены переменных т] всегда можно при- вести матрицу А к виду А = 0 Л_ где каждое из собственных значений матрицы А+ имеет положи- тельную действительную часть [и значит, ему соответствуют ком- поненты вектора стремящиеся к нулю при t—>оо], а все собственные значения матрицы Л_ имеют отрицательные дейст- вительные части. При таком разделении компонент т] очевидно достаточно доказать, что т|*(оо) = 0 для случая, когда Л = Л_, и мы в дальнейшем рассмотрим именно этот случай. Имеем (0) + j — (Xkt (s)) eAsds о ki о и, значит, (0) = ^т] о л(^(х*((з)) ds. Покажем далее, что о ОО П* (0) = J По -57 (** (S)) eAs ds. о Имеем т]*(0)= lim W0)= lim f e^ds. ki-* <ю fri -> co g OX Для любого 8 > 0 существует конечное Т > О, такое, что | 57 (Xki (0) I < 8 и I (х* (0) I < 8 При t>T и достаточно
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 245 больших kt. Тогда для больших k( I j eAs ds~^1)0 * тг eAs ds I < J | По’ (S))—По m (X*ki (s)) 11 e-4i I ds + ki +j h« if —t>° <***) 11eAs ids+ T 1 + JIч* 'дГeA418 + 36 J ।eAS।ds' kt 7 Следовательно, n*M = l^^tf(s))eAllds 0 и W) = l^^(*4s))eAis-"ds. t Поэтому при t>T имеем И* (О К s J \eA | ds=8 J | eAi | dg, t о т. e. if (°°) = 0, что и утверждалось. Наконец, мы докажем, что всякое допустимое управление и (t) с соответствующим решением x(t) и сопряженным вектором (т]0, т|(/)) на интервале Q^.t < оо, для которого выполняется принцип максимума, и п0 < 0» И (оо) =0» является единственным оптимальным [управлением. Пусть ы(0 — произвольное допустимое управление с соответствующим решением <в(0 = (®°(0, ®(0)- Замечая, что х(оо) = <в(оо)=0 и используя вычисления, проделанные при доказательстве теоремы 9, полу- чим, что По (?) + И (ТГх (Т) > По (Т) +п (Т) G) (Т) для каждого конечного Т > 0. Поскольку каждый из членов этого неравенства имеет предел при Т—>-оо, а т)о < 0, то нахо- дим, что С(ы)<С(ы).
246 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Итак, и (t) является искомым оптимальным управлением. Теорема доказана. Пример. Рассмотрим задачу построения регулятора для скалярного уравнения х = и с критерием качества C(„)=jpjfi+^>ps. о В этом примере «*(/, т)) = т1. как следует из принципа максимума, и соответствующая система дифференциальных уравнений имеет вид х = т]> т] = х8. Если х0 = 0, то возьмем u* (t) 0. Если х0 < 0, то положим %*(/)= Г 1 t I-* х0 V~2 J ’ х0 > 0, то х* (t) = Г 1 «о и «*(/) =— 2-1/* - -8 . Если х0 VT t /~2 Г 1 4-'г1 х0 / 2 Часто^ бывает важно уметь вычислять и* в виде цепи обратной связи, т. е. в зависимости от состояния х. Чтобы определить т] как функцию х, проинтегрируем уравнение 1*11 Л о Л = - и получим Т]2 = -. Таким образом, / х% при х>0, [ 7Т при х<0- Примечания к задаче с интегральными ограни- чениями. Рассмотрим линейную систему в Rn: (^) x = A(t)x-\-B(t)u, которая обладает свойством управляемости на каждом интервале ^.Т <_ оо. Мы хотим перевести систему из заданного на- чального состояния х0 в момент времени t0 в целевое состояние за минимальное время Т. На различных интервалах t0 t Т мы вводим ограничения на управления и (t) интеграль- ного вида: т ^0
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 247 Здесь ft0 (/, и) строго выпуклая функция, и при каждом выполняются также все остальные обычные условия непрерывно- сти и выпуклости. Предположим, что существует некоторое управ- ление и (/), переводящее систему из точки х (/0)=х0 в точку х (7) = Xj при Со (и) 1. Пусть (t) —последовательность таких управле- ний, где /<*> стремится к Т*. убывая. Продолжим каждое из управлений по формуле «<*’(/) = О на’интервал 7*4-1. Из неравенства Гёльдера можно заключить, что Т* > t0 и что совокупность интегралов т»+1 | u(ft> (0dt равномерно ограничена. Поскольку р>1, мымо- жем выбрать подпоследовательность последовательности «<W(Q, вновь обозначаемую через и<й>(0> которая бы слабо сходилась к управлению u*(f) на интервале t0^.t Очевидно, что ц*(/)=0 на интервале Т* < t Т*+ 1. Легко вычислить для соот- ветствующих решений, что lim x(ft) (/) = х* (/) на интервале t0 t Т* 4- 1, а также, что х* (7*) = Хх и Со (и*) 1 на интервале t Т*. Следовательно, оптимальное управление u*(t) существует. Рассмотрим теперь множество достижимости К(х0, 7*) в Rn+1. Если С0(и*)<1, то существуют (n4~1) управлений их(/), ... ..., и„+1 (t) на интервале t0 t 7*, каждое из которых перево- дит точку х0 в вершины симплекса, содержащего точку х1( причем Со(«,)<1 Д'151 i=l. 2, ...,«+1. Возьмем 8>0 такое, что управления uz(/) на интервале /0^г‘^7*—8 переводят систему из точки х0 в вершины симплекса, содержащего точку х1( причем так, что все еще Со («/) < 1. Выбрав некоторую выпуклую ком- бинацию управлений un+1(t), можно построить управ- ление и'(С0(м) < 1), которое переводит систему из точки х0 в точку хг за время 7*—8. Но это противоречит оптимальности 7*. Следовательно, Со (и*) = 1. Более того, и* (t) среди всех управлений и (/) на интервале t0 t 7, переводящих систему из состояния х0 в’состояние хх, дает наименьшее значение критерия С0(и). Таким образом, оптимальное время 7* есть минимальное время 7 > /0, такое, что существует решение х* (/), т|* (/) системы
248 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 уравнений x=A(t)x-j-B(t)u*(t, ti), ii=^(t х)—M(o, с граничными условиями х(/0) = х0, х(Т) = хг, так что Со («*)=!. Здесь и* (0 = и* (/, я* (0) есть оптимальное управление. В каче- стве иллюстрации рассмотрим следующую задачу. Пример 1. Требуется остановить тележку, движущуюся по гладким рельсам, что соответствует управляемой системе х = и. т Наложенное ограничение имеет вид Мы хотим пе- о ревести систему из начального состояния хо = 0, х0 = 3 в точку (0,0) за минимальное время Т* > 0. Соответствующая система дифференциальных уравнений имеет вид 1 х1 = х2, x2=4n2. iii = 0, ii2= — ili- Решением с начальными условиями х1 (0) — 0, х2 (0) = — 3, (0) = =1110, П2(О) = т12о будет %1 (0 = у [ ~Т1110+Т1120—3/] Ъ (0 = Ию, %* (0 = "2" 2~ Ию + W , Ц2(/) = Ц1(/ Изо* Из условия на конце х1 (Т) = х2 (Т) = 0 получаем ’ll.—JT» 1120 = ^-, так что u(t) = — ^/+4- на интервале т Ограничение J и2 (/) di = 1 позволяет установить минимальное о оптимальное время Т* = 9. Пример 2. Рассмотрим задачу на быстродействие, в которой ограничение ^выражается в том, что задается средняя Гэнергия а2 > 0, которая может быть использована при управлении,?т. е. т J u2(/)d/<a2T. 6 Теория линейных управляемых систем с такими ограничениями
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 249 вполне аналогична той, которая излагалась перед примером 1. В качестве примера рассмотрим управляемую систему х — и, или систему X1 = X2, хг = и, которую требуется перевести из состояния (xj, х2) = (0, —3) в точку (0, 0) за минимальное время Т* > 0 так, чтобы удовлетво- рялось ограничение на среднюю величину энергии. Для этого мы ищем минимальное Т > 0, для которого имеется решение системы х1 — х2, х2 = уТ)2. П1 = 0, П2 = — Ях» с граничными условиями х1(0) = 0, х2(0) = — 3, х1(7') = 0, т х2(7') = 0, причем <\uidt = a?T, где и (0 = 4* Л* (О- Требование о dt = a?T о дает оптимальное время = тем самым u*(t) =— Эти два примера, а также упражнение 3, следующее ниже, иллюстрируют задачи управления со свободным временем. Обыч- ный метод состоит в том, что неопределенное свободное время Т сводится к фиксированному времени Т* для эквивалентной задачи оптимального управления. В действительности, часто можно при- нять Т*=1 после изменения масштаба, который обычно опреде- ляется в процессе решения данной задачи. Упражнения 1. Для скалярной управляемой системы х~и вычислить оптимальное управление и* (/) с критерием качества: 1 а) С(«)=х(1)+-1.^(х4-|-«*)Л при х(0) = — 37« [ехр З"*7*]-1; о оо Ь) С = J (x4-|-u4) dt при х(0) = 1. о 2. Рассмотреть демпфированный линейный осциллятор и управление, переводящее систему из точки хо = О, хо = О в точку (1, 1) на интервале 0 t 2. Вычислить минимальное значение критерия качества 2 С (и) = (/) dt. о
250 интегральный выпуклый Критерий качества гл. 3 3. Рассмотреть систему х — и, которую требуется перевести из точки х0=1, х0 —0 в точку (0, 0) на интервале 0 t «С 1 с минимальным значением крите- рия качества С (и) = sup | и (/) | . Показать, что эта задача может быть сведена к задаче приведения системы из точки , 0 j в точку (0, 0) за минималь- ное время /*=1 при условии | и | < 1. Наметить решение этой задачи с по- мощью метода кривых переключения. 4. Показать, что при любых начальных условиях (х1 (0), х2 (0)) из множе- ства S = {х1, х21 х1 = 0, | х2 | «С 1}, система i1=x2+«, х2 == — х1—x2-j-w, |w|^l, т имеет решение, доставляющее минимум функционалу С (и) — (х1 (Z))2 dt для о каждого Т > 0. Найти соответствующее оптимальное управление и* (/). 5. В систему х1 = х2, х2 = — х1—x2 + (w)3 управление входит нелинейно. Рассмотреть в качестве критерия качества функ- ционал С (и) = J w4 dt и исследовать возможность сведения такой задачи к о задаче оптимального управления, рассмотренной в теореме 10. 6. Рассмотрим скалярную управляемую систему х—х-\-и с критерием ка- 1 чества С (и)= £ | и (t) | dt при х(0) = 0. Показать, что множество достижимо- 0 сти К с "начальной точкой х(0) = 0 не является замкнутым подмножеством в Rm. (Указание: если управление и (/) переводит систему из состояния х(0) = 0 в состояние х (1) = е, то е-4 и (t) dt — 1 и значит, J|a(/)|df>l. о о Но если положить (/)==( 1—е-6)-1 на интервале и ц6 (t) = 0 при 8< / <;1, то легко вычислить, что lim С(«е) = 1. Следовательно, не сущест- £-> о вует оптимального управления, переводящего систему из состояния х(0) = 0 в состояние х (1) = е.] 7. Уравнения движения тела в плоском линейном центральном силовом поле имеют вид г = —/-]- r02_|_w> r0 = __2r0+v, где и и v—радиальная и трансверсальная составляющие управляющей силы (на единицу массы). Требуется перевести тело с круговой орбиты г=1, 0=1 на другую, концентрическую ей орбиту г = 2, 0 = 1, сохраняя 9(0в1. Найти оптимальное управление, если критерий качества имеет вид С (и)= J (w2 + o2)d/ о на интервале 0 «С t 1. 8. Показать, что для функции F (х) класса С1 в Rn все следующие усло- вия выпуклости являются эквивалентными: a) F^Xi + U — %)x2)<X/?(xi) + (l— X)F(x2),
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 251 b) F (Xi)—F (х2) > (х2) (xt—х2); с) множество х°+^(*)^0 выпукло в R”*1. 9. Доказать, что функция Л° (н) = | и1 p+l и21^+» • . + |ww в Rm является выпуклой, если 1«Ср<оо, и строго выпуклой, если 1 < р < оо. 10. Доказать, что нижняя граница множества К, рассмотренного в тео- реме 8, представляет собой непрерывную гиперповерхность над Rn. 11. Рассмотрим нелинейную управляемую систему в Rn: x=A(t)x+h(t, w), х(/о) = *о, с критерием качества Со (м)=х° (Т), где i° = f0 (/, х) + (U) и х° (/0) = 0. Предположим, что А (/), h(t, и), f°(t, х), hQ(t, и) и (dfQldx)(t, х) непрерывны по всем аргументам. Предположим также, что /° (/, х) выпуклая функция при любом фиксированном t, и рассмотрим управления и (i) на фиксированном интервале tb<t Пусть и* (t)—допустимое управление с соответствующим решением х* (/), удовлетворяющее принципу максимума ц*)+т) (/) h (/, и*) = шах [—А0 (/, к)+л(0М*> И)1 и для почти всех /, где г| (/) есть решение системы • df0 П = х*(/))-тМ(0, и т|(Т) = 0. Доказать, что и* (t)—оптимальное управление. 12. Рассмотрим линейную управляемую систему в Rn: (<#) х = А (t) х+ В (0 и, х (tQ) = х0, с критерием качества Со (u) = x° (Т), где x° = f°(^ х) + Л0(/, «), x°(Q = 0, как и в теореме 9. Предположим, что система обладает допустимыми управле- ниями и (/) на интервале tQ < t «С Г, с соответствующими решениями х (/), лежащими внутри некоторого заданного выпуклого замкнутого множества А сг /?", и будем искать среди них оптимальное управление. Для решения такой задачи с ограниченными фазовыми координатами рас- смотрим выпуклую непрерывную функцию F (х) в Rn, причем F (х) = 0 на А и F (х) > 0 вне А. Рассмотрим модифицированный критерий качества т Сх («)= J If0 (*, х) + Ь° (t, u) + KF (х)] dt fo для больших % > 0. Пусть u^(t) — оптимальное управление (не зависящее от А) для каждого % > 0, и предположим, что Um<fc(0=B*(0 для некоторой подпоследовательности таких управлений, сходящейся в ^i(/o, Л- Доказать, что и* (/)—допустимое управление, т. е. С0(и*) < со и x*(/)czA. Доказать, что «*(/) —оптимальное управление данной задачи с ограниченными фазовыми координатами.
252 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 13. Рассмотрим линейную управляемую систему (X) x=A(i)x+B(t)u, с критерием качества т С(И)=£(х(Т)) + $[а(О+Р(0«+/о(Л *)+Л°(*. u)]dt, *0 где функции а (0 и р (/) непрерывны на интервале /0 «С t «С Т и выполняются все остальные обычные условия непрерывности и выпуклости (без предположе- ния об управляемости системы «#). Сформулировать и доказать теоремы, ана- логичные теоремам 8, 9 и 10. 14. Рассмотрим автономную управляемую систему в х= Ах-{-Ви, с начальным состоянием х0 при /о = 0 для каждого интегрируемого с квадра- том управления u(t) на интервале Получить оценку ✓ Т ч V, max [л/(0|<Л1( f[«(s)p ds ) . 1 / Здесь ' V/e М = max I \ wt (T9 s) ds ) * '0 / есть константа, где (ш/у (/, s)) = еА В, ®z= S tt’z/.“2= 3 I"7!*’ /=1 7=1 3.5. Интегральный выпуклый критерий качества при ограниченных управлениях Мы будем рассматривать теперь линейные управляемые системы в R": (J?) i=AXt)'x+B(f)u, с интегральными критериями качества т С (и) =g(x (Г)) + $ [/• (t, х)+Л° (t, и)] dt. *0 Мы примем здесь следующие предположения: Л (0 и В (f)—дейст- вительные непрерывные матрицы на заданном конечном интервале функции g(x), f°(t, х) и h°(f, и)'непрерывны при всех значениях аргументов u£Rm, x£Rn. Кроме того, f°(t, х) и h° (t, и)—выпуклые функции при любых фиксированных t из интервала t0^.t^.T. Дополнительно к этим предположениям, ко- торыми мы пользовались и в разделе 3.4, мы еще будем предпо- лагать, что каждое управление и (/) на интервале 70 t Т
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 253 лежит в некотором заданном выпуклом компактном множестве Q<zRm. Это ограничение u(f)c:Q дает возможность обойтись без каких-либо условий положительности или ограниченности роста на функции f°(t, х) и h9(t, и). Для простоты изложения будем также считать, что задача (S, S2, х0, t0, Т) является нормальной. Тогда область достижимости /С (7) в Rn будет строго выпуклым компактным множеством с непустой внутренностью (предполагаем, что Q содержит более одной точки; см. теорему 3 главы 2). Тогда система S будет обладать свойством управляемости, и далее, каждая граничная точка /f (7) может быть достигнута с помощью единственного экстремального управления. Мы воспользуемся здесь методами, разработанными в раз- деле 3.4. А именно, прежде всего рассмотрим случай, когда g(x)== 0 и рассмотрим множество достижимости KcRn+1, состоя- щее из всех концов х (7) траекторий х ((), исходящих из точки x(Q = (0, х0). Здесь х(0—решение системы дифференциальных уравнений х= А (0 х+ В (0 и (0, х° = f° (t, х)+h° (t, и) при любом измеримом управлении и (t)cQ на интервале /0 t Т. Таким образом, х°(7) = С0(и) и х(7) определяется из формулы вариации произвольных постоянных t x(t) =Ф(0х„+Ф(0 $ ф-1 (S) В(s)и(s)ds. /о Поскольку управление и (/) принадлежит компактному ограни- чивающему множеству Q, то множество достижимости К ограни- чено в Rn+1. Проекция множества К на пространство Rn с коор- динатами х,- (i — 1, 2, ..., п) есть как раз множество К (Т), однако верхняя граница множества К. может быть весьма неправильной формы. Поскольку мы ищем управление с минимальным значением критерия качества, то нас интересует лишь нижняя граница мно- жества К. Мы докажем, что эта нижняя граница представляет собой выпуклую гиперповерхность, определенную на множе- стве К (Т). Определение. Пусть KcR"*1—множество достижимости для управляемой системы (S) x = A(t)x+B(t)u, соответствующее критерию качества т C0(4) = l[f4t,x)+h°(t,u)]dt
254 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 и выпуклому компактному ограничивающему множеству Q<=Rm. Множество Kv, состоящее из точек (х°, x)£Rn+1, для которых имеются точки (t/°, х) 6 К такие, что у0 х°, назовем вертикаль- ным насыщением множества К. Тогда нижняя граница множе- ства Kv, ' очевидно, совпадает с нижней границей множества К, и управление, а также соответствующая ему траектория, при- водящая систему в точку из этой границы, называются экстре- мальными. Теорема 12. Рассмотрим управляемую систему в R": (&) x = A(t)x + B(t)u, с критерием качества т СЛи) = \\Га,х)^а,и)\(И t, и компактным выпуклым ограничивающим множеством QcRm. Пусть ^cRtt+1—множество достижимости. Тогда его вертикаль- ное насыщение будет замкнутым выпуклым множеством в Rn+1. Нижняя граница множества K.v принадлежит К и представляет собой выпуклую гиперповерхность, определенную на множестве K(T)<=Rn. Доказательство. Для доказательства замкнутости множе- ства рассмотрим- последовательность точек yk = (yk, У к) в Д’®» сходящуюся к (у°, у) в R"+1. Так как является вертикаль- ным насыщением множества К, то мы можем найти последова- тельность управлений u{k} (t) с соответствующими решениями xk (t), таких, что xk(T~) — yk и хк(Т)^ук. Далее, можно считать, что некоторая подпоследовательность u<ft)(f) слабо сходится к допус- тимому управлению u(f)<zQ и соответствующие решения xk(t) сходятся к x(t), как в главе 2. Из неравенства, полученного в теореме 8, вытекает, что Следовательно, траектория (х°(/), х(/)), соответствующая управ- лению u(f), переведет систему в точку (х°(Т), у)£К- Поэтому точка (^®, у) лежит в и Kv замкнуто_в Rn+1. Предположим теперь, что точка (t/°, у) лежит на нижней гра- нице множества К. Тогда, повторяя те же рассуждения, получим, что х® (Т) — у° и х (Т) = у, так что управление и (t) переводит сис-
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 255 тему из состояния (0, х0) в состояние (у°, у). Следовательно, нижняя граница множества принадлежит R. Доказательство того, что нижняя граница К. является выпук- лой гиперповерхностью над Д(Т) и, значит, является выпук- лым множеством в Rn+1, проводится так же, как в теореме 8 этой главы. Теорема доказана. Следствие. Рассмотрим управляемую систему в Rn: x = A(t)x + B(t)u, с критерием качества Т с (и) = g (х (Т)) + $ [/’ (/, X) + (t, «)] dt ^0 и компактным выпуклым ограничивающим множеством QcRm. Тогда система обладает оптимальным управлением. Доказательство. Мы ищем минимум действительной не- прерывной функции g(x) + x° на ограниченном множестве Ka.Rn+l. Поскольку функция g(x) + x° монотонно убывает по х° для каж- дого фиксированного х, то нижняя грань g(x) + x° как раз и будет минимумом g(x)+x° на нижней границе множества Д’. Используя неравенство предыдущей теоремы, мы получим, что искомый минимум достигается, что и требовалось доказать. Оптимальное управление u*(t) для системы «S’ с критерием качества C(u) = g(x(T))4-C0(u) и ограничивающим множеством й должно переводить систему из точки (0, х0) в некоторую точку нижней границы множества К и, следовательно, u*(t) должно быть экстремальным управлением. Как и раньше, экстремальные управления будут характеризоваться принципом максимума. Пред- положим, что производная (д/°/5х)(Д х) непрерывна, и заметим, что из предположения о выпуклости следует, что f° (t, x)—f9 (t, (Л *) (x—x). Теорема 13. Рассмотрим нормальную управляемую систему в R": (&) х = A(t) x + B(t)u, с критерием качества Т *0 и выпуклым^ компактным ограничивающим множеством QczRm. Управление u(t) с соответствующим решением x(t) будет экстре- мальным в том и только том случае, если существует ненулевой п+1-мерный вектор-строка п(0)> удовлетворяющий
256 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 системе уравнений 4=0. лоСО, л=—л» (t (о)—л^ (0. и принципу максимума Л<Д° (/, и (0) + л (0 В (0 и (0 = max [л0Л° (0 «) + Л (0 В (t) и] ueQ почти всюдуАш интервале ta t Т. Доказательство. Пусть управление и(0 с решением х(0 = (х°(0, х(0) и сопряженным решением л(0 = (Ло» Л(0) удовлетворяет системам 2 и А и принципу максимума. Тогда, как и в теореме 9, мы получим, что л (Т) х (Т) л (Т) ® (Т), где й(Т)—решение, соответствующее произвольному допустимому уп- равлению ы(0. Из этого неравенства следует, что точка х(Т) лежит на нижней границе множества К, если л» < 0, и на боко- вой дранице множества Kv, если Ло = 0- Но если Ло = т0 реше- ние х (У) системы 2? является экстремальным (в смысле главы 2) и, значит, x(t) лежит на границе множества К(Т) в 7?". Более того, поскольку задача {2\ й, х0, t0, Т} нормальна, то и (t) является единственным управлением, переводящим систему из точки х0 в граничную точку х(Т). Следовательно, х(Т) = = (^(П. х(Т)) является единственной точкой множества д, ле- жащей выше х(71). Итак, х(Т) лежит на нижней границе мно- жества К в любом случае, и значит, w(0 есть экстремальное управление. Обратно, предположим, что и(0—экстремальное управление, так что соответствующая ему траектория х(0 = (х°(0, х(0) исхо- дит из точки (0, х0) и заканчивается в точке х(Т) на нижней границе множества К. Пусть лЮ=(Ло» Л (Т))~внешняя нормаль к выпуклому множеству в точке х(Т). Очевидно, что Ло^О и Ло = О в том случае, когда точка х(Т) лежит на границе мно- жества 7<(Т). Определим вектор л (0 как решение сопряженной системы А с заданными граничными условиями л(^) ПРИ t = T. Надо доказать, что почти всюду на интервале ЛоЛ°(0 и(0) + л(0В(0й(0 = тах [л<Л°(0 «) + л (0В(0м]. иеа Если Ло = 0> т0 Л (Л есть внешняя нормаль к К(Т) в точке х(Т) и, значит, принцип максимума выполняется, как и в главе 2.
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 257 Если т]0 < 0, то доказательство проводится так же, как и в тео- реме 9. Теорема доказана. Следствие. Рассмотрим нормальную управляемую систему (^) х = Л(0х+В(0«. с критерием качества т С (u)=g(x (Т)) 4- J (t, х)+h> (t,«)] dt и с компактным выпуклым ограничивающим, множеством й в Rm. Здесь g(x)—выпуклая функция, a h°(t, и)—строго выпуклая функ- ция при любом t. Тогда любые два экстремальных управления, переводящие систему из состояния (0, х0) в одну и ту же гранич- ную точку множества R, должны совпадать почти всюду. Иначе говоря, существует единственное оптимальное управление. Доказательство. Рассмотрим два экстремальных управ- ления, «1(0 и «а (0, переводящие систему из состояния (0, х0) в одну и ту же точку х(Т) нижней границы множества К. Если (т]о = О, г] (Г)) определяет внешнюю нормаль к К, в точке х(Т), то из нормальности задачи {&, й, х0> А>» Т} следует, что u^t) = = ut (0 почти всюду. Если Ло < 0 для внешней нормали в точке х(Т), то можно применить доказательство следствия к теореме 9, и получить, что (t) = (О- Единственность оптимального управления следует, как и в теореме 5, из того факта, что функционал x°4-g'(x) принимает минимальное значение в единственной точке множества К, что и требовалось доказать. Как и в рассуждениях раздела 3.4, мы можем определить вектор u*(t, г|) по принципу максимума (для случая г]0 = —1): —h°(t, и*) + т]В (0 и* = max [—№(t, и) 4- т)В (/)«]. «€ Q Если вектор-функция г](/) непрерывна, то u*(t) = u*(t, i](0) явля- ется допустимым управлением из й. Следующая теорема показывает, как можно интерпретировать управление u*(t, г]) как управление в цепи обратной связи для задачи синтеза оптимального управления. Теорема 14. Рассмотрим нормальную управляемую систему в R": (^) х = A(t)x + B(t)u, с критерием качества т C(u)=g (х (Т)) 4- $ If® (t, х) 4- Л® (t,«)] dt ’ Э. Б. Ли, Л. Маркус
258 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 и компактным выпуклым ограничивающим множеством Q<zRm. Предположим, что g'(x)$C1—выпуклая функция Rn. Тогда суще- ствует решение я* (0 системы уравнений x=A(t)x+B(t)u*(t, т|), n = х)—1)4(0 с граничными условиями x(te)=x0, r\(T) = — grad g(x(T)). Здесь управление u*(t, rj) определяется из принципа максимума — h° (t, и*) + qB (0 и* = шах [— Л° (/, и) + i)B (t) и]. и € Q Оптимальное управление u*(t) = u*(t, л‘(0) с соответствую- щим оптимальным решением я? (t). Если h° (t, и) строго выпуклая функция от и для всех t, то решение i)*(0 единственно, и u*(t) является единственным оптимальным управлением. Доказательство. Среди гиперповерхностей семейства Se x°-|-g(x)=c в Rn+1 имеется в точности одна (а именно, Sc при с = т), которая касается множества Kv, и т есть оптимальное значение критерия качества. Поверхность Sm касается множе- ства Kv\a некоторой точке Р, лежащей на нижней границе мно- жества К. Касательная гиперплоскость к Sm является также опор- ной гиперплоскостью к в точке Р, и поэтому можно считать вектор т]*(7') = (—1, i]*(T)) нормалью к этой гиперплоскости. Пусть u*(f)—экстремальное управление, переводящее систему из точки (0, х0) в точку Р = х* (Т) вдоль траектории х? (t) — (х°* (/), х? (0)- Пусть т)*(0 = (-^1, 11(0) определяется как решение системы П = (t, х*(0)-1И(0, удовлетворяющее условию i)*(T) = — grad g (х* (Т)). По теореме 13 находим, что u*(t) удовлетворяет принципу максимума при со- пряженном решении т)*(0 = (—1» Ч*(0)> т- е- «*(0 = ы‘(0 Ч*(0)« Если h°(t, и) строго выпуклая функция от и для каждого t, то гиперповерхность Sm касается К лишь в одной точке Р. В этом случае u*(t), x?(t), а значит, и i]*(0 определены однозначно. Теорема доказана. Следующий пример показывает, как можно свести задачу на быстродействие с интегральными ограничениями к задаче с инте- гральным критерием качества. Пример. Рассмотрим нормальную управляемую систему в Р": (J?) х = А (t)x-\-B(f)u, с компактным выпуклым ограничивающим множеством Q: | ui | 1,
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 259 / = 1, 2, .... tn. Требуется перевести систему из начального со- стояния х0 в момент времени t0 в точку х1=/=х0 за минимальное время Т* > ta. Кроме того, задано интегральное ограничение т Co(«)=(ll«|IZ=S П"1 Г+ • • • +|ия|лл<м ^0 для 1 С Р < 00 и данной границы М. Для каждого^ Т > /0 рас- смотрим соответствующее множество достижимости К(Т), состоя- щее из концов траекторий х(Т) — (х°(Т), х(Т)). Здесь x(t) есть решение системы S, отвечающее управлению u(t) на интервале и х°(Т) = (||и ||р)р, где u(t)aQ. Изучим ограниченное множество К(Т) Л [х0^ A1J. Сначала покажем, что К (Т) выпукло, компактно и непрерывно зависит от Т. В силу принципа релейного управления каждая точка из множества К (Т), являющегося проекцией множества К (Т) на гиперплоскость х° = 0, может быть достигнута системой при управлении, удовлетворяющем условию (|| и = (пгТ). Таким образом, верхняя граница множества Д' (Г) представляет собой часть горизонтальной гиперплоскости х°=(тТ), над вы- пуклой областью К (Т) в R". Нижняя граница К(Т) есть выпуклая гиперповерхность над К(Т). Обе эти границы пересе- каются над границей дК(Т). Пусть управление и (f) на интервале t0 t Т переводит систему из точки (0, х0) в точку (х° (Т), х(Т)), лежащую на нижней части границы множества К(Т). Для каждого подынтервала t„ t s определим vs (t) как релейное управление, переводящее систему из точки х0 в точку x(s) за время t = s. Определим для каждого s управление Г о, (О на ( и (t) на $ < t Т. Тогда управление us(t) переводит систему из точки х0 в точку х(Т), и функционал C0(uJ непрерывно меняется вместе с s от значения С0(и0)=х°(Т) до значения С0(»г) = /пТ. Следовательно, множество достижимости К (Т) включает в себя все точки, заклю- ченные между его верхней и нижней границей, т. е. множество К(Т) выпукло и компактно. Поскольку каждое управление u(t), заданное на интервале t0 t Т, можно продолжить для t>T нулем (и(/) = 0), то легко проверить, что множество К(Т) непре- рывно зависит от Т. Это верно и для множества К(Т) Л [х°<М]. 9*
260 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Минимальное время Т*—это наименьшее время Т > t„, для которого множество К (Т) П [х® 7И] пересекается с вертикальной прямой х = хг в Rn+1. Таким образом, если существует приемлемое управление, переводящее систему из состояния х0 в состояние в R", то существует и оптимальное по быстродействию управле- ние u*(t) на интервале Более того, u*(t) можно рас- сматривать как управление, заданное на фиксированном интервале < Т* и доставляющее критерию качества наименьшее значе- ние С0(и) = (||ы||/,)/’ среди всех измеримых управлений из Q, пере- водящих систему из точки х0 в точку xt. Если р > 1, то и* (t) единственно. Итак, Т* можно определить как наименьшее Т > /0, для ко- торого существует решение x*(Z), т|*(/) системы уравнений х = А (/) х + В (0 tf (0, ’4 = — удовлетворяющее условиям x(tQ)=x0, x(t1) = x1 и Со (u*)<: Af. Следовательно, оптимальное управление и* дает максимум выра- жению т), [| и1 |р+ • • • +1 +4 (0 В (/) и, для все\с исЙ и для некоторого постоянного т]0 0. Имеются два наиболее интересных случая. Если М тТ*, то интегральное ограничение является излишним, и задача сво- дится к оптимальной по быстродействию задаче (принять т]0 = 0) подобно задачам, рассмотренным в главе 2. Если М < пгТ*, то можно принять 110 = —1 и использовать «*(/) = «*(/, г)* (/)) из принципа максимума. В этом случае С0(и*) = Л4. Упражнения 1. Рассмотрим скалярную управляемую систему х = и с ограничениями т I и (/) | 1 и J и2 (/) dt «С А1. Перевести систему из состояния х0 = 0 в состоя- о ние хх=1 за минимальное время Т*. Вычислить оптимальное управле- ние «* (/) для каждого заданного М > 0. 2. Рассмотрим скалярную управляемую систему х = и с интегральным ограничением ^u2(t)dt^4 на заданном интервале времени 0аС*«С1-Тре- о буется перевести систему из точки хо = 0 в точку при минимальном значении критерия качества С (и) —1| и 11оо = sup | и (/) |. Найти оптимальное управление. [Указание: найти наименьшее k > 0, для которого существует управление и (t) на интервале удовлетворяющее ограничениям J u2(t)dt<u и | u(t)\^k и переводящее систему из точки х0 в точку I о J
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 261 3. Рассмотрим автономную систему в Rnt нормальную в ограничивающем кубе | | 1 в Rm'- с критерием качества а> C(u)= J [fo (x) + h<>(u)] dt. о Предположим, что функция f°(x)^O выпукла и, кроме того, f (х) = 0 тогда и только тогда, когда х=0; А°(и)^0 строго выпуклая функция и ^о(О) —0. Предположим также, что А — устойчивая матрица. Доказать, что тогда существует оптимальное управление и* (/) на интервале 0«с/ < оо, при- чем единственное. Доказать также, что допустимое управление и (/) на интер- вале < оо будет оптимальным тогда и только тогда, когда оно удовлет- воряет принципу максимума при некотором сопряженном решении (т)0, г] (/)). таком, что rjo < 0 и tj (оо)=0 (см. теорему 11 раздела 3.4).
ГЛАВА 4 ПРИНЦИП МАКСИМУМА И СУЩЕСТВОВАНИЕ ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ ДЛЯ НЕЛИНЕЙНЫХ СИСТЕМ В этой главе мы рассмотрим основные геометрические свойства множества достижимости и докажем принцип максимума: конец траектории принадлежит границе множества достижимости лишь в том случае, если выполняется условие максимальности. Во втором разделе даются общие результаты, касающиеся существования оптимальных управлений при наличии ограничений, а в третьем разделе^ рассматриваются теоремы существования для неограничен- ных управлений. 4.1. Геометрия множества достижимости Рассмотрим нелинейную систему, описываемую системой диффе- ренциальных уравнений в Rn: (&) x = f(x, t, и), где f есть функция класса С1 в Rn+i+m, Допустим, что управления и (/) заданы на конечном интервале t Т и образуют некоторое семейство <F измеримых /n-мерных вектор-функций. Начальная точка х0 лежит в заданном компактном начальном множестве Хй в R" и мы предполагаем, что каждое решение x(t, х0, t^=x(t), соответствующее и (t) С <F, определено на интервале /0 t < Т. Для примера рассмотрим случай, когда для каждого управления и (0 € & соответствующее решение удовлетворяет ограничению |х(Л х0, /0)|<b и, кроме того, |f(x, t, ц(0)| + |g-(x, t, ц(0)|ст(0, т /0 < /< Т, |х| < Ь, причем < оо. Тогда единственное о
4 1 ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 263 (абсолютно непрерывное) решение х(1, х0, /0), исходящее из точки х0 при t = /0> определено на всем интервале t0 t Т. В этом случае мы говорим, что управлению и (t) соответствует ограниченное реше- ние. Если число b и интегрируемая функция m (t) могут быть выбраны независимо от управления u(/)£<F, то задача {&, х9, t9, Т} называется равномерно ограниченной. Пример 1. Рассмотрим нелинейную систему в R": (^) x = f(x, t, и), где /€ С1 в /?п+1+'я. Пусть семейство управлений состоит из всех измеримых функций и (t) на интервале t9 t Т, удовлетво- ряющих ограничению и (f)c:Q<=Rm, где Q —компактное множество. Предположим, что существуют положительные постоянные Л и В такие, что |f(x, t, ы)|<Л|х| + В для и |х|^(В/Л + |х0|)ел<г-/«)—В/А. Тогда каждому управлению ц (/) 6 aF соответствует ограниченное решение х(0, определенное на интервале Более того, задача будет равномерно ограниченной. Действительно, имеем t f k(0Kkol+$ |Н*($). s> м(8))|<&<|х0| + $(Л |x(s)|-f-B)ds, f о ^0 так что t i*(oi+4< (k»i+4)+j л<| x<s) i+4)ds’ /о откуда следует, что I х (01+4 < (ко I + 4) еА(‘~‘°> < (к« 1+4) eAiT~t,}> так что искомое ограничение на | x(t) | установлено. Отсюда ясно также, что функции | f (х, t, ы(/))| и |^(х, t,u(t)) | равномерно ограничены для всех управлений u(/)£<F. Определение. Рассмотрим нелинейную систему в Rn: (a?) X = f(x, t, U) В 7?я+1+'в, с начальным состоянием х0 в момент t9 (f (х, t, и) ^С1 (Rn+1+m)). Предположим, что семейство & допустимых управлений и (t) С Rm совпадает с некоторым подмножеством множества всех измеримых вектор-функций на интервале для каждой из которых существует соответствующее решение х(/)=х(/, х0, /0). Множество достижимости Д’ (х0, t) — К. (О для каждого момента времени из
264 ПРИНЦИП МАКСИМУМА гл. 4 интервала /0 t Т состоит, как обычно, из концов всех траекторий х(/), соответствующих всем управлениям из В управляемых системах, рассмотренных в главе 3, решение, соответствующее каждому допустимому управлению, было ограни- чено, однако не было равномерной ограниченности, и множество достижимости было неограниченным. В следующей теореме иссле- дуется поведение множества R(t) для равномерно ограниченной задачи. Теорема 1. Рассмотрим нелинейную систему в R": (<^) x = f(x, t, и), где f ^С1 (Rtt+1+m) с начальным состоянием х0 в момент ta и семейством допустимых управлений <F на интервале t Т. Предположим, что задача {§f, х0, &, /01Т} равномерно ограничена. Тогда К (/) есть компактное, непрерывно зависящее omt на интервале i0 t Т множество в Rn. Доказательство. В силу условия равномерной ограничен- ности задачи каждое решение удовлетворяет неравенству т |х(/)|<|х0|+ \m(t)dt, где m(t) такая интегрируемая функция, что If (х(0, t, «(0)l + |g(x(0, t, U(0)|<m(0. Таким образом, множество достижимости K(t) лежит в некоторой ограниченной области пространства Rn, и —компактно. Чтобы доказать, что множество R(t) непрерывно зависит от t, выберем Pi К (/J и 8 > 0. Тогда существует решение x(t), такое, что |х(/1)—P1I < 8/2 и t | х (0—X (Q К J т (s) ds < -|- при |/ — < 6(e). Таким образом, каждая точка РХ€К(О на- ходится на расстоянии, меньшем 8, от некоторой точки x(Q из для всех |/ — | < 6 (в). Но, аналогично, каждая точка К(/) удалена меньше, чем на 8 от К (tj), если только 6 (s) > 0 доста- точно мало. Таким образом, dist [W3> AT#)] < « при |f—/1|<6(8) и, значит, функция t—является непрерывным отображением действительного интервала в метрическое пространство непустых компактных подмножеств в R". Теорема доказана.
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 265 Замечание. Если начальное множество Хо компактно, то полагаем К(Х0, /)= U К (х0, О- Предположим, что для всех Х0€Х0 управлений и всех начальных точек х0£Х0 имеется общая мажорирующая функция т (/)• Тогда очевидно, что множе- ство К (Хо, /) компактно и непрерывно меняется со временем. Следовательно, множества U Х(Х0,0 в R" и (t, Х(Х0, 0) в Я"+1 также компактны. Пусть теперь семейство управлений S' состоит из всех изме- римых функций и (t) на интервале t0 t Т со значениями в Q, где Q—некоторое компактное ограничивающее множество в Rm. В этом случае, если f(x, t, и)^Сг в Rn+i+mt и если имеется рав- номерная оценка |х(£)| < b для всех решений, соответствующих то существует и равномерная оценка для |f(x(O, t, И(0)| + |^(х(0, t, ц(0)|. Теорема 2. Рассмотрим нелинейную систему в R": (<^) х = f (х, t, и), feC1 (Rn+^m), с начальным состоянием х0 в момент tn. Допустимыми управле- ниями являются все измеримые функции u(t)cQ (t0^t ^Т), где Q есть компактное ограничивающее множество в Rm. Предположим, что-. а) | х (О I < Ь, т. е. существует равномерная оценка для всех решений на интервале Ь) множество V (х, /) = {f (х, t, и) | и € Q} выпукло для каждого фиксированного вектора (х, t), т. е. множество V (х, t) векторов скорости при каждом фиксированном наборе (х, t) компактно и выпукло. Тогда множество достижимости K(t) компактно и непрерывно меняется во времени на интервале /0 t Т. Доказательство. По предположению а) все решения си- стемы определены на интервале а функция |f(x(f), t, u)|+ t> u)| ограничена. Тогда множество R(t) компактно и непрерывно зависит от t на интервале < t < Т. Теперь исполь- зуя предположение (Ь) о том, что множество скоростей V (х, t) компактно и выпукло, мы докажем, что K(t) = K.(t).
266 ПРИНЦИП МАКСИМУМА гл. 4 Рассмотрим решения xt (t), соответствующие управлениям Uj(t)ей на интервале Тогда t Xi(t)=x9+\f (Xi(s), s, и,-(s)) ds *0 и Xt(i)^K(t) для i=l, 2, 3, ... Докажем, что любая предель- ная точка x(fj последовательности {x,(/j)} для каждого момента времени из интервала принадлежит множеству К(tj). Пусть, например, некоторая подпоследовательность, которую мы вновь обозначим х;(/)> такова, что lim Xi(t^ =x(t1). i -> оо Поскольку | f (xt (t), t, Uj(t)\^,m для некоторой постоянной tn, то последовательность интегралов J f (xt (s), t, ut (s)) ds образует рав- /о номерно ограниченное и равностепенно непрерывное семейство функций. По теореме Асколи1) подпоследовательность сходится к некоторой функции, удовлетворяющей условию Липшица. Пусть t t \ lim 5 f (*i (s), s, щ (s)) ds = <p (s)ds, '^4, t. где <p(Z)—интегрируемая функция. Таким образом, т т lim $ Хе (s) f (Xi (s), s, Ui (s)) ds = $ Xe (s) Ф (s) ds, t. где Xe—характеристическая функция подынтервала E. Однако каждое измеримое множество может быть аппроксимировано ко- нечной суммой непересекающихся открытых интервалов, и, значит, указанная выше формула будет верна и для любого измеримого множества Е из интервала t0 t Т. Значит, последовательность f (х{, t, и() слабо сходится к ср (t). Если положить t *(О = *о+ $ ф(з)^8, /о х) Имеется в виду следующая теорема (Арцела—Асколи). Из каждого бесконечного семейства функций f(t, %) (AgA, где А—компакт в /?л), равно- мерно ограниченного и равностепенно непрерывного на отрезке a<t<b, можно выделить равномерно сходящуюся на [а, Ь} последовательность f (/, Ал) (6=1, 2, A^gA). (Семейство функций /(/,А) (fg[a, Ь], AgA) называется равномерно ограниченным на [а, Ь], если существует постоянная М такая, что max | f (/, A|<M (IgA); оно называется равностепенно непрерывным на / €[в, д] [а, &], если для каждого 8 > 0 существует д > 0, не зависящее от 1 и такое, что |/(/', А)—А)| < е, если только — < д, t”£[a, &J. (Прим, ред.)
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 26? то _ . . lim Xi(t)=x(t) i оо всюду на интервале t0 < t < Т. Остается доказать, что_ф (/) = — /(#(/), /, «(0) Для некоторого допустимого управления u(f) с Q. Сначала мы покажем, что <р (/) £ V (х (/), t) для почти всех /. Предположим, что <р(0 лежит вне компактного выпуклого мно- жества V{x(t), t) для некоторого подмножества W положительной меры из интервала Тогда для каждого t^W сущест- вует гиперплоскость, даже с рациональной единичной нормальюх), отделяющая ф (/) от V(x(/), t). Поскольку множество рациональ- ных чисел счетно, то существует постоянный единичный вектор- строка у, такой, что yy(t) > lim supz/f (х(0, t, lim swpyf (x,(/), t, I -> oo i -> co для любого t из множества ненулевой меры. Тогда $ у<р (/) dt > J lim sup yf (xt (t), t, u{ (/)) dt t * 03 и, используя лемму Фату из теории интеграла Лебега, мы получим § у<р (t) dt > lim sup yf (x(- (t), t, ut (t)) dt, W, W, что противоречит тому факту, что последовательность f(xh t, слабо сходится к q> (t). Таким образом, <р (t) С V (х (t), t) почти всегда. Можно доопределить ср(/) на множестве меры нуль так, что Ф(0€/(х(0. /,Q) = V(x(0, О для всех t из интервала t9 t Т. Тогда, по лемме ЗА главы 2, существует измеримый /n-мерный вектор u(i)cQ, такой, что T(/M(*(0>U(0) при ИтаКд допустимое управление u(t) порождает решение x(t), при- чем х (/J /С (/г). Следовательно, множество К(/х) компактно и K(t) = K (0 для всех t0 t Т. Теорема доказана. Компактность (или хотя бы замкнутость) множества К (О является основой для доказательства общей теоремы существова- ния оптимальных управлений. В главах 2 и 3 мы уже отмечали *) То есть с нормалью, имеющей рациональные направляющие косинусы. (Прим, ред.)
268 ПРИНЦИП МАКСИМУМА гл. 4 компактность множества достижимости для различных линейных систем. Ниже, в этой главе, мы докажем несколько теорем су- ществования оптимальных управлений для нелинейных систем при различных ограничениях. Приведем теперь несколько примеров, иллюстрирующих зна- чение свойства равномерной ограниченности решений и свойства компактности множества достижимости. В некоторых из этих примеров оптимального управления не существует, т. е. сущест- вует последовательность управлений такая, что после- довательность соответствующих значений критерия качества С (и) стремится, убывая, к конечной нижней грани, однако сама эта нижняя грань не может быть достигнута ни при каком до- пустимом управлении из семейства if. Пример 2. Рассмотрим систему в Я4: x=sin2n«, «/ = cos2nu, z ——1, а) = х24-//24-1, с начальным состоянием (0, 0, 1, 0) и ограничением на управление |и(0|<1 на интервале Тогда существует равномерная оценка для решений ( |*| + |Z<l + lzl + la'ICl + l + l+3 = 6, так что множество К(1) ограничено. Мы покажем, что множество К (1) не является замкнутым. Выберем управления ut (t) = И (mod 1) для Z=l, 2, 3, ..., так что sin2n«z (/) = sin2nZf, cos2n//z(Z) = = cos 2nit. Выпишем соответствующие решения 1—cos2л// ... sin 2л// , МО-------2Й----: У^ = ~2пГ' и t СГ1 — cos2n/s , « мо=л г*»?* +1F- о В К(1) содержатся точки (0, 0, 0, (2л2/2)"1-}-1), Z=l, 2, ... Но для любого допустимого управления u(Z) 1 ш(1) = J [xa4-fz»4-> 1. о Таким образом, точка (0, 0, 0, 1) лежит в К(1), но не в /<(1) и, значит, множество /<(1) не замкнуто в R*. Пример 3. Рассмотрим систему в R3: sin 2л« __ cos 2ла ; — 1 Х~х2+у2+1 ’ У~х2+у2 + 1 ’ Z~x2+y2+l ’ с начальной точкой (0, 0, 1) и ограничением на управление | и (t) | 1. Требуется перевести систему из точки (0, 0, 1) в точку (0, 0, 0) за минимальное время t* > 0.
4.1 ГЁОМЁТРИЯ МНОЖЁСТВА ДОСТИЖИМОСТИ 269 Для каждого управления u(t) и решения x(t), y(t), z(/) опре- делим новую независимую переменную т по формуле t х(0= S [x4(s)+^(s)+l]-1<fc. о Положим далее и (т) = и (t (т)). Тогда ^=sin2n«(T), ^=cos2hm(t), ^= —1 и dt/dx=xi+yi+l. Используя вычисления примера 2, получим, что можно перевести систему из состояния x=y=t = O, z=l в точку х= y = z = 0, /> 1. Однако сделать это за оптимальное время /*=1 нельзя, и значит, оптимального управления для этой задачи не существует. Пример 4. Рассмотрим систему в Я2: х=1, у— — хе?и, с ограничением на управление 0^и(£)^2. Семейство всех допустимых управлений состоит из всех измеримых функций u(t) на интервале 0^/^2, переводящих систему из точки (—1, 0) в точку (1, 0). Требуется минимизировать критерий качества 2 1 C(m)=J(2—y)dt= J (2—y)dx. о -i Для каждого решения x(t) = i—1, y(t) положим y(x) = y(t(x)). Пользуясь управлением u(t) = 2, получим неравенство 0^у(х)^ — 1пх2 при х=5& 0. Но кривая у = — 1пх2 не ограничена, и значит, множество К (2) замкнуто в R2, но не ограничено. Имеем С (и) > J (2 + In х2) — 0. Однако на последовательности управлений — 1 ие(/) = 2—в для малых 8>0 критерий качества С (и) стремится к нулю. Таким образом, оптимального управления, которое бы минимизировало С («), не существует. Изучим теперь границу множества К(Х0, t) и докажем, что экстремальное управление u(t), переводящее систему в некоторую точку границы дК(Хо, /), должно удовлетворять принципу макси- мума. Поскольку х (/) может принадлежать дК (Хо, f), лишь если х(/0) лежит в d/C(x0, t), где х(/0) = х0£Х0, то будем считать, что множество Хо состоит из одной точки х0, и будем в дальнейшем писать вместо Х(х0, t). Удобно сначала доказать принцип максимума для автономных систем в Rn: (&) x=f(x,u).
270 ПРИНЦИП МАКСИМУМА гл. 4 где f(x, и) и ^(х, м)—непрерывные вектор-функции в Rn+m. Слу- чай неавтономных систем будет рассмотрен в следующей главе в связи с выводом необходимых условий оптимальности управле- ний. Допустимыми управлениями являются все измеримые функ- ции и (/) на конечном интервале времени О t Т, значения которых принадлежат некоторому ограничивающему множеству причем Q не обязательно компактное множество. Мы предполагаем, что каждое допустимое управление ограничено, и значит, существует соответствующее решение x(t) (х(0) = хо), определенное на интервале 0 t < Т. Мы получим здесь непо- средственное обобщение принципа максимума для линейного слу- чая на нелинейные системы. Для этого нам потребуется разрабо- тать метод линеаризации системы of вблизи заданного решения х (t) с помощью бесконечно малых касательных векторов и исполь- зовать систему (дифференциальных) уравнений в вариациях, которые будут описаны ниже. Для удобства этот предварительный материал разбит на три части, посвященные следующим вопросам: понятию переноса касательных пространств, понятию касательного конуса возмущений и одному аппроксимационному результату. Перенос касательных пространств вдоль x(t) Пусть —допустимое управление с соответствующим реше- нием x(t) на интервале Потоку, определяемому урав- нением x — f(x, соответствует перенос или смещение касательных векторов v вдоль x(f). которое определяется уравнениями в вариациях Поясним это. Пусть х = <р (в)—гладкая кривая в Rn, определенная при малых значениях параметра 8 и проходящая через точку хх при 8 = 0. Такая кривая определяет (контравариантный) касатель- ный вектор о1 = ф(0) к Rn в точке хх. [В действительности под касательным вектором к Rtt в точке хх можно понимать класс всех гладких кривых ф(е), удовлетворяющих условию ф(0) = хх и имеющих одну и ту же «производную» ф(0). ] Если кривая ф (в) определяет касательный вектор в точке х1=х(/1), то можно опре- делить смещенную кривую, полагая X,t,4>(6) = x(Z2, ф(8)), где х (t, г)—решение уравнения х = /(х, u(t)) с начальным уело-
4Д ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 271 вием x(tl,z) = z. Мы определяем перенос (или смещение) вектора о1 = ф(0) из точки хг в точку х2, полагая V» = [ЛЛф (8)],=0 = g (4, z) |г=х, ф (0). Таким образом, n-мерное касательное пространство в точке хх=х(^) отображается на касательное пространство в точке х2=х(/2) при помощи линейного преобразования с матрицей (dx/dz)(tt, хх). Но и значит, (дх/дг) (t, х^ есть фундаментальная матрица решений уравнений в вариациях, причем матрица (dx/dz) (tvxj совпадает с еди- ничной матрицей. Следовательно, смещенный вектор v (t) = Att<p (0) является решением уравнения в вариациях (^) v=[^(x(i),u(t))v с начальным условием о(/х) = ф(0). Из линейности системы Ч/3 следует, что и преобразование Atti также линейно. Ясно также, что матрица (dx/dz)(t, x(tx)) преобразования Atti непрерывно зави- сит от t, Определив смещение касательных пространств вдоль решения х(/) мы тем самым определили и смещение (п—1)-мерной гипер- плоскости лх (гиперплоскость является геометрическим местом нулей действительного линейного функционала, определенного на касательном пространстве). Пусть т](/х)—направляющая нормаль к гиперплоскости в точке хх (действительный линейный функ- ционал т](/х)ох обращается в нуль при fi€nt|). Определим т](/) как решение сопряженной системы М) rj = — Я^(х(0. «(0) со значением т](/х) при Z = ix. Тогда т|(0^(0 = 0 для всех о(/) из поскольку Т) (Zx) v (tj = 0 и Таким образом, каждое нетривиальное решение (т. е. не обращаю- щееся тождественно в нуль) tj(/) системы («4) определяет парал- лельное смещение гиперплоскости л, вдоль решения х(/) и всякое параллельное поле получается именно таким путем.
272 ПРИНЦИП МАКСИМУМА гл. 4 «„(*» 8) = { Элементарные возмущения и касательный конус возмущений Дадим некоторое возмущение основному управлению u(z), меняя его значение на некоторую постоянную величину щ С Q вблизи момента tv т. е. положим щ на —/xe^Z^/x, u(t) на остальной части 0^/^Т, где параметры возмущения л1 = {/1, lv щ} для 0 </х < Т, Zx О и ux^Q. Для достаточно малых е^О возмущенная функция u^{t, в) является вполне определенным управлением с соответст- вующим решением хХ1(/, в), исходящим из точки хЯ1(0, 8) = х„. Более того, легко видеть, что limx_ (t, 8) = х(0 равномерно на е-0 Далее, хЯ1 (t, в) есть непрерывная функция от параметров tlt llt щ, 8, t. Потребуем, чтобы точка была лебеговой (или правиль- ной) точкой, т. е. ' $ и(/)) — u(Zx))|d/ = o(8), G-e так что _ _ _ $ f(x(t), и H(fx))8 + o(e). /t-е Такие лебеговы точки /х образуют плотное подмножество интер- вала [О, Т]; точнее говоря, почти все точки из являются лебеговыми, и поэтому мы в дальнейшем для простоты будем считать, что все точки интервала обладают этим свой- ством. Итак, определим иЯ1(/, б) как элементарное возмущение и (/), определяемое данными лх = {/х, /х, их} и 8> 0. Пусть теперь uKl(f)—элементарное возмущение управления u(t) при лх = {/х, /х, Uj}. Тогда соответствующее решение хЯ1 (/, в) дает касательный вектор в момент t±, определяемый кривой ф(е)=хЯ1(/х, в). Именно, Ф(О)= lim 4 К,(Л» »)—xtfj] = [/(х(/х), щ)—F(x(Zx),u(fx))] I,. Это следует из оценки ti xr. Vv 8) = X + J f (хя, (t, e), ux) di
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 273 или хЯ1(/х, е) = х(/1)—f (x(Q, + f (x(tlf Mj)/х?-I 0(8), где lim—= 0. г-0 8 Касательный вектор в точке x(/J OxI(^i)=[f(^(/i)> “J—f(*('i). называется вектором элементарного возмущения с параметрами Л1 = ^х, lt, mJ. Заметим, что параметрам {/1Э при соответствует вектор возмущения ^(G), и значит, векторы эле- ментарных возмущений образуют конус, лежащий в касательном пространстве в точке х(/х). Образом при параллельном смещении вектора пК1(/х) в момент времени t является вектор vKi(t)—реше- ние системы уравнений в вариациях (Т3), совпадающее в момент времени t=tt с Определение. Касательным конусом возмущений Kt для любого момента из интервала 0 t Т называется наименьший замкнутый выпуклый конус в касательном пространстве в точке х(/), содержащий все векторы, полученные переносом векторов элементарных возмущений для всех лебеговых точек tv из 0 < К <_ t. Заметим, что AjtKt с Кт для t < t, и Кт = U о</< 1 A~t Kt. В частности, окончательный предельный конус есть Кт = U о</< тА-rtKf. Чтобы глубже понять природу конуса Кт, рассмотрим выпук- лую комбинацию векторов элементарных возмущений в Кт, 41=^14^ (О(0+ • • • +\°я,(0 S с ненулевыми причем 2 — 1 • Здесь = {/,, ut}, где О < ti < t, 0 и и,- € Й; кроме того, для простоты будем считать все различными. Определим совокупность параметров {^1’ • • • > ts, ^l/i, • • • » ^1» • • • > wj и соответствующее возмущение: ы/ ПРИ ti—^Ji e^t ^.tj для i=l, ..., s, и (0 в остальной части 0 t Т. щЦ, 8) =
274 ПРИНЦИП МАКСИМУМА гл. 4 Тогда для малых е > 0 функция ик (t, е) будет представлять собой допустимое управление с решением x*(t, е) на интервале Соответствующее решение xK(t, е) будет непрерывной функцией от 4s аргументов из я и (t, в), что является непосредственным следствием теоремы о непрерывной зависимости решений системы дифференциальных уравнений от коэффициентов и начальных условий. Мы докажем теперь, что кривая <р(е)=хж(/, е) имеет каса- тельный вектор ож_в точке x(t). На интервале 0 < t < имеем хж(/, e)=x(t) и тогда, как было показано выше, (/х, 8) = X (fj + 8\ЦЖ1 (Q + О (в). Таким образом, при в —»0 вектор хк (i, 8) определяет кривую, имеющую в точке х(/х) касательный вектор (ZJ. На интер- вале —Х2/2е управление u*(t, = а значит, и кри- вая x„(fx, в) переходит в кривую с касательным вектором —М»8) 8 точке x(Z2—Х2/2в), т. е. xAh — М28» в) = Х(/2 — М88) + 8МЖ102) + о(8) или М.«» 8)=*(Q—f(x(t2), u(/2))V28+8M„(Q+o(8)- Однако xjts, + $ f(xK(t, в), U2)dt ИЛИ хж(/2, е) = хж(/2—A,2/28) + f (хя(/2—X2Z28, 8), u2)A,2/28 + o(e). Таким образом, xK(t2, s)=x(t2)—f(x(tt), й(1г))к212в + + 8Мж, (*») + f (*< (t2—М28, 8), U2) 12/2в + О (8). Поэтому вычисляем при t = t2. X* (tt, 8) = X (t2) + еХхоЖ1 (Q + (ta) + о (б). Продолжая тот же процесс для Т > ts, получим основную формулу возмущений: (*) х, (7, 8) = х (7) + (7) + ... 4- 8%,сЯ1 (7) 4-о (е), и значит, 1йп° = цж(7) = 4- • • • 4-•
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 275 Важно отметить, что для фиксированных параметров возму- щения ts, llt .... ls, щ, ..., u,} всегда имеем lim^ = 0, е - 0 6 равномерно на интервале и для всех Это последнее замечание следует из очевидной оценки: —> 1 равномерно на интервале 0 X 1, о(е) и из того факта, что вектор функции xT(t, в) и x(t) равномерно близки, если исходить из априорных границ для f(x, u(t)) и | (*. «(0) • Основная формула возмущений (*) показывает, что любая выпуклая комбинация элементарных векторов возмущений (в раз- личные моменты) определяет точку x(t) + во,, принадлежащую, с точностью до о(е), множеству достижимости /С(/). Таким обра- зом, касательный конус возмущений Кт, рассматриваемый уже в макроскопических размерах, может служить для достаточно точной оценки множества достижимости (t). Пользуясь этим, мы можем описать некоторые геометрические свойства границы К (i) и тем самым установить принцип максимума. Определение. Пусть ..., о„—независимые векторы из Kt, каждый из которых является выпуклой комбинацией век- торов элементарных возмущений, причем все моменты времени, в которые произведены возмущения, различны (для возмущений, составляющих каждое с(, и даже для разных oz). Элементарным симплексным конусом $ мы будем называть совокупность всевоз- можных выпуклых комбинаций векторов р1, ..., v„. Поскольку мы требуем, чтобы моменты времени, в которые произведены возмущения, были различными (в противном случае нам понадобился бы более сложный предельный переход), то из основной формулы для возмущений (*) следует существование решения х(/, 8, Х) = х(0 + е(%1о1+ ... +X„t>n) + o(e), соответствующего каждому вектору X^j 4- ... 4- Х„и„ из 8. Лемма 1. Пусть о — вектор, внутренний для Kf Тогда най- дется элементарный симплексный конус $, содержащий вектор и внутри себя. Доказательство. Поскольку конус Kt есть замыкание всевозможных выпуклых комбинаций элементарных векторов возму- щений, и поскольку вектор v лежит внутри Kt, то существуют независимые векторы vlt ..., vn, образующие конус в Kt, внутри которого лежит вектор о, и являющиеся выпуклыми комбинациями
2?6 Принцип максимума tn. 4 векторов элементарных возмущений. Попытаемся изменить век- торы о1, ..., vn, чтобы получить комбинации векторов элемен- тарных возмущений с различными моментами возмущений. Параметрам элементарного возмущения л1 = {/1, /х, щ} отве- чает вектор возмущения M*i)=lf(x(^), uj-f^x), Поскольку tt есть лебегова точка, то имеются достаточно близкие к ней лебеговы точки t'lt например, |/х—/х|<£, для которых If «(Ф)—f (*(G), «(/J)| < £ для любого малого £ > 0. Па- раметры = llt Uj} порождают вектор v'n,. Так как линейное преобразование Atti непрерывно по t и Atiti есть единичное пре- образование, то можно потребовать, чтобы вектор о'Л1 (t) достаточно точно аппроксимировал вектор Таким путем мы можем модифицировать все элементарные воз- мущения, входящие в ..., vn, и перейти к аппроксимирующим их векторам v'lr ..., vn с различными моментами возмущений. Очевидно, что векторы о[, ..., v'n порождают элементарный сим- плексный конус S, содержащий вектор v внутри себя. Лемма доказана^ Топологическое отступление. В этом пункте мы докажем топологическую теорему, являющуюся аналогом теоремы о неявных функциях для случая, когда трудно установить, вы- полнены ли предположения о дифференцируемости. Схолия. Пусть f (х)—непрерывное отображение компактного выпуклого подмножества Вп с Rn, имеющего внутренние точки, в пространство Rn. Пусть Р—внутренняя точка множества В", и предположим, что l)f(x)-х|| <||х— Р|| для каждого х из границы дВп. Тогда точка Р входит в образ f (Вп). Доказательство. Можно считать, что Р есть начало координат в Rn, поскольку параллельные переносы не влияют на справедливость наших предположений. Рассмотрим топологическоех) отображение х—>/i(x) множества Вп на единичный шар В? с центром в начале координат, полученное линейным растяжением или сжатием каждого луча, исходящего из начала координат. Каждой точке х из Вп поставим в соответствие вектор п(х) с началом в точке х и концом в точке x-f-f(x). Положим х = Л(х) и рассмотрим порожденное отображением и (х) = и (h-1 (х)) непре- рывное векторное поле на единичном шаре BJ. Из условия llf(x)—х||<||х—ВЦ вытекает, что вектор v(x) образует острый угол с вектором Рх для каждого х £ дВп. Поэтому вектор v (х) для х) То есть взаимно однозначное и непрерывное в обе стороны. (Прим, ред.)
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 277 каждой точки х£дВ* имеет радиальную компоненту, направлен- ную вне В?. В этом случае v (х) должно обращаться в нуль в В? или v (х0) — О Для некоторого х0 £ Вп, т. е. f (х0) = 0 и следовательно, точка Р = 0 является образом х0. Это последнее утверждение, хорошо известное в теории век- торных полей, следует из теоремы Брауэра о неподвижной точке. Рассмотрим векторное поле—v(x), имеющее отрицательную ра- диальную компоненту на границе шара В", и вблизи нее. Тогда для достаточно малого положительного числа а конец сегмента х—>х—av(x) лежит внутри В?. По теореме о неподвижной точке, в BJ существует точка х0, для которой ха = х0—а»(х0), так что о(х0) = 0. Тогда точку х0 = Л-1(х0) в В" можно принять за иско- мую точку, в которой v (х0) = f (х0) = 0, что и требовалось доказать. В качестве особого случая отметим следующий результат. Следствие. Пусть f(x)—непрерывное отображение шара В": || х || 1 в Rn; предположим, что ||/(х)—х||1—е для всех ||х|| = 1 и е > 0. Тогда каждая точка z внутри шара || г || < е входит в образ при отображении f. Касательный конус возмущений лежит в касательном про- странстве в точке x(t), и следовательно, состоит из инфинитези- мальных векторов. Однако можно рассматривать касательное про- странство х(0 как векторное пространство с началом в x(t). В этом случае Kt превращается в макроскопический конус в R" с вершиной в точке х (/), и он может служить приближением для K(t), по крайней мере вблизи x(t). Лемма 2. Пусть v—ненулевой вектор, внутренний для Kt- Тогда существует элементарный симплексный конус % в Kt, такой, что 1)3 (как инфинитезимальный конус) содержит внутри себя v, 2) 3 лежит внутри К (0 [как макроскопический конус, т. е. усеченный конус 3 без вершин лежит внутри K(t) вблизи х(/)]. Доказательство. По лемме 1 в Kt существует элементар- ный симплексный конус Зп содержащий вектор v внутри себя. Пусть ... , v„—выпуклые комбинации векторов элементарных возмущений, порождающих 3j. Каждой выпуклой комбинации %it»i + ... + соответствует решение x(t, е, Л)=х(0 + в(М1+ ••• +V«) + ®(e). Рассмотрим множество 3t в Rn как макроскопический конус с вершиной в х(0- Можно выбрать векторы ..., и„ так, чтобы их концы лежали на гиперплоскости, проходящей через конец вектора и и ортогональной к V. Тогда каждая точка
278 Принцип максимума Гл. 4 из однозначно описывается барицентрическими координатами Хх, ... , Х„ и высотой 0 < I || v |(, отсчитываемой от x(t) вдоль и. Выберем в > 0 столь малым, чтобы множество точек, описы- ваемое концом вектора х (I, ъ1, X) = х (/) 4- &l (Ххох 4" ... 4- Хиоп) 4- о (ъ1), лежало в полупространстве I > 0. Таким образом, мы определили отображение конуса $х [без вершины х(/)] в полупространство / > 0: (ХхУх + • • • + ^в°в) I —*•х (I, Для каждого вектора г £ Rn обозначим через р его проекцию на гиперплоскость, ортогональную к вектору V, а через I—орто- гональную проекцию вектора г на вектор о, отсчитываемую от точки x(t). Тогда (р, I)—координаты в Rn. В этих координатах определенное выше отображение при под- ходящем выборе ограничения будет иметь вид L = L(p, = R = R(p, Z)=p4-o(p). Здесь v lim = 0 i - о 1 равномерно по p. Далее, выберем b > 0 так, чтобы 1К(р, /)-Z||’+||R(P, 0-р||»<1^ в соответствующем усеченном конусе $х. Пусть S—очень узкий симплексный конус с осью v и высо- той l=bfi. Возьмем точку Р = (1й, г0) в 3 с 0^/о^&/3. Рас- стояние от Р до точки Q = (/, г), лежащей на границе £х, удовлет- воряет неравенствам /0/2, если 0 I 2/0, Z/2, если 2/0 < I Ь. В силу приведенной выше топологической схолии можно утвер- ждать, что Р лежит в образе $х. Следовательно, усеченный конус S, исключая вершину, лежит внутри образа Зх, а значит, и внутри множества достижимости K(t), что и требовалось доказать. Получив эти предварительные результаты, мы можем приступить к доказательству принципа максимума для нелинейных автоном- ных систем с произвольным ограничивающим множеством Q, не обязательно компактным. Теорема 3. Рассмотрим систему в Rn: (fif) x = f(x, и), llp—Q||>/
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 279 где f(x, и) и (х, и)—непрерывные функции, определенные в Rn+m. Пусть —множество всех измеримых управлений и (t) на интервале 0 < t С Т, удовлетворяющих ограничению и (/) a Q <= Rm и имеющих ограниченные решения, исходящие из точки х0. Пусть некоторому управлению и (/) £ «Г соответствует решение х (/) с кон- цом х(Т), лежащим на границе множества достижимости К(Т). Тогда существует нетривиальное сопряженное решение я (t) системы (Л) П = ~ й(0), так что принцип максимума H(r[(t), x(i), u(t)) = М (x\(t), x(t)) выполняется почти всюду. Далее, если управление и (t) ограничено, то функция х(/)) почти всюду постоянна. Здесь функция Гамильтона имеет такой вид: Н (я, х, и) = я/ (х, и) = Л1Р (х, «)+...+ x\nfn (х, и) и 7И(я, х) = тахЯ(я, х, и) (всюду, где обе части определены), иё Й _ Доказательство. Поскольку точка х(Т) лежит на гра- нице множества К. (Т), то существует последовательность точек {Р„} вне /С(Т), таких, что Рп->- х(Т), и единичные векторы вдоль отрезков, соединяющих х(Т) с Р„, стремятся к предельному единичному вектору w(T), исходящему из точки х (Т). Заметим, что вектор w(T) не может лежать внутри касатель- ного конуса возмущений Кт, так как иначе, по лемме 2, суще- ствовала бы макроскопическая коническая окрестность $ вектора w(T) в К (Т). А это противоречило бы предположению, что точки Рп все лежат вне К (Т). Таким образом, существует гиперплоскость л(Т), проходящая через точку х (Т) и отделяющая вектор w (Т) от Кт. Пусть я (Т) — единичная внешняя нормаль к п(Т) в точке х(Т)-, определим тог- да я(0 как соответствующее решение линейной системы дифферен- циальных уравнений Л. Тогда Я(7‘)»(Т) = я(0°(0^0 Для всех t^.T, где v(t)—произвольный вектор возмущений из Kt. Предположим, что принцип максимума не выполняется, т. е. Н (я (t), х (t), й (t)) < Н (я (0, X (t), щ (0) ля u^tj^Q на некотором ненулевом промежутке времени из
280 ПРИНЦИП МАКСИМУМА гл. 4 0</ Т. Пусть tx есть лебегова точка интервала 0 < < 7 для / (*(0> ы(0)» в которой q(/i)f(x(4), (х(^), «,) при некотором их С Q. Рассмотрим вектор элементарного воз- мущения: «i)~f(*(O. с параметрами = Ь uil- Тогда, поскольку принцип максимума не выполняется, то что противоречит предположению о том, что q 0 для всех t и для всех v(0€Kt- Значит, tf(q(0, x(t), = x(t)) почти всюду на интервале (и правая часть существует почти всюду). Наконец, покажем, что функция М (q (t), x(t)) абсолютно непрерывна и имеет нулевую производную на интер- вале Ог^/^Т. Здесь мы предполагаем, что управление «(/) ограничено, т. е. | u (t) | 0 на интервале Пусть m(q, х) = max Н (q, х, и), так что Af(q, x)^m(rj, х), но | и К 0, WGQ M(q(Z), x(t))i=rn(x\(t), x(t)) почти всюду. Покажем сначала, что функция m (q (/), х (t)) постоянна всюду на интервале 0 t 7. Если точка (q, х) принадлежит компактному множеству Q из RnxR"xRm, содержащему все точки вида^(/), x(t)), а |«Х0, то для любых двух точек (q, х, и) и (q', х', и) имеем |Я (q, х, и)—#(q', х', u)\^.kd, где d = |q—q'| + |x—х'|, a k—константа Липшица, мажорирующая функции |f(x, u)| и ^•(х, ы)| в Q. Пусть управления и и и' из Q, с ограничениями |и'ХР, выбраны так, что /n(q, x) = H(ri, х, и) и /n(q', x') = Zf(q', х', и').
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 281 Тогда Н (т), х, х, и) и Н (т]', х', и)г^Я(т|', х', «')> так что — kd^H(x\, х, и')—Н(х\’, х', и')^Н(г\, х, и)—Н(х\', х', ы')=С ^Н(г\, х, и)—Н(х\’, х’, u)t^kd и 1т (т], х)—т(х\', х')|<М Тогда /п(т], х) непрерывна по Липшицу в Q, и значит, т(г\ (0, х(0) абсолютно непрерывна на интервале Пустьт(0<т< <Т)—точка, в которой т(т) = /и(т](т), х(т)) и функции х(т) и т) (т) имеют производные. Тогда для /' > т имеем m(t')^H (я(/')> x(f), и (г)) и m(t')—т (х)^Н (т)(О> и(х))— —Я(я(Г),х(т), ы(т)) + Я(т](Г), х(т), й(т))—Я(т](т), х(т), й(0), откуда iim m(t')—m(x) dm\ dx' . dr),- I _n t'—x dt [(=т^дх1 dt так как дН dx1 dfi tl dH dr],- n ( dfJ \ dxi dt 4dxff, diy dt~f \ дх‘)' При V < т получаем |Z_T^ 0» так что ^(П(0, х(0) = О почти всюду. Поскольку функция /п(т](0, х(0) абсолютно непре- рывна и имеет нулевую производную, то она должна быть посто- янной, равной т почти всюду на интервале 0^/^Т. Из определения М (к], х) непосредственно следует, что функция Л4(т](0, х(0) полунепрерывна снизу на интервале O^/s^T, т. е. М(т](/1), х(0))<Л4(т|(0), х(0)4-8 для всех t, достаточно^близких к 0, и для заранее заданного 8 > 0. [Если М (х (0), т] (0)) = оо, то соответствующее утверждение также имеет место.] Итак, Л!(1](0), х(0))</п (т)(7), х(7)) = т4-8 для любого 8>0 и, следовательно Л1(т|(0, х(0)^/и всюду на интервале Таким образом, УИ(т|(0, х(0) = /и всюду на интервале Теорема доказана.
282 ПРИНЦИП МАКСИМУМА гл. 4 Для линейных систем управление и (/) удовлетворяет принципу g максимума тогда и только тогда, когда оно является экстремаль- * ным, причем х(Т)£дК(Т). Для нелинейных же систем принцип ’ максимума еще не гарантирует, что траектория х (t) заканчивается i на границе множества достижимости, хотя нетрудно видеть, что ’ из х(Т)СдК(Г) следует, что x(t)GdK(t) при всех Сле- I дующие два примера^ демонстрируют это свойство нелинейных I систем. Пример 5. Рассмотрим в R* систему Х = уи— XV, у = — хи—yv с ограничениями на управления | и (/) | 1 и |с(/)|^1. В поляр- ных координатах эта система уравнений примет вид г = — rv (0. ф = — и (i). В качестве начальной точки рассмотрим г0= 1, фо = 0 и будем изучать поведение системы в интервале времени 0 t л. Управ- ляющие функции и (t) и v (/) входят независимо в уравнения для г и для ф. Поэтому нетрудно видеть, что множество достижимости К (л) представляет собой кольцо е~* г ек, 0 ф < 2л. Здесь управляемая система равномерно ограничена и множество К (л) j компактно. Однако множество К. (л) будет не только не выпуклым, I но даже и не связным. Здесь понятие [новой границы введенное для линейных систем в главе 2, не имеет смысла. Например, точка (—1, 0) сперва появляется в /((л) как внутренняя точка. Кроме того, управление u(f)=l, v(7) = 0 удовлетворяет принципу максимума на интервале 0^/^л, однако соответствующая траектория не приводит к границе К (л). Пример 6. Рассмотрим управляемую систему в R*, получен- ную видоизменением системы примера 5: г = — го(/)Л(ф), j Ф = — u(0[l— (sin2£^7)/i(n—Ф)], J где функция Л(ф) = Л(—ф)£С“ удовлетворяет ограничению 0<Л(ф)< 1, причем Л(ф) = 0 при £<ф^л и Л(ф)=1 при ф, л/2 близком к нулю. Далее, R = exp J ft (ф) dtp. На управление нало- о жены ограничения | и (/) | 1, | v (/) | 1, а начальной точкой является точка г0 = 1, Фо = 0. При / = л/2 множество /С (л/2) пе- ресекается с лучом ф = л/2 лишь при так что ф=1. Тогда г = — пф)Л(0 и, значит, отрезок ф = л/2, яв-
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 283 ляется ребром множества /С (л/2). Аналогично, отрезок <р = — л/2, 1 /R г R из множества /С (л/2) может быть достигнут лишь при и (0^+1- Таким образом, множество /С (л/2) является полу- кольцом с центром в начале координат, шириной (е"/2—е-я/2) при <р = 0, и (R — 1/R) при ф = ±л/2. Рассмотрим теперь множество /С (л). Лишь некоторые из точек, принадлежавших лучу <р = ± л/2, при t — л/2 будут лежать на луче <р = л, в момент t = n. В левой полуплоскости система диф- ференциальных уравнений имеет вид . . Г / р___г\ 4 / 1 X *1 г = 0, ф = —м(0[1—ф^ . Таким образом, множество /С (л) пересекается с лучом ф —л лишь при значениях радиуса, удовлетворяющих уравнению (R—ry sin2 = О, т. е- на счетном множестве точек с точкой накопления ф = л, r = R. Итак, мы видим, что К (л) представляет собой кольцевую об- ласть, ширина которой достигает минимума (R — 1/R) при ф = л; из этой области вдоль луча ф = л вырезано бесконечное число непересекающихся открытых областей. Таким образом, /С (л) яв- ляется бесконечносвязным множеством, и его граница не может быть представлена в виде конечного числа гладких замкнутых кривых. Упражнения 1. Рассмотрим управляемую систему в Rn: (<Я x = f(x,t,u), f£C1(Rn'+1+m), с компактным ограничивающим множеством Предположим, что для некоторого постоянного k x'f(x, t, и) < k (| x I2 + 1), для всех всех t из компактного интервала # и всех u^Q. Показать, что для любого управления и (t) cz Q на интервале существует решение х (/) для всех Кроме того, для любого заданного начального состояния х0 множество К (х0, t) достижимых точек равномерно ограничено. 2. Рассмотрим управляемую систему в Rn: (&) x=f(x,u), /еСЧЯ"+т), с начальным состоянием х0 в момент /о = 0 и компактным ограничивающим множеством QczRm. В качестве допустимых управлений рассмотрим все из- меримые функции u(t)a:Q на интервале и предположим, что каж- дому управлению соответствует решение x(t) на всем интервале 0-С/^/р Предположим далее, что управлению и* (t) соответствует решение х* (/), где точка х* (/J принадлежит границе множества достижимости К (fx). Показать, то в этом случае x(t)£dK (/) для всех t из интервала
284 ПРИНЦИП МАКСИМУМА гл. 4 3. Рассмотрим управляемую систему в /?»: (^) x=f (х, 0 м), ff^C1 (7?w+1+w),. с измеримыми управлениями и (0 на интервале 0 «с t «С 1 и компактным огра- ничивающим множеством (а) Пусть управлению и* (t) соответствует решение х* (t) на интервале Показать, что существует такое в > 0, что каждое управление ue(0CZQ на такое, что ] wg (0—и* (0 ( < 8 на множестве меры 1—8, с начальным состоянием х6 (0), | х6 (0)—х* (0) < 8, определяет решение хе (0 на интервале Более того, хе (0 х* (0 равномерно на 1 при 8 —>• 0. (Ь) Показать, что для каждого начального состояния |х0|«Са и момента времени существует общий промежуток времени /0<*<+ ?(«, т), такой, что решение х(0 х0, /), соответствующее произвольному управлению u(0<zQ на интервале + определено на всем интервале t0^t^ Н-?' 4. Рассмотрим управляемую систему в Rn: СЯ х=Д (х, 0 + В(х, 0и, где Л(х, 0 и В (х, 0 принадлежат С1 в Rn+1, и управления и(0 на интер- вале 0«С t< 1 удовлетворяют ограничению [] и ||х = J | и (0 dt | 1. о (а) Пусть управлению и* (0 соответствует решение х* (0 Показать! что существует 8 > 0, такое, что любому управлению и« (0 || ие—и* [|1 < 8 с начальным состоянием хе(0), | хв (0) —х* (0)| < 8, соответ- ствует решение хе (0 (0«С£«С1). Более того, х8(0->х*(0 равномерно на интервале при 8->0. (Ь) Для любого начального состояния | х0) а и времени |/0 I < * сущест- вует общий промежуток времени т) такой, что решение x(tt х0, /0), соответствующее любому управлению «(0 с ограничением t0+1 J | и (0 | dt «eg , будет определено на всем интервале t0^ t /0+£. 4.2. Существование оптимального управления при дополнительных ограничениях В этом разделе мы докажем основные теоремы существования оптимальных управлений для нелинейных систем в случае, когда ограничивающее множество Q является компактным. Мы восполь- зуемся теми же методами, что и в предыдущей теореме 2. На самом деле следующая теорема существования является непосредственным следствием теоремы 2 в случае, когда множество начальных со- стояний Хо состоит из одной точки, а начальный момент /0 и ог- раничивающее множество Q фиксированы. Позднее мы распрост- раним эти результаты на слабые и импульсные управления. Теорема 4. Рассмотрим нелинейную систему в Rn: (<Я x = f(x, t u), f^C1 (Rn+1+m). Исходные данные таковы;
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 285 1) Множество начальных состояний X0(f) и целевое множество Хх (0 — непустые компактные множества, непрерывно меняю- щееся по t в R", на некотором заданном промежутке времени x^t^xv 2) Ограничивающее множество £2 (х, t) есть непустое, компакт- ное, непрерывно меняющееся в Rm по (х, t) С Rn X [т0, тх] множество. 3) Имеется совокупность (быть может, пустая) ограничений на состояние системы h1 (х) 0, (х) О, ..., где №, №, ... — конечное или бесконечное семейство действительных непрерывных функций из Rn. 4) Семейство S' допустимых управлений состоит из всех из- меримых функций и (t) на различных промежутках времени из интервала [т0, тх], таких, что каждому управлению u(t) соответствует решение x(t) на интервале t^^t^t^ пере- водящее систему из точки хЦй)£Хй(Ц) в точку xit^^X^ty, при этом u(t)££l(x(f), t), h1 (х (/)):> О, ..., hr(х(/))0. 5) Каждому управлению u£$F соответствует значение крите- рия качества t, C(u)=g (х (^)) + $ f° (х (0, t, и (0) dt + max т1(х (/)), где Р^С1 в Rn+1+m, a g(x) и у(х) непрерывные функции в R". Предположим, что: (а) семейство HF допустимых управлений непусто; (Ь) существует равномерная оценка | х (/) | b при t<i^.t^.tl для всех x(t), соответствующих управлениям u^f; (с) множество обобщенных скоростей V (х, t) = {f° (х, t, и), f(x, t, и) | и € О (х, /)} выпукло в Rn+1 для любых фиксированных (х, t). Тогда существует оптимальное управление и* (t) из oF, на ин- тервале t J t ti минимизирующее С (и). Доказательство. Поскольку при |х|^6 и множество £2 (х, t) лежит в некоторой ограниченной области пространства Rm, то все и (t) € %F и решения х (t) должны быть равномерно ограничены. Таким образом, существует конечная ниж- няя грань значений критерия качества при допустимых управлениях. Выберем последовательность ик (/) (/* t ф управлений из 3~ так, чтобы соответствующая последовательность С (ик), убывая, монотонно стремилась к inf С (и) для ugF, и пусть xk(t) —соот- ветствующие траектории, переводящие систему из Хо($ в Хх(ф. Выберем теперь подпоследовательность ик, не меняя обозначений, так, чтобы ti -> / J, ti 1; и хк(ti) xj g Хо (t*9) при k-» оо. Нужно
286 ПРИНЦИП МАКСИМУМА гл. 4 показать, что последовательность uk(t) стремится к допустимому управлению доставляющему минимум критерию каче- ства. Если то lim С (uk)=g(xi) + у (xj) и х0‘ € Хо (Ц) П (ф, &->оо так что на любом управлении н* (Q £ Q (xj, /J) критерий качества принимает минимальное значение g’(xj)+ у (х„). Поэтому, предпо- ложим, что < ti. Как и при доказательстве теоремы 2, выберем подпоследова- тельность управлений, обозначенную снова uk(t), так, чтобы со- ответствующая последовательность f(xk(t), t, uk(t)) слабо сходи- лась к интегрируемому (п-f- 1)-мерному вектору Ф(0=(ф°(0^ф(0)на интервале /J t tk. [Заметим, что f = (f°, f), и мы здесь пред- полагаем, что /о =С и ti, так что каждое из управлений ик (/) определено на интервале tJ t другие случаи будут рассмотрены ниже.] Пусть t х* (/) = xj + $ ф (s) ds при где x*(0 = (x°’(0. и хо’ = (0, х0‘). Тогда limxft(Z) =х*(/) всюду на интервале А-*оо введем обозначение t = « хк) и xj[(O= $f°(xk(s), s, uk(s))ds. Поскольку {xk(t)}—равностепенно непрерывное семейство функ- ций, |хА(ф—xft(/;)|-*0 и |хА(ф—х*(ф|—>-0, так что x*(ZJ) = =xj С Хо (f J) и х* (/[) £ Xi (t*), то по теореме Асколи можно счи- тать, что xk(t)—>-х*(0 равномерно на интервале и значит, удовлетворяются ограничения fti(x#(O)>o, ...,hr(x*(t)y^Q на Более того, из установленной сходимости следует, что Ч lim С (uk)=g(x* (<;))+ 5 ф°(з)^4- max y(x*(f)). Таким образом, нам остается только показать, что существует управление с соответствующим решением х*(/), такое, что f(x*(0, t, u*(t)) = <p(i).
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 287 Для того, чтобы найти и* (t), сначала покажем, что <р (/) £ V (х* (/), t) для любого t [после доопределения ф (t) на мно- жестве меры нуль, как в теореме 2]. Предположим, что ф(0 лежит вне V (х* (/), 0 на некотором ненулевом промежутке вре- мени Тогда существует постоянный единичный п-|-1-мерный вектор-строка у такой, что Й (0 > lim sup yf (х* (/), t, ик (0) k-»<X> для всех t из промежутка и uk(t) есть точка, ближайшая к uk(t) в Q(x*(t), t). Но для каждого фиксированного lira хк (t) = х* (t) k-+<x> И lim liik(t)—uk(t) 1 = 0. k-+CD Таким образом, Й (0 > lim sup yf (xk (t), t, uk (/)), но это противоречит слабой сходимости последовательности f (хк (/), t, uk(t)) к ф(0- Следовательно, <p(t)£V (x?(t), t). Рассмотрим теперь компактное множество Q(x*(/), t) в Rn, непрерывно зависящее от t. Так как ф(0€/(х*(0, t, Й(х*(0, /)), то с помощью некоторого обобщения леммы ЗА главы 2, которое предоставляется читателю, можно показать, что существует изме- римая функция и* (/) £ Q(x* (Z), t), такая, что $(0 = f(x*(a t, u*(t)). Тогда u*(t) на интервале будет допустимым управле- нием из семейства аГ с соответствующим решением x*(f) и зна- чением критерия качества С (и*) =g(x* (ti)) + $ f° (х* (0, t, и* (0) dt + max у (x* (t)). /J i0< t < Отметим, наконец, что если управление uk(t) не определено на всем интервале то можно расширить область опре- деления так, чтобы u(t)$Q(x, t) и полученная функция была ограниченной и измеримой на требуемом интервале. Для доста- точно больших k решения xk(t) (хк(фgХо(/*)) будут определены
288 ПРИНЦИП МАКСИМУМА гл. 4 на всем интервале t t\ и образуют равностепенно непре- рывное семейство функций. Далее доказательство проводится так же, как в предыдущем случае. Теорема доказана. Следствие 1. Пусть задан начальный момент времени из интервала и пусть семейство <F0 a состоит из всех допустимых управлений u(t) на различных подынтервалах из [fj, tJ. Пусть выполнены предположения 1—5 тео- ремы, и кроме того, (a) oFo непустое-, (в) | х (/) | b при t*B t sC ti для всех и (t) € (с) множество V(x, t) выпукло в Rn+1 для любых (х, t). Тогда существует оптимальное управление u*(t) из <F0, на интервале t*o^.t^.t*, минимизирующее функционал С (и) на мно- жестве всех u£<iF9. Аналогичная теорема существования верна и в случае, если семейство <F0 заменить подсемейством <F01 с состоящим из допустимых управлений на фиксированном промежутке времени из интервала [т0, tJ. Следствие 2. Рассмотрим управляемую систему в Rn: (У)\ х — А(х, + t)u с критерием качества C(«) = g(x(/1))+$ [4°(х(0> 0 + ^0 + B0(x(0, t)u(t)\dt+ ess sup y(x(f), u(t)), to< t < /, где А, В, A0, В0 есть матрицы класса С1 в Rn+1, g(x) и у(х, и) непрерывны в R"+m, и у(х, и) является выпуклой функцией от и для каждого фиксированного х. Предположим, что ограничиваю- щее множество Q (х, t) компактно и выпукло для всех (х, t). Тогда выполняется предположение (с). Если мы также будем предпола- гать выполнение условий 1—4, (а), (в), то на интервале t t\ существует оптимальное управление из Зг. Доказательство. Пусть uk(t) =^i)—последова- тельность допустимых управлений из для которых последова- тельность С (ик) монотонно убывает, стремясь к inf С (и) для и и пусть xk(t)—соответствующие траектории, переводящие систему из Хо(/§) в ^х(Ф- Выберем теперь подпоследователь- ность управлений, вновь обозначенную uk(t), так, чтобы t*— —-»t*, xk (/„) —> xj £ Xo (tJ), и последовательность uk (f) слабо схо- дилась бы к управлению u*(t) на интервале Снова предположим, что to t* и и по теореме Асколи выберем
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 289 новую подпоследовательность управлений так, чтобы равностепенно непрерывное семейство решений сходилось lim хА(0 = **(0 равномерно на k-> СО Здесь х«(0 = (4(0> *л(0) и = каки в теореме. Из установленной сходимости следует, что lim f(xk(t), t, u*(t)) k -* 00 в смысле слабой сходимости на интервале £ t t*, где ? = (А04-В°и, А-\-Ви). Кроме того, поскольку f линейно по и, имеем [t хк (0) + J ? (хк (s), s, ик (s)) ds , так что t X* (t) = Хо + $ f (х* (s), S, и* (s)) ds. *0 Таким образом, в этом следствии роль функции <р (/) из теоремы 4 играет функция f(x* (t), t, Проверим теперь, что управление u*(t) принадле- жит семейству F и что lira С (ик) — С (и*). Как и в теореме 4, k 00 управление и* (t) переводит систему из состояния х*а С Хо (/J) в (О), так что выполнены ограничения: hl (х* (/)) 0, ..., hr (х* (0) 0. Предположим теперь, что управление u*(t) лежит вне множества й (х*(0, t) в течение некоторого ненулевого промежутка времени Тогда существует постоянный единичный m-ме рный вектор-строка у, такой, что i/u* (О > lim sup уйк (t) k -> <х> для всех t из промежутка —точка, ближайшая к ик (t), в й(х*(0, /)• Как и при доказательстве теоремы, мы заключаем, что yu*(0> Нт sup уик (О k -> 00 для каждого t из Но это противоречит слабой сходимости последовательности uk(t) к u*(t) на интервале /0*<О • Следо- вательно, u*(0 (tj t 0) есть допустимое управление из с со- ответствующим решением х*(0- Вычислим теперь значение Ю Э. Б. Ли, Л. Маркус
290 ПРИНЦИП МАКСИМУМА гл. 4 критерия качества С (и*). Поскольку 4 lim g(xk(t$) + $ [A*(xk(t), t)+B»(xk(t), t)uk(t)]dt = k-* a> fk -=g(**W))+ $ 0+B°(x*(0. то нужно лишь проверить, что lim ess sup ? (**(/), uk(t))^ ess sup y(x*(0» “*(0)- В противном случае существовало бы е > 0 такое, что esssup y(xk(t), uk(t))< esssup y(x*(/), для всех достаточно больших k. Однако тогда esssup y(xft(/), uft(0)< esssup y(x*(0, u*(0)—e- Отсюда ^следует, что ess sup у (x* (/), uk (i) < ess sup у (0» u* (0)—v для всех достаточно больших k. В этом случае существует нену- левой промежуток времени Wt из интервала та- кой, что при у (х* (0, ик (0) < V (х* (0 «* (0) —| Для всех больших k. Теперь, применив рассуждения о выпуклых функциях из теоремы 8 главы 3 [где роль у(х*(/), и) играет Л°(/, и)], найдем, что lim inf J ?(х*(/), ( T(JC*(0» k * ® wt w, Но это приводит к противоречию Jу(х*(0, u*W)dt < j Гу(х*(О, 11 dt. Итак, заключаем, что lim С(мй)>С(и*), k co и значит, управление u* (/) доставляет минимум критерию качества. Заметим, наконец, что если последовательность uk(t) не опре- делена на всем tJ t t*, то можно расширить ее область опре-
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 291 деления, как показано в доказательстве теоремы 4. Как и раньше, определим управление u?(t) из на интервале i*0 t < t* и соответ- ствующее решение х*(0- В этом случае надо также показать, что lim ess sup y(xk{t), uk(t))^ ess sup y(x* (t), u*(t)). В противном случае, существовали бы т] > О и е > О такие, что esssup y(xk(t), uk(t))< esssup для всех достаточно больших k. Но ик (/) определено на /о+л —т] и слабо сходится к u*(t) на этом интервале. Полу- чаем противоречие, как и прежде. Итак, и в этом случае lim С (ик)^С (и*), k “► 00 и u*(i) является искомым оптимальным управлением на интервале t* < t t*u что и требовалось доказать. Замечания. Существование оптимального управления для задачи, сформулированной в следствии 2, с начальным моментом времени ZJ, или с промежутком управления как в следствии 1, легко доказать. Заметим, что критерием качества в следствии 2 может служить функционал С(ы)= esssup [a max |х*(0| + ₽ шах |м/(0|] 1 < i < п 1</<т с постоянными а и р 0. Для нелинейной системы, рассмотрен- ной в теореме 4, можно принять критерий качества равным ука- занному выше С (и) с 0 = 0. Таким образом, нами доказано сущест- вование оптимальных управлений для довольно широкого класса так называемых минимаксных задач, т. е. задач, где требуется минимизировать максимум u(t)) на промежутке управления. Следующий пример иллюстрирует важность предположения о выпуклости в теореме 4, без которого оптимальное управление, вообще говоря, не существует. Пример. Рассмотрим управляемую систему на плоскости х = — у* + и*, у = и с ограничением |«(/)|^1. Требуется перевести систему из со- стояния x(O) = t/(O) = O на отрезок Х1{х=1, за мини- мальное время t* > 0. В этой задаче существует равномерная оценка 1*(01 + |У(0|<12 при 0</<2 для всех измеримых управлений, удовлетворяющих указанному Ю»
292 ПРИНЦИП МАКСИМУМА гл. 4 выше ограничению. Поскольку х (t) 1, то существует нижняя граница для t*, а именно, /*^1. Действительно, для каждого управления и (t) на интервале 0 t равенство x(Q = S [«’(0-^(0] ^=1 о возможно лишь для /х> 1. Для того чтобы построить минимизи- рующую последовательность управлений, разделим интервал 0^/^2 на отрезки длины 1/£, и пусть uk(t) равняется’ 4-1 или —1 на соответствующих отрезках. Тогда соответствующее решение удовлетворяет условиям: кИ01<4- и £=1,2,3,... Система достигает целевого множества в момент из интер- вала 1 £3/(£а — 1) и lim = 1. k -> со Таким образом, минимальное оптимальное время /*=1 не может быть достигнуто ни при каком допустимом управлении. Заметим, что множество V = {1, и, —уа + иг} не является выпуклым в У?3, и значит, основная теорема существования для оптимальных управлений неприменима. Интуитивно ясно, что «почти оптималь- ное» управление должно все время переключаться с и = 4-1, на и ——1 так, чтобы интеграл у (t) = J и (s) ds был почти1 нулем, о t а функция х(/) = $ [ua(s)—«/a(s)]ds была бы близка к t. На каж- о дом промежутке времени и (t) должно примерно половину . вре- мени быть равным 4-1, а половину —1; иначе говоря, ц(/) = 4-1 с вероятностью 1/2, и «(/) =—1 с вероятностью 1/2 в каждый момент t. Мы покажем сейчас, что если ослабить понятие управ- ления, введя в рассмотрение вероятностную меру на Q, завися- щую от времени, то это даст возможность доказать общую теорему существования оптимальных управлений без предположения выпук- лости. Определение. Рассмотрим управляемую систему в Rn'. (50 x = f(x, t, и) с правой частью из класса С1 в #п+1+я’ и с компактным ограничи- вающим множеством й (х, /) с Rm, непрерывно зависящим от (х, /). Слабым управлением ц(/) на интервале с реше-
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 293 нием х (0 будем называть управление, которое определяется неко- торой вероятностной мерой на множестве Й(х (/),?) в каждый момент времени t. Мы будем рассматривать слабые управления вида р, (/) = ах (0 6 («! (0) + • • • + a„+i (0 6 («»+1 (0). я 4-1 где ах (0 > 0, ..., а„+1 (/)> 0—измеримые функции, и 2 1; их (/), ..., ив+1 (0—измеримые функции со значениями из Q (х (0 t), называемые вибрационным базисом для р. (0, а б (и) есть б-мера, приписывающая 'вероятность 1 каждому измеримому подмноже- ству Q, содержащему и, и вероятность нуль остальным множествам. Решение, соответствующее р(/), определяется формулой х(t) =х04- J К f (х, t, u)dp dt t„ La J или t х(1)=х0 + ^(х, t)dt, io где (x, t) = ax (0 f (x, t, ut (0) + • • • 4- a„+J (x, ^n+1 (0)- Заметим, что (классическое) управление u(t) можно рассмат- ривать как слабое управление б («(/)), и значит, решение (клас- сическое) всегда является [слабым решением. Для того чтобы единообразно интерпретировать решения, соответствующие клас- сическим и слабым управлеияям, введем понятие дифференциального включения x£U (х, t). Здесь U (х, t) есть непустое множество касательных векторов в точке х £ Rn для каждого момента t из некоторого интервала тв</^тг Решение x(t) является, по определению, абсолютно непрерывной кривой (на подынтервале касательный вектор х (0 к которой принадлежит множеству U (х (t), t) почти для всех моментов t. Лемма. Рассмотрим управляемую систему в Rn: (<Ю x = f(x, t, и), f$C1(Rn+1+m), с компактным ограничивающим множеством Q(x, t), непрерывно зависящим от (х, t)£Rn х [т0, тх]. Пусть V (х, t) = f(x, t, Q(X, 0) —множество скоростей. Тогда кривая х (t) на интервале является классическим ре- шением системы тогда и только тогда, когда x(t) есть
294- принцип МАКСИМУМА гл. 4 решение дифференциального включения x£V(x, t). Пусть И (V (х, /))—выпуклая оболочка множества V (х, t). Тогда кривая х (?) на интервале является слабым решением системы ef тогда и только тогда, когда x(t) есть решение диф- ференциального включения 'х£Н(У(х, 0). Если множество V (х, f) выпукло при каждом (х, I), то каж- дое слабое решение x(f) является классическим решением. Если множество V (х, t) не выпукло, но множество Q (х, t) — £l (0 не зависит от х, то каждое слабое решение x(f) является равномер- ным пределом классических решений на интервале t0 t tx. Доказательство. Пусть u(t) —классическое управление с решением х (t). Тогда x(t) = f(x(t), t, u(t))^f(x{t), t, Q(x(t), 0) и значит, x(t) есть решение дифференциального включения I x(t)eV(x(t), t). Обратно, пусть х (t) на интервале /0 t tr удовлетворяет диф- ференциальному включению x(0Cf(x(0, t, Q(x(t), t)). Мы хотим найти измеримую функцию и (ffcQ (х(0, /), такую, что f (х(0, t, u(t)) = x(t). Но из леммы ЗА главы 2, если ее модифици- ровать, добавив непрерывную зависимость й от t, следует существо- вание искомого управления и (I), с соответствующим решением x(t). Рассмотрим теперь слабое управление р. (0 = ах (0 6 (их (0) + ... + а„+1 (0 6 («п+1 (0) с решением x(t), удовлетворяющим уравнению х (0 = ах (0 f (х, t, ut (0)+.. •4-a»+i(0f(x, t, «„+i(0)- Тогда для почти каждого момента t f(x(i), t, иЛУ), f{x(t), t, ut(ty.f (X(/), t, ua+1(t)) принадлежат V(x(t), t), и значит, i(0€/7(V(x(0, 0). Обратно, пусть x(/) такая абсолютно непрерывная на интервале кривая в Rn, что х(0€Я(У(х(0, 0).
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 295 Рассмотрим непрерывную функцию h(t, A) = a1f(x(t), t, . +a„+1f (x(0, t, u„+i), где A = (a,, .... an+1, uu ..., мп+1) принимает значения из некото- рого подмножества 2хй"+1(0 пространства Rn+1+ (n+l)“. Здесь 2 есть единичный симплекс в Rn+1 и Qn+1 (t) = Q(x (t), t) x ... ... X Q (x (0, 0 (n + 1 —сомножитель). Для каждогоХмомента t и каждого А € 2х £2n+1 (0 точка h(t, 4) принадлежит H(V(x(t), 0). Действительно, поскольку выпуклая оболочка множества V (x(t), 0 представляет собой объединение всевозможных симплексов с вершинами из V(x(0, 0,^то^заме- чаем, что h(t, 2xQn+l(0) = H(V(x(0, 0). Поскольку x’(0gft(0 2xQn+1), то из леммы ЗА главы 2 вытекает, что можно выбрать измеримую функцию А (0 = («! (0, . . . , С&П+1 (0> «I (0> • • • » ^п+1 (0) на интервале t0 t 0 так, чтобы X (0 = ССХ (0 f (х (0, t, (0) -р . . . -|- 0&n+i (0 f (х (0, ^9 Un + 1 (0) почти всюду. Значит, x(t) есть решение, соответствующее слабому управлению р (0 = ах (0 6 (Ы1 (0) + ... + ап+1 (0 6 (а„+1 (0). Предположим, что множество V (х, t) выпукло при всех (х, 0. Тогда Н (V (х, 0) = V (х, 0. Следовательно, слабое решение х (0 является абсолютно непрерывной кривой в R", причем x(0€H(V(x(0, 0) = V(x(0, 0. Итак, слабое решение х(0 яв- ляется также классическим решением. Наконец, предположим, что множество V (х, 0 не обязательно выпукло. Пусть х(0 на интервале слабое решение, соответствующее слабому управлению И (0 = (0 б («х (0) + ... + а„+1 (0 б (un+1 (0). Мы хотим аппроксимировать x(t) с помощью абсолютно непрерыв- ных кривых хА(0, для которых x*(0€V(xft(0, 0, 6=1,2, 3,... Имеем t X (0 = хо+$ [ax(s)f (x(s), S, «х (s))+... ^0 • • • + a«+l (s)f(x(s), s, w„+x(s))]ds. Мы можем так изменить вектор-функцию a(0 = («x(0,.. .,an+1(0) на малом промежутке времени, чтобы a(Z) была непрерывна, а решение x(t) изменилось бы очень мало (по норме). Предположим,
296 ПРИНЦИП МАКСИМУМА гл. 4 что такое изменение уже произведено, и заметим, что мы все еще имеем Для i=l,...,n+l и x(t)£H (V (x(t), /)), как и требовалось. Определим теперь вектор ( (/, О, О,...,О, 0) на /* х, I (°» Д 0) на/*’„ ат (/) = < I (0, 0, 0,...,0, /) на/й,п+1, где Ikt j — сумма конечного числа подынтервалов интервала ПРИ k^\ и Для получения /А1у разделим интервал на равных последовательных интервалов точками t0 = tM < tkl<.tki< ... <. tkk = и разделим каждый из этих k подынтервалов на (п+1) интервалов, длины которых пропорциональны (ах (/*z), а2 (tkl), ... , а„+1 (tkl)) для 1 = 0, 1, 2, ... ,k—1. Тогда /й, х есть объединение первых кусков всех интервалов tkl<.t <tk, I+1, a Iktj, аналогично, объединение /-x кусков всех интервалов tkl < t < tky 1+1. Тогда легко проверить, что для^ каждого I из [/0, lim J alk)(t) dt = $ a (t) dt, k-^CB J I и значит, lim a(ft) (t) = a(t) k-*<x> в смысле слабей сходимости на интервале tQ t sgC tr Определим теперь классическое решение xk(t)\ t п+1 Ч (t) = Хо + \ 2 a/ft) (s) f (xk (s), s, Ui (s)) ds = i=I t =x0+p(xA(s), s, H(s))ds. Заметим, что хк (t) является решением (на всем интервале как показывает нижняя оценка), соответствующим классическому управлению ( <(/) на Iktl, u(t) = . ^л+1 (0 на k, п+1> причем й(0€^(0- Для того чтобы показать, чю xk(t) сходится
УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 297 к х(0, произведем оценку л + 1 * | X (0—xk (0|= 5 5 а< (s) f (X (8), S, Ui (s)) — —a/» (s) f (x(s), s, a, (0) + а}к> (s) f (x (0, s, и,- (0) — —a}ft>(0f(xA(0. s, Ui(s))ds I x(t)— xk(t) |<8A + К $ | x (s)—xk (s) | ds, ^0 где 8ft—>0 и константа К зависит от значения максимума |^|. Но тогда 1*(0—*л(01<«л<?К|,,~/<'1 и lim xft(0 = x(0 k -* оо равномерно на интервале Лемма доказана. Замечание. Если множество Й(х, 0 зависит от х, то наше доказательство просто дает последовательность абсолютно непре- рывных функций хй(0, сходящихся равномерно к слабому реше- нию х (0 на интервале но являющихся лишь прибли- женными решениями для управлений «й(0, т. е. dist (uk (0,гй (хк (0, 0) < у И dist (хл(0, V(xk(t), 0)<±. Однако, в случае, когда й (х, 0 = й (0, мы получаем тот важ- ный результат, что классическое оптимальное^управление является также оптимальным среди всех слабых управлений для системы (как в теореме 4): (<S0 x = f(x, t,u), с управлениями из й(0 и критерием качества С («)=S (х (0)) + $ Г $ f° (х (t), t, и) dpi dt + max у (x (0), L Q J /ф -C t -C ti если только целевое множество совпадает со всем пространством Xj (0 = Rn. Это легко получается из следующего выражения
298 ПРИНЦИП МАКСИМУМА гл. 4 для С (и)’. C(«) = g(x(^))+x°(Q+ max (x(Z)), t где t x° (0 = $ [«1 (s) f° (x (s)> s,(S)) + ... 4-a„+1 (s) f° (x (s), s, un+1 (s))] ds, ti и из существования классических решений xk (/), равномерно сходящихся к оптимальному слабому решению. Если целевое множество Xi=#7?n, например, Хх = 0в Rtt, то классические ре- шения xk(t) могут не достичь Хх и значит, они не могут претендо- вать на минимальное значение критерия качества, и наше пред- положение неверно. Однако, даже в случае Х1 = 0, можно все же заключить, что классический оптимум равняется слабому оптимуму, если только система обладает свойством управляе- мости вблизи х = 0, « = 0, как [это будет показано в следующей главе. Наконец, последний результат относительно слабых управле- ний—это общая теорема существования без предположения (с) теоремы 4 о выпуклости. Однако в силу присущих слабым управ- лениям свойств выпуклости эта теорема является простым следст- вием теоремы 4. Теорема 5. Рассмотрим нелинейную систему в R" (<^) x=f(x, t, и), f^C1 в Я»+1+«. Выполнены следующие условия: 1) Начальное и целевое множества Хо(/) и X^lt) суть непу- стые компактные множества, непрерывно меняющиеся в R" в за- висимости от t, когда t принадлежит основному заданному ин- тервалу управления, т0 t ^тх. 2) Ограничивающее множество Q(x, t) есть непустое компакт- ное множество в Rm, непрерывно зависящее от (х, /)€R"x[t0, тх]. 3) Имеются ограничения на состояние системы (в конечном или бесконечном числе) .... /Г(х)>0, где ft1, .... hr—действительные непрерывные функции из R1. 4) /Семейство <F допустимых управлений состоит из всех слабых управлений p(0=«i(06(«1(0)+ ••• + «n+x(0'6(«»+i(0) на Р03’ личных подынтервалах времени из интервала [т0, тх], таких, что каждому ji(/) соответствует решение i х(0 = +$[«!<«)Z(x(s), s, M1(s))+... + a„+1(s)f(x(s),s,«n+1(s))]ds /о ра интервале переводящее систему из состояния
4 2 управление При дополнительных ограничениях 299 x(U€Xe(U в состояние x(t^$XM- Функции u((t) (t=l, 2 «4-1) составляют соответствующий вибрационный базис «х(0€й(х(0.0. .... «»-н(0бО(*(0.0. причем Л1 (х (0) > 0.hr(x (0) > 0. б) Критерий качества для всех имеет вид tt C(n)=g(x (Q) + $ [a, (s) f° (х (s), s, щ (s)) +... ^0 • • • +an+i(s)Г(x(s), s, un+1 (s))] ds+ max у (x(0), *1 где в 7?я+1+и, а функции g(x) и у(х) непрерывны в Rn. Предположим, что: (а) множество oF допустимых слабых управлений непусто-, (в) решения равномерно ограничены |х(01<Ь при для всех слабых управлений p(O€<F. Тогда существует слабое оптимальное управление н* (О=(t) 6 («: (0) +... + а;+1 (О 6 («;+х (О) из Зг, минимизирующее С(р). В этом случае оптимальное управ- ление разлагается по базису и* (t), ..., и^+1 (О с соответствующими вероятностями а£ (f)..а*+1 (/), в каждый момент времени t из интервала t J t t*. Доказательство. Рассмотрим управляемую систему в R" Wr) x = fr(x, t, u') = a1f(x, t, щ)+ .^+c'nilf(x,t,un+1) с классическим управлением «(О=(«1(0. •••. «п+1 (0» “1(0. .... «п+1(0) из компактного множества 2хйя+1(/). Здесь S есть единичный симплекс из Rn+1, и Qn+1 (t) = Q (х (/), t)xQ(x (t), t) х... х й (х (t), t). Начальное и целевое множества, ограничения на состояния и кри- терий качества сг (ц)=g(x (0)) + Р® (х (s), s, и (s)) ds 4- max у (х (0) t0 to t G такие же, как и выше. Каждому классическому управлению а (О системы соответствует слабое управление р, (/) = ах (0 6 («х (0) + • • • + ап+1 (t) 6 (ы„+1 (/)) системы
300 ПРИНЦИП МАКСИМУМА гл. 4 УДх, 0=< более того, каждое слабое управление р (t) системы получается именно таким образом. Решения системы соответствующие р (0, совпадают с решениями системы &г, соответствующими и(0; совпадают также и значения критерия качества Cr(u) = C(p). За- метим, однако, что для задачи &г множество скоростей из Rn+1 а^Цх, t, Q(x, 0)4- •• • +an+J°(*> t, Щх, 0)» ajtx, t, Q(x, /))+...+ an+lf(x, t, Q(x, 0), где вектор (ax, ..., an+1) пробегает множество S, будет с необхо- димостью выпуклым множеством при любых (х, t). Действительно, Vr (х, t)~H(V (х, 0), где под V (х, 0 понимается множество ско- ростей для первоначальной классической задачи <§?. Отсюда сле- дует, что задача с классическими управлениями удовлетво- ряет всем условиям и предположениям теоремы 4, и следова- тельно, классическое оптимальное управление и*(0 = (aj(0, ... ..., a^+1 (0, и* (0, ..., u„+1 (0) существует на интервале t^.t^.t*, и доставляет минимум критерию качества Сг(и). Но тогда р* (0 = aj (0 б («I (0) 4-... + а„+1 (0 б (и'+1 (0) будет искомым слабым оптимальным управлением для данной задачи Теорема доказана. Следствие. Рассмотрим управляемую систему в Ru (<§0 х= Л(х, 04-В(х, 0ы с критерием качества С (u)—g(x (0)) + J [Л® (х (0,0 ч- В° (х (t), 0 и (0] dt + max у (х (0), t с G где матрицы А, В, Л®, В° принадлежат С1 в Rn+1, a g(x) и у(х)—непрерывные функции в R". Предположим, что компакт- ное ограничивающее множество Q(x,f)cRm непрерывно зависит от точки (х, 0, принадлежащей множеству Rn х [т0, тх]. Тогда каждое слабое управление из Q (х (0, 0 р (0 = ах (0 б (их (0) 4- ... 4-an+i (0 6 («п+1 (0), с соответствующим решением х(0 системы $, определяет клас- сическое управление й (0 = ах (0 щ (0 4-... 4- а„+хаи+1 (0, принадлежащее слабому ограничивающему множеству Н (Q (х(0, 0). Обратно, каждое классическое управление u(t) с Н (Q (х (0, 0) системы возникает из некоторого слабого управления р(0 из й(х(0, 0; более того, обоим управлениям соответствует одно и то же значение критерия качества.
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 301 Поэтому оптимальное слабое управление p*(Z) мз 0 определяет классическое оптимальное управление и* (t) системы принадлежащее слабому ограничивающему множеству Н(£1(х, /)). Доказательство. Соответствие р(/)—»«(/) вытекает непо- средственно из свойства линейности системы и из того, что подынтегральное выражение критерия качества зависит от и._Для того чтобы определить р(0. соответствующее заданному u(t), поступим так же, как и при доказательстве теоремы 5; так как выражения для С (и) и С (р) идентичны, то следствие доказано. Это следствие показывает, что для линейных систем переход от множества й к множеству Н (Й) эквивалентен введению в Й слабых управлений р. Ниже мы продолжим изучение таких управлений, но сначала целесообразно показать, что такие обоб- щения вовсе не обязательны для линейных систем обычного типа. Мы получим теорему существования для оптимальных управ- лений без всяких предположений о выпуклости, и без ослабления понятия множества допустимых управлений. Управление входит в систему нелинейно, однако основные динамические характери- стики входят в нее линейно. Поэтому можно использовать то свойство выпуклости, которое следует из результатов Ляпунова о. выпуклости области значений векторной меры. Эти сведения из теории меры можно найти в приложении к главе 2 (лемма 4А), а также в некоторых упражнениях после этого раздела. Теорема 6. Рассмотрим систему в Rn (<^) x=A(t)x + B(t, и), где A(f) и B(t, и)—непрерывные матрицы в R1+m. Исходные дан- ные таковы: 1) начальное и целевое множества XB(t) и Xr(t)—непусты, компактны, непрерывно зависят от t в R", при t из некоторого заданного компактного интервала т0^^^тх; 2) ограничивающее множество Й(/) есть непустое компактное множество, непрерывно меняющееся в Rm, при 3) заданы интегральные ограничения на состояние системы G t, u(t))dt^O, ..., \hr(t,u(t))dt^O и t, (множество этих ограничений конечно или пусто), где h1, .... hr — действительные непрерывные функции из R1+m; 4) семейство^ gF допустимых управлений состоит из всех изме- римых функций и (t) на различных подынтервалах t0 t tr в 1то» Ti], таких, что каждому управлению соответствует траек- тория х (t) на интервале t9 t tv переводящая систему из со-
302 ПРИНЦИП МАКСИМУМА гл. 4 стояния x(t0)^X0(t0) в причем выполняются как ограничения на управление u(t)c Q(t) на интервале так и интегральные ограничения 3); 5) критерий качества, определенный для u^F, имеет вид с (и) = g (X (/J) 4- $ Л® (t) X (0+В» (t, и (0) dt, ^0 где g(x), Л® (t), В®(/, и) непрерывны при всех (х, t, и). Предположим, что множество & допустимых управлений не- пусто. Тогда существует оптимальное управление u*(t) из ¥, на интервале минимизирующее С (и). Доказательство. Дополнив систему Pf, получим систему х® = Л® (Ох4-0°(О, (<SZ) х— A(t)x-\-v(t), x* = va(t) а=1,2, ...,г и рассмотрим семейство всех измеримых управлений * v(t) = (xP(t), v(t), v'(t)) на интервале с соответствующими решениями x(£) = (x®(Z), x{t), xa(t)) в R1+n+r, переводящих систему из состоя» ния Хо (Q = (0, Хо (/„), 0) в состояние Хг (/х) = (х®, Xt (/х), х“ (^)), причем Xе (Q > 0, а управление и (/) удовлетворяет ослабленному ограничению v (/) с Н(£1 (/)), где Q (/) = В® (t, □ (0) XВ (t, Q (0)хЛ1 (/, Q (0)X... Xhr (t, Q (0). Заметим, что множество & непусто, так как о® (0 == В® (/, и (0), о (t) = В (t, и (t)), о* (0 = hr (t, и (0), где iz(0C<F обозначает допустимое дополненное управление. Из свойства линейности системы по х следует существование рав- номерной оценки |х(0 для всех решений. Поскольку система линейна по отношению к управлениям v, а Н (Q (/)) — непрерыв- ное выпуклое множество в R1+m+r, то можно непосредственно применить теорему 4 и доказать существование оптимального управления о*(/) на интервале минимизирующего функционал g (х (/х)) + х® (/J. Пусть оптимальная траектория будет j? (iJ) = (х®* (/), х*(/), х“*(0) (to^.t^.ti). Тогда множество достижимости XH(^y (t) в R1+n+r, состоящее из решений, исходящих из х*(^), пересекается с мно- жеством Xx (/) (компактным при | х® | < Ь, | х“ | «С 6) в момент t — t*,
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 303 так что действительная функция g(x) + x° достигает при этом ми- нимума. Но теорема 1А из приложения к главе 2 утверждает, что Kg (0 [обобщение этой теоремы не случай, когда множество Й (/) зависит от t, дается в качестве упражнения]. Итак, существует управление о* (t) a й (/) на интервале < t < tv ко- торое также доставляет минимум критерию качества. Однако из леммы ЗА того же приложения, также обобщенной на случай, когда* Й(/) зависит от t,—следует существование до- пустимого управления и* (/) из & на интервале /£ t t*, такого, что = u*(0), v*(O = B(f, «*(/)), оа*(0 = А’(^. Таким образом, u*(i) доставляет то же самое минимальное значение критерию качества С (и*) = g (х*(/?))+х°* (t*). По- скольку каждое допустимое управление и (/) аГ определяет неко- торое расширенное управление v то С(и)^С(и*), и u*(t) является искомым оптимальным управлением. Теорема доказана. Здесь следует повторить обычные замечания относительно су- ществования оптимальных управлений при предположениях тео- ремы 6, с фиксированным начальным моментом времени /J или на фиксированном подынтервале из интервала [т0, Tt]. Заметим, что основная идея теоремы 6 [для линейных систем множество й заменяется его расширением Н (й) и, кроме того, вводятся слабые управления р, в й] нисколько не облегчает дело по сравнению с применением обычных классических управлений Рассмотрим теперь теорему существования оптимальных управ- лений для нелинейных систем при различных других обобщениях понятия управления, в частности, при импульсных управлениях. Траектория системы будет тогда определяться как решение неко- торого интегрального уравнения, и может не быть непрерывной, а иметь скачки, соответствующие импульсам управления. Поэтому описание таких систем потребует особой аккуратности. Пусть вектор-функция u(f) со значениями из R” определена на некотором интервале 3 из R1. Определим ее полную вариацию, k var и (0 = sup£ | и (t'l+1)—u (ф |, /=о где < ^ <...</* < ^+1— произвольное конечное подмножество из 3, а супремум берется по всевозможным таким конечным набо- рам точек. Вектор-функция u(t) имеет ограниченную вариацию в 3, если varu(Z) < оо, а это будет тогда и только тогда, когда каж- дая ее компонента u(t) имеет ограниченную вариацию в 3. Если
304 ПРИНЦИП МАКСИМУМА гл. 4 интервал 3 компактен, и функция u(t) непрерывна и удовлетво- ряет условию Липшица на‘Я, то очевидно, что varu(t) < оо. Однако функция u(t) ограниченной вариации может иметь’ конеч- ное число разрывов первого рода. Такие функции мы всегда будем доопределять (на конечном множестве точек), чтобы [они* были непрерывными справа на открытом интервале 3. Если функция и (t) имеет ограниченную вариацию на’открытом интервале 3, то ей можно сопоставить векторную меру* Du] как (обобщенную) производную от u(t), полагая для каждого подын- тервала t'f < t t'j+i яз 3 Du(t'h /;+11 = «(/)+1)—м(^), и продолжая ее затем на всех лебеговых подмножествах интер- вала 3 обычным образом так, чтобы полученная мера была счетно аддитивной. Каждая (векторная) мера на 3 порождается некото- рой функцией ограниченной вариации, и две такие функции дают одну и ту же меру лишь в том случае, если они отличаются на постоянную. Если, кроме того, функция и (/) непрерывна, то мера Du приписывает нулевой вес каждой точке в 3\ если же u (t) имеет скачок в V, то Du [Г] =u(/')—и(Г—) = 3 (и (t’)). Таким образом, ^Du есть обычный интеграл Римана — Стилтьеса. 3 В частности, в случае п = 1 и _ ( 0 при — оо < t < О, и ()= ( 1 при О t < оо. Du представляет собой 6-функцию, или, точнее, Du есть мера, при- писывающая вес +1 каждому измеримому множеству, содержаще- му точку / = 0, и вес 0 множествам, не содержащим этой точки. Пусть функция u(t) имеет ограниченную вариацию на откры- том интервале 3 из R1. Тогда мы можем рассматривать меру Du на любом подмножестве 3. В частности, норма Du на компактном интервале /0 t в 3 определяется так: ||Du||=J|Du| = p(u(/0))| + var u(t). Рассмотрим теперь обобщенную, или импульсную дифференциаль- ную систему в Rn Dx = f(x, t, u) + e(t) Du, где вектор-функция и (I) имеет ограниченную вариацию на откры- том интервале 3, а функции f (х, t, и) и e(f) всюду принадлежат С1.
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 305 Тогда решение x(t), проходящее через х0 в момент t0£3, есть некоторая функция ограниченной вариации в открытой окрестно- сти точки i = t0 (и непрерывная справа в /0), удовлетворяющая интегральному уравнению t t x(t) =x0+$f(x(s), s, u(s))ds+\e(s)Du, t, t, где интеграл понимается в смысле Римана — Стилтьеса. Заметим, что x(t0 и начальное значение принимается именно в этом смысле. Теорема существования и единственности решения для этого интегрального уравнения может быть доказана методом последовательных при- ближений, так же как и теорема о непрерывной зависимости ре- шения от начальных условий. Управлением для импульсной системы Dx = f(x, t, u) + e(t)Du на компактном интервале будет функция ограниченной вариации ы(/)в некоторой открытой окрестности 3 интервала |70, fx], определяющая, следовательно, траекторию x(t), по которой система переходит из начального состояния х(/0—) = х0 в заданную цель х(/т). Заметим, что норма соответствующей меры Du зависит, так же как и полная вариация функции u(t) на интервале от скачка J (и (/„)). Заметим также, что интервал t0 t может быть вырожденным, т. е. состоять из одной точки / = /0; следую- ющий ниже пример иллюстрирует именно такой случай мгновенного скачка системы в целевую точку. Пр имер. Рассмотрим импульсную систему в R1'. Dx — u-{-Du, со скалярными управлениями u(t), обладающими ограниченной вариацией в некоторой окрестности интервала 0^7^^. Мы хо- тим перевести систему из точки х0 = — 2 в точку хх = 0 с помощью управлений, удовлетворяющих ограничениям | и (/) | 1, || Du || 1, fl минимизируя критерий качества С (и) = J | и (/) | dt. Легко видеть, что управление */А f °’ —00 < ^ < 0» “ ( 1, = 1 с соответствующим решением
306 ПРИНЦИП МАКСИМУМА гл. 4 переводит систему из точки х0 в точку за минимально возмож- ное время /i = 1, поскольку при управлении и (/)==+1 решение обладает максимально возможной скоростью, и это сочетается здесь с максимально возможным положительным скачком. Таким образом, управление и* (t) доставляет также минимум критерию качества 1 С(«*)=$|м*(0|Л=1, о так как x(f) = u в интервалах между скачками u(t), и с помощью скачков мы приблизились к точке х0 =—2 как только возможно. Итак, оптимальное управление получается наложением импульса в виде 6-функции при t = 0 на управление и = 1. Ослабим теперь ограничения на управление до | и (t) | 2, || Du || 2. Оптимальное управление 0, —оо < t < 0, так что и+ (0 = x+i(0 = 2, — 2, —оо < t < 0, 0, / = 0. Тогда минимальное время fx = 0, и минимум критерия качества С (и+) = 0. Если бы не допускать таких скачков из точки х0 = — 2 в точку Xj = 0, то оптимального управления вовсе не существовало бы. Конечно, всегда можно аппроксимировать импульсное управление и* (/) с помощью гладкого управления и (/) из С1, с соответствую- щим гладким [решением х(/)=§ [ и (0 + и (£)] dt, причем значение о критерия качества также будет приближаться к минимуму. Чем круче будет функция и (/) на все меньшем интервале 0 t tlt т. е. чем ближе она будет к 6-функции и+ (/), тем ближе С (и) к нулю. Однако нулевое значение не будет достигнуто ни при каком гладком управлении; для этого необходимо введение им- пульсного управления. Теорема 7. Рассмотрим импульсную управляемую систему в R”: Dx = f(x, t, u)-\-e(t) Du, где f(x, t, u) принадлежит С1 в Rn+*+m, Исходные данные таковы: 1) начальное и целевое множества Хо(/) и (t) суть непустые, компактные множества, непрерывно меняющиеся eR" с изменением t, когда t принадлежит основному интервалу т0 t тг;
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 307 2) ограничивающее множество Q(x, t) есть непустое компакт- ное множество в Rm, непрерывно зависящее от точки (х, t) в К"х[т0, т,]; 3) существуют ограничения на состояние (в конечном или бес- конечном числе) № (х, t, u)^0, hr(x, t, ы)^0, непрерывные в Rn+i+m (возможно, множество этих ограничений пусто)', 4) семейство S допустимых управлений состоит из функций ограниченной вариации u(t) на различных подынтервалах t0 < t tx интервала [в действительности вектор-функция u(t) имеет ограниченную вариацию в открытой окрестности, не- прерывна справа вместе с соответствующим решением x(t) и порожденной им мерой Du]. Далее, функция u(t) на интервале (/0—удовлетворяет ограничениям и (t)<zQ(x(t), t), №(х(Г), t, u(0)>0, hr(x(t), t, u(t))^O и ||Du||<E для заданного конечного E^O. Траектория же х (t) переводит систему из точки х (tc,—) ^X0(t„) в точку x(t^^.Xx(t^. 5) Критерий качества, определенный на управлениях u(t) (tQ t из семейства S имеет вид с (и) = g (х (Q, и (t J) + $ (X (t), t, U (t)) dt + + $ g°(OD“+T(sup|x(O|> IP" II). где функции g, f°, у непрерывны no всем действительным аргументам, а функция у монотонно не возрастает по каждому из аргументов. Предположим, что: (а) семейство управлений S непусто; (в) существует равномерная оценка |x(f)|^b на интервале (to—) t для решений, соответствующих всем управлениям usS. Тогда существует оптимальное управление и* (t) из семейства S на интервале to^t^t*, минимизирующее функционал С (и). Доказательство. Пусть имеется последовательность управ- ления uk(t) с соответствующими решениями xk(t), k=\, 2, 3,... (f* t q). такая, что ^0 * to, ti- и соответствующая последовательность С (ик) монотонно стремится к нижней грани своих значений. Для удобства положим uk (!) = uk (tko—) для t < t* и uk (t) = uk (Ц) для t > Ц,
308 ПРИНЦИП МАКСИМУМА гл. 4 и рассмотрим решение xk(t), соответствующее этому управлению в’’некоторой окрестности интервала + е > 0. Выберем достаточно малое 8 > 0. Тогда для всех достаточно боль- ших k решения xk(t) будут определены и равномерно ограничены на интервале —2s < t < -J- 2е. Поскольку функция | ик (t) | + var ик (t) равномерно ограничена на интервале £—е^Х/й^-г-е, то по теореме Асколи существует подпоследовательность [назовем ее снова и4(0], сходящаяся в каж- дой точке к предельной функции и* (/) ограниченной вариации. Сделаем функцию и* (t) непрерывной справа на t‘n— (изменив ее значения на счетном множестве точек, не включаю- щем концы интервала), и пусть х* (t)—соответствующее решение уравнения t t x*(/)=x*(/J—в)-)- J f(x(s), s, u*(s))d$ + J e(s)Du*, где хл(/;—8}—>x*(/J—в). Заключаем также, что varи*liminfvarик при /;—8</^/J4-8 » k ч 00 и, следовательно, ||Du*|KE при Поскольку функ- ции xk(f) имеют равномерно ограниченную вариацию, то состав- ленная из них подпоследовательность [вновь обозначаемая хА(/)] сходится и, используя теорему Лебега о сходимости, а также тео- рему Хелли—Брея* 1), получим limxA(f)=x*(/) при + £->оо исключая точки разрыва и* (/). Поэтому решение х* (t) определено нанесем интервале —8^f^/J4-8. Легко проверить, что limx*(f?—)=х*(Г0—) и управление и*(/) удовлетворяет всем ограничениям, наклады- ваемым на допустимые управления из F. х) Теорема (Хелли—Брей). Если { ап } есть последовательность функций равномерно ограниченной вариации на отрезке [0,1] и если существует функ- ция а ограниченной вариации на [0,1] такая, что ап(х)—чх(х), где х при- надлежит некоторому всюду плотному подмножеству отрезка [0,1], содержа- щему 0 и 1, то 1 1 J f (s) а„ (ds) -> J f (s) a (ds), f [0,1J. о о (Прим, ред.)
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 309 Из теоремы Хелли — Брея следует, что 4 + е + E lim $ g°(s)Du* = J g°(s)Du*. *-• Поскольку sup I x* (о I < lim inf (sup | xk (t) |), k -► co и || Du* |K lim inf || Du* ||, k -► 00 TO C(u*)—>C(u*). Итак, u* (0 (/J < t < tl) и есть искомое оптимальное управление. Теорема доказана. Следствие 1. Рассмотрим линейную импульсную систему в R": (J?) Dx=A(t)x+B(t)u+e(t)Du, где A(t), B(t), и e(t) непрерывны в R1. Предположим, что выпол- нены условия теоремы 1)—5) и пункта (а). Тогда необходимо су- ществует равномерная граница [см. (в)], и оптимальное управле- ние и*(t) на интервале существует. Следствие 2. Рассмотрим нелинейную систему в R": (<Ю x=f(x, t, и) т. е. частный случай теоремы при e(t)==O. Предположим, что выполняются условия 1)—5), включая ограничение || Du |К£» а также условия (а) и (в), а критерий качества С (и) остался без изменений. Тогда в & существует оптимальное управление и* (/) на /|К t*- Разумеется, и здесь верны обычные замечания о существовании оптимального управления в подсемействе eF для фиксированного начального момента, или фиксированной длины интервала. Упражнения 1. Обобщить теорему 4 на системы в Rn: (<ff) i=f(x, t, и), где функция f(x, t, и) кусочно-непрерывна по t на интервале r0«C/sCTi, т. е. существует конечное разбиение т0==а0 < Oi < о2 < ... < такое, что на каждом замкнутом интервале az</<oz+1 функции f (х, t, и) и ~ (х, t, и) непрерывны в ₽wX[o/, а/+1]Х₽т. Остальные условия остаются такими же, как в теореме 4. 2. Обобщить следствие 2 из теоремы 4 на системы в (<Л х = А (х, 0 + B(x, t)u
310 ПРИНЦИП МАКСИМУМА гл. 4 с критерием качества С(«)=«г(х(4))+иЛо(х(П. t)+h«(t, u(0)]d/ + esssup Y(x(/), «(0), to t -С где функция Л° (/, и) непрерывна по (/, и) и выпукла по и при каждом фи- ксированном t. Предполагается, что ограничивающее множество Q (х, t) ком- пактно и выпукло при всех (х, t) и непрерывно зависит от этих аргументов. Все остальные условия такие же, как и в следствии. 3. Рассмотрим управляемую систему в Rn: x=f(x, t, и), f^C1 в /?«+!+« с начальным состоянием х0 в момент tQ и заданным целевым множеством G. Допустимыми управлениями являются абсолютно непрерывные функции и(1) на интервалах tQ «С t < t± с ограничениями | и (t) | «С 1, | и (/) | «С 1. Показать, что замена обозначений приводит к задаче с ограниченными фазовыми коорди- натами , где допустимыми являются измеримые управления. 4. В задаче Больца из вариационного исчисления рассматривается минимум *8 интеграла С — J f° (z, t, z) dt на всех абсолютно непрерывных кривых z (t)cRn, G соединяющих две точки z0 и и удовлетворяющих дифференциальному урав- нению 1 z=w(z, t). Вводя новые обозначения, свести эту задачу к стандартной задаче оптималь- ного управления. 5. Обобщить результаты лемм 1А, 2А, ЗА и теоремы 1А из приложения к главе 2 на случай, когда Q(t) есть компактное множество, непрерывно зависящее от времени. 6. Рассмотрим управляемую систему в Rn: (<£?) x=f(xt t, w), f^C1 в Rn+i+n, с компактным (невыпуклым) ограничивающим множеством Допусти- мыми управлениями являются все непрерывные, удовлетворяющие условию Липшица функции u(t)aQ на интервале т. е. такие, что с заданной постоянной k. Сформулировать и доказать теорему существования оптимального управления для таких систем. 7. Пусть U (х, /) — непустое выпуклое компактное множество из Rn, непрерывно зависящее от (х, t) ^tRnXR1, Пусть x^Rn—начальное состояние в момент /0; доказать существование решений дифференциального включения х^Щх, 0 с начальным условием х(/0) = х0. Пусть > /0 таково, что каждое решение дифференциального включе- ния, с началом в х0 в момент /0, существует на интервале (до- казать существование /х). Тогда множество К (х0, ?i) достижимости ком- пактно. 8. Рассмотрим управляемую систему в Rn: (^) i=A(xtt) + B(Xfi)ut А, В в Rn+l+m
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 311 с начальным состоянием xQ в момент /0. Предположим, что ограничивающее множество Q замкнуто и выпукло в Rm и пусть допустимыми управлениями и (t) на интервале /0 < * < h являются и (0 <z О, которые удовлетворяют неравенству J | и (t) |Р dt 1 для заданного р > 1. Предположим также, что ^8 каждому допустимому управлению соответствует равномерно ограниченное решение х(0, т. е. | х (0 | «Сb при Сформулировать и доказать теорему существования оптимального управления и* (t) на интервале переводящего систему из точки х0 в некоторую точку компактного множества Х19 и минимизирующего критерий качества t С (и) =5 [До (х, 0 + В0 (х, 0 и] dt. [Указание:] пусть uk (t)—такая последовательность допустимых управ- лений, что соответствующая последовательность С (и^) стремится к нижней границе значений критерия качества, и uk —> и* слабо в Lp. Выберем из нее подпоследовательность так, чтобы решения xk (t) слабо сходились бы к неко- торой функции х* (0. Показать, что lim х*(0 = х*(0 в каждой точке t из k -> 00 интервала t^^t^t^ Неравенство Гёльдера показывает, что управлению и* (0 соответствует некоторое решение х* (0 и что С (и*) = lim С (ы$).] k -+• со 9. Рассмотрим импульсную систему в Rn: (Я) Dx=A(t)x+B(t)Du, где А (0 и В (0—непрерывные матрицы в Z?1. Требуется перевести систему из состояния х0 в момент то = О в состояние Xi в момент тх=1 с помощью m-мерного управления и (0 g $р (1 <р<. оо) с минимальной нормой II«\\v,p = STVpU = &^ 2 I« (ti) —и |r z=i Здесь сильная полная вариация вычисляется по всем конечным разбиениям / т X 1 0 = 0 < 0 < ... < 0=1 и |«|JP=( 2 \“*\р ]р \i=l J при 1 sC Р < оо, | и 1^ = шах | и* |; следовательно, она будет конечной тогда и 1 < i < т только тогда, когда и (0 есть функция ограниченной вариации на интервале Банахово пространство ^состоит из всех функций и(0 на интер- вале обладающих конечной сильной р-вариацией, таких, что ц(0) = 0, так что функции и (0 непрерывны справа на интервале 0< t < 1. Каждая функция из $р определяет меру Лебега — Стилтьеса Dm на О «С t «С 1 (как в теореме 7), а пространство *$р является дуальным пространством по отношению к q -|~=1 и &>q состоит из всех непрерывных т-мерных векторов р(0 на интервале с нормой || р||ю ^= sup | у (0^; действие О'С t'C 1 1 Sjp на &q вычисляется но формуле J у (t) Du . о
312 ПРИНЦИП МАКСИМУМА гл. 4 Доказать, что если существует хотя бы одно допустимое управление из переводящее систему из точки х0 в точку хх, то существует оптимальное управление и* (t) с минимальной нормой в [Указание: использовать слабую компактность замкнутой единичной сферы в & р и далее—как обычно.] 10. Рассмотрим импульсную управляемую систему в Rn\ (#*) Dx=f(x, t, u) + e(t)Du, где функции f (х, t, и) и е (/^принадлежат С1 в Пусть управление и (/) имеет ограниченную вариацию и является непрерывной справа функцией в открытой окрестности точки t = t0. Доказать, что имеется единственное (локальное) решение x(t, х0), такое, что х(/0—) = я0. Показать, что решение x(t9 Xq) непрерывно по х0 при каждом фиксированном /. 11. Рассмотрим управляемую систему в Rn: (&) х=А(х) + В(х)и, где матрицы А (х), В (х) принадлежат С1 в Rn, и А (0) = 0. Начальное состо- яние хо#Ов момент /о = О, а Ц^ь—начало координат *1 = 0. Предположим, что существует измеримое управление и (/) на интервале 0«С/аСТ, перево- дящее систему из точки х0 веточку хх и удовлетворяющее ограничению: и (/) с Й- : max | и11 =Сс, где с некоторая положительная постоянная. Предположим также, что семей- ство решений, соответствующих управлениям и (t) с Й- на интервале 0«С/^Т, является равномерно ограниченным. (а) Показать, что на заданном интервале 0^/^Т существует оптималь- ное управление и* (/), переводящее систему из точки х0 в точку х± и миними- зирующее критерий качества: С(и)= ess sup |wz(/)|. l<z<m [Указание: пусть Kc (Т)—множество достижимости, соответствующее начальной точке х0, при управлениях из й^,. Показать, что КС(Т) — компакт- ное множество, непрерывно расширяющееся монотонно с ростом с на интервале Затем рассмотреть с* —наименьшее из всех с, для которых xi С Kc(T)t а соответствующее управление и* (/) таково, что С(и*) = с*.] (в) Предположим, что система & обладает свойством управляемости в начале координат, т. е. rank [В, ЛВ, Л2В, . .., Л«“1В] = л, дА где В = В(0) и Л = -^-(0) (подробнее см. главу 6). Рассмотрим теперь множество всех измеримых управлений и (/) £ йс* на различных интервалах 0«С/«С/х, переводящих систему из точки х0 в точку хх. Показать, что ука- занное выше управление и* (/) на интервале 0 t «С Т является минимальным по быстродействию (для заданного ограничивающего множества Йс„). [У к а- з а н и е: предположим, что управление и (/) из Йс* на интервале 0 «С t «С Т — —е(е > 0) переводит систему из состояния х0 в состояние хг. Тогда можно равномерно аппроксимировать управление й (t) некоторым управлением и (/) на интервале 0аС/«сТ—е, переводящим систему из точки^х0 веточку хх, лежа- щую в некоторой окрестности точки хх = 0, причем исйсМ для малого д > 0. Тогда из условия управляемости следует, что некоторое управление, получающееся из управления и (t) продолжением на интервал 0 «С / «С Г —~
4.3 УПРАВЛЕНИЕ ВЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 313 и принадлежащее множеству будет переводить систему из точки xQ в точку Х! = 0.] 12. В задаче 11 предположим, что матрица В(х) всюду имеет ранг л. Показать, что тогда множество КС1(Т) лежит внутри множества KCi(T) для О < ci < [Указание: использовать принцип максимума.] 13. Рассмотрим управляемую систему в Rn: W) x=f(xt и). с критерием качества С (u) = J f0(x, u)dt. о Здесь функции f (х, и) и /° (х, ц)^0 принадлежат С1 в и f (0, 0) = 0. Для каждого начального состояния х0 при /о = 0 допустимыми управлениями и (t) на интервале 0 t < оо будут такие управления, для которых значение критерия качества конечно, а х(оо) = 0. Предположим, что существуют функции и (х) и и* (х) из С1 вблизи начала координат в Rn, такие, что: (a) v (х) > 0 при х # О, v (0) = 0; (в) -|^-(x)f(x, w) + f°(*> причем равенство достигается при и = и* (х). Тогда для каждой точки х0, лежащей вблизи начала координат, решение х* (/), определяемое из системы X = f (х, и* (х)), х (0)=х0, является оптимальным, а управление и (t) = и* (х* (/)) также оптимально (если х* (/) и и* (t) определены на интервале 0 «С / < оо с С (и*) < оо и х*(оо) = 0). 4.3. Существование оптимального управления без дополнительных ограничений В этом разделе мы рассмотрим три задачи управления, в ко- торых величина оптимального управления не ограничена. Первая задача является непосредственным обобщением теорем существо- вания главы 3 на нелинейные системы. Две другие задачи каса- ются применения управлений с обратной связью к нелинейным системам. Рассмотрим нелинейную систему в Rn: (<у) х = А(х, t) + B(x, t)u, с критерием качества т С(и)=$[Л«(х, /) + В®(и, t)]dt. о Мы будем предполагать, что Л® (х, t) 0 и В® (и, t) а | и? | для некоторых постоянных а> 0, р> 1. Тогда допустимыми управле- ниями будут все m-мерные вектор-функции «(/) из класса Lp на
314 ПРИНЦИП МАКСИМУМА гл. 4 заданном конечном интервале такие, что соответству- ющие им решения x(t), исходящие из точки х0, определены на всем интервале O^t^T, а значение критерия качества С (и) конечно. В силу неравенства Гёльдера г /г \ О Х0.1 / к у каждое допустимое управление и (t) принадлежит Lx на 0 sgC t Tf т. е. т IIм 111 = $ I «(О № <00- о Теорема 8. Рассмотрим систему в R": (tf) х = А(х, t) + B(x, t)u с критерием качества С (и) = 5 [ Л« (х, 0 + В° («/?)] dt, о где А, А0, В, В°, дА/дх, дВ/дх непрерывны при всех х С Rn> u£Rm и t^R1. Предположим, что (а) А*(х, /)>0; (в) В°(ы, для постоянных а>0, р> 1; (с) В°(и, t) выпукло по и при любом фиксированном t. Допустимыми являются все управления и (t) из Lp на заданном конечном интервале 0 t Т, которые вместе с соответствующим решением x(t), исходящим из точки х0, доставляют критерию качества конечное значение. Предположим также, что (d) |x(Z) I Р (|| и ||х), где граница Р монотонно возрастает вместе с<|| «|к- Тогда существует оптимальное управление и* (t), минимизи- рующее критерий качества. Доказательство. Заметим, что каждому ограниченному измеримому управлению и (t) на интервале 0 t Т соответствует решение x(t), ограниченное величиной р(||щ||) на и значит, и (0 является допустимым управлением. Поскольку С(м)^О, то существует неотрицательная нижняя грань т значе- ний С (и). Пусть uik'(t)—последовательность допустимых управ- лений, таких, [что соответствующая последовательность C(«(ft)) монотонно стремится к пределу т. Заметим, что С(и'«)<т+1 и, значит, т а $ |и‘*>|/’<#!С/и-|-1 о
4.3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 315 для больших k. Поэтому можно выбрать подпоследовательность [также обозначаемую которая слабо сходилась бы к пре- делу м*(0 из Lf(0, Т) и такую, что О Далее || и1® ||х гдеу+у=1, поэтому все реше- ния равномерно ограничены: Убедимся теперь, что равномерно ограниченное семейство функций х(/г) (/) будет также равностепенно непрерывным на интервале Для любых двух моментов времени и t2 имеем it I **> (tj—x™ (/,) I c $ M (*“’(s). S) | +1В (x<« (s), s) 11 «<*>(s) I ds. Таким образом, существует постоянная с > 0 (не зависящая от k), для которой /«» \»/р | &)-*<*> W | <с | G -t,1+c(J | ««> (з) pdsj | ta -ft1 W и I x<*> (tj-x*' (QI < с I t.-t, l+c (£±1)l/P I ta-1, |M?. Из теоремы Асколи следует, что можно выбрать подпоследо- вательность, также обозначаемую x(W(<), так, что lim (t)=x(t) k -> 00 при каждом t из интервала Покажем теперь, что x(t) есть решение, соответствующее «*(/). Запишем t x(0 = *o+lim J[4(x«>(s), s) + B(x<*> (s), s)«<»(s)]ds. k *♦ « 0 Пользуясь предельными соотношениями т lim J | A (x‘« (s), s)-A (x(s), s) |ds=O, ft -► co о t lim jB(x(s), s)[u<*>(s)—u*(s)lds = O, ft -► 00 Q
316 ПРИНЦИП МАКСИМУМА гл. 4 а также соотношением lim B(x^(t), t) = B(x(t), О, k -* 00 выполняющимся равномерно, вне некоторого множества S произ- вольно малой меры, и неравенством (Г к о / можно доказать, что т lim J\B(x{k}(s), s)—B(x(s), s)11 u<*>(s)|ds = O. k -* ® Q Отсюда следует, что t *(0=*o+$ M(x(s), s)-|-B(x(s), s)a*(s)]ds, о t. e. x(t) есть решение, соответствующее управлению u*(t) на интервале Из выпуклости В®(u, t) в силу теоремы 8 главы Э следует, что С(и*)^. lim C(u(ft))=/n. k -► 00 Следовательно, С(ы*) = /п и u*(t) есть оптимальное управление. Теорема доказана. Следующие две задачи посвящены использованию управлений с обратной связью и — и(х) в нелинейных системах в Rn. Мы уже встречали управления с обратной связью раньше, при синтезе оптимальных управлений в виде разомкнутой цепи. Здесь же мы будем отыскивать непосредственно управления с обратной связью, причем обозначения по сравнению с использованными в теореме 7 главы 3 несколько изменятся. Обратимся сначала к задаче стабилизации нелинейной систе- мы в Rtt, (<£0 x=f(x, u) = f (x, и(х)), с помощью линейных управлений u(x) — Fx, где матрица обрат- ной связи F выбрана так, чтобы оптимизировать степень убывания решений вблизи начала координат. Уточним постановку этой задачи, введя понятия обобщенной характеристической экспоненты и критического демпфирования, как указано ниже. Рассмотрим автономную систему дифференциальных уравнений класса С1 в /?": (^i) x=g(x),
4.3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 317 где g(0) = 0, и обозначим матрицу -^(О) через G. Если посто- янная матрица G устойчива (т. е. все ее собственные значения имеют отрицательные действительные части, так что max Re A, [G] <0), то нелинейная система устойчива в окрестности начала коорди- нат. (Для каждой окрестности начала координат найдется такая меньшая окрестность что каждое решение, исходящее из А\, навсегда остается внутри Если G имеет хотя бы одно собственное значение с положительной действительной частью, то нелинейная система не будет устойчивой в окрестности начала координат. (Все эти сведения об устойчивости излагаются в главе 6 и содержатся также в учебниках по обыкновенным дифференци- альным уравнениям.) Если G—устойчивая матрица, то можно показать, что суще- ствует окрестность N начала координат, такая, что каждое’решение х (t) ^0, исходящее из N, навсегда остается в N, и lim х (0 = 0. t -* +<ю Более точное исследование предельного поведения решения x\(t) показывает, что > 1 log I х (t) | , lim sup 61. 1 = p. t -» «0 1 Величина p в этом равенстве не зависит от выбора N, а также от выбора нормы в Rn; она называется обобщенной характеристи- ческой экспонентой системы Известно, что обобщенные характе- ристические экспоненты системы совпадают с действительными частями собственных значений матрицы G. Пусть G и G—устойчивые матрицы с собственными значениями {Xv ... , и {Хх, ... , Х„}, соответственно расположенными в порядке возрастания действительных частей ‘ReХг < ReXj < ... < ReX„ < О и Rel^ReXjS^ ... <ReX„<0. Мы скажем, что G < G, т. е. матрица G более устойчива, чем мат- рица G, если ReX„ <с ReXn или ReX„ = ReX„ и ReX„_x < ReX„_x или ReX„ = ReX„, ... , ReX/=Re%y и ReXy_x < ReAy_1 для некоторого / (1 </<п). Будем писать также, что G=^G в случае, когда либо G <G, либо собственные значения матриц G и G имеют одинаковые действительные части.
318 ПРИНЦИП МАКСИМУМА гл. 4 Дадим теперь определение критического демпфирования системы дифференциальных уравнений, используя рассмотренные понятия. Определение. Рассмотрим автономную систему в Rn: (&) x = f(x, и), где вектор-функция f (х, и) принадлежит С1 в окрестности начала координат в Rn+m, и f(0, 0) = 0, fx(0, 0) = Л, /и(0, 0) = В. Пусть аГ—некоторое подмножество пространства всех дей- ствительных (/пхп)-матриц. Матрица F* £ определяет крити- ческое демпфирование для системы Ff с обратной связью в <F, в случае, если матрица (Л-|-ВВ*) устойчива, и (Л-f-BT7*) =<! (Л + ВВ) для всех F£oF. Тогда u = F*x есть оптимальное управление, осу- ществляющее критическое демпфирование для системы в Замечание. Для того чтобы существовало критическое демп- фирование для системы необходимо, чтобы систему (<$В) x=f(x, и) = Ах+Ви+ ... можно было стабилизировать управлением u = Fx с обратной связью, ^де F^aF, т. е. матрица A + BF должна быть устойчивой. Если система (Л, В) обладает свойством управляемости, и если oF =а^тп, то система всегда может быть стабилизирована; однако критического демпфирования для нее не существует. Это следует из изложенного в главе 2 исследования управляемых линейных систем, где показано, что матрица (A-F-BF) может иметь произ- вольные действительные собственные значения. Теорема 9. Рассмотрим автономную систему в Rn: (е?) x = f(x, и), где вектор-функция f(x, и) принадлежит С1 вблизи начала коор- динат в Rn+m, и f(0, 0) = 0, fx(Q, 0) = Л, /о(0, 0) = В. Пусть qF есть некоторое подмножество пространства аЛтп дейст- вительных (тхп)-матриц. Предположим, что матрица (Л+BF0) устойчива при некотором FQ С аВ- Если при этом либо 1) множество компактно, либо 2) lim inf {max Re А [Л 4-ВВ]} ^>0 в том смысле, что для каж- F -+ оо дого действительного 8 > 0 найдется компактное подмножество eFtcz of такое, что любая матрица А 4- BF, не принадлежащая имеет собственное значение с действительной частью, боль- шей, чем —8, то существует оптимальное управление u=F*x, осуществляющее критическое демпфирование системы.
4.3 УПРАВЛЕНИВ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 319 Доказательство. Рассмотрим сначала некоторое компакт- ное подмножество S' пространства <$>тп (топологически совпада- ющего с R®"). Так как собственные значения матрицы F непрерывно зависят^от F, то существует матрица F^S, минимизирующая выражение max ReX [A-f-BF] и, в частности, такая, что max Re X [А 4- BFX] max Re A [ А 4- BF0] < 0. Пусть Sr1—такое компактное подмножество S, что на нем max Re % [ А 4- BF] = max Re К [Я 4- BFX]. Пусть матрица Ft € <FX минимизирует выражение ReX„_x [A4-BF] на eFx. Пусть —компактное подмножество в на котором Re Х„ [ А 4- BF] = Re Х„ [ А 4- BFX] и Re Х„_х [А 4- BP] = Re Vi [Л + BF2] (имеется ввиду, что ReXx< ReX2< ... <ReX„). Действуя таким образом, получим цепочку компактных множеств Sn с eFB_x с ... <= еГ2 с dFx с S таких, что каждая матрица F*^S„ осуществляет критическое демпфирование. Пусть теперь S—некомпактное подмножество из <Мтп, удовлетворяющее условию (2). Тогда max Re X [А 4-BF] > у max ReX [А 4-BF0] для всех F £ <F, не принадлежащих некоторому компактному под- множеству So. Тогда оптимальное управление u—F*x, осущест- вляющее критическое демпфирование в <F0, дает также крити- ческое демпфирование в S. Теорема доказана. Следствие. Рассмотрим автономную систему e~Rn‘. (е?) x = f(x, и) = Ах 4-Вы 4- ... с правой частью f (х, и), принадлежащей С1 вблизи начала коор- динат в Rn+m. Пусть управление u = Fox стабилизирует систе- му Pf, и пусть множество S состоит из всех матриц {cF0} для всевозможных действительных чисел с. Если имеются два собствен- ных значения рх и р2 матрицы BF„, такие, что (Re цх) (Re р.2) < 0, то существует оптимальное управление F*=(?F0, осуществляющее критическое демпфирование системы в S. С другой стороны, если все собственные значения матрицы BF0 имеют действительные части одного и того же знака, то критического демпфирования не существует.
320 ПРИНЦИП МАКСИМУМА гл. 4 Доказательство. Пусть для определенности Reщ > 0. Тогда собственные значения матрицы A-\-cBF0 совпадают с соб- ственными значениями матрицы (1/с) A + BFa, умноженными на с =/= 0. Но если с > 0 очень велико, то имеется собственное зна- чение ц матрицы (1/с) A + BF0, такое, что Re ц > у Refxr Таким образом, имеется собственное значение матрицы AJrcBF0 с поло- жительной действительной частью, и значит, матрица АЦ-сВГ0 неустойчива. Аналогично, матрица A + cBFe не будет устойчивой при с—>—оо. Следовательно, существует такое ?>0, что мат- рица А+сВР,, не будет устойчивой при |с| > у. Поэтому крити- ческое демпфирование должно существовать и соответствовать некоторому с* из интервала — С другой стороны, если все собственные значения матрицы BF0 имеют отрицательные (или положительные) действительные части, то для больших значений с при с—>4-оо (или с—*—оо), матрица A-f-cBF® будет устойчивой, причем lim max Re 1 [А 4-cBF0] = — оо. с -► + 00 Поэтому в этих случаях критического демпфирования не суще- ствует. Следствие доказано. Пример. Рассмотрим скалярную систему х" + а1хп-1+ ... -\-апх = и с управлениями в виде обратной связи и = сх1п~1\ где с—действи- тельное число. Имеем в R" линейную систему относительно вектора х, х = Ах+Ви, u — Fx, где г °п о F = (0 0 0 ... О с). Предположим, что свободная система устойчива (значит, замкну- тая цепь дает устойчивую систему при достаточно малых с0 > 0), и покажем, что существует критическое демпфирование при неко- тором с£ R1. При с > аг система неустойчива (так как необходимым усло- вием устойчивости является положительность всех коэффициентов характеристического многочлена). При с—>-—оо сумма с—аг соб- ственных значений матрицы A^-BF стремится к —оо. Поэтому хотя бы одно из собственных значений должно иметь большую
4.3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 321 по абсолютной величине действительную часть. Но произведение собственных значений матрицы A -\-BF равно ап. Поэтому lim inf {max Re % [Л + В/7]} ^0. С — оо Следовательно, критическое демпфирование существует. В специальном случае, при п = 2, х-}-а1х-|-а2х = сх, аг > 0, а2 > 0, критическое демпфирование происходит при (Oj—с)г—4а2 —0 и flj—с>0. Отсюда получаем оптимальное значение для с: c* = at—2/а2. Примечания. Сходная задача возникает в связи с системой дифференциальных уравнений в Rn, (<Ю x = f(x,u), где и—постоянный m-мерный вектор из множества QcRm. Пусть правая часть f (х, и) принадлежит С1 в Rn+m, причем каждому постоянному и соответствует решение x(t) (определенное на неко- тором заданном интервале), исходящее из заданной начальной точки хл. Пусть С (и)—действительная непрерывная функция от и с£2. Требуется найти оптимальное значение и*ей, миними- зирующее С (и). Если множество й компактно, то оптимальное управление и* существует. Если й не компактно, но lim inf С (w) > С («0) для некоторого и0 £ й U -> оо (в смысле теоремы 9), то должно существовать оптимальное и*, для которого С(и*)^С(м0)- Обратимся теперь к построению оптимальной нелинейной цепи обратной связи на бесконечном промежутке времени. Рассмотрим нелинейную систему в (о/) x = f(x,u), с критерием качества С (и) = J G (х, и) dt. о Вместо обычного управления и (/) в Rm, выбираемого для каждого начального состояния х0, будем искать оптимальное управление ы(х), минимизирующее функционал 00 J (х0, u)=^G(x (t, х0), и (х (t, х0)) dt О И Э. Б. Ли, Л. Маркус
322 ПРИНЦИП МАКСИМУМА гл. 4 вдоль траекторий x(t, х0) замкнутой системы x = f(x, и (х)), х (0, х0) = х0 для всех начальных точек х0 из некоторой окрестности начала координат в Rn. Будем предполагать, что f (х, и), G (х, и) и и (х) — действительные аналитические функции в окрестности точки х — = и = 0 в Rn+m. Это означает, что в этой окрестности они раз- лагаются в абсолютно сходящиеся степенные ряды и, следова- тельно, эти ряды определяют соответствующие комплексные ана- литические функции, если аргументы их рассматривать в некоторой окрестности начала координат комплексного (n + т)-мерного пространства. Предположим, что члены низшего порядка в раз- ложении для f (х, и) линейны f (х, u) = Ax-{-Bu-\-h(x, и), а в разложении для G(x, и)—квадратичны, G(x, и) =x'Wx-\-u'Uu + H (х, и), где Л (х, и) и Н (х, и)—степенные ряды, начинающиеся с членов соответственно второго и третьего порядка относительно (х, и). Действительные постоянные матрицы (А, В) определяют вполне управляемую или, по крайней мере, стабилизируемую систему, а действительные постоянные матрицы W > 0 и U > 0 симметричны и положительно определены. Мы будем рассматривать управления в виде цепи обратной связи, и = и (х) = Гх-Ь Ж (х), где F—действительная постоянная матрица, а ^(х)—члены более высоких порядков. Будем всегда выбирать F так, чтобы управ- ление и(х) стабилизировало систему х = / (х, и (х)) = Ах + BFx-\-h(x, и (х)) + B&t (х), т. е. будем требовать, чтобы матрица Л 4-BF была устойчивой. В этом случае вектор-функции x(t, х0) и ы(х(/, х0)) будут убывать экспоненциально, стремясь к нулю, если |х0| достаточно мало. Точнее, если собственные значения X матрицы A-\-BF имеют действительные части, меньшие, чем — р йеМЛ + ВГ] <—р < О, то I х (t, х0) | С | х01 для 0 < f < оо при некотором положительном > 0. Более того, эта оценка верна и для решений с комплексными начальными значениями ?0, т. е. | х (t, z0) | сге~^ | z01 для 0 sgZ t < oo
4 3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 323 и существует положительная константа са, такая, что и | х(t, z0) Кса1 х (t, z9) | < c^e-^l z0|, при достаточно малом |z0|. Эти основные оценки для |x(f, г0)| и |и(х(/, z0))l показывают, что интеграл, представляющий критерий качества, должен сходиться к конечному значению J(z0, и). Тре- буется найти оптимальное управление, которое минимизировало бы функционал J (х0, и) при всех х0 из некоторой окрестности начала координат в Rn. Итак, наша задача является обобщением задачи синтеза опти- мальных управлений из главы 3, где рассматривалась упрощенная система в Rn, х = Ах+Ви, С (u) = ^[x'Wx-\-u'Uu]dt, О и отыскивалось оптимальное линейное управление с обратной связью u — F*x. Напомним, что F* = U~1B'E* определялось с помощью единст- венной отрицательно определенной матрицы Е*, удовлетворяющей матричному квадратному уравнению А'Е + ЕА + EBU~1B'E = W. Мы будем рассматривать вопросы построения и единственности оптимального управления и* (х) с обратной связью для нелиней- ной системы £f, опираясь на основную лемму об аналитических свойствах критерия качества J (хй, и). Заметим, что функционал J (х0, и) является действительнозначной функцией действительного вектора х0 (вблизи начала координат в Rn) и аналитической функ- цией от и. Как только функция и = и1(х) определена, функционал J (z0> «1) можно рассматривать как комплекснозначную функцию комплексного переменного г0. Лемма. Рассмотрим действительную аналитическую систему в R": (<S0 x = f (х, й) = Ax+Bu + h(x, и), с критерием качества ОО 00 J (х0, и) = $ G (х, u)dt=^ [x'Wx+u'Ux+H (х, «)] dt, О о зависящим от аналитического управления с обратной связью м(х) = /(х)+^Г(х) и*
324 ПРИНЦИП МАКСИМУМА гл. 4 и с начальным состоянием х0. Предположим, что A-^BF—устой- чивая матрица. Тогда: 1) существует окрестность Nc начала координат в комплексном п-мерном пространстве, где j U, й) = — z'0Ez0 + J'3) (z0) + .. . будет аналитической функцией от z0. Более того, матрица Ё = — J gU'+F'B') t (W +F'UF)e(A+B^^dt О зависит лишь от упрощенной системы (с коэффициентами А, В, W, U, F), а функция J (х0, и) разлагается в действительный сте- пенной ряд; 2) в окрестности Nс функция J (z, и) удовлетворяет функ- циональному уравнению d^FlfOSu(z)) + G(z,Z(z))^Q. Доказательство. Так как матрица А + BF устойчива, то КеЦЛ + ВР]<-р<0 для некоторого р > 0. Следовательно, существует окрестность Nc начала координат в комплексном n-мерном пространстве, в которой каждое решение х (t, z0) системы x = f (х, и (х)) = (Л А-BF) х+ • • •. исходящее из точки x0£Nc, навсегда остается в Nc, и удовлет- воряет основному неравенству |х(<, z0)|^c1e_i4|z0| при 0^/<оо. Пользуясь этой оценкой для | х (/, га) | и неравенством |w(z)|<cs|z| в Nc, получаем |G(z, n(z))|<c8e-M|z0| для положительных постоянных с1г с2, с3, не зависящих от z0 в Nc. Функции х(/, z0) и u.(x(t, z0)) аналитически зависят от z0 в Nc при каждом фиксированном /^0. Поскольку интеграл J (z0, ы) = J G (х (t, гв), й (х (t, z0))) dt О равномерно сходится в Nc, то можно заключить, что J (г0, и) есть аналитическая функция от z0 в Nc.
4 3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 325 Для того чтобы получить степенной ряд для J (х0, й), нужно разложить функцию х (t, х0) в ряд по степеням х0 в А? = Nc. f] Rn. Легко видеть, что х (t, х„) = е^А+BF> * х0 + члены высших порядков и й (x(t, х0)) = Ре^А+в^( х0 +члены высших порядков. Если произвести почленное интегрирование G(x(t, х0), й(х(/, х0))), то легко вычислить СО J (х0, Й) = $ х'^А'+Р'в') * We(A+B^ * Xod/ + О со + Jх^А'+^'в^(Р'иРе^А^в^1 xodt + члены 3-го и высших порядков. о В этом случае J (х0, и) имеет требуемую форму. Чтобы доказать справедливость этого утверждения, нужно оценить члены высших порядков в x(t, х0). Для этого запишем t х (t, х0) = х0 + $ f (х (s, х0)) ds О И t XL (t, ха) = х0 + (0) х£ (s, х0) ds, где f(x) = f(x,«(x)) и ^(0) = Л + ВА Тогда разность t Д (/, х0) =x(t, х0) xL (t9 xQ) = J [ f (x(s, x0))— fx (0) Xi (s, x0)] ds, о так что t Д = W* (°) X (s> xo) + 6 (s> *o)— fx (0) xL (s, x0)J ds 0 и t д = $ 17* (°)д <s> xo) + 8 (S, Xo)] ds, 0 где I«(*. *o)I <q|x(t, x0) P<С&е-^Ix01*. Следовательно, t Д (Л xe) = л+BF) < J e-(>»+BF)»e (S, Xfl) ds 0
326 ПРИНЦИП МАКСИМУМА гл. 4 и Iд (Л хл) I < сле~** I х012 для х0 б N, t^O. Это дает требуемую оценку х (t, х0) = fх0 + Д (t, х0). Заметим теперь, что G(x, й (x)) = x'Wx + u'Uu + y(x), где | у(х) | ^с, |х|3. Таким образом, G(x(t, х0), й(х(/, х0)) = x'Wx-[-u'Uu-\-у (x(t, х0)) и $ IТ (х (t, х0)) I dt < с8 J е-М | х0 I3 dt < c„ | xt |3. о о Следовательно, в степенной ряд для J (х0, й) входят линейные и квадратичные члены от х0 из выражения $ [^(д+bf ) t Хо + д]/ w [e(A+Bf) / + д] + J U'(x)Uu(x) dt. о о Но u(x(t, x0)) = F[^+^)'xe4-A] + A1(f, х0), где IД1 (Л ха) | с101 х (t, х0) |2 с1ге *** | х012. Таким образом, квадратичные члены в J (х0, и) равняются ^(2>(х0) =— x^Exf,, и значит, J (х0, й) = — х'0Ёха 4- /(3> (х0) + ... как и требовалось. Проверим, наконец, функциональное уравнение для J (х, й) в N. (Заметим, что первый аргумент функции J для простоты часто обозначен через х или г.) Решение x(t, х0) достигает точки х<, в момент t = tv и эта новая точка может служить исходной точкой в N. Таким образом, 00 00 J (xt, й) = j G (х (s 4-1, хв), й (х (s 4-1), х0)) ds = J G (x (s), й(х (s))) ds. о t Дифференцируя no t, получим (xt, u) f (xt, u (x()) = — G (x (t, x«), й (x (t, x,)).
3 УЙРАВЛЁНИЁ БЁЗ ДОПОЛНИТЁЛЬНЫХ ОЁРАНИЧЁНИЙ 32? При t = 0 имеем dx"O^o> «)/(^о» w(x0))4~ G (х0> й(хо)) 0. В силу аналитичности в этом функциональном уравнении можно за- менить хс произвольным z С Ne. Лемма доказана. Определение. Аналитическое управление с обратной связью и* (х) = F* х+&С* (х), стабилизирующее аналитическую систему (<^) x = f(x, u) = Ax + Bu + h(x, и) в Rn, называется оптимальным, если оно минимизирует критерий ка- чества, т. е. если J (^о> 0^0’ “1) для каждого аналитического управления и1(х). [Неравенство спра- ведливо в некоторой окрестности А\ начала координат в Rn, зависящей от и1 = ы1(х).] Будем искать оптимальное управление и*, как решение функ- ционального уравнения й (х> «*) di 0е’ ы* 00)+£ <*’ 00)=°- Позже мы исследуем структуру решения ы*(х), и покажем, что матрица F* имеет вид = так же, как и для упрощен- ной системы. Перед тем как доказывать единственность оптималь- ного управления ы*(х), условимся считать две аналитические функции равными (или эквивалентными), если они совпадают в какой-либо окрестности начала координат в Rn. Теорема 10. Пусть и* — и*(х) = F*x-\-ffl*(х)~аналитиче- ское управление с обратной связью, стабилизирующее аналитиче- скую в Rn систему: x = f (х, и) = Ax-\-Bu-\-h(x, и) с конечным критерием качества J (х0, и*) = J G (х, и* (х)) dt = $ [x'Wx+u*'Uu* + Н (х, «•)] dt. о о Если и* является решением функционального уравнения дх ^Х’ W*) du и* (х)) + дй ^Х' и* 00) = 0 вблизи начала координат, то и* будет оптимальным управлением с обратной связью вблизи начала координат в Rn.
328 Принцип максимума ГЛ. 4 Более того, и* будет единственным в том смысле, что: 1) и* есть единственное аналитическое решение функциональ- ного уравнения*, 2) и*—единственное оптимальное аналитическое управление с обратной связью; 3) и* дает единственное оптимальное управление в виде разомк- нутой цепи. Это означает, что существуют 8 > 0 и окрестность N* такие, что для каждого xQ£N* решение х*(/) удовлетворяет уравнению x = f(x, и*(х)), %*(О) = хо, x*(/)czAf*, а соответствующее управление и* (t)==u*(x*\t)) является единственным управлением в виде разомкнутой цепи среди всех измеримых управлений u(t) на интервале 0^/<оо, удовлетворяющих ограничению | и (/) | 8 с соответствующим ре- шением x(t)a:N*, доставляющим критерию качества 00 С (и)— Jg(x, u(t))dt ’ о минимальное значение. Доказательство. Рассмотрим действительнозначную функ- цию от u£Rm, при х близком к началу координат в Rn, Q(«) = ^(x, U) + G(x, и). Имеем симметричную квадратичную форму ={/>0. ди1 ди/ х=о м= о Поэтому существует такое ех > 0, что для всех | хг | < е£ и | иг | < ех график функции Q(u) лежит [выше касательной гиперплоскости при и = (по крайней мере, для всех | и | < 8Х). Из предположе- ний теоремы следует, что =0 ди1 1и=и* (х) и, значит, д/(х, w*(x))4-G(x, u’(x))<^(x, u*)/(x, uJ + Gtx, uj для всех иг =/= и* (х), если только | х | < ех, | и* (х) | < 8Х и | иг | < 8Х. Пусть их (х) =И= и* (х) — аналитическое управление с обратной связью, и Af®—такая окрестность начала координат в Rn, что 1-V | < 8Х, |«i(x)l<8i, | и* (х) | < 81 в Ni,
4.3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 329 и все решения х*(0 или xl(t), соответствующие управлениям с обратной связью и исходящие из А\с:ЛГ?, навсегда остаются в Пусть «1 (х0) (х0) в некоторой точке х0 С тогда из леммы следует, что о Отсюда получаем нужный результат: 0<—J(x0, u*) + J(x0, uj. Следовательно, J (Хо> и*) J (Xq, ^1) и и* есть единственное оптимальное аналитическое управление с обратной связью. Следовательно, и* будет единственным анали- тическим решением функционального уравнения, указанного в ус- ловии теоремы. Наконец, пусть u(t)—любое измеримое управление в виде разомкнутой цепи, приложенное к системе с начальным состоя- нием х0. Выберем положительное 8 < 8Х и окрестность APcJVj начала координат так, чтобы |х*(/)|^8 и |и*(х*(t))|sC е при 0^/<оо для оптимального решения х* (О, исходящего из х0. Предположим также, что N* есть окрестность, в которой остаются все решения, соответствующие оптимальному управлению и*(х). Потребуем теперь, чтобы | й (t) | 8 и чтобы соответствующее решение x(t) лежало в N*. Тогда, как и выше, О = (х, и*) f (х, и* (х)) 4- G (х, и* (х)) < <^(х. «*)/(*, u(t)) + G(x, u(t)) всюду, где м(0=И=и*(х). Если и (t) = и* (х (t)) почти всюду на ин- тервале < оо, то из теоремы единственности для дифферен- циальных уравнений следует, что x(t) = x*(f), откуда и «(/) = =зи*(х*(0). Предположим теперь, что и (t) и* (х (t)) на некотором промежутке времени ненулевой длины. Тогда 00 0 < У (х(t), и*) f (х (/), и (0) + G (х (0, и (0)1 dt. о J Поскольку управление и (/) доставляет конечное значение критерию
330 ПРИНЦИП МАКСИМУМА гл. 4 качества С (й) = J G (х (/), и (/)) dt, о то легко показать, что limx(/) = 0. Следовательно, /-►со 0< — J (х0, и*) 4- С (и) и С (и*) = J (х0, и”) < С (и). Итак, и*(х*(/)) является единственным оптимальным управлением в виде разомкнутой цепи для х0 при заданных ограничениях. Теорема доказана. Замечания. Для упрощенной системы х = Лх4-Вы, J(х0, u) = J [x'WxA-u'Uu]dt о оптимальное управление с обратной связью имеет вид и* = F*x, F* = U~1B'E*, а Е*—единственная отрицательно определенная матрица, удовлетворяющая уравнению А'Е + ЕА + EBU~1B'E=W. Заметим теперь, что для нелинейной системы (<^) х — АхА-BuA-h(x, и), J(х0, и) — J [x'WxA-u'UuA-H(х, u)]dt о оптимальное управление с обратной связью u* = F*x-\-ffl*(x) имеет тот же самый член первого порядка F*x, что и для упрощенной линейной системы (если предполагать существование аналитиче- ского решения функционального уравнения из теоремы 10). Чтобы показать это, будем искать оптимальное управление u = FxA-ffl(x) с критерием качества J (х0, и) = — х'0Ех0 + J(3’ (х0) + ..., где Ё = — J t (№ + F'UF)^a+b^ f dt, о
4 3 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 331 и потребуем, чтобы удовлетворялось функциональное уравнение ^(х, «(х)) + >(х, и(х)) = 0. Выделим линейную часть этого функционального уравнения, — 2x’EB + 2x’F'U = 0, ИЛИ F—U^B’E. Однако интегральное выражение для Ё показывает, что Ё есть единственное отрицательно определенное решение уравнения Ля- пунова Ё (Л + BF) + (Л' + F'B') E = W +F'UF. Отсюда заключаем, что Ё должно удовлетворять уравнению А'Е + ЕА -\-EBU~lB'E = W. Следовательно, Ё — Е* и, значит, F = F*, как и требовалось. В заключение мы покажем, что кубические члены критерия качества J (х, и) = — х'Е*х + /<3>(х)+ ..., вычисленного для уп- равления с обратной связью и = F*x -|-Ж (х), которое начинается с члена F*(x), полностью определяются сле- дующими данными: {Л, В, W, U, F*, й(2), Я(3)}. Заметим, что % (х, «) f (х, и (х)) 4- G (х, и (х)) = О, и приравняем кубические члены нулю: - 2х'Е* [BU<>> (х) 4-А2 (х, F*x)] [Лх4-ВГ*х] 4- 4- (Г*х)'/7ы(2> 4- «<2)'t/F*x4- Я(3> (х, F*x) = 0. Поскольку F* = U~1B'E*, то —2x'E*B + 2x'F*'t/ = 0 и, значит, ^[Ax + BF*x]=2x'E*№'(x, F*x)—H{3}(x, F*x). Однако это дифференциальное уравнение в частных производных может иметь лишь одно решение J(3) (х), так как разность ДУ (х) между любыми двумя решениями должна быть постоянна вдоль каждой интегральной кривой асимптотически устойчивой системы обыкновенных дифференциальных уравнений х = (Д + ВГ*)х.
332 ПРИНЦИП МАКСИМУМА гл. 4 В этом случае Д J (х) должна иметь постоянное значение Д J (0) = 0 в некоторой окрестности начала координат в R". Итак, любые два решения J(3) (х) могут отличаться самое большее на аддитивную постоянную. Но Jt3)(0) = 0, и значит, J(3’(х) однозначно опреде- ляется из указанного выше дифференциального уравнения в част- ных производных, а в него входят лишь данные {A, B,W, U, F*, как и требовалось. Доказательство существования решения и*(х) функционального уравнения Й “* +"S' w* = °’ а значит, и существования единственного оптимального управления с обратной связью намечено ниже в упражнении 4. Упражнения 1. Вычислить действительные части собственных значений матрицы кри- тического демпфирования для скалярной системы x+x = w, и — сх. 2. Рассмотрим скалярную систему X+X = с±х + (q + с2) X+с2х, q и с2—действительные числа. Показать, что для нее не существует крити- ческого демпфирования, несмотря на то, что min {max ReX} =— 1. 3. Рассмотрим автономную систему класса С1 в x=g(x) = Gx+..., где G—устойчивая матрица. Известно, что всегда существует гомеоморфизм класса С1 в малой окрестности начала координат в х-у(х) = х+..., переводящий данную нелинейную систему в линейную систему y = Gy. Используя этот факт, доказать, что обобщенные характеристические экспо- ненты нелинейной системы также равняются действительным частям собствен- ных значений матрицы G. Показать, что утверждение останется верным, если обычную норму в Rn заменить ей эквивалентной. 4. В этом упражнении мы наметим путь доказательства существования оптимального управления с обратной связью и* (х) в Rm для действительного аналитического процесса в Rn, (<^) x=f(x, и) = (х, и), с критерием качества J (х0, и)= J G (х, и) dt — J [x'Wx+u'Uu-^H (xt w)] dt. о о
43 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 333 Здесь W > О, U > 0, матрицы (А, В) определяют вполне управляемую сис- тему, и h(x, и), Н (х, и) —аналитические функции высокого порядка вблизи точки х = и=0. Мы будем строить управление и* (х) как аналитическое ре- шение функционального уравнения (F) % (х> (х> и (*))“ W)=°’ как в теореме 10. Для упрощенной задачи, при А = 0, // = 0, известно, что оптимальное управление с обратной связью представляет собой линейную функцию u* = F*xt где F* — U~VB'E*, а В* есть единственное отрицательно определенное реше- ние матричного уравнения A'E + EA+EBU-'B’E^W, а значение критерия качества равно J (х0, F*x)~ — XqE*xq (см. раздел 3, упражнение 15). Переходя к полной нелинейной задаче, опре- делим функцию Гамильтона Н (q, х, и)—действительную аналитическую функ- цию в окрестности начала координат в по формуле tf(q, х, «)== —G(x, «) + qf (х, и), где х—m-мерный вектор-столбец, а т)—n-мерный вектор-строка. (а) Рассмотреть линейную задачу и проверить, что линейное управление с обратной связью u* = F*x, где F* — U-^B'E*t а матрица В* < 0, удовле- творяет указанному выше квадратному матричному уравнению и является реше- нием функционального уравнения (^). (в) Для каждой точки (q, х), близкой к (0, 0), будем искать значение и*, максимизирующее функцию Гамильтона Н (q, х, и). Рассмотрим следующее уравнение для определения управления «* (q, х): //« (q, х, и) — 0 или — Ga (х, u*) + q/a (х, и*) = 0.1 Пользуясь теоремой о неявной функции, доказать существование единствен- ного аналитического решения и* (q, х), обращающегося в нуль при q = 0, х = 0 и удовлетворяющего условию Ни (q, х, и) = 0. Проверить, что «*(п. где члены высших порядков для упрощенной системы равняются нулю. (с) Определим функцию Гамильтона с учетом обратной связи Я* (q, х) = Н (q, х, и* (q, (х)) и систему Гамильтона в /?2": ч дН* X z = ~3 , Л); Проверить, что эта система имеет вид (^*) (х’ “*(П’ x»=Ax+jви-1в'ц'+.... q' = 2TFx—Л^'-р ., и что для упрощенной системы члены высшего порядка равны нулю.
334 ПРИНЦИП МАКСИМУМА гл. 4 (d) Показать, что матрица A -LbU-'B' _ 2W —А' имеет в точности п собственных значений с отрицательными действительными частями. Это можно сделать, произведя замену переменных Здесь так, чтобы упрощенная система Гамильтона приняла вид y — (A-{-BF*)y, t = -H+BF*)4- Z-2Q£* Q 1 _ Г I QI 2£* —/J' “ [ 2£* 2£*Q—/]’ a Q<0 есть решение уравнения Ляпунова (4 +££*) Q + Q (4 + ££*)' BU^B'. £ (e) Пусть для упрощенной системы £ = 0, или q' = 2£*x, есть единственное л-мерное многообразие устойчивости системы Гамильтона Определим управление с обратной связью: и* (х) = и* (2£*х, х) = Заметим, что это есть оптимальное управление с обратной связью. (f) Из общей теории обыкновенных нелинейных дифференциальных урав- нений известно, что вблизи начала координат в Rm существует такое невы- рожденное преобразование координат, y=(l-2QE*)x + W+ ..g==2£*x-Zq' + .. .„ которое переводит систему Гамильтона в систему У == И +BF*) (/+..., g = - (A +BF*)' где у = 0 и £ = 0— инвариантные многообразия. Далее, существует единствен- ное многообразие устойчивости для в /?2и, и оно определяется аналити- ческой функцией т] = q* (х) = 2х'Е* + ... Определим управление и* (х) = и' СП* (х), х) = U-*B'E*x+ ... Для доказательства существования оптимального управления остается только показать, что эта аналитическая функция «* (х) удовлетворяет функциональ- ному уравнению (|F). (g) Покажем, что нелинейная система Гамильтона определяется на инвариантном многообразии устойчивости системой дифференциальных уравнений w*(x)) = M+BF*)x+..., S n' = — (—Gx (x, и* (x)) + (*> и* (x))]'.
43 УПРАВЛЕНИЕ БЕЗ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЙ 335 Обозначим решения исходящие из точки xQt По = П*(*о) через х(/, х0), т] (/, х0). Показать, что |х(/, х0) I I х01, I ТГ)(/, х0) I |х0| для некоторых положительных постоянных и X, где ( —X) превосходит все действительные части собственных значений устойчивой матрицы (Л-(-ВТ7*); показать, что эти оценки верны для всех достаточно малых | х0 | > 0. (h) Показать, что 00 %- J (х0, u*)=\-^rG(x (/, х0) и* (х (/, х0))) dt = — я* (ХО). Оло J ^0 Учитывая, что по свойству инвариантности многообразия устойчивости г)(0 = П*(*Ю)> вывести уравнение для определения и* (х, т|). Для упрощения вычислений воспользоваться соотношением (i) Из уравнения — OU(X, U*) + ^a(«, «*) = 0 вывести, что ^(х, «*)^(х, u*(x)) + g(x, «*(х)) = 0. Таким образом, и* (х) есть искомое решение функционального уравнения jF и значит, и* (х) есть единственное оптимальное управление с обратной связью для системы <±f.
ГЛАВА 5 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В первом разделе этой главы показано, что принцип макси- мума и условия трансверсальности являются необходимыми усло- виями оптимальности управления. Затем получены различные обобщения принципа максимума для процессов с импульсными управлениями и для процессов с гладко меняющимися управле- ниями. Во втором разделе выведены некоторые достаточные условия оптимальности. Тут содержатся глобальные результаты, исполь- зующие условия выпуклости, а также локальные теоремы, в ко- торых нелинейные процессы аппроксимируются линейными. При наличии подходящих предположений для определения оптимального управления используются методы динамического программирования. 5.1. Принцип максимума и условия трансверсальности как необходимые условия В этом разделе мы докажем принцип максимума для общего случая нелинейных автономных управляемых систем в задаче с подвижными концами на конечном или бесконечном интервале времени. Принцип максимума, вместе с условиями трансверсаль- ности, является необходимым условием, которому должно удов- яетворять оптимальное управление. Доказательство этих резуль- татов основано на конструкции, приведенной в теореме 3 главы 4, которая в значительной мере исчерпывает содержание принципа максимума. Мы докажем общие теоремы сначала для автономных систем, а затем распространим соответствующие результаты на неавтономные системы путем введения t в качестве дополнительной пространственной координаты. Итак, мы рассматриваем автономный управляемый процесс (£0 x = f(x, и),
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 337 с непрерывными f (х, и) и (х, и) в пространстве Ra+". Пусть Хо и XjC/?” есть заданные начальное и целевое множества и пусть Й есть непустое ограничивающее множество в Rm. Допустимое управление u(t)a.Q на некотором конечном интервале времени О < / < есть ограниченная измеримая функция, которой соот- ветствует траектория х(1, х0), переводящая точку х(0, х0)=х0СХ0 в точку х(?х, х0) = х1^Х1. Конечный момент времени tv началь- ная точка х0 С Хо и конечная точка хг 6 X, меняются вместе с управ- лением. Класс всех допустимых управлений обозначим через А. Каждому управлению «(/) в А с траекторией х (/) поставим в соответствие критерий качества C(U) = $f»(x(0, о где /°(х, и) и -^{х, и)—непрерывные в Rn+m функции. До- пустимое управление и (t) из А является (минимальным) оптималь- ным, если С (и) С (и) для всех и £ А. Мы докажем, что оптимальное управление и* (/) на интервале О 'С t удовлетворяет принципу максимума Я (я* (0» ** (0» и* (0) = М (Л* (0> к* (/)) почти всюду и х*(/)) = 0, всюду. Здесь расширенное состояние Г*” <07 v> ~ [.<• (Z) | есть решение расширенной системы уравнений /<2>Ч X°=f0 (Х, и), ° 7 x‘ = f‘(x, и), 1=1, а т]*(0—нетривиальное решение 'расширенной сопряженной си- стемы уравнений По = °> Л.. = — ^^~(x*(t), i = l, ...,n, / = 0 ox где последние п уравнений (с /° = 0) образуют сопряженную си- стему Л из раздела 4.1. Расширенная функция Гамильтона имеет
338 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 ВИД х, и) = ц9}°(х, u) + n1f1(x, «)+... + 1\nfn(X, и) и М (я, х) = max Н (я, х, и) (если М существует). и б Q В этих обозначениях мы установим и докажем основной принцип — принцип максимума. При этом мы используем концепции и обо- значения раздела 4.1. Для доказательства мы сначала рассмотрим расширенный ка- сательный конус возмущений для любого лебеговского момента времени т из интервала 0 < т < t* для того, чтобы учесть коор- динату х°, соответствующую критерию качества. Затем, в даль- нейшем, мы расширим конус до конуса Kt, чтобы ввести вариацию времени, так как оптимальное управление и* (/) является минимальным на интервале 0^Z^/* + 8. Наконец, мы расширим конус Kt до конуса 5^, чтобы учесть вариации начальной и ко- нечной точек в доказательстве условий трансверсальности. Позднее мы точно определим эти различные конусы. В каждом случае мы должны определить предельный конус и воспользоваться ранее введенными топологическими понятиями, или их обобщениями, чтобы показать, что общие секущие инфи- нитезимальных конусов возмущений совпадают с секущими соот- ветствующих нелинейных аппроксимирующих множеств достижи- мости. Теорема 1. Рассмотрим управляемый процесс в Rn: (s?) х = f (х, и) с ограниченными измеримыми управлениями u(t), определенными на различных интервалах времени и принадлежащими ограничивающему множеству Qa.Rm. Пусть Д есть совокупность всех допустимых управлений, которые переводят некоторую началь- ную точку из Хо в конечную точку из целевого множества Хх. На множестве управлений и (/) из А на интервале 0 t с соот- ветствующей траекторией x(t) определим функционал качества ti С (и) = f° (х (t), u(t))dt. о Если управление и* (/) (0 является минимальным опти- мальным управлением из Д, с соответствующим'расширенным решени- ем х* (t)— (х°* (/), х* (0), то существует нетривиальное решение рас- ширенной сопряженной системы я* (0 = (Ло, г Л* (0) такое, что Н (я* (0> х* (0> и* (0) ~ М (я* (0> х* (t)) почти всюду
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 339 и л ~ М (Т)* (/), х* (0) S о и я#<° всюду на интервале 0^/^/*. Далее, если Хй и Хх (или только одно из них) являются многообразиями с касательными пространствами Тй и 7\ соответственно в точках х* (0) и х* (/*), то решение я* (0 = (Яо> Л* (0) может быть выбрано удовлетворя- ющим условиям трансверсальности на обоих концах (или только на одном): Я* (0) ортогонально к Тй,, Я* (/*) ортогонально к Tv Доказательство. Пусть управление и* (t), которому соответствует траектория х* (t), переводящая систему из точки х* (0) = xj € Хо в точку х* (t*) = xj С Х1г будет оптимальным в А. Рассмотрим расширенную систему в Rn+1: x° = f<>(x1, ..., х", и), х'= ^'(х1, ..., х", и), 1=1, 2......п или (<Ю x = f(x,u), с соответствующим решением х* (t) = (x°* (t), х* (t)), где t х°* (t) = J f° (x* (s), u* (s)) ds. о Так как каждое управление u(t) в А определяет некоторую тра- екторию x(t) расширенной системы, ведущую из (0, Хо) в (0, А\), мы замечаем, что управление и* (I) переводит точку (0, xj) в наинизшую возможную точку на прямой R1xx* в простран- стве Rn+l, т. е. С(и*) = х°* (/*) есть минимальное значение кри- терия качества для управлений в А. Поэтому точка (х°* (/*), х* (t*)) лежит на границе множества достижимости К (/*) системы $ в Rn+l. Следовательно, по теореме 3 главы 4, принцип максимума для системы установлен, то есть существует нетривиальное сопряженное решение я* (0 = (Яо> Я* (0) такое, что Н (я* (t),x* (/), и* (i)) = М (я*(0> х* (t)) почти всюду и функция М (я* ((), х* (t)) = М является постоянной всюду на интер- вале 0 Мы теперь докажем, что равенство М = 0 является следствием минимизирующего свойства управления u* (t). Определим конус возмущений Kt в каждой лебеговской точке интервала 0 < т < /*,
340 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 как наименьший замкнутый конус в касательном пространстве в точке х* (т), содержащий касательный конус возмущений Kt для системы tf, и два вектора, v+ (т) = f(х* (т), и* (т)) и (т) = = —/(х*(т), и* (т)). Рассмотрим в Kt вектор о = vn (т) + v+ (т) St, где л означает элементарное заданное возмущение (в различные моменты времени из интервала 0 < t < т, как в разделе 4.1 перед ; леммой 1 главы 4), соответствующее возмущенному управлению | ия(/, е), а St есть некоторое действительное число. Тогда траек- | тория, соответствующая управлению иж(/, е) на интервале 0 t < | <T-f-eS/ для малых 8^0, есть xK(t, 8) с концевой точкой | х„ (т + e6t, 8) = х* (т) + 80д (т) + еи+ (т) St + о (е). f Эта основная формула была доказана в разделе 4.1 (для 6t = 0), । и она показывает, что конус Kt лежит в объединении по времени I расширенных множеств достижимости U о < / < t*K(t) с точностью I до величины порядка о(е). I Применяя рассуждения, использованные в доказательстве 1 леммы 2 главы 4 к Kt, получаем, что любой вектор w, внутренний для Kt\ определяет прямолинейный отрезок с началом в точке I х* (т), который лежит внутри U о < t < t* К (t). В частности, век- Л тор аух = (—1, 0) не лежит во внутренности Kt, ибо в противном ? случае существовало бы возмущенное управление «„(t, е), пере- водящее точку (0, х0) в некоторую точку (х°, х* (т + eSt)) со зна- чением критерия качества х'< х°*(тЦ-е8/). Так как функция 1 f(x, и) не зависит ни от t, ни от х°, то управление «„(t, е) можно тогда доопределить на интервале т + eSt < t^t*H-eSt по форму- ле uK = u*(t—eSt), так, чтобы значение критерия качества на рас- ширенном управлении было меньше, чем С(«*) = х°* (t*). Следо- вательно, конус Kt отделен от вектора w. гиперплоскостью с нормальным вектором цДт). Определим г|х (t) = (t]Ot, nt(0) ПРИ помощи сопряженных уравнений Л, в которых т]_ (г) и ц0. 0; j тогда вектор-функция rjT(t) удовлетворяет принципу максимума * Я(^(0, х* (t), u*(t)) = M(nT(t), x*(t)) ? почти всюду на интервале 0 t ^т, а функция М (i% (t), x*(t))=Mx i постоянна. Так как т|х (т) v± (т) 0 и и+(т) =— о_ (т), мы заклю- чаем, что т)т (т) v± (т) = 0 и потому М. = 0. i Построим теперь предельный конус Kt* Для того, чтобы полу- 1 чить сопряженный вектор г|* (/) такой, что rj* (t) о (t) 0 для всех v (t) £ Kt на интервале 0 t t*. Для того чтобы показать, что параллельнсе перемещение касательных векторов вдоль траектории
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 341 определяемое с помощью матриц как в предваритель- ных замечаниях раздела 4.1, переводит конус Kt, в Kt,, где О < < ^ < t*, мы нуждаемся только в доказательстве того, что вектор Af,t,v+ (QZKt,- Если вектор Л/,/1о+(^1) не принадлежит конусу Kt,, то имеется гиперплоскость, которая разделяет их, т. е. существует вектор £, для которого > 0 и т. е. для всех векторов ~v£Kt,- Пусть £(/) будет соответ- ствующим сопряженным решением, для которого f (/) v+ (/J > 0. В силу принципа максимума имеем max £(t) f (х*(0), «* (0) = М (| (/), х* (/)) 0. и € Q Таким образом, t (/J п+(/i) = 0, что невозможно. Поэтому ЛМ1 Kt,<=Kt, для 0 < < /2 < /*, и мы определили предельный конус (в момент t* или даже для любого t) по формуле Kt* — Uо < % < /• At,xKt• Пусть теперь ©/• = (—1, 0) есть вектор в касательном про- странстве в точке х*(/*). Заметим, что так как д//дх° = 0, то вектор — (—1, 0) может быть получен из вектора Wf парал- лельным переносом. Если вектор Wt* лежит во внутренности пре- дельного конуса Kt, то существует полиэдральный конус в Kt, который содержит w. в своей внутренности, для некоторых лебе- говских точек т < t* (см. указанную выше лемму 2). Но мы уже доказали, что вектор W- не может принадлежать внутренности конуса Кх и, следовательно, вектор Wt* можно отделить от пре- дельного конуса Kt каким-нибудь вектором т]* = (г1о> Л*), где и Определим требуемый сопряженный вектор т]* (/) как решение системы Л, удовлетворяющее условию т]* (/*) = т]*. Тогда, как и выше, справедлив принцип максимума для я*(0| Н —М почти всюду на интервале 0 t t* и Л4 == 0 всюду на интервале 0 t t*. Окончательно мы должны выбрать rj* так, чтобы сопряженный вектор !]*(/) удовлетворял условиям трансверсальности. Мы об- судили случай, когда множества Хо и X, имеют касательные пространства Т, и Т1 в точках xj и х* соответственно. Для задачи с условием трансверсальности на одном конце необходимо произ- вести небольшую модификацию проделанного выше рассуждения.
342 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ условий гл. 5 Пусть То—касательное пространство к Хо в точке xj из 7?" и пусть То—линейное пространство, содержащее точку (0, xj), по- рожденное векторами вида (О, То) в Rn+1. Аналогично, пусть 7\— совокупность всех векторов вида (О, в точке (х°* (/*), xj). Пусть есть наименьший замкнутый конус в касательном про- странстве к х*(/), порожденном А/0Т0 и К.±. Пусть Tj—конус в касательном пространстве в точке х*(/*), порожденный 7\ и направленный книзу как вектор wt* = (—1,0). Предположим (это будет показано позднее), что конусы 3^7* и Т2 разделены гиперплоскостью л. В этом случае рассмотрим нор- мальный вектор т)* = (т]„, т]*) в точке х* (7*), где 0, такой, что rj*3^. < 0, п*Тх > 0. Соответствующее решение т]*(0 для системы Л удовлетворяет тогда принципу максимума, и мы вскоре покажем, что вектор- функция т]*(/) удовлетворяет условиям трансверсальности. Линейное пространство 7\, которое лежит в Tlt должно лежать также ч гиперплоскости л. Таким образом, вектор (0, т]*) удов- летворяет условию т|*7\ = 0, т. е. условию трансверсальности в точке xj. Таким же образом параллельно переносится линейное пространство и следовательно, оно отделено от век- тора т]* гиперплоскостью л. Поэтому т]*Д/»о(О, а) = 0для каждого вектора а^Т0 и, следовательно, т]*(0)(0, а) = 0 или т)*(0)а = 0. Тем самым, т]* (0) То = 0, что является искомым условием транс- версальности в точке xj. Доказательство можно будет считать полностью завершенным, когда мы установим отделимость конусов и Тг Предположим, что конусы 3?/» и Tj не могут быть разделены. Тогда вместе они порождают все касательное пространство в точке х*(/*) и, кроме того, имеется вектор, общий для обеих их относительных внутрен- ностей. Предположим, что dim3f/» = r и dimT1 = n—г. Если dimTj > п—г, то выбираем соответствующий замкнутый подконус конуса Tj размерности п—г, который пересекается с конусом в общем положении (т. е. их пересечение содержит вектор, внут- ренний для каждого из них). Так как конусы ЗТ<» и Тх имеют общую внутреннюю точку, то конусы At-$CX и ?! для некоторой лебеговской точки т из 0 < т < t* будут также пересекаться. Тогда и конусы ЭСХ и Тт= At*TT1 пересекаются по общей внутренней точке в касательном простран- стве к траектории х* (т). Пусть л—элементарное заданное возмущение на 0</<ти пусть (t, е) есть соответствующее возмущенное управление для
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 343 малых е^гО. Пусть х„, а (t, е) есть соответствующая траектория, которая начинается в точке (0, еа) на множестве (0, Х0)а/?"+1.(Здесь а=(0, а)—вектор в касательном пространстве 7%, и мы введем си- стему координат в в окрестности точки xj, перенося их сТос помощью ортогональной проекции касательного пространства То на Хо в R" ) Тогда обычная основная формула возмущений имеет такой вид: Х„, а (Т + e8t, 8) =х* (т) 4- е [цж (т) + ц+ (?) Ы + ЛхОа] + о (в). Таким образом, множество (т) точек достижимости, соответству- ющее множеству начальных состояний Хо, совпадает с й’, с точ- ностью до малых порядка о(е). С помощью параллельного пере- носа многообразия SKV определенного как множество всех точек (х°, в 7?л+1 таких, что х° < х°* (/*), вдоль решения уравнения x = f (х, и* (0), мы определим аналогичное подмногообразие ^(т) в касательном полупространстве Тх. Но Ж (т) не может пересечься с 3^(т), ибо в таком случае возмущенное управление мк(/, 8) на интерва- ле 0^ t + действуя на некоторую начальную точку в Ха, дает точку в многообразии & (т), которая в свою очередь продол- женным [с помощью и* (t—еб/)] управлением будет переведена в целевую точку в многообразии т. е. мы получаем точку (х°, xj, для которой х°<х°*(/*) и XjgXp Это невозможно вследствие того, что управление и* (f) доставляет минимум инте- гральному критерию качества. Таким образом, множество 5^(т) совпадает с и (т) сов- падает с Тх с точностью до малых порядка о(е). Если конусы 3^. и Тх пересекаются по общей внутренней точке, то множества .Т (т) и & (т) должны пересекаться. Этот последний вывод следует из результатов топологической аппроксимации, которые обобщают сведения, приведенные выше в пункте «топологические понятия», и доказаны в приведенном ниже упражнении. Поэтому конусы 3^* и Тх не могут иметь общую внутреннюю точку; поэтому их можно отделить гиперплоскостью. Тем самым теорема полностью доказана. Важным специальным случаем теории оптимального управле- ния является случай, когда функционал качества имеет вид С (и) = tt для управлений u(t) из класса Д(0</^/х). Это есть задача об оптимальном по быстродействию управлении, и соответствую- щую этому случаю формулировку принципа максимума можно получить из теоремы 3 главы 4, полагая /°(х, и) = 1. Мы сформу- лируем наш результат в терминах функции Гамильтона: Н (л, х, и) = nJ1 (х, «)+...+ n„fn (х, и) И М (т], х) = тахЯ(т], х, и). « 8
344 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 Следствие 1. Рассмотрим управляемый процесс в R": (&) x = f(x, и) с ограниченными измеримыми управлениями и (t) с Q, из множества управлений Д, определенными на различных интервалах времени О t и переводящими точки множества Ха в Х1( как было указано выше. Пусть критерием качества будет продолжительность процесса управления С(и) = ^ idt^. о Если и* (t) {0 есть оптимальное по быстродействию управление из множества управлений Д, которому, соответствует решение х* (t), то существует нетривиальное решение л* (О со- пряженной системы А, такое, что х* (t), u*(t)) = = М (т|* (f), и* (t)) почти всюду, а функция u*(t))^O является постоянной всюду. Далее, если множества Хй и суть многообразия с касатель- ными пространствами То и '1\в точках х*(0), х* (t*) соответст- венно, то т)* (0 можно выбрать удовлетворяющим условиям транс- версальности Л* (0) ± TQ и т]* (t*) X Tv Доказательство. Пусть т]*(0 = (Ло> Л* (0) есть сопря- женное решение, определяемое в теореме. Тогда Л? + Л* (0 f (х* (0, м*(0) = тах[т]; + л*(О/(^*(0, «)] и 6 Й ИЛИ Н (я* (0, х* (0, и* (0) = М (л* (0. х* (0) почти всюду. Также М (я* (0, %* (0) 0 или М (т|* (0, х* (0) = — т]о > 0 всюду. Здесь, как обычно, Н (л, х, и) = ц0 + Н(ц, х,.и), М (т), л) = 1]0 + Л4 (л, х). Если т]* (0 обращается в нуль в некоторой точке интер- вала то оно обращается в нуль тождественно, по- тому что является решением системы линейных однородных дифференциальных уравнений А. Но в таком случае условие УЙ (Л*(0, х*(0) = О означает, что т]0 = 0, т. е. rj*(0 = O, что невозможно. Поэтому т]* (0 есть ненулевое решение системы А. Условия трансверсальности для сопряженного решения т,* (0 уже получены в теореме 1. Следствие доказано. Замечание 1. Если множество Xt есть все пространство Rn, ТО задача управления называется задачей со свободным концом
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 345 траектории. Конечно, оптимальное управление и* (0 которому соответствует траектория расширенной системы х* (/) и сопряженное решение я* (0 = (я£, я* (/)), удовлетворяет прин- ципу максимума и условиям трансверсальности, установленным в теореме 1. Условие трансверсальности в конце траектории требует, чтобы т]*(/*) = 0. Замечание 2. Рассмотрим управляемый процесс в простран- стве Rn'. x = f(x, и), с ограниченными измеримыми управлениями и (/) на фиксирован- ном конечном отрезке времени 0 t Т, из множества Q. Пусть Дг все такие управления, которые переводят некоторую началь- ную точку из Хв в конечную точку из Х1г с критерием качества (Г C(«)=Jf(x(0, u(t))dt, о как в теореме 1. Пусть и* (t) есть оптимальное управление для этой задачи с фиксированным интервалом времени и пусть х* (t) есть соответствующая траектория. Тогда существует нетривиальнее сопряженное решение я* (0 = (Яо» Л* (0) (0 t Т) таксе, что Н (л* (0, ** (0, а* (0) = М (я* (0, х* (0) почти всюду, Л1(я*(0, х*(0) = const и Яо^О. Далее, если Хо и Х1 есть многообразия с соответству- ющими касательными пространствами То и 7\ в Rn, то условия трансверсальности имеют вид Я*(0)±То и я*(Т)±Л. Доказательство этих утверждений может быть проведено в точ- ности так же, как в теореме 1, за исключением того, что ника- кие вариации времени не позволяются, т. е. конус К* заменяется конусом Kt. Следовательно, мы не можем утверждать, что М (я*(0, х* (/)) равно нулю. Для фиксированного промежутка времени бесконечной длины получается интересный результат, который мы сформулируем для задачи с закрепленным концом траектории. Фиксируем начальную точку x0£Rn и рассмотрим измеримые управления и (0 на интер- вале < оо, ограниченные на каждом компактном подынтер- вале и удовлетворяющие ограничению й, каждое из которых определяет решение х (0 (0 < t < оо) такое, что lim х (0 = хг в Rn. t -> 00 Множество Д» всех допустимых управлений состоит из всех таких
346 НЁОВХОДИМЫЁ И ДОСТАТОЧНЫЕ УСЛОВИЙ Ёл. 5 управлений, для которых интеграл С (и) сходится: 00 С (и) = [° (х (/), и (t)) dt < оо. о Решение х (t) — (х° (t), х (t)) расширенной системы, где х° = /° (х (t), u(t)), х°(0) = 0, определяется как обычно. Следствие 2. Рассмотрим управляемый процесс в Rn (eZ) х=[(х, и). Измеримые управления и (/)czQ (0^/< оо) с соответствующими траекториями x(t), переводящие систему из точки хй в точку хх с конечным значением критерия качества C(u) = ]f>(x(t), u(t))dt, о составляет класс Дм допустимых управлений. Пусть управление и* (t), которому соответствует решение х* (t) расширенной системы, является оптимальным в классе управ- лений Дда. Тогда существует нетривиальное решение расширенной сопряженной системы т]* (/) = (t]J, tj* (/)) такое, что И (?|* (0, х* (0, «* (0) = М (п* (/)), х* (0) почти всюду на <_ <х>, x*(t)) = O всюду на 0 / < оо u qj0. Доказательство. Для каждого конечного интервала рассмотрим класс Дг ограниченных измеримых управлений, при- надлежащих множеству Q, которые переводят точку х0 в точку х* (Т). Тогда управление и* (0 (0 t Т) является оптимальным управ- лением в Дт, ибо в противном случае любое управление из клас- са Дт с меньшим значением критерия качества может быть до- полнено управлением и*(/) на интервале Т< t < оо, что противоречит оптимальности и* (t) в классе Д«,. Пусть т|* (Т) = ("Пог, Ят (0) — решение сопряженной системы (Л) П = — П (х*(0, (0). такое, что Я(т]т(0> u*(t)) = M (rjr (t), х*(0) почти всюду, М (т|т (t), х*(0) = 0 всюду на 0^/<оо, и т]от^О- Выберем в качестве вектора т)г (0) единичный вектор.
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 347 Положим Т = 1, 2, 3, ... , г, ... и выберем подпоследователь- ность единичных векторов (0), сходящихся к некоторому еди- ничному вектору т]*(0), такому, что лХ^О. Пусть л* (t) = (Ло, Л* (0) будет соответствующим образом определенное решение системы Л на интервале 0^/^оо. Заметим, что lim т]т (0 = Л*(0 на 0^/<оо, Т св причем сходимость является равномерной на компактных интер- валах времени. Мы докажем, что решение т]*(/) вместе с управ- лением и* (/) и соответствующим решением х* (t) (0 t < оо) удов- летворяет принципу максимума. Предположим, что Я(л(0, ?(о,«’(0)<М(л*(0, ^*(0) на некотором подмножестве положительной меры из промежутка 0^/<оо. Тогда имеется такой лебеговский момент времени /1( что Я(Л*(Л)> **(*i), «*(<1))<Я(л*(Л), «1)—6 для некоторой точки £ Q и 6 > 0. Для достаточно большого Т > /х мы получим Лт (Q f (х* (/j), и* О'< Л г (^i) № «1) — у • Но из доказательства теоремы 1 следует, что это неравенство не- возможно, так что Я(Л*(0, u*(t)) = M (л*(0, >(0) почти всюду на < оо. Доказательство теоремы 1 показывает также, что М (л* (0,^(0) есть константа на полуинтервале 0^f<oo. Тогда легко пока- зать, что М (л* (0> (0) = 0 на 0 t < оо. Следствие доказано. Обратимся, наконец, к наиболее общему случаю нелинейного неавтономного управляемого процесса. Принцип максимума для таких процессов будет получен как непосредственное следствие теоремы 3 главы 4, путем введения времени в качестве новой координаты x”+1 = t В последующих рассмотрениях мы предполагаем, что: 1) (<^) x=f(x, t, и) есть процесс управления в пространстве причем в /?"+1+ж.
348 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 2) Начальное и целевое множества Ха и Х2 являются непу- стыми подмножествами в R". 3) Допустимые управления Д суть ограниченные измеримые функции u(t), определенные на различных конечных интервалах времени удовлетворяющие некоторым ограничениям «(ОсйсР”, и каждое из управлений переводит некоторую точку х0£Х0 в некоторую точку xx€^r 4) Критерий качества управления и (t) (t0 t /х) из класса Д, которому соответствует решение х(/), имеет вид ^1 С(м)= f, to где f° в Rn+i+m. Траектория расширенной системы, соответ- ствующая управлению u(t), есть x(t) = (х°(/), x(t), x<n+1’(0) и является решением уравнения (<§0 x',=~f(x, и) или 'x0 = f«(x, x"+1, и), x~f(x, x”+1, и), х”+1 = 1 с начальным условием х(/о) = (О, х0, t0). Расширенная сопряжен- ная система имеет вид М) Й= — «(0) ОХ ИЛИ По = 0» п — / = 1, Йп+1== —t, u(t)). i=0 Функция Гамильтона для расширенной системы Н(г\, х, u) = rffQ(x, x”+1, и) + ... + r\nfn (х, x"+1, ы) + пп+1 и М Оъ х) = max Н (ц, х, и), и 6 Й Мы будем также писать х = (х, х”*1), п = (п, П„+1) и Д(т), х, и) = Я(п, х, I, и) + цп+1, M(ri, x) = M(ri, х, 0 + Пл+г
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 349 Теорема 2. Рассмотрим управляемый процесс в R": $ (<§0 x = f(x, t, и). Пусть Д—совокупность всех ограниченных измеримых управлений и(1)сОсКя, определенных на различных конечных интервалах времени tQ t h и переводящих точки множества начальных со- стояний Хо в Х1Г как указано выше, с критерием качества tt С(и) = ^ f°(x(t), t, u(t))dt. to Если управление и* (t) на интервале t < t{ с соответствую- щей траекторией расширенной системы х* (/) является оптималь- ным управлением в Д, то существует нетривиальное решение -rj* (/) расширенной сопряженной системы Л, такое, что Н (п* (0» х* (0, «* (0) = М (Ч* (0> х* (0) почти всюду и ?(0М, т)о‘<0 всюду на Это можно записать также в виде Я(т]*(/), х* (/),/,«*(/)) = Л1(т]*(/), х*(/), 0 почти всюду и **(t), t)^ j £n;(S)^-(x*(s), s, u*(s))ds. /* z=o Условия трансверсальности Лл+х (M = Чл+х (^x) = 0 и, следовательно, Mfrw, ?&*), /;)=o. Если множества Х„ и Xt (или только одно из них) являются многообразиями в Rn с касательными пространствами Та и Тг в точках xj и xj соответственно, то решение rj* (t) нужно выбрать удовлетворяющим следующим условиям трансверсальности (или только одному из них): win и тга:)±л- Доказательство. В пространстве Rn+1 переменных (х, х”+1) задача управления x — f(x, xn+1, и), х"+1 = 1 с критерием качества C(u)=y»(x(t), xn^(t), u(t))di
350 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 есть задача управления автономным процессом подобно изложенной в теореме 3 главы 4. Начальное и целевое множества суть ци- линдры X^xR1 и Х1хЯ1. Так как хп+1 = 1, то каждое управле- ние u(t) на интервале 0^^^^—10 (в этой автономной задаче), которое переводит точку (х0, /0) в точку (xn можно считать определенным на интервале следовательно, u(f) есть управление из А. Таким образом, оптимальное управление u*(t) из класса А, определенное на интервале времени ZJ t ^.tl, является также оптимальным управлением для этой автономной задачи в пространстве Rn+1. Из теоремы 3 главы 4 мы получаем необхо- димые условия: x?(t), x*(/)) почти всюду и Л4(т]*(^), х*(/)) = 0, всюду на интервале Утверждения Н = М и М = С т)* (s) (х* (s), s, и* (s)) ds 1*1=0 го прямо следуют из определений, предшествующих этой теореме, и соотношения / п П»+1(0=— j s, «*(s))ds+T|:+1(Q. f* i=0 'o Равенство (tJ) = 0 следует из условий трансверсальности. Дей- ствительно, условия трансверсальности утверждают, что решение rf(/) можно выбрать так, чтобы вектор (r]*(Q, Яп+1(^о)) был ор- тогонален к прямой XqXR1, а вектор (т|*(t*), был орто- гонален к прямой х* х R1. Это означает, что г]„+1 (/#) = r|J+1 (/J) = 0, что и требовалось. Тогда, учитывая, что М~ — т|„+1, получаем М(П*(0> 0 = j (s)^(x*(s), s, u*(s))ds 4* 1 = 0 и Ai(?(^). x*a0*), ?(/;), ф=о. Если Xo и %! суть многообразия в Rn, то цилиндры X^xR1 и X^xR1 ортогональны к векторам (п*(^)> Пп+i W)) и T)ra+i (^)) соответственно. Таким образом, если q„ есть вектор, касательный к Хо в точке xj в пространстве Rn, то я* (ЭД Яо = 0, и вектор Л* (ЭД ортогонален к X». Подобный результат получается и для Хх. Теорема доказана.
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЙ ТРАНСВЕРСАЛЬНОСТИ 351 Замечание 1. Рассмотрим неавтономную задачу управления из теоремы 2, но фиксируем начальный момент времени /о = ^о> оставляя свободным конечный момент времени tx > t0, для управ- лений, переводящих Хо и Xv Тогда соответствующее множество допустимых управлений есть Д/о. Пусть u*(t)—определенное на интервале оптимальное управление в Д<о, а х* (t)—со- ответствующее решение расширенной системы. Из принципа максимума следует, что х*(0)> (0 = М(Л*(0, почти всюду и x*(f))s=O, всюду на Это означает, что Н = М и М = j У п/ (s) (х* (s), s, и* (s)) ds, t* <=о так что М (?|*(^)> fi) = 0» так как т1л+1(^1) = 0- Однако мы не можем утверждать, что Ял+1(^о) равно нулю. Если Хо и Хг суть многообразия в R", то как и выше П*а.)±Х0 и t)*(^)±Xr Замечание 2. Рассмотрим теперь неавтономную задачу управления из теоремы 2 при дополнительном условии, состоящем в том, что начальное и целевое множества Хо (/) и Хг (t) зависят от времени. Предположим, что Хо (t) и Хг (/) суть дифференцируе- мые многообразия в пространстве Rn+1 координат (х, xn+1). Пусть управление и* (Г), определенное на [с соответствующим решением х*(/) расширенной системы], будет оптимальным в классе Д. Тогда принцип максимума утверждает, как и прежде, что Н = М и М==0, т]о^0. Это означает, что t п Й = М и М= J £ik'(s)^(x*(s), s, u*(s))ds—^+i(G)- <м=о Условия трансверсальности имеют вид (n‘W), CnW))±X0(/;) в (х0‘, Q в Rn+1 и (я*(^). •n»+i(G))±X1(ri) в (х;, Q в Rn+\ Если момент времени = является фиксированным, а допус- тимые управления принадлежат соответствующему классу Af, в котором управление является оптимальным,
352 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 то условия трансверсальности выполняются лишь в момент вре- мени [но при этом также »]*(/*) I X,, в 7?"]. Пусть, в частности, множество Хо состоит из одной точки х0, a Xj(0 есть кривая (хД/), t) в Ra+1, и пусть управление u*(t), будет оптимальным в классе управлений Д4. Тогда условия трансверсальности в момент t0 не имеют смысла, но в момент t* будем иметь где ^i = Xj(/;) есть скорость целевой точки. В этом случае ?(/;), /Г) = 11*(/По- следствие 1. Рассмотрим управляемый процесс в R“ г (&) x = f(x, t, и). | Пусть Д есть совокупность всех ограниченных измеримых управле- I ний u(t)^Q<zRm, определенных на различных конечных интервалах времени t9 t 4 и переводящих точки из множества Хо во мно- $ жество Хх, как и выше, с критерием качества \ с i С(и)=\ I dt = tt—t9. ! /о я Если управление u*(t)(tg^.t^.tl), которому соответствует I траектория x?(t), является оптимальным в Д, то существует I нетривиальное решение if (0 сопряженной системы Л, такое, что I x*(t), t, и* (/)) = М (т)* (/), х*(/), t) почти всюду и x*(t), /)-j^4?(s)^(x*(s), S, u*(s))ds <;*=« есть неотрицательная постоянная величина всюду на интервале лкп*(/п. х*^). ф>о. Если множества Хо и Хх суть многообразия в R” с касатель- ными пространствами То и Т\ в точках х„ и xj соответственно, то надо выбрать if (/) так, чтобы nwr. и п‘(/;)±л- Доказательство. Здесь ! п Н (т), X, t, и) = S t, и) = И (ц, X, t, и) — Т|о £=1
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 353 и л „ М(Я, х, t) = max Н (я, х, t, и) = М(т\, х, и € Q Отметим, что нетривиальное решение я*(0 = (л1!> Л* (О- Л»+1(0) со- пряженной системы Л определяет решение я* (0 системы п М) Л/=-Ел/^(О.^«‘(0). /=!,...» п. Так как л . 1=1 то равенство я*(0 = 0 означает, что Яо^О и Лп+i являются кон- стантами. Но тогда условия трансверсальности означают, что т]л+1(/) = 0, а из соотношения А4 = 0 следует, что я» = 0> и, та- ким образом, получаем я (О = О» что невозможно. Следовательно, Я* (0 есть нетривиальное решение системы Л. Из теоремы 2 следует, что Я (Я* (0» х*(0, «*(0)=Л4 (я*(0, х*(0, 0 почти всюду, и М (я* (0, X* (0, 0 = j £ Л/ (0 (X* (0, S, «* (0)ds-я;, так что А1(Я‘(Л), т /;) = -п;>0, что и требовалось. Если множества Хо и являются многообразиями в про- странстве Rn, то условия трансверсальности теоремы 2 дают тре- буемые условия ортогональности. Следствие доказано. Замечание 1. Если начальный момент времени /0 = Ц фиксирован и используются управления, принадлежащие классу А/о, то выводы следствия сохраняются. Замечание 2. Обратимся к рассмотренной в следствии 1 задаче управления, оптимального по быстродействию, но с зави- сящими от времени начальным и целевым множествами Xa(t) и X^t). Тогда И (я*(0» х*(0, t> = M (я*(0> х*(0, 0 почти всюду и м (Я* (0, X* (0, 0 = j X Я* (0 (X* (0, S, Ц* ($)) ds - я:+1 (О—Яо- 4,el Снова, если множество Хо(0 является произвольным, a Xx(0 12 Э. Б. Лк, Л. Маркус
354 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 есть кривая (хх(0, О в Rn+l> то условия трансверсальности дают n,W)?1+^+tW)=o, где^1=х1(^) есть скорость целевой точки. Соотношение Сь1(Ф = —П*(Ф<71 справедливо, даже когда начальный момент времени t0 фиксиро- ван и используются управления, принадлежащие классу А<„. Замечание 3. Рассмотрим управляемый процесс в 7?" x=f(x,t,u) с ограниченными измеримыми управлениями u(t), определенными на фиксированном конечном интервале времени 0 t Т, и удо- влетворяющими ограничению й a: Rm. Пусть А? —совокупность всех таких управлений, которые переводят некоторую начальную точку, принадлежащую множеству Хо, в некоторую конечную точку, принадлежащую множеству Xt, с критерием качества т C(u)=\f*(x(t), о как в теореме 2. Пу&ь управление и*(t) на отрезке будет оптималь- ным управлением для этой задачи с закрепленным временем, и пусть будет соответствующим решением расширенной си- стемы. Тогда существует нетривиальное решение л’(0 расширен- ной сопряженной системы Л на интервале О t Т такое, что **(0> ы*(0) = М(т]*(/), х*(0) почти всюду. Рассматривая начальное множество и конечное целевое множество, как подмножества (Хо, 0) и (Хх, Т) в Rn+1, мы можем игнориро- вать ограничения времени и заключить, что Л4 (?)* (/), х* (/)) = 0, Tio 0 на интервале 0 t Т. Если Хо и Хх суть многообразия в Rn, то выбираем if (7) = = (П«» П*(0. n»+i(0) так, чтобы т)*(/;)±Хои Но Пл+х(0) и 'Пл+1(Л могут не оказаться равными нулю. Тем не менее rj* (7) = (itf, ?)* (0) не обращается в нуль [так как Л1 = 0, а г]* (/) не равно нулю] и является нетривиальным решением системы п (Л) Т)0 = 0, П/ = —t “*(0)» / = 1. •••,«• Необходимые условия, которые удовлетворяются выбором управ- ления и* (/) в задаче с закрепленным временем, будут как раз теми, что установлены в теореме 2 [с выражением для Л1, не со-
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 355 держащим nS+i(°)’ которое может не обращаться в нуль]. Если X =/?п, то г\*(Т) = (0, 0, 0.....0) и мы можем выбрать ^•(Т) = (—1, 0, 0, ..., 0). Обратимся теперь к варианту принципа максимума, который имеет место для линейных управляемых процессов с импульсными управлениями. Определения и обозначения остаются теми же, что были введены в разделе 4.2 (см. теорему 7 главы 4). Рассмотрим линейный импульсный управляемый процесс в (j?) Dx = A (t)x-\-B (0 Du, или t X (/) = Ф (0 Хв + $ Ф (0 Ф-Ч8) В (s) Du (S) о с начальным условием х(0 — ) = х0 на фиксированном компактном интервале времени Управления u(t) являются непре- рывными справа m-мерными вектор-функциями ограниченной ва- риации, каждая из которых определена на некотором открытом интервале в окрестности отрезка 0 t Т. Каждое такое управ- ление определяет на интервале 0 t Т некоторую меру (Ле- бега—Стилтьеса) Du, a x(t) является соответствующей траекто- рией, начинающейся в точке х(0—)=х0. Коэффициенты Л(0 и B(t) суть непрерывные матрицы, а Ф(0 есть фундаментальная матрица решений системы однородных дифференциальных уравне- ний, удовлетворяющая условию Ф(0) = /. Мы ищем управление u(t) (или соответствующую меру Du), которое переводит точку х(0—)—х0 в предписанную целевую точку х(Т) = хг с минималь- ным значением критерия качества m л m l|Du|| = y\lDu/| = yiu/(0)-u/(0-)|+ var ui. /TjS /t? 0</<T Линейное пространство <Л всех таких векторных мер с указан- ной выше нормой есть банахово пространство (полное нормиро- ванное векторное пространство). Кроме того, пространство можно отождествить с дуальным пространством 5В* (пространством всех непрерывных линейных функционалов) банахова пространства 5В. Здесь Si есть пространство всех непрерывных действительных /n-мерных векторных функций у (0 на интервале 0 < t <1 Т с нормой IIУ (011»= max |^(0|. Указанное отождествление и ЗЭ? осуществляется сопоста- влением мере Du^o^ функционала т о 12*
356 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 Пусть Duk есть последовательность мер в с равномерно огра- ниченной нормой || Duk || Р- Тогда для каждого у (t) С Зд сущест- вует последовательность Duk(, которая слабо сходится к некото- рому пределу Du с нормой || Du || р, т. е. т т lim \y(t)Duki = \y(t)Du. *< - » о о Для т = 1 этот результат известен как теорема Хелли—Брея. Если мы ограничимся абсолютно непрерывными управлениями u(t), то Du = u(t)dt и импульсный управляемый процесс сво- дится к системе обыкновенных дифферециальных уравнений с аб- солютно непрерывным решением t х (0 = ф (0 х0 + $ Ф (О Ф-1 (s) В (s) и (s) ds о и критерием качества т ||Й(ОЛ|| = J |й(0[dt. о Однако кнутри этого класса управлений оптимальное управление может не существовать, и поэтому мы вводим более общие им- пульсные управления. Мы предполагаем, что процесс 3? является вполне управляемым на интервале 0 t Т, т. е. строки матрицы Ф -1(s) В (s) линейно независимы в Это будет в том и только том случае, когда внутренность множества достижимости /С (Г) непуста. Если мат- рицы А и В являются постоянными, то обычное условие управ- ляемости rank [В, АВ, ..., ЛП-1В] = п является необходимым и достаточным условием линейной незави- симости в Si строк матрицы O-1(s)B(s). Лемма. Рассмотрим управляемый импульсный процесс в Rn: (j?) Dx = A(t)x + B(t)Du с начальным условием х(0—)=х0 и ограничением ||Ди||^ана интервале 0 t Т. Тогда множество достижимости К (Т, а), соответствующее точке х0, есть компактное выпуклое множество, которое непрерывно изменяется с изменением а^О. Множество К. (Т, cQ лежит внутри множества К. (Т, а2) всякий раз, когда О а1 < ®2. Доказательство. Компактность множества К(Т, а) сле- дует из теоремы Хелли—Брея; выпуклость следует из элементар- ноговычисления вариаций. Так как управление Dut(t) с нормой
5 1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 357 ]IDU II ^а2 можно аппроксимировать управлением Dur с нор- мой || < (просто считаем, что D«1 = D«2, за исключением некоторой окрестности точки t = T, где мы полагаем Дм1==0), мы замечаем, что К(Т, а2) и множество достижимости К(Т а) непрерывно зависит от а>0. В самом деле, /С(Т, а)— -ф(Т)Х<> = а[К(Т, 1)-Ф(Т)х0]. Окончательно, пусть ах < а2, и мы берем управление ux (t) с нормой ||D«i|Kav приводящее в точку Х1^К(Т, ах). Свойство управляемости процесса S гарантирует существование п+1 глад- ких управлений 0^(0, te»2(/), Для которых ЦГкМО |1<а2—«о и таких, что управления приводят к вершинам сим- плекса с центром в точке Х1, где k=l, 2, ...,п+1. Таким об- разом, точка Х1 лежит внутри множества достижимости К. (Т, а2). Лемма доказана. Эта лемма гарантирует существование оптимального управле- ния, а также дает формулу для вычисления оптимального значе- ния критерия качества. Эта формула получается максимизацией линейной функции на сферической гиперплоскости HcRn. Мно- жество Н определяется как совокупность всех n-мерных векто- ров-строк я, таких, что цт1ф(т)ф-чов:(о11«=1- Так как система 2 вполне управляема, то каждый единичный вектор или направление в /?" определяет ненулевой вектор г\£Н. Следствие. Существует оптимальное управление u*(t) с ми- нимальным значением критерия качества ||Z>n*|| = a*, где a* = max т] [хх—Ф (Т) х0]. пен Доказательство. Так как К(7, а) является компактным множеством и непрерывно расширяется при а>0, разрастаясь из единственной точки Ф (Т) х0 и поглощая затем каждую точку xlt то существует минимальное значение a=a*, для которого Х1^К(Т, а). Действительно, точка хх лежит на границе множе- ства К (Т, а*). Пусть т]*—вектор внешней нормали к выпуклому множеству К (Т, а*) в точке хх, нормированный так, что ?]* £ Н. Тогда г = max tfx = max if Ф (Т)х0 + ( Ф (Т) Ф “’(П'В (0 Du хеКСТ.а*) ||Ои||<а‘ [ 0 ‘ и, следовательно, т т|* [х;—Ф (Т) х0] = max ( if ф (Т) ф -‘(0 В (0 Du. ||De||<a*o
358 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 Так как есть дуальное пространство для пространства ЗВ, этот максимум будет равен а‘||П*Ф(Т)Ф-Ч0В(/)||л = а‘. Следовательно, а‘ = П*[*1—ф(Л*о] и мы устанавливаем правило: надо взять любую точку хг на границе дК (Т, а*) множества достижимости и любую внешнюю нормаль я* € Н. Тогда значение а* вычисляется как указано выше. Выберем теперь любой вектор с началом в точке хх. Гиперплоскость л, нормальная к я» есть тогда опорная гипер- плоскость в некоторой точке х на границе некоторого множества достижимости К(Т, а), для которого О^а^а*. Если я есть внешняя нормаль, то •П[х—Ф(7)х0]=а и, следовательно, т] [хх—Ф (7) х0] = а < а*. Если я есть внутренняя нормаль, тогда —г] есть внешняя нор- маль, рак что т)’[Х1—Ф (7) х0] = — а < 0. Таким образом, во всех случаях П [Xi—ф (Л *о] С а* = П* [Xi—Ф (7) х0] и формула для нахождения а* доказана. Следствие доказано. Мы заключаем, что управление «*(/), переводящее систему из точки х0 в точку хх, является оптимальным тогда и только тогда, когда || Du* || = max т] [хх—Ф (7) х0]. Эта формула будет служить в качестве основы для нахождения оптимальных управлений как суммы б-функций. Но сначала мы покажем, что каждая точка в множестве К.(Т, а) может быть достигнута при импульсном управлении, которое является линей- ной комбинацией (самое большее) п +1 скййярных б-функций и норма которого есть а. Достаточно доказать, что каждая точка в К (Г, 1) достижима при помощи управления, являющегося выпуклой комбинацией «+1 скалярных б-функций. Под скалярной б-функцией ±ДЙ(/—Г) мы подразумеваем векторную меру, /-я компонента которой соответ- ствует ступенчатой функции {0 при t < V, ±1 при
ff.r rfFriHlirilf МАКСИМУМА Й УСЛОВИЙ" 'ft’АНСВЕ?РСАЛЬНОСТИ где 0 «С t' < T, S' §4 есть символ Кронёнера. Другими словами, д ft-—Г) имеет вес -f-Г только в Л-й компоненте и. только в мо- мент t = Г и не имеет весов во всех других случаях. Пусть теперь g(t) есть управление с ограничением ||Dg||sC 1, такое, что концевая точка х^Т) соответствующей траектории при- надлежит К (Т, 1). Возьмем 8 > 0 и выберем разбиение конечного отрезка времени (О —) = t0 <Z.. • = 7 такое, что т $0(7)0-405 (0^(0- о - 21 Ф (7) Ф -\te) В (te) [g (t,+1)-g (t,)] a=o 8. Рассмотрим линейную комбинацию скалярных S-функций m i=i весами которой служат компоненты вектора (g(£o+1)—g(Q] в мо- мент t = te. Составим сумму всех этих импульсов v m 2 Ste'&+0-*4Q]A/(*-Q=DgA(0. a=e /=1 Тогда DgA есть [линейная комбинация скалярных 6-функций, и над=s ig(Ui)-g(Qic№ii< 1. (J=O Сумму, определяющую Dg^(t), можно [при соответствующем выборе знаков у сомножителей ±А/(/—/0)] представить в виде: Dgb (t)=js s I (±W-t,y) + +1^Д1(0+М1£М(_д1(()). Отсюда в силу предыдущего соотношения следует, что Dg^{t) есть выпуклая комбинация скалярных S-функций. Концевая точка траектории *д(7) аппроксимирует д^(7), т. е. Пусть ©—множество всех точек в К (7, 1), которые дости- гаются управлениями в виде скалярных 6-функций. Мы показали, что выпуклая оболочка Я(©) плотна в К (7, 1). Таким образом,
360 НЕОБХОДИМЫЕ й достаточные УСЛОВИЯ ГЛ. 5 каждая точка из внутренности /С (Т, 1) лежит в H(S>). Пользуясь стандартными рассуждениями о выпуклой комбинации точек в Rn, мы замечаем, что каждая точка из внутренности К(Т, 1) лежит в n-мерном симплексе с вершинами в S). Следовательно, каждая внутренняя точка множества /С (7, 1) является достижи- мой с помощью управлений, являющихся выпуклой комбинацией п4-1 скалярных 6-функций. Беря соответствующие пределы, легко показать, что каждая граничная точка множества /С (Г, 1) является достижимой при помощи управлений, являющихся выпуклой ком- бинацией (самое большее) л 4-1 скалярных 6-функций. Теорема 3. Рассмотрим управляемый импульсный процесс в Rn (J7) Dx=A(t)x+B(t)Du с начальным и конечным состояниями х(0—) — х0 и х(Г)=х1 и управлениями и (0 ограниченной вариации и с критерием качества || D (и) ||, определенными на компактном интервале времени 0^^7. Пусть вектор ц*£Н удовлетворяет соотношению ц* [хх—Ф (7) х0] = max rj [хх—Ф (7) х0] и определяет замкнутое множество моментов времени Гу=(/|(т1*Ф(7)ф-‘(0В(0У=±1}, / = 1, Предположим, что управление u*(f) с соответствующей мерой Du* (0 = сх ДА1 (t—/х) 4-... 4- cn\kn (t—t„), представимой в виде линейной комбинации п скалярных ^-функ- ций, удовлетворяет условиям: (а) «*(/) переводит точку х0 в точку хх, т. е. (хх-Ф(7)х0)/=С16/Ф(7)Ф-^)Вах)4- •. • ...+с„6{лФ(7)Ф-Ч/„)В(/„). (Ь) Все импульсы для i-й компоненты управления и* (t) лежат во множестве Гу, а знаки действительных коэффициентов сх, ..., сп таковы, что выполняется равенство т $ П*Ф (7) Ф-ЧО В (0 Du* = | сх 14- • • • 4-1 сп |. о Тогда u*(t) есть оптимальное управление. С другой стороны, всегда существует оптимальное управление, представляющее собой такую комбинацию п скалярных б-функций (с предписанными л* и Гу). Доказательство. Если управление и*(0 удовлетворяет гипотезам (а) и (Ь), то и*(0 переводит точку х0 в точку хх и достав-
5 1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 361 ляет минимум критерию качества ||D«*||=a* = T)*[xi—Ф(Л*о]- Это последнее утверждение следует из равенства т Ы +. • • +|С„|= 5 тГФ(ЛФ -х(0 B(t) Du*. о Поэтому u*(t) есть оптимальное управление. Пусть теперь вектор if и множества Оу выбраны, как указано выше. Существует опти- мальное управление, переводящее точку х0 в точку хх ^мини- мальным критерием качества a*. С помощью рассуждений пре- дыдущей теоремы мы можем найти оптимальное управление и (t), являющееся линейной комбинацией га-|-1 скалярных 6-функций; в са- мом деле, и (0 есть выпуклая комбинация n +1 модифицированных 6-функций, каждая из которых обладает импульсом ± а* как раз в одной компоненте [т. е. является импульсным управлением вида ±а*ДА(/—Г)]. Так как точка хх лежит на границе множества К(Т, а*), она не может лежать во внутренности n-мерного сим- плекса, вершины которого соответствуют модифицированным б-управлениям. Поэтому либо точка xt лежит на грани этого симплекса либо симплекс не имеет внутренности и совпадает с гиперплоскостью в Я"; в любом случае точка хх может быть достигнута с помощью выпуклой комбинации только п модифици- рованных 6-функций (и, возможно, управления равного нулю). Поэтому u(t) является оптимальным управлением с мерой Du, представимой в виде линейной комбинации п-скалярных 6-функций. Импульсы /-й компоненты Du. должны лежать во множестве Гу, в противном случае мы получаем неравенство a* = J 1]*Ф (Т) Ф-1 (/) В (/) Du < || Du || = а*, что невозможно. Таким о образом, и(1) должно быть оптимальным управлением, имеющим указанный в теореме вид. Теорема доказана. Теперь вычислим импульсное оптимальное управление для того, чтобы проиллюстрировать значение приведенной выше теоремы. Пример. Рассмотрим импульсный управляемый процесс DPx = Du или систему на фазовой плоскости Dx1=x2, Dx2=Du; мы хотим перевести систему из точки (0, 0) в тощсу (1, —1) в течение промежутка времени 0 t 1 с минимальным значением И н го 1 показателя качества | Du ||. Здесь Ф (0 = L J и В = , так
362 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 что условие Н имеет вид max |(l—O»h+ih|-l. 0</<1 Для каждой угловой координаты 0 мы должны вычислить c(0)(cos0, sinO) в Я [здесь с(0) > 0]. Имеем с(0) = min |COS0+sin0| . |sin0|}• Тогда значение 0, определяющее вектор if, получается максими- зированием того из следующих двух выражений (41. = cos 0—sin б |cos0-f-sin0| ’ cos 0—sin 0 I sin 61 ’ у которого правая часть имеет больший знаменатель. Тщательное изучение этой тригонометрической функции дает единственное соот- ветствующее значение 0*, у которого cos 0* = 2/К 5, sin 0*=—1/Кб, так что вектор ц* = (2, —1) определен, притом единственным образом. Тогда множество Г, на котором 1—2/ = ±1, таково: ' Г = {/ = 0, t = 1}. Поэтому оптимальное управление имеет вид Du*=c16(04-c26(Z—1). Неизвестные коэффициенты сх и с2, для которых || Du* || = 4% = а* = 3, а управление и* переводит точку (0, 0) в точку (1, —1), таковы: сх ~~ 1, с, ~ —2. Таким образом, Du* = S(0—26 (t— 1). Это единственное оптимальное управление (потому что носитель меры Du*, соответствующий любому оптимальному управлению, должен быть сосредоточен на множестве Г и, следовательно, является комбинацией двух скалярных 6-функций). Заметим, что оптимальная траектория сначала имеет скачок от начала координат до точки (0, 1), потом свободно движется к точке (1, 1) и потом скачком достигает целевой точки (1, —1). В заключение мы исследуем линейный управляемый процесс с гладкими управлениями, имеющими ограниченную скорость изменения. В такой постановке реально учитывается инерция управляющего механизма и устраняются мгновенные переключе- ния. Анализ приводит к задаче с ограниченными фазовыми коор-
5.1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 363 динатами, но такого специального вида, что принцип макси- мума к ней легко применим. Для того чтобы убедиться, что основные предположения об управляемости явно подтверждаются, мы сосредоточим внимание на автономных линейных процессах. Более общая задача с ограниченными фазовыми координатами также будет обсуждена. Рассмотрим линейный автономный процесс в R": х=Ах+Ви, в котором требуется перейти из начального состояния х0 в конеч ное состояние хх при помощи некоторого оптимального управления и* (0 в Rm, определенного для некоторого минимального интервала времени Допустимые управления являются абсолютно непрерывными функциями и(/), определенными на различных ко- нечных интервалах времени 0 t tlt и удовлетворяют следующим ограничениям: 1) и (0 с £2, где £2 есть заданное замкнутое выпуклое множе- ство, содержащее начало координат пространства Rm; 2) функция = является измеримой и для всех j = 1, ..., т почти всюду; 3) и (0) = u (/х) = 0. Мы можем ввести (лЦ-т)-мерный вектор состояния Г*1 (О'* и записать обобщенный управляемый процесс , - • М В1 Г°1 z=[o oJz+lJv- Для процесса (=?’) мы выберем в качестве начального состояния (хо\ /хЛ точку z0 = ), в качестве конечного состояния точку z,=l 11 \° / \0 J и используем измеримые управления v (t), определенные на интер вале 0=^^^, такие, что I (0 К 1 Для всех / = 1, ... , т и для которых соответствующее /р»\ вым ограничениям z(t) с ( ). \ й у решение z (I) удовлетворяет фазо- Оптимальное управление и* (t)
364 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 процесса 2 тогда определяет оптимальное управление р* (/) — и* (f) процесса 2, и наоборот. Поэтому ясно, что оптимальное управ- ление и*(0> определенное на интервале существует для системы 2 при условии, что имеется некоторое допустимое управление, переводящее точку х0 в точку хг (см. теорему 4 главы 4). Мы докажем, что оптимальное управление и* (/) для системы 2, определенное на интервале удовлетворяет по крайней мере одному из условий и* (0 € дй или | и*1 (01 = 1 Для всех / = 1, ..., т в почти каждый момент времени. Это свойство оптимального управления соответствует импульсно-релейному режиму (pang — bang behavior). Если процесс 2 является управляемым и если множество й содержит точку ы = 0 в качестве своей внутренней точки, то каждую начальную точку х0, лежащую достаточно близко от на- чала координат в пространстве R", можно перевести в точку хг = 0 с помощью допустимого управления. Если, кроме того, А есть устойчивая матрица, то из любого начального состояния х0 С Rn можно Перевести систему 2 в начало координат с помощью до- пустимого управления; следовательно, оптимальное управление во всех этих случаях существует (см. упражнение 8, приведенное ниже). Для того чтобы облегчить применение теоремы 4, мы пред- положим, что система 2 вполне управляема, т. е. rank [В, АВ, А2В, .... Л”-»В]=п. Лемма. Рассмотрим автономный линейный процесс в Rn: (2) х — Ах+Ви, с начальным состоянием х0 в момент t = 0 и абсолютно непре- рывными управлениями u(t), определенными на интервале удовлетворяющими ограничениям и (t) с. й и | uJ(t) | <11, и такими, что и (0) = w (^) = 0, как было выше указано. Тогда множество К (fx) достижимых концевых точек х(/х) есть компактное выпуклое мно- жество в Rn. Кроме того, управление и (t) на интервале 0 <1 / является экстремальным, т. е. траектория x(t) заканчивается в точке тогда и только тогда, когда оно удовлетворяет принципу максимума ц «1 i](s) Ви (s) ds = max J t] (s) Bu (s) ds. о о Здесь максимум берется no всем допустимым управлениям u(t),
§ I \^1РИНЦИП МАКСИМУМА Й УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ определенном на интервале О удовлетворяющим указанным выше ограничениям, a fj(Z) есть некоторое нетривиальное решение сопряженней системы М) п = — М- Доказательство. Доказательство выпуклости множества достижимости проводится так же, как в теории линейных процессов в главе 2. Компактность множества К (^) можно дока- зать, выбирая подпоследовательность управлений м(0, с соответ- ствующими производными u(t)=v(t), слабо сходящимися ^неко- торому пределу o(t). Легко проверить, что управление «(/)= t = ^v(s)ds является допустимым управлением, которое переводит о _____ х0 в желаемую точку множества К (/J- Проведение доказательства во всех деталях предоставляется читателю в качестве упражнения. Доказательство принципа максимума является в точности та- ким же, каким оно было в главе 2. Как обычно, ц (fx) есть единичный вектор внешней нормали к выпуклому множеству К (О в граничной точке х (tj). Теорема доказана. Мы теперь предположим, что процесс <2 является нормальным для стандартного m-мерного куба, т. е. det | Во, ABv, A*Bv, ...» Art~1Bv | #= О для каждого m-мерного вектора о, направленного вдоль одной из координатных осей в Rm (для всех ребер v стандартного /п-мер- ного куба). Мы говорим, что процесс S является куб-нормальным и отсылаем читателя к дискуссии о свойстве нормальности в гла- ве 2, где показано, что это предположение означает полную управляемость процесса 3?. Легко также показать, что для куб- нормального процесса 3 каждая компонента вектора i\oe~AtB, для каждого цо#=0, обращается в нуль только на дискретном мно- жестве моментов времени. Теорема 4. Рассмотрим куб-нормальный автономный процесс в Rn: (3") х= Ax-f-Bu, с начальным состоянием х9 в момент t — Q и конечным состоя- нием хх. Управления суть абсолютно непрерывные функции u(t), определенные на различных конечных интервалах времени 0 t tu переводящие решение x(t) из точки х(0)=хо в точку х(/1)=х1 и удовлетворяющие следующим ограничениям: 1) и(0 ей, где Q—замкнутое выпуклое множество, содер- жащее начало координат пространства Ra;
/ Збб необходимый и Достаточный УсДовий / йл. S 2) |«/(/)|^ 1 для всех 1=1, ... , т почти всюду, / 3) «(0) = ы(/1) = 0. / Если управление u*(t) на интервале 0^ t t* является оптималь- ным по быстродействию, то или и* (/) С дй, или | uJ* (t) | = 1 для всех / = 1, ... , т в почти каждый момент времени. Доказательство. Предположим противное, т. е. что име- ется подынтервал 3 интервала 0 t t*, для которого управление «•(/) лежит во внутренности множества Q и, пусть, например, |> (/) | < 1 на некотором подмножестве положительной меры. Пусть Я* (0 = будет нетривиальным решением сопряженной систе- мы, так что t* t* J rfoe~AtBu* (t) dt = max J irfe-AtBu(t)dt, о о как в предыдущей лемме. Так как процесс 3? является куб-нор- мальным, то первая компонента £ (/) вектора не обращается в нуль на интервале 3 (или на его подынтервале, который также обозначим через 3). Мы определим новое допустимое управление и (/) (0 t /*), такое, что = для 1 = 2, 3, ... , т на интервале и1 (/) = и1* (t) вне 3. Тогда ^(t)u”(f)dt <fc(t)&(t)dt. 3 fir Таким образом, факт существования управления u(t) противоре- чит принципу максимума, которому удовлетворяет управление u*(t), и отсюда будет следовать необходимая нам теорема. Достаточно рассмотреть случай, когда > 0 на 3-. t0^t^.tlt и начальная точка t0 отрезка 3 является точкой положительной метрической плотности для множества, где |а1е(/)|< 1—е при некотором фиксированном в > 0. Тогда график функции и1* (/) при t$3 лежит внутри сектора, ограниченного линиями с угловыми коэффициентами ±(1—е/2), по крайней мере, если отрезок 3 достаточно короток. Теперь определим управление ц1*(/) = ы1‘(/0)+ -Н—h на небольшом отрезке времени и затем продолжим «*(/) линейной функцией с угловым коэффициентом —1 до тех пор, пока график этой прямой не пересечется с графиком функции и1*^). Подобным образом мы построим непрерывную и кусочно-линейную действительную функцию ux(f) на подынтервале Згс.З, такую, что и1 (/) и1* (/), причем равенство будет иметь место только в кон- цевых точках интервала Зг. Будем иметь fc(t)(ul(t)-u»(t))dt>0. 3t
5 I урИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 367 Положим 4 (0 = И1* (0 вне 5г. Тогда и (0 будет допустимым управ- лением, которое обладает желаемым свойством, именно, j t* t* J t]*e~AtBu* (0 dt < J v^e~AtBu (t) dt. о о Это противоречие доказывает теорему. Нелегко решить, на каких подынтервалах интервала 0 t t* имеет место равенство | «'*(01 = 1, а на каких u*(t)^dQ. Тео- рия синтеза оптимального управления должна еще развиваться, как в вычислительном, так и в геометрическом плане. Мы заключим этот раздел обсуждением общего процесса с ог- раниченными фазовыми координатами. Рассмотрим управляемый процесс (<50 x=f(x, и) в Rn. Здесь начальная точка х0 переводится в точку хх при помощи не- которого измеримого управления и (0 а □ на некотором интервале О < / < 0. Ограничивающее множество Q является компактным в R", а интегральный критерий качества имеет вид C(u)= Jf’(x(0, u(t))dt, о где f(x, и) и f°(x, и)—функции класса С1 в RnxQ. При этих условиях оптимальное управление «*(0 с соответствующим ему решением х*(0 на интервале Oi^t^t* удовлетворяет принципу максимума почти всюду Н (if (0, х* (t), и* (0) = max Н (п* (0, х* (0, и) — 0. «ео Здесь функция Гамильтона имеет вид Н(ц, х, «)= 5 П«Л(х» «), а=0 а п*(0 = (т1в> т1*(0) есть нетривиальное решение системы По = 0> ПоСО, п п/=-Е w. «•(/)), а=0 w Предположим далее, что фазовый вектор х должен находиться в замкнутом подмножестве Ла Rn вместе со своими начальным и конечным значениями xt и xv Задача оптимального управления
368 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ j гл. 5 (£f, С, х0, xn Q, Л) называется процессом с ограниченными фазо- выми координатами. Первоначальная оптимальная траектория х* (/) может не лежать в Л и в этом случае мы ищем новое оптималь- ное управление для этого подчиненного ограничениям процесса. Напомним, что проблема существования оптимальных управле- ний для процессов с ограниченными фазовыми координатами об- суждалась в главе 4 (теорема 4 и вытекающие из нее!следствия). Здесь мы обсудим соответствующие модификации принципа макси- мума, которые возникают в процессах с ограниченными фазовыми координатами. Наиболее сильные результаты относятся к случаям, где & есть линейный процесс (или выпуклый по и), и мы установим эти результаты позже. Мы дадим общее представление о принципе ма- ксимума для процессов с ограниченными фазовыми координатами. Предположим, что и* (t) на интервале 0 t t* есть оптимальное управление, с соответствующей траекторией х* (/) с Л, соединяю- щей фазовые точки х0 и хп лежащие внутри Л. Предположим, что интервал 0 t t* можно разбить на подынтервалы 0 = t9 < tх < t» < h < h < • • • < t2k+1 = t* так, что x* (/) с внутренность Л при tt < t < //+1 для четного i; х* (!) g граница Л при tt < t < //+1 для нечетного i. Тогда на каждом внутреннем сегменте (при четном i) траектория х*(/) соединяет точку х*(/() с точкой x*(f1+1) без фазовых огра- ничений (кроме ограничений в концевых точках, которые не учи- тываются в обычном принципе максимума); обычный принцип максимума может быть применен так, как было описано выше. Мы обсудим только модифицированный принцип максимума, кото- рый относится к граничным сегментам (при нечетном i). Конечно, это все еще оставляет нерешенной задачу определения концевых точек разбиения отрезка времени, даже в предположении, что оптимальное решение имеет этот простой тип пересечения с гра- ницами подмножества Л. Рассмотрим оптимальное решение х* (t) на граничном сегменте, например, 4 t t2. Предположим, что граница подмножества Л в пространстве R" есть гладкая гиперповерхность (подмногообра- зие класса С“ размерности п—1 в Rn) и пусть (I1, .....£"-1) есть локальные координаты на границе дЛ., определенные на от- крытом множестве 6 из ЗЛ, содержащем кривую х* (/) = (£*х (/), ... ..., £*”-1 (/)) (fj t /2). Систему дифференциальных уравнений & можно теперь записать в виде £ = /(£, и) в 6, по крайней мере, для управлений «(/), которым соответствует решение, лежащее в 6. Параметризуем переменную управления и, которая описывает движения в 6 с помощью точек компактного множества WcRs; пусть «(5, О’) есть функция класса С1, определенная на прямом произведении 6 X W в S, такая, что f (|, u(|, w)) есть касатель-
5 1 ПРИНЦИП МАКСИМУМА И УСЛОВИЯ ТРАНСВЕРСАЛЬНОСТИ 369 ная к Таким образом, мы пришли к задаче оптимального управления для системы t = «(5, да)) = ф(В, w) с измеримыми управлениями w(t)cW, определенными на интер- вале и переводящими фазовую точку g*(/x) в точку (1г) в открытом множестве 6. Интегральный критерий качества интерпретируется подобным же образом: С (w) = w(t))dt, ti и мы предполагаем, что управление «*(/) лежит в компактном множестве и (£* (/), W) для каждого t из интервала tr t tt. Тогда из леммы ЗА дополнения к главе 2 следует, что имеется такое управление йу*(/)с!Г, что w*(t)) = u*(t)c.Q. Кроме того, оу* (/) есть оптимальное управление, так как каждое w (/) с IF [с траекторией | (t) с 6] дает соответствующее управле- ние и (/) с: Q, которому соответствует та же самая траектория в 6. Поэтому управление w* (f) удовлетворяет принципу максимума для процесса /2—1 2 оНО)) = а=0 /7—1 = max 2 С (iff* (I* (0, и (? (0, w)) Ы), wgW а=0 где Й (/) есть нетривиальное решение системы 1о=0 «о <0), С,— JL С« [ <?£'? "г ди/ dll J ’ 1 С * С w 1» 1 С/ С/И. Подобным образом мы получаем принцип максимума, которому удовлетворяют оптимальное управление u*(t) на каждом внутрен- нем интервале и соответствующее управление йу* (/) на каждом гра- ничном интервале подразбиения отрезка 0 t t*. Более подроб- ные условия будут сформулированы ниже для линейных процессов. Упражнения 1. Установить и доказать принцип максимума, теорему 1 для критерия качества G с (U) =g (X (/х)) + ро (X (/), и (t) dt, о где g£C2 и f*£C'.
I I 370 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 I [Указание: I G I С(и) = J [f»+(dg/dx) f] dt+g (х0)]. I О | 2. Пусть совокупность управлений состоящая из ограниченных изме- < римых управлений u(t), определенных на различных конечных интервалах £ времени 0^/^/х, с ограничивающим множеством Q, удовлетворяет тре- бованиям: (а) содержит все постоянные функции; (Ь) содержит «результат сварки» (splice) любых двух управлений из « т. е. если управления ur(t) и «2(0> определенные на интервале 0</<^х, I принадлежат ©<, то управление | = на °<г<г’ ’ [«а (О на также лежит в Доказать, что оптимальное управление из семейства должно удовлет- ворять принципу максимума, теореме 1. Проверить, что множество всех кусочно-непрерывных управлений образует допустимое семейство 3. Пусть ограничивающее множество Q (/) является замыканием ограни- \ ченного открытого множества в пространстве Rm, и пусть Q (/) непрерывно | изменяется при изменении t Установить и доказать принцип максимума, | теорему 1, для соответствующей задачи управления. 4. В , единичном кубе С: max 1 х* I рассмотрим пересекающиеся I в общем положении линейные пространства i ях: xft+1 = 0, хп=0, л2: х1 =0, х* = 0. Пусть Лх есть непрерывное отображение Л-мерной плоскости лх в пространство Rnt и пусть й2 есть непрерывное отображение (л—^-мерной плоскости л2 в пространство Rn, такие, что |М*1)—*1|<4 И 1М*2) — *2 I < у . когда точки х1 = (х1, х4.хк, 0, ...» 0) и х, = (0, .... 0, х*+1, .... х“) лежат в С. Доказать, что множества Лх (лх) и h2(n2) пересекаются в С, и использовать этот топологический результат для того, чтобы завершить заключительную часть доказательства условий трансверсальности в теореме 1. [Указание: каждой точке х=(хх, х2) куба С сопоставить вектор v (x)=x1 + (h1 (хх)—хх)—х2 —(h2 (х2)~ х2); таким образом, v (х) = 0 I при «1 (x^—h2 (х2)» что имеет место при х£Лх (лх) П h2 (л2). Но векторное поле v(x) на границе куба дС можно деформировать в векторное поле t)0W» соответствующее случаю, когда отображение Л=(ЛХ, Л2) является тождествен- ным. Следовательно, индекс поля v(x) на дС является таким, как у поля и0(х) и, как можно непосредственно подсчитать, не равен нулю. Так как v (х) есть непрерывное векторное поле в С и индекс поля v (х) на дС не равен нулю, то существует точка х в С, где г(х) = 0]. Для другого доказательства смотрите замечания к библиографии до- полнения В. 5. Рассмотрим импульсный управляемый процесс в R2, описываемый уравнением при Вычислить оптимальное управление, переводящее начало координат (х = 0,
ЙРИНЦИЙ МАКСИМУМА И УСЛОВИЯ ТРАНСЬЁРСАЙЬНОСТИ 371 i = 0) в точку (х=Ь х==1) при минимальном значении критерия качества “^6.' Рассмотрим управляемый линейный процесс в /?л; (<Z) х=Л(/)х+В(0«, с существенно ограниченными измеримыми управлениями «(/), определенными на интервале 0 < t < Т в Ял, для которых ess sup 1 uJ (t) I <a. Фазовая точка из состояния х0 переводится под действием управлений в неко- торые конечные состояния, заполняющие множество К (Т, а) достижимости. Доказать результаты, аналогичные полученным в лемме предшествующей теореме 3 о том, что множество К (Т, лежит во внутренности множества К(Т, а2) всякий раз, когда О =С ах < а2 и что К (Т, а) есть компактное выпуклое множество, непрерывно меняющееся при а > 0. 7. Для m-мерной вектор-функции u(t) с ограниченной вариацией на интервале 0 С t < Т определить «$7Тр-норму (норма, определяющаяся сильной полной вариацией порядка р (1 < р < оо)), полагая k || £>«11^ = sup 2 11«(<а+1)—«(01^’ а=0 где to = 0—, 4 = 0</а< ... < tk есть произвольное конечное множество точек в и супремум вычисляется по всем таким конечным после- довательностям времен. Для постоянного вектора р-норма имеет такой вид: Г m . 1 1/р ||u|L= 2 I • Линейное пространство всех векторных мер Du L/=i J с STVp-нормой есть тогда дуальное пространство к пространству 3iq. Здесь есть пространство всех действительных непрерывных т-мерных векторных функций y(t) с нормой |||у(/)|||?= max 1 , 1 . где + Р Я Используя эти обозначения, сформулировать и доказать аналог теоремы 3, где критерий качества есть || Du Ц^. 8. Рассмотрим автономный линейный процесс в Rn: (J?) х—Ах+Ви, с ограничениями | uJ (t) | 1 и | и/ (/) |' 1 и абсолютно непрерывными управлениями и (/) на интервале 0^/^ 1, как в теореме 4. В предположении, что есть куб-нормальный процесс, доказать, что процесс X обладает свойством управляемости и, кроме того, что существует окрестность N точки хх = 0 в пространстве Rn, такая, что каждая фазовая точка х0£2У может быть переведена в точку хх=0 с помощью управления и (() из класса С1, удовлетворяющего ограничениям, у которого i (/) = 0 для значений /, близ- ких к 0, и для значений t, близких к 1. 9. Рассмотрим автономный линейный процесс в х=— х^и, с ограни- чениями | и | 1 и | и (t) | «с 1 для скалярных абсолютно непрерывных управ- лений, принимающих нулевое значение «(0) = а(/х) = 0 на концах. Вы- числить оптимальное управление и* (/), переводящее точку хо=1О в точку хх=0 за минимальное время i* > 0. 10. Рассмотрим управляемый процесс класса Сх в пространстве Rn: х—А (х)4-В(х)и,
372 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ ГЛ. В с критерием качества т С (и) = J [Л о (х) + В0 (х) и} dt о измеримыми управлениями u(t) cQ С^, определенными на интервале «С/«С Г. Предположим, что Q есть компактное выпуклое тело и что матрица В /х\ __ Гв W 1 {Х) LB°WJ имеет ранг (л-р!) всюду. Показать, что оптимальное управление и* (/) лежит почти всегда на границе dQ. 11. Рассмотрим управляемый процесс класса С1 в 7?2: х = А (х) + Ви, с постоянной (2 Xш)-матрицей В и измеримыми управлениями и (/), принимаю- щими значения в выпуклом полиэдре Предположим, что векторы О дЛ / ч п Bw и -5— (х) Bw дх v ’ являются независимыми для каждого х£/?а и для каждого вектора о>=/=0 параллельного ребру Q (или самому П, если Й есть сегмент). Тогда оптималь- ное по быстродействию управление и* (/) (0^/^/*) почти всегда принимает значения в вершинах Q. [Указание: ( ... , х ____________ ’ в вершинах D, то т)* (/) Ви>=0 для положительного отрезка времени, где т|* (/) есть принадлежащее — параллельный ребру если управление и* (/) не лежит ..................................................;) классу С1 решение сопряженной системы; w =/=6—вектор, * * дЛ Q. Тогда tj* (/) Bw = — ч Bw = 0, что вместе с Ч*В^=0 дает т)*=0.] 12. Рассмотрим управляемый процесс класса С1 в Rn, описываемый уравнением х(«>—f (х, х, ..., х(п~!))=«, с измеримыми управлениями, удовлетворяющими условию |и(/)|^1> Тогда оптимальное по быстродействию управление и* (/) (0«С/«^/*) удовлетворяет условию | (/) | =1 и вектор-функция и* (t) имеет только счетное число разрывов (после переопределения w* (/) на множестве меры нуль). Следова- тельно, и* (0 есть обобщенное релейное (bang—bang) управление. [Указа, н и е: т|п (0 «* (0 = | т)п (О I Для всех О «С t < t*, где т|* (/) есть принадлежащее классу С1» не обращающееся в нуль решение сопряженной системы. Если функция т]п (/) имеет несчетное число нулей, множество таких нулей содержит совершенное подмножество 2 на оси времени. Изучая специальный вид со- пряженной системы дифференциальных уравнений, легко показать, что т|* (/) =0 на множестве 2, что невозможно.] 5.2. Достаточные условия оптимальности управления В главе 2 было показано, что принцип максимума является необходимым и достаточным условием оптимальности управления для некоторых линейных процессов. Мы здесь докажем подобный результат для процессов, в которых качество управления оцени- вается с помощью некоторой выпуклой функции.
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 373 Рассмотрим управляемый процесс в R": (&) x = A(t)x+h(u, О, с начальным состоянием x(tQ)=x0 и замкнутым выпуклым целе- вым множеством G с Rn (возможно, G = R"). Критерием качества управления и (t) на интервале t Т является функционал г . С(и)~ J [f°(x(t), t)]dt или С(н)=х®(Т), где функция х°(/) задается скалярным дифференциальным урав- нением х® = /°(х, 0+А°(«» 0, х°(/о) = О. df° Коэффициенты f®, ha, А и h предполагаются непрерыв- ными по всем переменным (х, t, и) в пространстве Rn+i+m. Допустимые управления и (t) являются ограниченными измеримы- ми m-мерными векторными функциями на фиксированном конечном интервале времени Т, переводящими фазовую точку х (/в) = х0 в некоторую точку целевого множества G, и принадлежат неко- торому непустому ограничивающему множеству й с Rm. Линей- ность главной части уравнения & гарантирует существование решения x(f) = (x° (t), x(t)) навеем интервале времени /0 t Т. Мы далее предполагаем, что f°(x, t) является выпуклой функ- цией х для каждого фиксированного t из интервала t0 t Т, т. е. ^(Х, /)((0 —х)</®(ф, t) — f°(x, t) для всех концевых точек <о и х в Rn. Теорема 5. Рассмотрим управляемый процесс в Rn: (&) x=A(t)x+h(u, t), с начальным состоянием х0 и замкнутым выпуклым целевым мно- жеством G с Rn. Критерий качества С(и)=*х? (Г) допустимого управления u(t), определенного на интервале и прини- мающего значения из ограничивающего множества й a Rm, задается дифференциальным уравнением x° = f°(x, t)+he(u, t), х°(/о) = 0. Коэффициенты f°, , ft®, A, h всюду непрерывны, a f° (х, t) есть выпуклая по х функция для каждого фиксированного t из конечного интервала
374 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 Предположим, что u*(t) есть управление с соответствующей траекторией x*(t) = (x°*(Z), х*(/)), удовлетворяющее принципу максимума: — Л® («*(/), t) + л (0 h (и* (/), £) = тах[—ft0 (и, t)-\-v\(t)h(u, /)] ue Q для почти всех t. Здесь ц (t) есть нетривиальное решение уравнения п=^-(**(0. О—*М(0. удовлетворяющее условию трансверсальности, именно: т)(Т) есть внутренняя нормаль целевого множества G в гра- ничной точке х*(Т). (Если G = Rn, то т|(Т) = 0; если G=x1 есть единственная точка, условие трансверсальности отсутствует). Тогда u*(t) является оптимальным управлением, доставляющим минимум критерию качества С(и*) = х”*(Т). Доказательство. Пусть вектор-функции u*(t), x*(f) и т| (/) удовлетворяют принципу максимума и условиям трансвер- сальности, и пусть u(t)—любое допустимое управление с соответ- ствующий решением"х(/) = (х®(t), x(t)) на интервале Мы вначале докажем основное неравенство —х®*(Т)4- + rtf Т) х* (Т) > -х° (Г) + ц (Т) х (Т). Вычислим производную 4 [- (0+П (О х (01 = - (П+ч (0 x(t)+ц (t)x (t). Используя систему дифференциальных уравнений для х® и х (/), интегрированием по основному интервалу /0 t Т получаем -х®(Т)+п(Т)х(Т)-т1(<0)х0 = = J [Э/°(£’ °х-/«(х, /)-Л®(«, t) + ^(u, О] dt. ^0 Далее, применяя эту формулу к управлению u*(t) с реше- нием х* (t) и вычитая одно равенство из другого, получаем [ - х°* (Т) + Л (Т) х* (Т)] - [ - х’ (Т) + я (Т) х (Т)] = = $ {[— л® («*, 0+пЛ («•» 0] — [— (л° (“»0+пл («. 0] + + fe(х, t)-f*(Л (*•-*)} di. Но подынтегральное выражение почти всюду положительно вследствие предположения о выполнении принципа максимума для
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 375 u*(t) и выпуклости функции f°(x, t). Отсюда следует справедли- вость написанного выше неравенства. Если G = Rn, то из условий трансверсальности следует, что т] (Т) = 0, и, следовательно, — х°*(Т)> —х°(Т) или С (и*)^.С (и), для каждого допустимого управления u(t). Следовательно, управление и*(7) в этом случае является опти- мальным. Пусть теперь G есть замкнутое выпуклое множество в Rn и пусть л—опорная плоскость к G в точке х*(Т); по условию, т] (Т)—вектор, ортогональный к л и направленный в полупро- странство, содержащее G [не исключено, что т)(Т) = О]. Тогда х* (Т)—х°* (Т) > т) (Т) (х (Т)—х* (Т)). Но точка х(Т) лежит в G и, следовательно, х(Т) лежит по одну сторону от опорной плоскости л с вектором т](Т), так что т](Т)(х(Т)—х* (Т))^0. Таким образом, хв‘(ТХх0(Т) и u*(t) есть оптимальное управление. Теорема доказана. Следствие. Рассмотрим управляемый процесс в простран- стве Rn: (ef) х=A (t)x+h(u, t), с начальным состоянием х0, целевым множеством G = Rn и крите- рием качества C(u)=g(x(T))4-x*(T), где g(x) есть дифференцируемая выпуклая функция, а х°(Т) опре- деляется как в теореме. Пусть управление u*(t) на интервале удовлетворяет принципу максимума, как в теореме, и условиям трансверсальности n(7’) = -grad^(x*(T)). Тогда u*(t) есть оптимальное управление. Доказательство. Основное неравенство, связывающее управление u*(t) и соответствующую ему траекторию х*(/) с любым другим допустимым управлением, получено раньше: - Xе* (Т) + л (Г) х* (Т) > - х" (Т) + n (Т) х (Г). Пользуясь условиями трансверсальности, мы заключаем, что -Xе» (Т)—(х* (Г)) х* (Г) > — х® (Т)—g. (х* (Т)) х(Т) И — х°‘—g(x*) +я(х*)—& (х*) X*> — Х° — g (х)+g (х)— (х*) X.
376 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 Но выпуклость функции g гарантирует, что (х*) (х—х*)< g (х)—g (х*). Поэтому и и* (t) есть оптимальное управление. Следствие доказано. Нижеследующий результат дает достаточные условия отималь- ности управления в линейных процессах с ограниченными фазовыми координатами. Рассмотрим линейный процесс в Rn: x = A(t)x + B(t)u, где Л (0 и В (/)—действительные непрерывные матрицы, опреде- ленные на R1, начальное состояние х(/0) = х0 и компактное целе- вое множество G лежат во внутренности замкнутого выпуклого множества Л с. Rn, определяемого заданными ограничениями на фазовые координаты. Допустимыми управлениями являются все измеримые /n-мерные векторы u(t), определенные на различных конечных интервалах времени /0 t и принимающие значения из заданного компактного выпуклого множества £lc.Rm, которым соответствуют траектории х (t), лежащие в Л. Мы ищем оптималь- ное по быстродействию управление u*(t), переводя- щее х0 в целевое множество G внутри Л. Если существует допустимое управление, переводящее точку х0 в множество G, лежащее внутри Л, то существует оптимальное по быстродействию управление и* (/), t*. Это утверждение следует из общей теоремы существования, доказанной в главе 4. В самом деле, пусть А?д(/Х) есть множество достижимости, состоя- щее из всех концевых точек х(/х) траекторий, начинающихся в точке х(/0)=х0, которые соответствуют допустимым управле- ниям u(f), Тогда легко показать, что Ка (О есть ком- пактное выпуклое множество, и если точка Рх лежит во внут- ренности множества Ka(^i), то Рх также лежит во внутренности множества /<л(/) для всех t, достаточно близких к tv Из этого замечания мы заключаем, что оптимальная траектория х* (/) должна привести к точке х*(/*), которая лежит на границах обоих мно- жеств Лд(Р') и G в R". Мы говорим, что управлению и (t) на /0 t соответствует траектория x(t), которая пересекает границу множества Л на интервалах в случае, когда существует конечное разбиение отрезка /о = Tq Tj Т2 Хг = t19 такое, что при t, принадлежащем любому из замкнутых интерва- лов та], где k—четное, траектория x(t) лежит на грани- це Л, т. е. x(t)£dA. для при четных k,
5.2 достаточные условия ойтимаЛьносТи управлений 377 и х(0 лежит внутри Л при t, принадлежащем открытым интер- валам с нечетными номерами, т. е. x(f)£ внутренности Л для тй_х < t <rft при k нечетных. Конечно, если траектория х (t) лежит всегда внутри Л, то она удов- летворяет этим условиям при пустом разбиении сегмента [/0. 7J. Определение. Управление u(t), определенное на интервале с соответствующей траекторией x(t), пересекающей границу Л на интервалах, назовем максимальным в случае, когда: 1) Принцип максимума выполняется почти всюду: t] (/) В (0 и (0 = max т] (О В (/) и. UEQ 2) Здесь л (/) есть некоторое решение уравнений т] = — г|Л (t) на каждом < t < хк для k нечетных и т] = — тр4 (/) + £(/) 0 (х (/)) на каждом ^тА для k четного, где £(/) есть некоторая неотрицательная интегрируемая функция, а 0(х)—единичный вектор внешней нормали к Л в точке х, зави- сящий кусочно-непрерывно от xgdA. 3) Функция т) (/) является непрерывной на интервале tQ t tv за исключением, возможно, точек стыка тх, т8.......тг_х, где х(0£дЛ и где выполнены условия П (тЛ + 0)—П (т*—0) = vft0 (х (тА)) при некоторых постоянных vft^0. 4) Л(^)¥=О. Лемма. Рассмотрим линейный процесс в Rn: (Я) x = A(t)x+B(f)u, с начальным состоянием х(/0)=х0, лежащим внутри замкнутого выпуклого ограничивающего фазовые координаты множества Ла R", и с управлениями из компактного ограничивающего множества QcRm. Пусть управление и* (/) с соответствующей траекторией х* (/), пересекающей границу множества Л на интер- валах, будет максимальным управлением с сопряженным решением т|* (t). Тогда т|*(**)х* (^*)>П* (f*)x для всех точек х из множества Таким образом, т]*(/*) есть внешняя единичная нормаль к множеству (/*) в граничной точке x*(t*). Доказательство. Фиксируем разбиение /0 = т0^т1^... ...^тг = /* и пусть х(/)—произвольная допустимая траектория.
378 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИИ fti. 5 Тогда т]*(/*) [х* (Н-х(/*)]-т1* М [х* ('o)-x(U] = = Я* Ю [х* (тг)—х (тг)] —п* (тг_х + 0) [х* (т,.х)—х (тг_х)1 + + П* (т,-! + 0) [х* (тг_х)—х (т,_х)] — —П*(т,_х—0) [х*(т,_х)—х(тг_х)] + ... • • • +П*(Т1—0) [х*(тх)—х(тх)]—п*(т0) [х*(т0)—х(т0)]. Воспользуемся дифференциальным уравнением для т](0 для опре- деления приращений, которые соответствуют концам интервала разбиения, т. е. ? я j -£-if(/)[x*(0-x(0]<tt= = П*(тА—0) [х*(т*)— х(тл)] — п*(хА_х + 0) [х*(тл_х)—х(тА_х)] и учтем при вычислении этих приращений условия скачка в точках стыка тх, ..., тг_х. Это вычисление, совместно с принципом мак- симума, дает следующий результат: < (И [х* (t*)-x (/*)]-!]* (Q [х* (М-х (<о)1 > 0. Так как x*(t0)=x(t0) = xe и так как x(t*) является произволь- ной точкой множества мы заключаем, что Я* (t*) х* (/*) т)* (t*) х для всех х£Кд(/*). Поэтому точка х* (/*) лежит на границе множества /Сл (^*) в про- странстве Rn и вектор т|* (t*) является вектором внешней нормали для некоторой опорной гиперплоскости к множеству достижимости Кл(^*) в точке %*(/*). Лемма доказана. В следующей теореме мы требуем выполнения «гипо/пезы про- никновения», подобной той, которая была рассмотрена в теореме 19 главы 2. Она' заключается в том, что для каждой точки х из це- левого множества G и произвольного момента времени 7 на интер- вале 7< t <оо существует допустимое управление u(t) (т. е. уп- равление, являющееся допустимым на каждом конечном подын- тервале интервала 7 < t <оо), такое, что для соответствующего решения x(t) имеет место включение: x(t)c внутренность Кл(х, /)и внутренность G. Если множество скоростей {A(t)x+B(f)u\u£ Q} для x£dG всегда содержит векторы, направленные во внутренность целевого множества G, эта гипотеза выполняется. Однако, если множе- ство G состоит только из единственной точки, скажем, х = 0, гипотеза может также выполняться, если процесс S является
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 379 вполне управляемым на каждом интервале времени, а точка и = 0 лежит внутри ограничивающего множества Q. Теорема 6. Рассмотрим линейный процесс в Ra: (S) x — A(t)x+B(t)u, с начальным состоянием х(1^) — хй и компактным выпуклым целе- вым множеством G, лежащим внутри замкнутого выпуклого огра- ничивающего фазовые координаты множества A.<zRn с измеримы- ми управлениями из компактного выпуклого ограничивающего мно- жества QcRm. Пусть u*(t) (t„^t ^t*) является допустимым управлением с соответствующей траекторией x*(f), переводящей точку хй в точку х* (/*) € dG и пересекающей границу множества Л на интервалах. Предположим, что: (a) u*(t) есть максимальное управление с сопряженным реше- нием r]*(Z); (Ь) т|* (t) удовлетворяет условиям трансверсальности, т. е. т]* (/) есть внутренняя нормаль к G в граничной точке х*(/*); (с) имеет место гипотеза проникновения, т. е. для каждой точки ~х в G и момента времени 1 существует допустимое управ- ление на полубесконечном интервале t < / <оо, переводящее точку х навсегда во внутренность множества К к (х, t) или во внутренность целевого множества G. Тогда u*(t) есть оптимальное управление с минимальным вре- менем t*. Доказательство. Так как и*(0 есть максимальное управ- ление, точка х* (t*) лежит на границе множества Кд (/*), а также на границе множества G. Кроме того, вектор я* (/*) является нор- мальным к общей опорной гиперплоскости ко множествам Кд(/*) и G в точке x*(t*), согласно условиям трансверсальности. Если множество достижимости Кд(^) пересеклось с целевым множеством G в некоторый момент времени /' < t*, то гипотеза проникновения гарантирует, что внутренность множества Кд(/*) пересекается с G, или же, что множество достижимости Кд(<*) пересекается с внутренностью целевого множества G. Ни в одном из этих случаев невозможно разделить множества Кл (?*) и G об- щей опорной гиперплоскостью. Таким образом, t — t* есть первый момент времени, в котором множество /Сл(О пересекается с G. Следовательно, управление и* (t) на интервале t0 t является оптимальным. Теорема доказана. Обратимся теперь к достаточным условиям, относящимся к принципам динамического программирования. Рассмотрим управ- ляемый процесс в Rn, x = f(x, t, и),
380 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 где допустимыми управлениями u(t) являются все ограниченные измеримые функции, определенные на фиксированном конечном интервале времени принадлежащие некоторому огра- ничивающему множеству Qc7?ra, и переводящие начальную точку х0 в целевое множество GcRn. Интегральный критерий качества т C(u)=g(x(T))+lfo(x(t), t, u(t))dt, to где функции g, f и f° принадлежат классу С1 по всем аргументам. Рассмотрим функцию Гамильтона Н(г\, х, t, и) = — f9(x, t, u) + r\f(x, t, и) (в разделе 5.1 эта функция была обозначена через Н с т]0 = — 1). Мы ищем управление с обратной связью и°(т), х, t), которое мак- симизирует функцию Н (t], х, t, и) как функцию от и (и С Q) для каждого фиксированного вектора (т), х, t) С Яп+П+1. Определение. Управляемый процесс в Rn (of) x = f(x,t, и) с ограничивающим множеством и гамильтонианом I Я(т), х, t, u) = — f9(x, t, u) + (х, t, и) обладает управлением с обратной связью и9 (т|, х, t) в случае, когда Я°(т], х, /) s max//(т], х, t, u)s=H(i\, х, t, «°(т], х, /)). и € Q Если вектор-функция т)(х, t) определена, то вектор-функция и (х, 0 = и9 (г) (х, t), х, f) называется законом управления. Заданием закона управления u(x, t) в классе С1 вполне определяются тра- ектория x(t), удовлетворяющая уравнению х=/(х, t, и(х, i)), x(t9) — x9 и управление u(t) = u(x(f), t). В этом изложении мы рассматриваем управляемый процесс с управлением (с обратной связью) ы°(т], х, t) класса С1 в Rn+n+1. Процессы такого рода, для которых Q = Rm и G = Rn, были изу- чены в главах 3 и 4. Начнем наше рассмотрение с предположения, что система из каждого состояния x9£R" в начальный момент времени t„ может быть переведена при помощи оптимального уп- равления, определенного на интервале (с фиксирован- ным концом Т и свободным началом t9 < Т) в целевое множестве G. Пусть минимальное значение критерия качества будет V (х0, t0); предположим, что V (х, t) принадлежит классу С2 по х £ Rn и Согласно методу динамического программирования *1 $ f°(x(O, t, u(t))dt+V(x(t0+8), Zo + 6) . J
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 381 Здесь минимум рассматривается по всем допустимым управлениям u(t), определенным на интервале с соответствующим решением x(t), переводящим точку ха в точку x(T)&G. Если раз- ложить стоящее в квадратных скобках выражение в ряд по малому параметру 6 > 0, игнорируя точки разрыва и отбрасывая члены высшего порядка малости по отношению к 6, то получим, что V (х0, /0) = min{f°(xa, t9, u)S+V(x0, /0) + 6[Vx(x0, Z0)f+V(]}. «6 Q Это дает функциональное уравнение для V (х, t): — Vt(x, 0 = min[f°(x, t, u)+Vx(x, t)f(x, t, «)]. Полагая S(x, t)=—V (x, t), получим Sf= — max [— f°(x, t, u) + Sxf(x, t, u)] пей или St=-H'(Sx, x, t). Таким образом, функция S (x, t) удовлетворяет уравнению с част ными производными с граничными условиями S(x, Т) = — g(x) для x£G. Это диффе- ренциальное уравнение с частными производными, называемое в классической аналитической динамике уравнением Гамильтона — Якоби, представляет собой основной результат динамического про- граммирования в применении к нашей задаче оптимизации. Теорема 7. Рассмотрим управляемый процесс в Rn: (<S?) x = f(x, t, и), с начальным состоянием х0 и целевым множеством GcRtt. Допу- стимые управления суть все ограниченные измеримые функции и (t), определенные на интервале tn^.t ^Т, со значениями из ограничи- вающего множества QcRm, переводящие траекторию x(t) из точки x(t0) = x„ в точку x(T)£G. Интегральный критерий качества имеет вид т C(u)=g(x(T))+lfo(x(t), t, t, где функции g, f, принадлежат классу С1 по всем аргументам. Предположим, что существует управление с обратной связью и°(Я, х, t) класса С1 в такое, что х, t)=И (•»), х, t, ы°(т), х, t)).
382 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 (а) Пусть функция S(х, t)^C* для хСR", t^.T, будет ре- шением уравнения Гамильтона—Якоби Sf4-№(SX, х, 0 = 0, где S(x, Т) = — g(x) для x£G. Предположим еще, что закон управления и(х, t) = u°(Sx(x, t), х, 0 определяет траекторию x(t), переводящую точку (х0, Q в множе- ство (G, Т). Тогда 7i(t)=u(x(t), t) есть оптимальное управление при условии, что оно лежит в Q, с оптимальной траекторией x(t) и значением критерия качества C(u(t))=-S(x,, /0). (b) С другой стороны, предположим, что существует опти- мальное управленце для каждого начального состояния х0 £ R", и произвольного начального момента времени t„<T (где Т фикси- ровано), ведущее к целевому множеству G с минимальным значе- нием критерия качества К(х0, /0)£Са. Тогда функция S(x, 0 = — V(x, 0 удовлетворяет уравнению St + Ha(Sx, х, 0 = 0, где S(x, T) — — g(x) для x^G. Доказательство. Пусть функция S(x, 1)£С* (x^Rn, t^T) есть решение уравнения Гамильтона—Якоби с граничным усло- вием S(x, Т) = — g(x) для x£G; предположим, что_закон управ- ления й(х, t) = u°(Sx, х, 0 определяет траекторию х(0, перево- дящую точку (х0, t0) в (G, Т) и соответствующее управление й(0 = «(х(0» 0 в & Тогда т C(u)^g(x(T))+^r(x(f}, t, u(t))dt, to так что т С(й) = j [f (х(0, t, ~u(x(f), t))—£—£f(x, t, й)]Л-5(х0, Q. to Таким образом, С (й) = $ - [Sf + H» (Sx, х, 0] dt-S (x0, t9) t, и _ C(u) =—S(x0, Q, что и требовалось. Пусть теперь и (0 будет любым допустимым управлением с со- ответствующей траекторией x(t), переводящей точку хвв G. Тогда т С(«) = $[Г(х(0, t, u(t))-Sxf(x, t, u)-St]dt-S(x„ Q. ц
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 383 Заметим, что H°(Sx(x(t), t), x(t), t)^ > -Г (X (0, i, и (t)) + Sx (x (0, 0 f (X (0, t, U (0) И т C(u)^[-H*(Sx, x, /)—St] A—S (x0, t0) = —S(x0, t0). t. Таким образом, u(t) есть оптимальное управление, что и требо- валось. Пусть теперь V (х, f) = —S (х, t) есть оптимальное минималь- ное значение критерия качества при переходе из точки (х, /) в множество (G, Т), как в условии (Ь). Предположим, что имеется точка х0 в R" и время t0 < Т, для которого Sj (х0, t0) + Н° (Sx, х0, t0) < 0 и это неравенство справедливо в открытой окрестности Af точки (х0, t0) в Rn+1. Пусть х*(0—оптимальная траектория, ведущая из точки (х0, /0) в множество (G, Т), и соответствующая оптималь- ному управлению и* ft). Тогда f’(x*(O, t, U*(0)-SJ-St>-[St+H’(Sx, х*(0, 0]>8>0 для t, близких к /0, например, находящихся на интервале /0 t С^о+6<Т, и некоторой постоянной е>0. В течение этого интервала времени St + Sxf<f>(x*(t), t, и +d S(x*(/0 + 6), <o + 6)-S(xo,/0)< $ p(x*(0, t, Это означает, что /о+d V(x0, t0)< $ t, u*(/))d/-l-V(x*(<0 + 6), /0 + 6)-в6. Но мы знаем, что /о+d V(x0, /0)= J fa(x*(t), t, u*(0)^+V(x*(/o + S), t0 + 6), и это противоречие доказывает, что St + fT>(Sx, х, о>о в рассматриваемой области. Если в некоторой окрестности N точки (х0, /0) мы имеем Sf(x, t) + H<>(Sx(x, t), х, t)>Q,
384 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ ГЛ. 5 ТО st+sxf (х* (0, t, U* (0) > Л (X* (0, t, ** (0)+1. Тогда, интегрированием по малому интервалу + мы получаем /о + д S(x*(/04-6), t04-6) —S(x0, t0)> $ f4x*(t), t, u*(t))dt + ^- to ИЛИ ^o + 6 v (Xe, to) > $ f° (X* (t), t, M* (t)) dt + V(x* (t9+6), t9+6)+y . to Это противоречие доказывает, что St + H0(Sx, х, 0 = 0, что и требовалось, и очевидно, что S(x, T) = —g(x) для x£G. Теорема доказана. Мы замечаем, что существования соответствующего решения S(x, /^уравнения Гамильтона—Якоби в области W пространства переменных (х, t) достаточно для построения управления, которое будет оптимальным среди управлений с соответствующими траек- ториями в W. Чтобы связать принцип максимума из раздела 5.1 с вопро- сом о максимизации функции Гамильтона Я°(т], х, t), упростим задачу. Следствие. Рассмотрим автономный процесс в Rn (4?) x = f(x,u) с начальным состоянием х0 и целевым множеством G = Rn. Допу- стимые управления суть все ограниченные измеримые функции и (t), определенные на фиксированном конечном интервале принимающие значения из ограничивающего множества Q с Rm, с соответствующей траекторией x(f) (O^t^T). Интегральный критерий качества имеет вид т C(u)=\f9(x(t), u(t))dt, о где функции fa и f по всем переменным принадлежат классу О Предположим, что (а) существует управление с обратной связью и0 (т|, х) класса С1 в Rn+n, которое дает единственную точку и° в Q, такую, что Н° (т]( х) = max [—/° + r]f] = Н (я, х, и0 (гь *)); U6Q
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 385 (b) й есть им открытое множество или же замыкание откры- того множества с границей класса С1 в Rm. Тогда оптимальное управление и* (f) с соответствующей траек- торией х* (0 необходимо связано с сопряженным решением г|* (/), удовлетворяющим гамильтоновой системе •{ дН9 • дН9 . 1 Xf=-5—, 1Ъ=--------т-> t=l, •... и, дщ ’ дх‘ с граничными условиями х*(О) = хо, т]*(Т) = 0, и принцип макси- мума Н° (п* (0, х* (0) = Н (я* (0> х* (0, «* (0) справедлив почти всюду на Доказательство. Из теоремы 1 раздела 5.1, приведенной выше, следует, что оптимальному управлению и* (t) соответствуют решения х* (t) и л* (0 системы уравнений х‘=-^(П> х, u*(t)), т|,= — -^-(П, х, u*(t)), i = l..п. [Отметим, что функция Н обозначена в разделе 5.1 через п и что условия трансверсальности позволяют нам предположить, что r]J=—1 и т]*(7’) = 0.] Принцип максимума имеет вид Я(и)*(0, x*(t), и* (/)) = max/7 (г|* (/), х* (t), м) = и е Q I = №(г|* (/), X* (0) почти всюду, так что и* = (/), х* (/)). Мы должны показать, что (х* (/), т]* (/)) есть также решение гамильтоновой системы дифференциальных уравнений, определя- емой функцией Гамильтона Я°(т], х). Для этого мы докажем, что и х*(0, «*(0)=^(п*(0, **Ю) почти всюду на Вычислим производные дН9 , ч дН , 0, . дН . оч ди9 , . -^(П. = х, «°)+-^-01, х, и°)-^-(т), х) и дН9 = дН дН ди9 дх дх ди дх ' Если управление и* (t) в некоторый момент времени лежит внутри й, то (дН!ди) = 0 в точке (п* (0, х* (/), и* (0) = (п*, х*, и9 (п*. х*)), так как управление и9 максимизирует функцию Н(ц*, х*, и). Следовательно, в те моменты времени, когда и* (/) лежит внутри й, 13 Э. Б. Ли, Л. Маркус
386 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 требуемые дифференциальные уравнения Гамильтона удовлетво- ряются. Таким образом, если й открыто в Rmt следствие доказано. Теперь фиксируем точку (т|* (/х), х* (/х)) = (r|x, хх), отбрасывая множество меры нуль моментов времени, для которых и* (/) не равно иа (г)* (/), х* (/))• Если точка и° (rix> xj лежит внутри й, то дН/ди — Ъ, как было замечено выше. Кроме того, если (t)x, хх) есть предельная точка для множества точек (ц, х) в Rn+n, в кото- рых м0(т|, х) находится внутри й, то из соображений непрерыв- ности вытекает, что (дН/ди)(у\1г хх, u®(t)x, хх)) = 0. Таким образом, остался единственный случай, связанный с ситуацией, когда точка ы*(ц, х) лежит на границе множества й для всех (д, х) из некоторой окрестности N точки (г|х, хх). В этом случае векторы (ди9/дх\) (г]х, хх) и (ди^/дх) (т]х, хх) являются каса- тельными к границе множества й. Но функция Н (т|* (0, х* (/), и) максимизируется в граничной точке и° (т]* (/), х* (/)) для каждого t взятого вблизи tlt откуда следует, что и—градиент функции H(x\*(i), x(t), и),— есть нормальный вектор к границе области управления й. Следовательно, , foi’ *i’ “° foi’ xi)) 7? foi’ *1>= 0 И (Я1, х19 и* (Т|х, Хх)) (Т]ххх) = 0. Поэтому гамильтонова система дифференциальных уравнений удов- летворяется почти всюду. Следствие доказано. При предположениях следствия поиск оптимального управле- ния сводится к решению двухточечной краевой задачи для нели- нейной гамильтоновой системы, заданной посредством функции Гамильтона Я°(т|, х). Если процесс & удовлетворяет, к тому же, гипотезе выпуклости главы 3, и й = Rm, а множество G есть фик- сированное компактное выпуклое целевое множество в Ra, то тогда соответствующее следствие также имеет место. Интересны также другие случаи, когда т)0 0 при соответствующей форму- лировке принципа максимума. Конечно, этот подход к задаче оптимального управления требует существования гладкого управ- ления с обратной связью u®(t], х). Следующая теорема описывает класс задач управления, для которых такое управление можно определить. Для простоты мы рассмотрим только задачу оптимального быстродействия по приведению системы из заданного начального состояния х0 в целевое множество G в Rn. Тем самым, в этом случае гамильтониан имеет вцд Н(ц, х, и) — —14-t]f(x, и). Ком- пактное ограничивающее множество й лежит также в R" и для каждого фиксированного х £ Rn является диффеоморфным множе-
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 387 ству скоростей V={f(x, и)\и$Щ. Это означает, что Q—u—+f(x, и) есть взаимно однозначное отображение класса С1 с необращающим- ся в нуль определителем Якоби (кроме того, диффеоморфизм мо- жет быть продолжен на открытую окрестность множества Q в Rn). В упражнениях показано, что заданный линейный управля- емый процесс можно соответствующим образом аппроксимировать процессом, для которого справедливы условия следующей ниже теоремы. Таким образом, после соответствующей аппроксимации, такие линейные процессы допускают гладкое управление с обрат- ной связью. Следовательно, синтез оптимального управления может быть получен решением двухточечной краевой задачи для гамиль- тоновой системы, определяемой посредством функции Гамильтона Н° (г), х) или обращением к соответствующей теории динамического программирования. Более общие нелинейные системы также можно соответствующим образом аппроксимировать, при условии, что множество V всегда выпукло, и потом обратиться к методам динамического программирования. Теорема 8. Рассмотрим систему (£0 x — f(x, и) в Rn, с правой частью класса С1 в R"+tt, и компактным ограничивающим множеством QaRa. Для каждого x£Rn пусть множество скоро- стей имеет вид V(x) = {f(x, u)|u£Q}. Предположим, что для каждого x£Rn: (а) имеется диффеоморфизм множества □ на множество V: Q—u—+f(x, и). (b) V (х) есть строго выпуклое тело в Rn с границей—многооб- разием dV класса О, имеющим положительную гауссову кривизну. Тогда существует гладкое управление с обратной связью и° (т|, х) класса С1 для ц =/= 0, х С R", соответствующее единственной точке в й, где достигается максимум Я°(т1, x) = max [ —l + r)f (х, «)]. U6Q Кроме того, управление и° (ц, х) всегда лежит на границе Эй. Доказательство. Мы ищем управление и° = и*(у\, х) в □, которое максимизирует функцию r\f (х, и). Фиксируем т)=#=0, х С R". Тогда V (х) есть строго выпуклое множество, на котором функция Tjf достигает максимума в единственной точке f, которая принадлежит множеству дУ (х), где внешняя нормаль направлена по т]. Эта точка f соответствует единственной точке и® (я, х) на 13*
388 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 границе множества й. Следовательно, функция x\f(x, и) дости- гает максимума в единственной точке м° (ц, х) С dQ. Так как V (х) есть строго выпуклое множество в пространстве Rn, которое непрерывно меняется с изменением х, то отображение (ц, х)—*-/ является непрерывным и, таким образом, отображение (т), х)—* —*и°(ц, х) также непрерывно. Мы теперь покажем, что управле- ние и°(т|, х) принадлежит классу С1. Рассмотрим функцию Q (q, х, и) = v (/ (х, и)) —, где v (f (х, и)) есть единичная внешняя нормаль к dV (х) в гранич- ной точке f(х, и), для х€Rn и «Сдй. Отметим, что я-мерная вектор-функция Q(т), х, и) принадлежит классу С1 для ц=/=0, x£Rn и и£ д£1. [Так как dV (х) есть гиперповерхность класса С2, то отображение границы dV в единичную сферу S"~x также принадлежит классу С1.] Далее, и = иа(х\, х) есть един- ственное решение уравнения Q = 0 и мы пользуемся теоремой о неявной функции для того, чтобы доказать, что оно принадлежит классу С1. Вычислим * det|I^ “’Я T))|=det|-^|det||£-|, пользуясь локальными координатами на dQ, dV(x) и S”-1. Но v (f) описывает изменяющиеся единичные векторы внешней нормали к V (х) в произвольной граничной точке f; следовательно, det | dv/df | является не равной нулю гауссовой кривизной тела V (х). Матрица df/ди есть невырожденная матрица Якоби диффео- морфизма границы dQ на границу dV (х) и, таким образом, det | df/du | =# 0. Поэтому det | dQ/du | #= 0, и из теоремы о неявной функции следует, что «’(л, х) есть вектор-функция класса С1 для т)=5^ 0, x£Rn, как отображение в dQ и, следовательно, как ото- бражение в Rn. Теорема доказана. Последняя теорема, дающая достаточные условия оптималь- ности, будет включать в себя условия на вторую вариацию от функционала качества и укажет скорее локальное, чем гло- бальное оптимальное управление. Рассмотрим автономный управляемый процесс в Rn: kef) x = f(x, и), с начальным состоянием х(О) = хо и функционалом (критерием) качества Л С(м)=р°(х, u)dt, о
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 389 где f(x, и) и f°(x, и)—гладкие функции. Каждое из допустимых управлений ы(0 является ограниченным и измеримым на фикси- рованном конечном интервале 0 < t < Т [с ограничением и (/) с с: £2с и соответствующим решением х (t) (0 t «С Т). Мы ищем достаточные условия, характеризующие оптимальное управление u*(t) для этой задачи со свободным концом. Принцип максимума Я (if (О, х*(0> м*(0) = тах Я(я*(0> **(0> «) ueQ является необходимым условием для оптимальности управления Ы*(О, где решения %*(/) и rf (О удовлетворяют уравнениям х= 01. X, и* (0), П = (п. X, и* (0) при х(О) = хо, т](7"') = 0. Функция Гамильтона здесь имеет вид Я(т], х, u)=—f°(x, u) + i\f(x, и). Как мы видели в теореме 5, принцип максимума, вместе с не- которыми условиями выпуклости на функции f°(x, и) и f(x, и), дает достаточное условие оптимальности управления Мы теперь заменим эти глобальные условия выпуклости локальными условиями выпуклости, выраженными через значения вторых про- изводных функций f и f°, и затем найдем достаточные условия для локального оптимального управления. Определение. Управление u*(f) процесса ef является ло- кально оптимальным в случае, когда существует в > 0 такое, что для каждого допустимого управления u(t) при |«*(^)—и(/)|8 на функционал качества удовлетворяет соотношению С (и) С («*). Так как мы желаем наложить локальные условия выпуклости, то целесообразно предположить, что кандидат в искомое опти- мальное управление u*(t) лежит целиком во внутренности огра- ничивающего множества Q. В этом случае принцип максимума утверждает, что функция #(if(f), х*(/), и) максимизируется при и = «*(/), т. е. градиент равен нулю в этой точке: «*(О)=о. В таком виде принцип максимума обычно входит в классическое вариационное исчисление, в котором множество Q, как правило, выбирается открытым в Rm и локальные условия выпуклости, в первую очередь подчеркивающие выпуклую природу функции /°(х, и), есть условия Вейериипрасса (0—х’ X, х, и),
390 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 которые выполняются всякий раз, когда вектор (л, х, и) близок к вектору (т]*(0> Это условие Вейерштрасса тради- ционно выражается в терминах £-функции £(Я, х, и, о)^0, где £ (л, х, и, v) = H(x\, х, и)—Н(х\, х, о) + (о—х, и). Мы не будем пользоваться этим условием Вейерштрасса, а заменим его более легким для проверки условием выпуклости, что делает доказательство нашей следующей теоремы элементарным. Кроме того, мы предположим выполненным обычное условие Лежандра положительности второй вариации интегрального функционала качества. Для того чтобы мотивировать все эти допущения, выполним некоторые предварительные вычисления, в которых мы заменим заданное управление u*(t) на и (О = и* (0 + е0 (/) для некоторого малого 8 > 0 и произвольной измеримой вариации управления 0 (0, где |0(£)|<Д на интервале Траектория x(t) тогда определена и легко вычислить, что |х*(<)—х(0|^|Лх(0|С^«» где kr есть постоянная, зависящая только от заданных исходных данных' {&, С, и*, х*, т)*}. Мы имеем t Sx(t) = x(t)—x*(t) = ^ [g(x*, u*)(x(s)—X*(s)) + 0 + g (f, и-) «0 (s) + g Ax- + 2 £L (Дх) («6) + g. (вб)-] где черта указывает, что вторые производные вычислены в неко- торой точке, близкой к (x*(s), u*(s)). Если мы определим ф(0 уравнением Ф=^(**(0, «*(0)Ф+^(^*(0. «*(0)0(0 и начальным значением ф(0) = 0, то t Дх(0—еф(0 = J^(x*, и*)[Д*—ei|)(s)]ds-|- о Следовательно, +5 [₽^’+25я;MW+8<*|fc о Дх (/) = 81|> (t) 4- k2 (f) 82, где j kt (f) | kit а константа зависит только от заданных ис- ходных данных {&, С, 0*, х*, я*}-
5.2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 591 Теперь вычислим вариацию интегрального критерия качества, обусловленную вариацией управления 0(0- Имеем ДС = С (и*+80)—С («•) = т = J [1т (?> и*}Дх (s)+д£ (**• “*)80 (S) + о Первая вариация функционала С (и*) (с точностью до членов по- рядка в) такова: т 6С = 8П^°(Х*’ и*^& + д£^> “W)] ds. о Пользуясь равенством |^ = т)*+т)* (fQ и*)> интегрированием по частям получим 6С = е j — х*, u*)Q(t)dt = O. о Вторую вариацию 62C=eS J [^д*24-2^(Дх)(е0) +S? w] о мы предполагаем положительной, что гарантируется положитель- ностью симметрической матрицы If0 f° 1 IXX ixu\ fo fO ’ U их I uuS вычисленной в точках (x*(s), u*(s)). Дополнительное осложнение в следующей теореме о достаточных условиях возникает из-за членов второго порядка малости относительно Дх—еф, возникаю- щих при упрощении выражения для первой вариации 6С. Теорема 9. Рассмотрим автономный процесс (F) x = f(x, и) в Rn с начальным состоянием х(0)=хо и интегральным критерием качества т С(и)=^ р (х, и) dt, о где функции f, f° принадлежат классу гладкости С3 в простран-
392 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 стве Rn+m. Допустимым управлением является всякая ограниченная измеримая функция и (t), определенная на фиксированном конечном интервале (который соответствует траектории x(t)) и удовлетворяющая ограничению u(t)<zQcRm. Пусть и* (t) есть управление, принимающее значения внутри й; предположим, что: 1) ^(лЧО» «*ь(0) = 0 почти всегда, где Н (ц, х, и) =—f°(x, u) + i\f(x, и) и ОТ» х?) удовлетворяют уравнениям = х> и*Ю), П=— х, u*(t)), х(О)=хо, пСО = о. 2) f9xxPi + 2fxupq + fuu‘f'^c(p2 + q*) для произвольных действи- тельных постоянных п и т-мерных векторов р и q, для фиксиро- ванной постоянной с> 0 и вторых частных производных, вычислен- ных в почти каждой точке (х*(0, «*(0)- Это означает, что следующая симметрическая матрица является положительно опре- деленной: 3) Выполняется какое-либо из следующих двух условий. Вдоль (а) fxx~ fxu = fau~®’ (₽) f?=0. Тогда u*(t) есть локально оптимальное управление. Доказательство. Заменим управление u*(t) на u(t) = = «*(О4-в0(/), где 10 (t) | 1 (О^/г^Т) ие>0 является до- статочно малым (мы определим е ниже в зависимости от исходных данных {£f, С, и*, tf, т]*}). Соответствующая траектория есть х (t) и Дх(0 = 81])(0 + ^(082» гДе IMOK^s, как указано выше, причем Ф=^(х*(0, «*(0Н+|£(х*(0, «*(0)0(0 и Ц)(0)=0. Приращение С (и) тогда имеет такой вид: т ЬС = С (и*+е0)—С (u*) = j (х*. и*) [Дх (/)—el]) (0] dt + о о
5 2 ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ УПРАВЛЕНИЯ 393 Здесь мы пользуемся предварительными вычислениями, предшест- вовавшими теореме, и учитываем равенство нулю выражения Отметим, что из условия 2) следует, что S<4*’>+1 г'" + i?',0’>т«’’г 1‘+160 !’> при условии, что 8 > 0 достаточно мало (величина е зависит только от заданных исходных данных {&, С, и*, х*, т)*})- Рассмотрим условие (a) fxx = fxa = fuu = ^ на (х*(/), «*(0)- Предварительное вычисление для Лх(Г)—е-ф(/), предшествующее теореме, дает т |^(Х-, «*)|-IДх(/)— о В этом случае т т дс>-р С10(01»dt-jIе(0\*dt >о, о ’ о так что ДС > 0 при 0 (t) 0, и управление и* (/) является ло- кально оптимальным. Рассмотрим следующее допущение: (₽) f» = 0 на (х*(0, «*(0). В этом случае г _ т АС = J [7Мх2 + Пи (Лх) (80) +7Le2B2] dt> у е2 С10 (t) |2 dt о о и, таким образом, ДС > 0 всякий раз, когда 0 (t) 0. Теорема доказана. Замечание. В случае выполнения условия (а) мы предпо- лагаем, что вариации управления M*(f) связаны соотношениями u(t)—U*(/)=80, Ax(/) = 81|), 4 = u*(t))q + fa(xT(t), u*(t))Q, T C (0) = $ [/£# + W + M2] dt, 0 когда все члены порядка выше 82 не учитываются. Таким обра- зом, “МЫ свели исследование локальной оптимальности к изучению линейных процессов с квадратичным функционалом качества,
394 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 изученных в главе 3. Наш результат, полученный здесь, анало- гичен полученному в главе 3, именно, u*(t) есть единственное управление, доставляющее минимум функционалу качества С (и*) в некоторой подходящим образом ограниченной окрестности |и(0— Упражнения 1. Комбинируя методы теорем 5 и 6, получить достаточные условия для оптимального управления выпуклой системы с ограниченными фазовыми коор- динатами. 2. Рассмотрим управляемый процесс (<Я x=f(x9 и) в /?«, где f(x, (Rn+m), с измеримыми управлениями, принимающими значения в компактном подмножестве Начальное состояние есть х0, а целевое множество есть компактное подмножество Мы ищем управление, опти- мальное по быстродействию, переводящее точку xQ в множество (?. Предполо- жим, что существует действительная функция Т (х) класса С1 в Rn, такая, что: (а) Т(х)>0 в 7?я, причем Т (х) = 0 тогда и только тогда, когда xQG. (b) max[—grad Т (х)] / (х, и)=1 в Rn—G. ueQ Пусть и* (I) (0 «С t < t*) есть управление с соответствующей траекторией х*(/) и пусть i -gradT(x*(fl)f (х*(/), = Доказать, что u*(f) есть оптимальное управление и что t*~T (х0). Мы далее заметим, что геометрические места точек Т (х) = const являются изохронными гиперповерхностями. При соответствующем ослаблении условий дифференцируе- мости на Т (х) этими методами можно исследовать весьма общие процессы оптимальные по быстродействию. 3. Рассмотрим управляемый процесс (Я x = f(xt и) в /?«, с измеримыми управлениями u(t) и с замкнутой ограничивающей областью с гладкой границей (как и в следствии из теоремы 7). Предположим, что для каждой точки (т), x)^RnxRn в области Q найдется ровно одна точка и° = и° (т), х), в которой функция — 1 +л/ (х> и) достигает максимума Я0 (т), х), причем и0 (т), х) гладко зависит от (т], х). Пусть и*(1) (О «С 2 «С Г*)—оптимальное по быстродействию управление, переводящее систему из заданного начального состояния х0 в конечное хх по траектории х* (/) и пусть т]* (/)—соответствующее нетривиальное сопряженное решение, удовлетворяющее принципу максимума -l+n*(OZ(**(O, «*(0)=#°(п*(0. **(0) почти всюду. Требуется доказать, что (**(/)> есть решение гамильтоно- вой системы • дН» • дН* Х==~дц> Я==—дх' х(®=х<>' 4. Рассмотрим управляемый процесс (<Я x=f(x, /, и) в /?*, где f (/?n+1+m), с начальным и коренным состояниями х9 и х* и ограни-
5 2 ДОСТАТбЧНЫЁ УСЛОВИЯ ОПТИМАЛЬНОСТИ управления 39Й ценными измеримыми управлениями и (t) на фиксированном конечном интер- вале t лежащими в ограничивающем множестве Два функ- ционала качества т т C(«)=f fi(x, t, u)dt и С2(и) = J fi(x, t, u)dt t0 с функциями fl и f°, принадлежащими классу С1 по всем переменным, по определению, эквивалентны, если t, u) = ft(x, t, u)-~-^xf(x, t, и) для некоторой действительной функции S (х, t) класса С1 из пространства Доказать, что оптимальное управление для системы <£? с критерием качества Ci является также оптимальным для & с показателем качества С2. 5. Рассмотрим управляемый процесс (<Л x=f(xt tf и) в с начальным состоянием х0, целевым множеством GdRn, и ограниченными измеримыми управлениями и (/), определенными на фиксированном конечном интервале времени tb<KT9 и лежащими в ограничивающем множестве Пусть критерий качества определяется выражением т C(u)=^f°(x, t, u)dt, *0 где функции f и f° принадлежат классу С1 по всем аргументам. Пр едположим что имеется функция и (х, t) из С1 в Лл+1 такая, что: (а) и(х, t) лежит в Q для всех (х, t)£Rn+1\ (b) р(х, t, и(х9 ОМ; __ (с) /°(х, и) > 0, если и & и (х, i) для и всех (х, /). Пусть x*(Z) есть решение уравнения x=f (х, *и(х, 0)» *(*о)=*о» и допустим, что x*(T)£G. Доказать, что и* (/) =7z (х* (/), t) есть оптимальное управление и х*(/) есть соответствующая траектория. 6. Рассмотрим управляемый процесс ((У) X = f (X, /, U) В Rn+l+mt где f^C1(Rn+1+m) с начальным состоянием х0 при / = /0 и компактным це- левым множеством GczRn. Управления суть измеримые функции u(t)f опре- деленные на различных конечных интервалах и принадлежащие компактному ограничивающему множеству Qa:Rm. Допустим, что выполнены обычные условия, которые гарантируют существование управления, оптималь- ного по быстродействию: (a) xf(x, t, u) «C const (| ха | +1) для всех соответствующих (х, /, и); (b) V (х, t) = y(xt t, является всегда выпуклым: (с) существует по крайней мере одно допустимое управление, которое переводит точку х0 в G. По определению две задачи, Р = \f, х0, t0, G, Q, V} и Р={£ х0,t0, Q, 6, V}, эквивалентны, если V (х, t) = V(x, t) для всех (х, t). Доказать, что тогда оптимальная траектория x*(Z) для Р является также оптимальной траекторией для Р и, следовательно, минимальное оптимальное
396 НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ гл. 5 время t* (но не оптимальное управление) должно быть одинаковым для обеих задач. 7. Рассмотрим задачи управления типа, описанного в задаче 6, приведен- ной выше. (а) Предположим, что V (х, t) ZD V (х, t) для всех (х, /). Показать, что каждая траектория х (/), соответствующая исходным данным задачи Р, совпа- дает с аналогичной траекторией для задачи Р и, следовательно, (Ь) Допустим, что для каждого в > О имеется задача управления Р (в) = = {/с, *о> ^о» 6, Йе, причем z> V и dist (Ve, У)^в. Показать, что для некоторой подпоследовательности e(k)—>0 оптимальные траектории х*^ (t сходятся равномерно к х*(/) —оптимальной траектории для задачи Р(0) = Р. При этом —► /*. (с) Рассмотрим задачу Р в Р2, Xi=X2, х2=—xr+w, с заданной начальной точкой (xj, xj) при £о = О и целевой точкой (0, 0) и ограничивающим множеством Q: —1 1. Для каждого в > 0 рассмотрим задачу Р (в), определяемую системой х1 = х24-и1, х2= —хЧ-w2, при ограничении (w1)2 + e2 (и2)2=Св2 в Р2. Показать, что задача Р (в) сходится к Р (0) = Р в смысле, указанном выше. Показать, что гладкое управление с обратной связью и° (г), х, 8) для задачи Р (в) существует и максимизирует гамильтониан шах [—l+f(x, и, е)] = Я°(т], х, в) и е й (е) в смысле теоремы 8. Вычислить (т|, х, 8) и Я0 (ц, х, в). 8. Рассмотрим автономный линейный процесс в Р" (<$?) х= Ах-}- Ви т с критерием качества С (и) — /° (х, и) dt, как в теореме 9. Предположим, о что u*(t) есть управление, принадлежащее внутренности ограни- чивающего множества Q cz Rm. Установить достаточные условия того, чтобы управление u*(t) было локально оптимальным.
ГЛАВА 6 СВОЙСТВА УПРАВЛЯЕМЫХ СИСТЕМ: УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ В первом разделе настоящей главы исследуются понятия управляемости и наблюдаемости для общих нелинейных управля- емых процессов. Здесь удается получить обобщение в локальном смысле результатов главы 2. В разделе 6.2 рассматриваются^ раз- личные концепции устойчивости, используемые в качественной тео- рии управляемых систем и при изучении областей управляемости. 6.1. Управляемость и наблюдаемость для нелинейных процессов Основные качественные понятия (полной) управляемости и наблюдаемости, которые были развиты в главе 2 для линейных процессов, будут распространены здесь на нелинейные процессы общего вида. Для нелинейных процессов обычно удается полу- чить лишь локальные критерии и результаты, а не глобальную теорию, которая разработана для линейных систем. Мы начнем с рассмотрения задачи о приведении системы из некоторой окрест- ности начала координат в точности в начало координат, сначала при помощи гладкого управления, а затем при помощи релейного управления. Определение. Рассмотрим управляемый процесс в Rn, (£0 х = f (х, и), х й), a Q есть ограничивающее множество в R". Область # нуль-управляемости определяется как множество начальных точек x0 £Rn, каждую из которых можно привести в Xj = 0 посред- ством ограниченных измеримых управлений определенных на некотором конечном отрезке времени. Если %> содержит открытую окрестность точки х1 = 0, то говорят, что локально управляема (вблизи нуля). Замечание. Ясно, что множество ё является связным, так как каждая точка в ё соединена с началом координат непрерыв-
398 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 ной кривой решения, целиком лежащего внутри Множество # является открытым в R" тогда и только тогда, когда оно содер- жит окрестность точки Xj = 0. Это следует из теоремы о непре- рывной зависимости решений дифференциального уравнения от начальных условий. Предоставляем читателю убедиться, что для локального анализа системы в окрестности точки xt = 0 достаточно, чтобы функция f(x, и) была определена только для х, близких к нулю. Для линейной системы в Rtt, (J?) х= Ax-j-Bu, с управлением и = 0, лежащим внутри QcR", область 4g нуль- управляемости является открытой тогда и только тогда, когда система 2 является вполне управляемой в алгебраическом смысле rank [В, АВ, А2В, ..., Ап~1В]=п. Нижеследующий пример показывает, что в нелинейном случае это алгебраическое условие полной управляемости не является необходимым для того, чтобы область была открытой. Призер. Рассмотрим нелинейную систему в R3: х — — х-4-м, у =— у—х3, с ограничением Q: —Линейное приближение этой системы вблизи нуля имеет вид + Ви, и в= о . Отметим, что линейная аппрокси- Г—1 О' гдеЛ=[ 0 _]] мация является невырожденной аппроксимацией, так как матрица А не особая. И так как rank [В, ЛВ] = rank = 1 <2, то алгебраический критерий не выполняется, хотя исходная нели- нейная система имеет открытую область g нуль-управляемости, т. е. каждое начальное состояние (х0, у0) влизи (0, 0) можно при- вести к началу координат за конечное время. Для того чтобы доказать, что область 4g является открытой, мы сначала иссле- дуем две кривые, Г+ и Г_, ведущие непосредственно в начало координат за конечное время и соответствующие управлениям u(t)=—1 и = Эти две кривые Г± в окрестности нуля хорошо аппроксимируются положительным и отрицательным лучами
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 399 оси х Так как радиальная координата вдоль каждого свободного решения [где удовлетворяет уравнению гг=хх+уу = — (ха 4-у2)—ух3 < О, то имеется круг D, внутри которого каждое решение подходит к началу координат монотонно. Мы покажем, что каждая точка в D может быть переведена под действием некоторого управления, не выводящего ее из D, на одну из кривых Г+ или Г_ и, сле- довательно, может быть приведена в начало координат. Будем следовать по траектории свободного решения, начинаю- щейся в точке (х0, у0), из круга D до тех пор, пока эта траек- тория (х(/), y(t)) не достигнет точки (хп у^, близкой к точке (О, 0). Предположим, что точка (х1( уг) лежит выше Г_ U Г+. Тогда, применяя управление и (0=4-1, за короткое время достигаем точки (х2, у^, лежащей выше кривой Г_ (J Г+ (если только эта кривая Г± не пересечена) при х2 > 0. Теперь применяем управ- ление ы(0 = х2, так что х = 0 и у = — у—(х2)8. Тогда траекто- рия перемещается вниз по линии х=х2 до тех пор, пока она не встретит кривую Г+. Случай, когда точка (xn i/J лежит ниже Г_иГ+, рассматривается аналогично. В каждом из этих случаев точку (х0, t/0) можно привести в начало координат за конечное время и, таким образом, £><=£ и Й" содержит окрестность начала координат и является открытым множеством в R3. Теорема 1. Рассмотрим управляемый процесс в Rn: (&>) x = f(x, и), f^C1 в Rn+m, с ограничивающим множеством QczRm, содержащим внутри себя точку и = 0. Предположим, что: (a) f(0, 0) = 0, (b) rank [В, АВ, А*В, ..., 4"-^]= и, где 4-4(0, 0) и В=4(0,0). Тогда область % нуль-управляемости открыта в Rn. Доказательство. Мы рассмотрим систему дифференциаль- ных уравнений с обращенным временем (еЛ.) Х = — f(X, и) и докажем, что концевые точки х(1) траекторий системы начинающихся в точке х (0) = 0, покрывают открытую окрестность N точки х = 0. Тогда, вновь обращая направление времени для каждого из соответствующих управлений, мы замечаем, что каж- дую точку окрестности N можно привести в начало координат
400 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 вдоль решений системы !sf. Отсюда следует, что область 5? явля- ется открытой, что и требуется. Так как f(0, 0) = 0, то каждая траектория x(f) системы с начальной точкой х (0) = 0 определена на интервале 0 t 1, при условии, что мы берем управления u(t), у которых |ы(/)| < е, где в—соответствующая малая величина. Впредь мы налагаем это ограничение на все управления. Заметим, что линейная сис- тема (2-) х = — Ах—Ви обладает свойством управляемости и, таким образом, существуют такие управления и± (/), и2 (t), ..ип (/), определенные на интервале 0 t sC 1 со значениями в Rm, что соответствующие им решения системы уравнений 2- переводят начало координат в независи- мые точки, лежащие на положительных координатных осях в Rn. В самом деле, мы можем взять каждое из этих управлений беско- нечно дифференцируемым (класса С“) и таким малым, что вектор u(t, Bv В2, .... U = gA(0 + lA(0+---+^n(0 удовлетворяет ограничениям I и (t, В) I < е на 0 t гС 1 и max I В,-1 1 • Пусть теперь x(t, Bu ..., Вп) = х(/, В) есть траектория системы еЛ., начинающаяся вточкех(0, |) = 0для каждого из управлений u(t, В)- Рассмотрим дифференцируемое отображение окрестности точки В = 0 в Rn g —х(1, В). Мы покажем, что образы х(1, В) покрывают открытую окрестность N начала координат в R". Заметим, что x(t, 0) = 0 и, следова- тельно, х(1, 0) = 0. Мы покажем, что матрица В)|«=о является неособой при t = 1, и тогда нужный нам результат будет слэдовать из теоремы о неявной функции. Так как управлению u(t, В) соответствует траектория x(t, В), такая, что х(0, В) = 0, то имеем ^х(Л l) = -f(x(t, В), u(t, В)) И £ |=-fx (х (t, 6), «(t, В)) (х (t, В) U (t, В)) |. Учитывая, что x(t, 0) = 0, u(t, 0) = 0, положим Z(t) = — AZ—В [uv u2, .... и„],
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 401 где последняя матрица имеет своими столбцами векторы Пусть г1( z„ есть столбцы матрицы так что г7(/) = —Лгу—г7(0) = 0. Но тогда z1(l), z2(l), •••, z„(l) суть независимые векторы, так как они обозначают точки на положительных координатных осях пространства Rn. Таким образом, матрица Z (1) является неособой матрицей и теорема о неявных функциях утверждает, что точки х(\, |) покрывают открытое множество М, когда вектор g изме- няется в окрестности нуля. Следовательно, ё содержит N и ё является открытым множеством в R". Теорема доказана. В доказанной теореме мы могли использовать, управления u(t) класса С”, которые обращаются в нуль в окрестности точек t = 0 и / = 1 и переводят точки множества N в точку х = 0 вдоль решений системы Это дает нам возможность использовать гладкие управления для глобального управления нелинейными процессами, как показано в следующем ниже примере. Пример. Рассмотрим управление нелинейным осциллятором x + f(x, x)'x+g(x) = u, т. е. следующую систему на фазовой плоскости: х = У, y = —g(x)—f(x,y)y + u с коэффициентом затухания f(x, у), восстанавливающей силой g(x) класса С1 и ограничением на управление й: |и|^1. Пред- положим, что f (х, у) > 0, xg(x)>0 для х#=0 X и lim G (х) = оо, где G (х) = § g(s) ds. Мы стремимся перевести начальные точки (х0, у0) в начало координат в пространстве R2. Для свободной системы, т. е. при м(/) = 0, определим энергию системы «,2 Е(х, y)=^ + G(x) и вдоль каждого решения будем иметь E=yy+g(x)x = — y2f (х, f/)<0.
402 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 Так как каждая кривая Е(х, у)=Ео>0 есть простая замкну- тая кривая, окружающая начало координат, и эти кривые упоря- дочены по включению друг в друга в соответствии со значением постоянной Ео, то свободное движение (х(/), y(t)), начинающееся в какой-либо точке (х0, у0), должно, оставаясь ограниченным при t—>-+00, пересекать каждую из этих кривых энергии и входить внутрь ограниченной ею области. Если Нш£(х(0, y(t))=E" >0, /->00 то к некоторой точке (х», у») кривой Е(х, у) = Ех можно подойти как угодно близко, двигаясь по траектории (х (t), у (/)) при /—>4-оо. Но решение, начинающееся в (х», удолжно входить во внутренность кривой Е = Е» (так как Ё < 0, если только у не равно нулю, и не существует свободного решения, которое оставалось бы всегда на оси х, кроме единственной критической точки х=у — О). По непрерывности траектория (х(/), y(t)) также входит во внутренность кривой Е = Ёа, что противоречит выбору числа Еа, > 0. . Поэтому £«, = 0 и каждое свободное решение должно асимптотически приближаться к началу координат. Теперь линейное приближение к нелинейному управляемому процессу в начале координат записывается в виде уравнения которое удовлетворяет условию полной управляемости предыду- щей теоремы. Таким образом, мы заключаем, что область нуль- управляемости для нелинейного осциллятора есть $ = R2. В самом деле, каждое начальное состояние в R2 может быть переведено в начало координат за конечное время посредством управления и (/) класса С”, удовлетворяющего какому-нибудь предварительно установленному ограничению | и (/) | < в. Следствие. Рассмотрим скалярный процесс х(в)—f(x, х, х, .... х(в~п, и) = 0 или соответствующую систему & в фазовом пространстве Rn, где ffzC1 в Rtt+1, а ограничивающее множество QcR1, определя- ется условием | и | 1. Предположим, что: (а) /(0, 0, ..., О, 0) = 0, (Ь) g(0, 0....О, 0)^0. Тогда область % нуль-управляемости является открытой в Rn. Доказательство. Система в пространстве R" имеет вид (^) х1=х*, х2 = х8, ,.., хп~1 = хп, xn = f(x\x2, ,..,ха,и).
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 403 Линейное приближение вблизи начала координат описывается матрицами 0 О г0 1 0 0 0 0 10 Г 0 1 о Л = fW) до> ••• ft” J в= f<0) L/a J Управляемость этой линейной системы уже была показана в главе 2, и она легко проверяется непосредственными вычислениями. По- этому условия предыдущей теоремы выполняются, и область нуль-управляемости 5? является открытым множеством в про- странстве Rtt. Теперь мы вернемся к задаче релейной управляемости. Прин- цип релейности устанавливает, что любое состояние управляемой системы, которое может быть получено варьированием управле- ния, может быть также получено с помощью управления, которое может принимать лишь экстремальные значения в области управ- ния. Выражение «релейность» имеет в виду мгновенное переклю- чение с одного из этих экстремальных значений на другое. Тех- нически это реализуется весьма простой конструкцией управляю- щего прибора, у которого имеется только конечное число позиций для рычагов управления (которые, например, соответствуют вер- шинам полиэдра, где изменяются значения управления), а не континуум возможных позиций (что соответствовало бы всем точкам пространственного полиэдра), и следовательно, релейный принцип имеет важное значение для приложений. Определение. Рассмотрим управляемый процесс в Я": (<§9 x=f(x, и), f С С1 в Rn+m, с ограничивающим множеством и начальным состоянием x0£Rn ПРИ А> = 0- Для каждого подмножества ZcQ рассмотрим множество Kz(^i) достижимости, состоящее из всех точек {х(^)}, достигаемых траекториями, соответствующими ограниченным изме- римым управлениям u(t)c:ZcQ на интервале Мы говорим, что множество Z обладает свойством релейности, если (ti) для всех Основным результатом относительно релейного управления линейными системами является следующая ниже теорема, которая доказывается так же, как и теорема 2.4. Тем же методом реша- ется и задача 14 в главе 2. Теорема 2. Рассмотрим линейный автономный процесс в R" (J?) х = Ах+Ви с начальным состоянием хй£Рп в момент tt=0 и компактным
404 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ и устойчивость гл. 6 ограничивающим множеством QcRm. Если компактное подмно- жество ZaQ имеет ту же самую выпуклую оболочку, т. е. то множество Z обладает свойством релейности для всех ^>0. С другой стороны, если процесс & обладает свойством управ- ляемости, множество И (О) имеет непустую внутренность в Rn, и vamkB = m, то компактное подмножество ZcQ, обладающее свойством релейности Rz (tj = Rq (tj для всех > 0, необходимо имеет ту же самую выпуклую оболочку H(Z) = H(Q). Следствие. Рассмотрим линейный автономный процессе Rtt (Я?) х = АхА-Ви с компактным ограничивающим множеством QcRm. Если: 1) множество Н (й) содержит точку и = 0 в своей внутрен- ности, 2) система 3 обладает свойством управляемости, то область ‘S нуль-управляемости является открытой в R". Доказательство. Так как Н (й) — Н (Н (й)), то начала координат можно достигнуть из начальной точки х0 при помощи управлений из Н (й) только в том случае, если оно достижимо из точки х0 при помощи управлений из й. Но имеется открытая окрестность N точки = 0, состоящая из точек, которые можно перевести в начало координат, используя управления из Н (й). Таким образом, # содержит N и 4S является открытой областью в R". Следствие доказано. Мы не будем здесь обсуждать принцип релейности для нели- нейных процессов в зависимости от глобальной структуры мно- жества достижимости Rq, а сконцентрируем внимание на локаль- ной задаче приведения системы к началу координат в Rn. Таким образом, мы будем искать такие подмножества Zей, для которых область нуль-управляемости с управлениями из Z, является открытым подмножеством в Rn. Если множество %z является открытым, будем говорить, что множество Z обладает нуль-релей- ным свойством. Следующий пример показывает, что обобщение приведенного выше следствия на нелинейный случай требует некоторой осто- рожности (даже если речь идет о локальной задаче). Пример. Рассмотрим скалярный процесс в j?1: х=« + «а с ограничением й: |м| = 2.
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 405 Выпуклая оболочка Н(Q) есть сегмент —2^ы^2, соединяющий две точки, которые включают в себя Q, и, конечно, Н (Q) содер- жит точку ы = 0 в своей внутренности. Линейное приближение этого процесса в окрестности точки х = 0, и = 0 запишется в виде уравнения х — и, которое, как легко видеть, удовлетворяет обычному критерию управляемости. Однако исходный нелинейный процес имеет область <6 нуль-управляемости х^О, в которой не содержится никакая окрестность начала координат. Это следует из того, что «4-и2 > 0 при J ы| = 2. Для того чтобы получить интересный результат относительно релейного управления нелинейными процессами, мы должны прежде обобщить некоторые теоремы Ляпунова о выпуклости об- ласти значений векторной меры (которые обсуждались в дополнении к главе 2). Рассмотрим компактный интервал времени 3: и <т-алгебру & всех измеримых по Лебегу подмножеств 3 в соот- ветствии с понятиями и обозначениями, предшествующими лем- ме 4А из дополнения к главе 2. Пусть р будет обычной мерой Лебега на .53, так что {3, р} есть измеримая ст-алгебра. На .53 мы определим обычную метрику посредством формулы р(£, F) = p(EuF)—p(EnF), Е, F £33. Как мы отметили в главе 2, существует топологическое отобра- жение а —> D, сегмента 0 а 1 в сг-алгебру .53, обладающее свойствами линейности и монотонности относительно меры р, т. е. р (D,) = ар (3) и O8cD5) тогда и только тогда, когда ах<а2. Пусть {3, Л, р} есть измеримая а-алгебра с указанной выше метрикой, k-разбиение интервала 3 есть упорядоченная совокупность из k множеств Alt ..., Ак в Л, для которых и А2 и ... и Ак = 3 и A; ft А; пусто для i^=j. Совокупность <?к всех 6-разбиений интервала 3 есть подмножество 6-кратного произведения & на себя, и таким образом мы определяем соответствующую топологию на подмножестве &к, которая индуцируется на нем топологией 6-кратного произведения. Пусть теперь S будет любым топологи- ческим пространством, и мы определим непрерывное семейство 6-разбиений компактного интервала времени, которое будет не- прерывным отображением S в Лемма. Пусть h^t), есть интегрируемые п-мерные вектор-функции на конечном действительном, интервале 3: Пусть S есть (6—\)-симплекс с барицентрическими координатами k «=(«1......а*), а,->0, 5а< = 1- Z=1
406 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ Й УСТОЙЧИВОСТЬ ГЛ. 6 Тогда существует непрерывное семейство k-разбиений интервала 3 в S3 а—^{А1(а), .... Ак(а)} такое, что интегрируемая функция {hi(/) при t£Лх(а), ............................................. hk(t) при t € Ак (а) удовлетворяет условию выпуклости \h(t, a)dt=a1 /ix (t)dt+ ... +ал Jhk(t)dt. оо о Доказательство. Существует о-подалгебра такая, что бп-мерный вектор 6* = (6Х, ..., ЛА) удовлетворяет тождеству леммы 4А, приведенной ранее, J P(?)J для каждого множества О£Л. Пусть теперь Dp будет топологи- ческий образ сегмента 0 0 1 в Л, такой, что р (Dp) = 0р (?) и Dp,с D.,, тогда и только тогда, когда 0Х ^02. Для каждой точки а = (ах, .... aft) симплекса S мы определим 6-разбиение сегмента 3 в Л следующим образом: Ax(a) = Dei, так что р(Лх)=ахр(?); Л2 (а) = Dei+as—Det, так что р(Л2) = (ах + а2)р(?)—ахр(?) = а2р(?), Л8 (a) = Dat+ei+es—Dat+ej, так что р(Л8) = а2р (?); Aft(a) = Dx—Dx_afe, так что р (Л*) = акц (3). Тогда легко проверить, что а—>{Лх(а)......Л* (а)} является непрерывным семейством 6-разбиений интервала 3 в о-подалгебре Л. Так как каждое А{(а)£Л, то, интегрируя ком- поненты вектора Л*, получаем J h!dt = at^hidt, i = \,...,k. Alla) 3 Таким образом, Т т т | h(t, a)di = a,i Jh1(t)dt+ ... 4-aft J hk(t)dt, 00 0 что и требуется. Лемма доказана.
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 407 Теорема 3. Рассмотрим управляемый процесс в Rn: (</’) x = f(x,u), feC1 в Ra+m. Допустим, что: (а) /(0,0) = 0, (b) rank [В, АВ, .... Д»-1В]=п, где A = fx(0, 0), В = /„(0, 0). Пусть л есть фиксированный выпуклый многогранник в Rm, содержащий начало координат внутри себя. Тогда существует. 8 > 0 такое, что для ограничивающего множества Q, состоящего из конечного множества вершин гомотетичного (радиально подобного) многогранника ел, область % нуль-управляемости является откры- тым множеством в R". Доказательство. Мы проведем доказательство лишь для случая, когда л есть /n-мерный симплекс с вершинами щ, иг,..., ит+1. Но этот метод годится и в общем случае. Пусть управление про- исходит на интервале 0 t 1. Сначала мы ограничим модули управлений u(t) так, чтобы соответствующие траектории, начи- нающиеся в х = 0, были определены на интервале 0^/1, а их концевые точки покрыли открытый шар, окружающий точку х = 0. Тогда, обращая знак времени как в теореме 1, мы покажем, что область нуль-управляемости открыта. Имеется граница 80 > 0, такая, что для каждого управления u(t), удовлетворяющего условию |и(/) |8 < 80 на траектория x(t) системы (£0 x = f(x, u(t)), х(0) = 0 и траектория xL(t) линейной системы (J^) х — АхBu(t), х£(0) = 0 определены на интервале 0 t 1 и удовлетворяют соответствую- щему ограничению |х(П| + К(01=Сс(8)< 1, где lim с (в) = 0. Рассмотрим ограничивающее множество Q вершин щ......“m+i многогранника, подобного л, но с диаметром, мень- шим, чем 80. Для линейного процесса 3 множество достижимости Кд(1) для решений xL(t), начинающихся в начале координат и для управлений из й, является выпуклым множеством в Rn, содер- жащим точку х = 0в своей внутренности. Пусть «ДО, • ...йп+1(0 —такие_ управления, что соответствующие им траекто- рии xhl{t)....хА,„+1 (?) линейной систему ведут к вершинам
408 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 «-мерного симплекса S с центром в начале координат. Обозначим вписанные и описанные радиусы симплекса S через q > 0 и сг > 0 соответственно. Возьмем барицентрические координаты а = (а1, ..., а„+1) в S и используем приведенную выше лемму для того, чтобы получить непрерывное семейство («+1)-разбиений интервала времени । 3 = [0 t «С 1 ] для функций i=l, j так, чтобы функция h(t, — при /£4z(a), 1=1, . ..,п+1 удовлетворяла условиям выпуклости 11 1 I ^h(t, а)Л = ах h1(t)dt+ ... + ал+1 hn+1(t)dt. I оо о I Но это означает, что семейство управлений u(t, a) = при /=1, ...,п+1 определяет траекторию xL (/, а) линейной системы, такую, что х£(1, а) = а1х£11(1)+. • • 4-a„+1xItп+1(1). Поэтому отображейие множества S в пространство Rn, определен- ное посредством решений линейной системы а—*х£(1, а) есть тождественное отображение на S. Теперь повторим это по- строение для ограничивающего множества Q = ей, где е—достаточно малое число. Мы воспользуемся семейством управлений и (t, a) = = ей (t, а) для того, чтобы получить траектории линейной системы xL (t, a) = exL (t, a). Тогда, если a—барицентрические координаты симплекса S = eS, то мы получим, что а—>-х£(1, а) есть тождественное отображение симплекса S на себя. Мы срав- ним это отображение симплекса S с соответствующим отображе- нием симплекса S, определенным посредством нелинейной системы а—>х(1, а). Здесь х (t, а) есть траектория системы (х (0, а) = 0), соответ- ствующая управлению u(t, a); xL(t, а) есть траектория линейной системы аппроксимирующей £f. Ясно, что отображение a—>-x(l,a) является непрерывным на симплексе S. Мы покажем,
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 409 что два отображения симплекса Sb/?2, определенные посредством xL(l, а) и х(1, а), являются согласованными на границе S (при условии, что 8 > 0 достаточно мало). Пользуясь топологиче- ским введением из главы 4 (которое основывается на теореме Брауэра о неподвижной точке), получаем, что множество /С(1) = = {х(1, a)|a£S} покрывает окрестность начала координат в Rn. Таким образом, главная техническая трудность, остающаяся в доказательстве, заключается в получении оценки для величины |х(1, а)—х£(1, а)|, когда а описывает границу симплекса S. Для требуемых оценок мы фиксируем е > 0 такое, что | u(t, а) | < 8 < 80, |x(f, a) | + | xL (t, a)| <c(8), |х£(/, a)| < c8e и все эти функции, определенные на интервале 0 t 1, лежат в области, где a), u(t, а))—AxL(t, a)—Bu(t, a)| <с4|х£ (/, а)| + + с4 |(u(Z, а)| \д/х(х, ц)|<| А| + 1, где с3 есть константа, а с4 определяется (явным образом, ниже) через постоянные | А |, | В |, с1, с2 и с3. Теперь имеем t \х (t, a)—xL (t, а) К $ | f (x (s, a) и (s, a))—AxL(s, a)—Bu(s, a)|ds< о t < J | f (x (s, a), и (s, a))—f (xL(s, a), и (s, a))|ds+ о t + $ |f(xi(s> a)» “(s> «))—AxL(s, a)—Bu(s, a)|ds, о так что t |x(f,a)— xL (t, a)|<(jA | + 1, J |x(s, a)—xL(s, a)|ds + c4(c8 + 1)8/. о Но анализ этого интегрального неравенства дает |х(1, а)—х£(1, а)Ке»л1+,с4[с8+11л. Теперь мы выберем 8 > 0 настолько малым, что и тогда |х(1, а)—х£(1, а)|<-^8.
410 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 Таким образом, евклидова норма разности х(1, а)—х£(1, а) будет меньше, чем сх -у для a$S, и мы вспоминаем, что вписанный ра- диус симплекса S есть сх8. На основании топологических теорем, доказанных в топологическом разделе главы 4, мы заключаем, что образ симплекса S при отображении а—<-х(1,^а), определен- ном через решение нелинейной системы, покрывает открытый шар N с центром в начале координат в Rn. Окончательно мы должны применить целиком конструкцию и доказательство, раз- витые для к системе с обращенным временем (^-) x=—f(x,u), и получить аналогичный открытый шар АГ_, с центром в начале координат в R". При помощи повторного изменения знака вре- мени мы обнаружим, что каждую начальную точку х0 € можно перевести в начало координат посредством процесса & с некото- рым управлением u(t) на интервале беря значения только в вершинах многогранника ел, для достаточно малых в > 0. Следовательно, требуемая область % нуль-управляемости процессу & является открытой в R”. Теорема доказана. Заметим теперь, что множество вершин многогранника ел обладает нуль-релейным свойством всякий раз, когда 8>0 является достаточно малым. Таким образом Лесли л есть куб |uz|s^l для i=l, .... /п, то существует вх>0 такое, что для каждого 8<8Х имеется шаровая окрестность точки х = 0, состоящая из точек, которые можно перевести в начало координат посредством управ- лений и (0, определенных на интервале 0 < t 1 по формулам | и1 (01 = 8, i = 1, ..., tn. Некоторые новые работы распространяют методы теории релей- ного управления на изучение управлений, которые являются кусочно-постоянными и имеют лишь конечное число переключений. Имеются также некоторые результаты по релейному управлению в замкнутых системах. Однако^эти новые исследования относятся главным образом к линейным^системам, и аналогичной трактовки для общей нелинейной теории в настоящее время не имеется. Поэтому здесь мы не приводим этих результатов. Теперь мы вернемся к понятию наблюдаемого процесса, кото- рое было изложено для линейных систем в главе 2. Рассмотрим действительный автономный управляемый процесс в Rn-. x = f(x, ы), с входным или управляющим вектором и € Rm и решением или векто- ром состояния х С Rn- Во многих физических ситуациях состояние х непосредственно не известно, а наблюдаются или измеряются
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 411 в качестве выходного сигнала системы только некоторые функции h(x). В этом случае мы расширяем описание процесса, добавляя уравнение наблюдения или выхода <о = Л(х). Процесс, для которого задано также выходное уравнение (^) x=f(x, и) и ®=Л(х), называется наблюдаемым процессом с входным сигналом u£Rm, выходным сигналом и состоянием x£Rn. Определение. Процесс в Rn, (<^) x = f(x, и) и со = /г(х), является (вполне) наблюдаемым, если: для каждого ограниченного измеримого входного сигнала u(t), определенного на некотором интервале 0 sgC t < tt и для любых двух решений x{f) их (#) с раз- личными начальными состояниями, выходные сигналы h(x(t)) и ft(x(0) являются различными, т. е. для каждого управления u(t) имеет место следующее свойство: h(x(t))^ah(x(f)) означает, что x(f)sx(i). Важность свойства наблюдаемости процесса zf состоит в том, что здесь состояние x(t) единственным образом определяется воз- действием и (t) и выходным сигналом о (t) = h (х (/)) без каких-либо измерений состояния в начальный момент времени или в любой последующий момент времени. Таким образом, экспериментальные данные, доставляемые при помощи наблюдений за входным и вы- ходным сигналами, ведут к полному анализу внутренней струк- туры и динамики процесса включающей состояние х (t) и закон его изменения во времени при различных управлениях. В главе 2 мы рассматривали линейный наблюдаемый процесс в R", со входным сигналом u£Rm и выходным сигналом a£Rr, (J?) х—Ах+Ви и сз = Нх с постоянными матрицами А, В и Н. Процесс был назван (вполне) наблюдаемым, если для нулевого входного сигнала ц (/) == О нуле- вой выходной сигнал Hx(t) = O означает, что х(/) = 0. Однако, вследствие линейности системы & это определение ’совершенно эквивалентно обычному определению (вполне) наблюдаемого про- цесса. Теорема 13 главы 2 утверждает, что процесс (•S’) х = Ах+Ви и бз = Их является (вполне) наблюдаемым тогда и только тогда, когда rank [Я', Л'Я', Л'»Я', .... Л'и-1Я,] = гг. Так как здесь мы хотим исследовать понятие наблюдаемости
412 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 для нелинейного процесса мы ограничим анализ рассмотрением лишь окрестности начала координат, как для входного сигнала u(t), так и для выходного сигнала ©(/). Для того чтобы облег- чить обсуждение этой проблемы, мы введем понятие локальной наблюдаемости вблизи начала координат. Определение. Рассмотрим наблюдаемый процесс в Rn, (о/’) x = f(x,u) и & = h(x), с функциями f (х, и) и h (х) класса С1 в окрестности точки х = и = О и f (0, 0) = О, h (0) = 0. Процесс & называется локально вполне наблюдаемым (вблизи начала координат) в случае, если существует е > 0 такое, что для каждого измеримого входного сигнала и (t) (0 t 1) в Rm, удовлетворяющего ограничению | и (t) | < е, и для любых двух различных решений x(t)=£x (0, где |х(0)<е, | х (/) | < е, выходные сигналы также различны, т. е. й(х(0) /г (х(^)) на Отметим, что из неравенств | и (t) | < е и | х (0) | < е следует, что величины |x(Z) | и | h (х (/)) | являются достаточно малыми на фиксированном интервале времени Таким образом, процесс Sf является локально наблюдаемым в том случае, когда существует в > 0, такое, что | и (/)1 < е, |х(0)|<е, |х(0)|<8, и из соотношения й(х(0) = Л(х(0) следует, что х(0)=х(0). Теорема 4. Рассмотрим наблюдаемый процесс в Rn, x = f(x, и), <o = h (х), f, h^C1 в окрестности точки х — и = 0 с входными сигналами u(t) в Rm и выходными сигна- лами h(x(t)) в Rr. Предположим, что: (a) f(0, 0) = 0 и Л(0) = 0; (b) rank [Я', А'Н’, А'*Н', .... Л"’-1Я']=п, где А=Г* (0,0), H — hx(0). Тогда является локально вполне наблюдаемым процессом вблизи начала координат. Доказательство. Для каждого измеримого входного .сигнала u(t) при t, изменяющемся на интервале0^/1, и для
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 413 каждого начального состояния х0 имеются соответствующее реше- ние х(/) и выходной сигнал ® (f) = Л (х (/)), по крайней мере, когда указанные величины являются достаточно малыми. Это соответствие запишем в виде х0, и (t)—* Q (х0, й) = &. Мы хотим показать, что данная пара — входной-выходной сигналы, однозначно определяют состояние системы, определяя значение х9. Другими словами, уравнение й (х0, и) = ® имеет не более одного малого решения х0 £ R", когда функции и и <о соответствующим образом заданы. Это заключение немедленно следует из теоремы о неявной функции, если ее соответствующим образом перефразировать для функциональных пространств. Пусть L» есть банахово пространство всех существенно огра- ниченных измеримых функций «(/), определенных на интервале О t 1 с нормой || и (01|» = ess sup [ | и1 (01 +1 и* (i) | + ... +1 ит (t) | ], и пусть Сг [0, 1] будет банаховым пространством всех непрерыв- ных функций со (/) на интервале 0 t 1 с нормой ||®(/)|| = тах[|®1(0|+... +|®'(0|]- О i 1 Тогда Й(х0, и) есть функция, определенная в окрестности U начала координат в 7?"хА» со значениями в пространстве Сг [0, 1]. Мы покажем, что Q (х0, и) является функцией класса С1 в смысле производной по Фреше (см. приведенные ниже уравнения, исполь- зующие понятия дифференциального исчисления в банаховом про- странстве) и что частная производна51 (0, 0) имеет ранг п. OXq Отсюда будет следовать локальная наблюдаемость процесса Пусть (х0, м0) есть элемент_из окрестности U. Рассмотрим не- которую близкую точку х0 = х0 + Ахо, и = й+&и, и найдем соот- ветствующие решения x(t) и х (/) = х (/) + Дх (/). Здесь t Ах (0 = $ [ f (х (s), и (s))—f (X ($), и (s))] ds о или t (Z) = J { [Й &(s)’ “ + е <s)] (s) + [1+8 (s)] Ах (s)} где | в (/) | —► 0 при (|Дх0| + ||Ди||»)—>-0. Таким образом, Дх(0 удовлетворяет системе линейных дифференциальных уравнений,
414 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 так что I Дх (0 = Ф (/) Дх0 + j Ф (О Ф"1 (s) (х (s), й (s)) Am (s) ds + + о (| Дх014-1| Aw ||co), где Ф(0 есть матричное решение уравнения Ф = -^-(х(/),й(0)Ф, Ф(0) = /. Следовательно, отображение (в пространство непрерывных «-мер- ных векторов) [/—►<?„[(), 1]: х0, м(0-*х(0 принадлежит классу С1 и (полная) производная в точке (х0, м0) есть ограниченное линейное преобразование R"XL» —>Сп [0, 1]: Дх0, Ам—>Ф(/) Ах0 + t + f®(O®-4s)^-A«(s)ds. В частности, эта производная в точке (0, 0) имеет вид * t Ах0, Ам —> eAt Ах0+ $ eA(t~s} В&и (s)ds. о Мы должны составить композицию этого отображения (х0 м(/))—>х(/) с отображением С„[0, 1]—>Сг[0, 1]: х(/)—>Л(х(/)), которое, как легко видеть, принадлежит классу С1 вблизи начала координат, с производной в точке х = 0, равной Ах—>ЯДх. Сле- довательно, композиция отображений (х0, м) —► Q (х0, м) также принадлежит классу С1 вблизи начала координат и производная, которая является даже равномерно непрерывной в некоторой окрестности начала координат хо = О, м = 0, может быть вычис- лена в точке (0, 0) как линейное преобразование t Дх0, Дм —► Нем Дх04-Я eA(t~s) BAu(s)ds. о В частности, -g- (0, 0): Rn -> Gr [0, 1 ]: Ах0 — НеА*Лх0. Ранг матрицы 0) совпадает с числом линейно неза- висимых столбцов матрицы Нем (каждый столбец рассматривается как вектор в Сг [0, 1]). Мы докажем, что число линейно незави- симых столбцов в матрице Нем равно п, в предположении, что rank [Я', А'Н'......А'п~1Н'] = п.
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 415 Предположим, что ранг матрицы 0) меньше, чем п. Тогда существует постоянный n-мерный вектор Дх0 =/= 0, такой, что Яел<Дхо = О на 0^/^1. Полагая / = 0, после повторного дифференцирования получим ЯДхо = 0, ЯАДхо = О, .... ЯАп"1Дхв = 0 или Дх^Я'= 0, ДхЗ'Я' = 0, .... ДхИ'^Я^О. Таким образом, n-мерные строки матрицы наблюдаемости [Н', А'Н', ..А’^Н'] являются линейно зависимыми, что про- тиворечит условию теоремы. Поэтому матрица -^-(0, 0) имеет ранг п и это линейное преобразование является неособым отобра- жением пространства 7?"^на n-мерное подпространство Сг [0, 1 ]. В этом случае теорема о'неявной функции (см. упражнения ниже) утверждает, что существует 8 > 0 такое, что | и ]«, < 8, | х01 < 8, | х01 < 8, а соотношение Й(х„ u) = Q(x0, и) влечет за собой равенство х0=-х0. Но это как раз и означает, что процесс является локально наблюдаемым. Теорема доказана. Эта теорема утверждает, что динамика объекта [интерпрети- руемая вектором состояния х (/)] локально наблюдаемой системы может быть описана, если полностью известны соотношения между входным и выходным сигналами. В некоторых случаях достаточно трудно наблюдать выходной r-мерный вектор © (t) во все моменты времени на интервале 0 t 1, например, мы можем сделать только «-наблюдений в моменты времени 0 < <...</„< 1 для того, чтобы получить выборочные выходные данные © (Q... © (/„). Таким образом, для каждой программы из п-наблюдений Р = {/1, tt, ...» tn} мы получаем выборочный выходной сигнал ' ©(^1 который мы интерпретируем как rn-мерный вектор-столбец, или как точку в векторном пространстве Rrn. Таким образом, про- грамма из п-наблюдений 0 < < t2 <... < <„<1 определяет линей- ный оператор Р, отображающий пространство Сг [0, 1] в Rrn, именно, © (f) —> Рю. Если существует 8 > 0 такое, что II и ||« < е, I х01 < 8, I Хо I < 8
416 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 и из соотношения PQ(x0, u) = PQ(x0, и) следует, что х„ — хв, то процесс Sf называется локально вполне п-наблюдаемым для задан- ной программы Р. Мы отметим, что каждая такая программа Р = {t[, t2, ..., tn} есть точка в открытой области /р в первом квадранте пространства Rn, которая определена неравенствами О < Zj < t2 < ... < tn < 1. Мы покажем, что для общей или не исключительной программы Р в процесс & есть локально n-наблюдаемый процесс. Исклю- чительные программы заполняют замкнутое и нигде не плотное подмножество в (или в единичном n-мерном кубе 1t21 1.... ..., | tn\ 1), т. е. множество всех не исключительных программ открыто и плотно в ^р. В частности, каждую программу Р в ZP можно аппроксимировать не исключительной программой. Следствие. Рассмотрим наблюдаемый процесс в Rn: (a?) x = f(x, и), <a=h (х), где f, h $ С1 в окрестности точки x = u = Q со входными сигналами u(t) в Rm и выход- ными сигналами h(x(t)) в Rr. Предположим, что'. (а) /(0, 0) = 0 и Л(0) = 0; (b) trank [Я', А'Н', ..., Л'п-1Н']=п, где A = fx(O, 0) и H = hx(0). Тогда для каждой программы из п наблюдений Р: 0 < ^ <<...</„< 1, за исключением нигде не плотного множества, процесс является локально вполне п-наблюдаемым. Доказательство. Заметим, что каждое Р в ^р есть не- прерывное линейное преобразование (и даже принадлежит классу С1) Р: Сг[0, 1] Rrn-. <o(t)-+ (ttt) - Так как Rrn есть банахово пространство конечной размерности гп, то мы можем применить теорему о неявной функции к ото- бражению RnxL<o—+ Rrn: хв, и—+ РЙ(х0, и), как в теореме (это отображение принадлежит классу С1 и его производная равномерно непрерывна в окрестности начала коор- динат). Нам требуется только проверить, что частная производная (0» 0) есть матрица, которая имеет ранг п как линейное отображение пространства Rn в Rrn. Но эта частная производная
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 417 выражается через n-мерные строки rxn-матриц Не4'», Не4'*, ..., Не4'", по формуле г Не4'» 1 Дх0—* Дх0. L He4'«J Следовательно, нам необходимо только показать, что имеется п линейшГнезависимых строк. Таким образом, следствие будет дока- зано, если мы сможем проверить, что матрица [е^Н', ..., еА'^Н'] имеет п независимых столбцов, или п независимых строк. Следо- вательно, программы Р, для которых процесс а? является локально вполне n-наблюдаемым, заполняют открытое подмножество обла- сти «£?, так как условие линейной независимости сохраняется при малых возмущениях векторов. Пусть D(tlt tt, ..., tn) будет суммой квадратов всех миноров n-го порядка матрицы [еА'^Н', ..., е4''»^]. Таким образом, эта матрица имеет ранг п лишь в случае, когда D (tu .... t„) 0. Теперь рассмотрим D (tlt ..., t„) для различных программ Р в области ZP, как действительную аналитическую функцию п действительных переменных (tlt ..., Q. Или функция D (^, ..., t„) всюду не равна нулю, за исключением, возможно, замкнутого подмножества ZP без внутренних точек, или же D (tu ..., /„) = 0 на Z?. В первом случае следствие доказано; мы покажем, что второй вариант невозможен. Таким образом, нам необходимо только показать, что функция D является положительной где-либо на /р. Возьмем п моментов вре- мени t1 = t, ti = 2t, ..., tn=nt для некоторого малого значения t > 0. Мы докажем, что матрица [е4''Н', ..., eA'ntH'] = [H', А’Н'.А'п~1Н']х I nt tn-l г—1)! имеет ранг, равный п для некоторого малого t > 0 и, таким 14 э. Б. Ли, Л. Маркус
418 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 образом, D=£0. В определителе ван-дер-Монда I ... I t nt • —V- fl"-1* "rt* t"-1 (nt)"-1 (n— 1)! • • • (n—1)! каждый элемент понимается как скалярная г х г-матрица, и V ф О, т. е. пг х nr-матрица является неособой для каждого />0. Но / ... / t nt (nt)"-1 (Я-1)1 wn: = V • t(n~ !)!'>'/« О (/Ил- яг/21+г) и, таким образом, эта матрица является неособой для всех малых t > 0. Т&к как матрица [И', А'И', ..., имеет ранг п, ее произведение на неособую матрицу ранга пг по-прежнему имеет ранг п. Таким образом, rank [а*'*Я', ..., eA'niH’]=n для всех малых t > 0, и следствие доказано. Рассмотрим физический процесс, динамические свойства кото- рого неизвестны; даже размерность пространства состояний может быть неизвестной. Пусть, однако, исходя из некоторой основной теоретической точки зрения, мы можем ожидать, что процесс опи- сывается некоторыми категориями математических систем, напри- мер, системами обыкновенных дифференциальных уравнений, воз- можно, линейными и автономными. Тогда мы проведем серии экспериментов на процессе посредством приложения различных вход- ных сигналов u(t) и наблюдения результирующих выходных^сиг- налов со(0, которые зависят от косвенно измеренного состояния х (t) процесса. С помощью этого найденного из эксперимента соот- ношения между входом и выходом мы попытаемся проанализиро- вать внутреннюю динамическую структуру пространства состояний данного физического процесса. Для того чтобы продемонстриро- вать математические аспекты такого анализа процесса, мы сначала изложим основную теорию линейных автономных процессов, а затем обратимся к нелинейным процессам, где анализ будет ло- кальным по своей природе и технически более трудным.
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 419 Определение. Рассмотрим линейный автономный процесс в R": х=Ах + Ви и а> = Нх. Каждый входной сигнал и (t) есть кусочно-непрерывный т-мерный вектор, обращающийся в нуль вне некоторого компактного подын- тервала полубесконечного интервала t 0, и соответствующее ре- шение х(/), где х(— оо) = 0, определяет непрерывный г-мерный векторный выходной сигнал ш.(0 = Ях(0- Множество всех таких входных сигналов образует действительное линейное пространство входных сигналов 5\ и выходные сигналы для интервала 0< t С 1 принадлежат Сг[0, 1]. Линейное преобразование Т: 3-^Сг[0, 1] есть соотношение между входом и выходом или передаточный опе- ратор процесса 2. Мы теперь покажем, что любые два линейных автономных наблюдаемых процесса х = Ах -j-Bu и © = Ях в Rn и (J?) х= Ах + Ви и <л = Нх в R", которые реализуют одно и то же соотношение Т между входным и выходным сигналом, являются линейно эквивалентными. Это означает, что_п = п и что существует неособое линейное преобра- зование х—Рх, переводящее в т. е. PAP-^А, РВ = В, НР-' = Н. В таком случае система 2 совпадает с системой 2, если произ- вести линейное преобразование координат в пространстве состоя- ний Rn . Если Т = 0, то это соотношение между входом и выходом реализуется вырожденным «нульмерным процессом», и мы этот случай не рассматриваем. Теорема 5. Рассмотрим линейный автономный наблюдаемый процесс в Rn: {2} х = Ах + Ви и а> — Нх с т-мерными векторными входными сигналами и (1)^3 и г-мерными векторными выходными сигналами определяющими элементы линейного пространства Сг [0, 1 ]. Пусть соотношение между вхо- дом и выходом задается отображением Т: и(0-^<в(0: У->С,[0, 1]. Тогда в некотором пространства состояний Ra существует 14*
420 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 линейный автономный наблюдаемый процесс (S’) х = Ах-(-Ви и (л = Нх, такой, что: 1) S? является (вполне) управляемым и (вполне) наблюдаемым’, 2) между входным и выходным сигналами процесса S? имеется то же самое соотношение Т. Более того, с точностью до линейной эквивалентности, S явля- ется единственным процессом с этими свойствами. Доказательство. Существование процесса S, обладающего требуемыми свойствами, было показано в главе 2, и мы лишь коротко” напомним здесь соответствующие идеи. Пусть сначала С есть линейное подпространство в Rn, состоящее из всех точек пространства R”, в которые приводят траектории процесса S?, начинающиеся в начале координат и соответствующие всевозмож- ным непрерывным управлениям, определенным на конечном ин- тервале времени. Тогда С есть инвариантное подпространство в R" (любая траектория, пересекающая С, целиком лежит в С для всех моментов времени), и мы рассмотрим сужение процесса S’ на подпространство С: (Sc) хс=- AS' + BcU и ® = Нсх<.. Здесь новые координаты Хс введены в Rn так, что подпростран- |_хя J ство С задается уравнениями ха = 0. Следовательно, векторы со- стояния в С принимают вид (и мы будем писать просто хс), а матричные коэффициенты сначала преобразованы к новым коор- динатам в R" и затем соответствующим образом видоизменены для того, чтобы описать наблюдаемый процесс Sc в простран- стве С. Отметим, что процесс S’,. является вполне управляемым на С и имеет предписанное соотношение Т между входом и вы- ходом. Теперь рассмотрим свободную систему, которая получается, если в Sc положить u(f) = O. Пусть подпространство Со состоит из тех начальных состояний в С, для которых ®(/) = 0 при Мы определим проекцию S с на фактор-пространство С/Со, т. е. на векторное пространство, получающееся из пространства С отождествлением любых двух его точек, разность которых (как векторов) лежит в Со. Разобьем совокупность координат простран- ства С на две группы, ха и хь, так, чтобы уравнение хь = О описывало подпространство Со. Тогда, после соответствующего линейного преобразования координат в С, управляемый процесс
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 421 с можно записать в виде хв = Ловхо + Лвл+Вв«, xb = Abbxb + Bba, & = Hbxb. Заметим, что двум начальным состояниям, разность которых лежит в Со, при произвольно выбранном (фиксированном) управ- лении и (О (О соответствуют траектории, разность кото- рых принимает значения в Со. Это означает, что на точки про- странства С, принадлежащие одному классу смежности, который соответствует некоторой точке фактор-пространства ClCb, произ- вольное управление действует одинаково. Следовательно, чтобы изучать, как действует это управление на точки фактор-простран- ства С/Со, достаточно наблюдать лишь за поведением координаты хь. Поэтому мы рассмотрим систему (J1) хь = Аььхь + Вьи и й = //л полученную проектированием системы 3 с на подпространство 7?« —ClCb. Так как нулевой класс смежности (хь = 0) можно пере- вести в произвольный класс смежности фактор-пространства С/Сй, процесс 3 является вполне управляемым в R". Если учесть ха- рактер идентификаций, произведенных при конструировании про- странства С/Са, то станет ясно, что процесс 3 является вполне наблюдаемым. Так как со зависит только от хь в процессе Зс, то соотношение между входным и выходным сигналами процесса 3 описывается также оператором Т. Поэтому 3 есть вполне управ- ляемый и вполне наблюдаемый процесс с заданным соотношением Т между входом и выходом, и часть теоремы, относящаяся к во- просу о существовании системы 3, доказана. Мы теперь докажем единственность такой системы S? в R* с точностью до линейной эквивалентности. Пусть существует дру- гой, вполне наблюдаемый и вполне управляемый, процесс (3) х = Ах+Ви и со = Нх в пространстве состояний R", с соотношением Т между входом и выходом. Оба процесса, 3 и 3, используют одно и то же про- странство входных сигналов 3 и имеют одно и то же соотноше- ние Т между входом и выходом. Пусть 30 состоит из таких вход- ных сигналов пространства 3, для которых «>(/) = О на интервале Так как оба процесса, 3 и 3, являются вполне уп- равляемыми и вполне наблюдаемыми, то фактор-пространство 3/3Ь является линейным пространством, изоморфным каждому из про- странств Rn и Rn. Следовательно, п — п, и мы пользуемся упо- мянутым выше изоморфизмом, чтобы определить неособое линей- ное отображение х — Рх пространства Rn на 7?”«
422 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 Мы должны теперь проверить, что_преобразование х — Рх пере- водит каждую траекторию процесса 2, соответствующую произ- вольно выбранному фиксированному управлению й(/) (0< t I), в аналогичную траекторию процесса 2. Но действие управления «(О на начальное состояние процесса 2 (или J?) можно описать, зная его воздействие на точки фактор-пространства З/З^. То есть под действием управления й (t) точка [ц0 (/)] £ 3/30, где ы0 (1)^ 3 (—t 0), переходит в точку из 3/3й, определяемую соотношениями и0(/-|-?) на —— t, u(t + t) на — Так как действию управления и(/) на фактор-пространстве 3/30 соответствует действие управления u(t) на пространствах состоя- ний Rn и Rn в процессах 2 и 2, и так как существует изо- морфизм х = Рх_пространств Rn и R", то мы заключаем, что процессы 2 и 2 идентичны. Теорема доказана. Такйм образом, заданное соотношение Т между входным и выходным сигналами можно реализовать посредством единственного вполне управляемого и вполне наблюдаемого линейного процесса 2 в Rn. Размерность п есть наименьшая размерность пространства состояний, в котором оператор Т можно реализовать линейным автономным процессом и, таким образом, реализация соотношения Т с помощью процесса 2 является наиболее эффективной. Соотношение Т между входным и выходным сигналами является соотношением типа передаточной функции, и теорема 5 до неко- торой степени имеет такое же важное значение, как и теорема 14 главы 2. Мы теперь распространим эти понятия и методы на не- линейные наблюдаемые процессы. Определение. Рассмотрим наблюдаемый процесс в Rn. (eZ) x = f(x, и) и ф = Л(х), f, h^C1, в окрестности точки х = ы = 0 и /(0, 0) = 0, А(0) = 0. Каждый входной сигнал и (t) есть кусочно-непрерывный /п-мерный вектор, обращающийся в нуль вне интервала — 1 t 0 и удов- летворяющий ограничению | и (/) | 6, а соответствующее решение х(0(х(—1) = 0) определяет непрерывный r-мерный векторный выходной сигнал <о (t) = h (х (t)) на 0 t 1 (по крайней мере, для достаточно малых б > 0). Выпуклое множество 3t входных
(И Нелинейные процессы 423 сигналов с равномерной топологией таким образом отображается непрерывно в банахово пространство Сг [0, 1] посредством соот- ношения между входным и выходным сигналами или передаточным операто₽ом т ; „(() ((); Мы докажем единственность локально вполне управляемого и локально вполне наблюдаемого процесса реализующего со- отношение Т между входным и выходным сигналами. Единствен- ность понимается с точностью до локальной топологической эквивалентности. Определение. Наблюдаемые процессы (^) х = f (х, и) и co = /i(x) в R", ^h^C1 в окрестности точки х = и = 0, где f (0, 0) = О, /г (0) = 0 и (еД x = f (х, и) и <о=й (х), в Rn, f, h € О в окрестности точки х = и = 0, где / (0, 0) = 0, h (0) = 0 являются локально топологически эквивалентными в случае, если имеется топологическое отображение Т окрестности N начала координат пространства Ru на окрестность N начала координат пространства Rn, удовлетворяющее условию Т(0) = 0, которое переводит систему в систему <$Л Последнее означает, что су- ществует е > 0 такое, что для каждого начального состояния х0 С N, где | х01 < в, и каждогр кусочно-непрерывного управления и (t), определенного при 0 t е и удовлетворяющего ограничению и (/) | < в, соответствующие решения х (t) их (/) систем eZ и <£?, начинающиеся в точках х0 и х0 = Т (х0), связаны соотношением Т(х(/))=х(0 пРи 0 t<8 и, кроме того, h (х) s h (V (х)). Теорема 6. Рассмотрим наблюдаемые процессы (<Ю x — f(x, и), a = h(x) в Rn, f, h£ С1 в окрестности точки х = и = 0, где f (0, 0) = 0, Л(0) = 0 и (&) х=У (х, и), <o = h(x) в Rn; f, h£ С1 в окрестности точки х = ц = 0, где /(0, 0) = 0,Л(0) = 0.. Допустим что процессы и являются (алгебраически) ло- кально вполне управляемыми и вполне наблюдаемыми и имеют то же самое соотношение между входным и выходным сигналами Т : u (f) —► ® (/): ^ — СДО, 1].
424 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ й устойчивость гл. 6 Тогда процессы и Of являются локально топологически эквива- лентными. Доказательство. Пусть множество 3l состоит из таких входных сигналов в 35, которые удовлетворяют условию Липшица |«(0—u(s)|<R—s|, так что управление u(t) является непрерывным на интервале — оо < t 0. Тогда 3L с равномерной нормой есть компактное метрическое пространство. Отображение u(t) —>х(О)=хо: 3L —►R" пространства 3L в R", определенное с помощью траекторий про- цесса удовлетворяющих условию х(—1) = 0, является равно- мерно непрерывным отображением на компактное подмножество пространства R". Теперь рассмотрим пространство [S'j всех клас- сов эквивалентности в пространстве 3L, где два управления из 3 считаются эквивалентными, если им соответствует один и тот же выходной сигнал. Тогда множество [З^] с топологией, порожден- ной указанным отождествлением, есть компактное пространство. Рассмотрим отображение 1р: и (t) —» х (0) = х0: [Я£] —► Rn простран- ства р£] в R", где u(t) представляет собой элемент пространства [J£], a xAt) есть соответствующая ему траектория процесса удовлетворяющая условию х (— 1) = 0. Заметим, что отображение 1р корректно определено и взаимно однозначно, так как процесс является локально вполне наблюдаемым (возможно, при несколько уменьшенном 6 > 0) и образ отображения ip покрывает открытую окрестность начала координат, так как процесс локально вполне управляем (см. теорему 1 и последующие замечания). Поэтому ip есть топологическое отображение пространства [5£] на некоторое подмножество пространства R" (взаимно однозначное непрерывное отображение компактного пространства на хаусдорфово простран- ство является топологическим). Мы определим аналогичное отображение ip: и (/) —»х(0) = х0 : р£]—+R" для процесса Тогда T = ipip-1 есть топологическое отображение некоторой шаровой окрестности М начала координат пространства R" на некоторую окрестность М начала координат пространства R". Далее, Т(0) = 0, так как оба начала координат хо = х0 = 0 соот- ветствуют нулевому управлению и(0 = 0. Таким образом, мы заключаем, что п — п, и мы должны теперь показать, что при отображении Т процесс & переходит в Выберем положительное число e<min{l, |, ради2ус N } такое, что |х01 < 8, а управление и (t), определенное на интервале
6.1 НЕЛИНЕЙНЫЕ ПРОЦЕССЫ 425 О С <С 1, и удовлетворяющее на нем ограничению | и (/) | < е, порождает траекторию х(/) процесса с начальным состоянием х (0) _ %о( которая лежит в /V при всех t из интервала 0 t -'С 1. Изучим теперь траектории S’, исходящие из х0 при кусочно непрерывном управлении и (/), 0 < £ е, где | м (/) | < е. Определим действие управления на подмножестве (/с[3£]. При этом будем иметь в виду, что состояние в [3£] будет соот- ветствовать решению х (t) системы полученному с помощью отоб- ражения ф, и решению х(Г) системы & с х(О) = Чг(хо), получен- ному с помощью отображения гр. Тогда Т (х (/)) = х (t) на 0 < t < е и топологическая эквивалентность процессов & и S будет пока- зана. Пусть 8 > 0 выбрано так, что окрестность | х01 < в в R" соответствует такому открытому множеству /7 с [5J, что каждый класс эквивалентности, соответствующий точкам из U, можно представить управлением н0(/), обращающимся в нуль на интер- вале — 1 t — 1/2. Так как процесс локально вполне управ- ляемый, то такой выбор числа 8 возможен. Мы теперь определим действие управления и (/) (0 t е) на элементе множества U, представленном управлением и0(/), обращающимся в нуль на интервале —1^/^— 1/2. Такое действие управления «(/) на элемент из [3£] задается формулой [^0 "Й" ыо(^ + 8) на —е——8, и (t + е) на —8 'С/'С 0, причем всюду на R1, где управление [м0 #«] этой формулой не определено, оно полагается равным 0. Легко видеть, что траекто- рия х(/) процесса <£7 с начальным условием х (0) = х0 = ф (и0) до- стигает точки х(е) под действием управления й(/) и что ф и] = = х (б) [х (б) лежит в /V, если б является достаточно малым]. Это справедливо, потому что процесс является автономным, т. е. параметры его не зависят от времени. Если мы хотим вы- числить выход в [3£], соответствующий начальному состоянию [«о] и управлению «(/), то мы получим конечное состояние [и0 # и] С [3£]. Состояние в [3£] в любой промежуточный момент времени 0 б, соответствующее управлению и (t), можно получить, используя /х вместо е в указанных выше вычи- слениях. Таким образом, мы определили действие управления и(/)на состояния [и0] С U с [3£], и это действие отображено посредством ф на соответствующие траектории процесса при управлении u(t). Так как действие управления «(/) на /7с [3£] определялось без
426 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 ссылки на & или а только в зависимости от соотношения Т между входным и выходным сигналами, мы заключаем, что ¥ отображает & на eZ, и что эти два наблюдаемых процесса являются локально топологическими эквивалентными. Теорема доказана. Упражнения 1. Рассмотрим процесс в R2: х=у, у=х2+у2+и2, где u£Rl. Покажите, что область % нуль-управляемости лежит в четвертом квадранте и что не содержит открытой окрестности начала координат. 2. Рассмотрим процесс в R2: х = у3, у=—х-\-и, с ограничением /и(/)|^1. Покажите, что ^ — R2, если алгебраические условия для управляемости не выполняются. 3. Рассмотрим процесс в R2, определяемый уравнением х+f (х, х) = и с ограничением | и (t) | «С 1, т. е. х—у, у =—f (х, у) + и. Покажите, что если функция f(x, у) принад- лежит классу С1 в пространстве R2 и удовлетворяет условиям (a) xf\x, 0) > 0 при х Ф 0, (b) g(x, 0^0, то = R2. [Указание: вычислить производную функции X v=^'+Sf(x’0)dx о вдоль свободной траектории, т. е. при и 0.] 4. Рассмотрим уравнение Ван-дер-Поля х+(х2—1) х-\-х = и или эквивалентную управляемую систему в R2: Х = у— ( у — х 1, у = — х + и. (а) Покажите, что совокупность всех траекторий с началом в фиксирован- ной точке (х0, #0), соответствующих ограниченному управлению w(/), |«(/)|<£, образует равномерно ограниченное семейство и что, тем самым, существует оптимальное по быстродействию управление, переводящее систему из состояния / х4 А (х0, Уо)^^в начало координат. [Указание: гг = хх+уу = — у”*2 )+^w» так что rr<\-\-kr, где г2==х2+#2.] (Ь) Показать, что если k—достаточно малое положительное число, то область содержит лишь малую окрестность начала координат; если же k > 0 достаточно велико, то ft — R2. [Указание. Известно, что свободный осциллятор Ван-дер-Поля имеет единственный предельный цикл, причем каж- дое решение, отличное от критической точки, навивается на этот предельный
6.1 НЁЛИНЁЙНЫЁ ПРОЦЕССЫ 427 ПИКЛ подобно спирали. Допустим, что точка (х0, у0 = 0) лежит близко от пре- дельного цикла; возьмем и = х(1) до тех пор, пока x(t) не станет достаточно близкими + или — после чего положим ц = (х2—1)х—х.] 5. В теории термодинамики, построенной Каратеодори, содержится кон- цепция полной управляемости. Чтобы проиллюстрировать ее на простом при- мере, рассмотрим идеальную пробу газа с давлением р, объемом V, темпера- турой Т, связанными соотношением pV = RT, где R— положительная константа. Изменение состояния газа во времени описывается законом газового состояния и первым законом термодинамики dQ__ dV . dT I M-л dr=pdF^Cvdt ’ где dQ/dt есть относительный поток тепловой энергии, a cv есть постоянная удельная теплоемкость. Возьмем w1(0 = P(0 и w2(/) = Q(0 в качестве управ- ляющих функций и решим систему дифференциальных уравнений, описываю- щую состояние газа: 1 г р v 1 Р = ц1, 7=/г- г — (t) — — u^(t) . к (l + Rlcv) [CvP р Покажите для случая адиабатического управления (и2 (/) ss 0), что существует по меньшей мере два состояния, из одного из которых система не может быть переведена в другое. 6. Рассмотрим нелинейный процесс в Rn: (^) x = f(x, u)t f^C1 в окрестности точки х = н = 0. Предположим, что f (х, и) = Ax-f-Bu-f-o (х, и) и rank [В, ЛВ, ..., Лй~1В] = л. Докажите, что существует постоянная матрица Dt такая, что управление u — Dx стабилизирует процесс & в окрестности начала координат, т. е. что система х — f (х, Dx) является асимптотически устойчивой в окрестности начала коор- динат. 7. Управляемый процесс в Rn х = А (/, x) + B(t, х) и класса С1 является локально вполне управляемым вдоль решения'* = <р (/), соответствую- щего ограниченному измеримому управлению v(/) на интервале в случае, если для каждого е > 0 существует б > 0 такое, что каждая точка х19 для которой | — <р (/i) | < б, может быть достигнута из любой точки х0 под действием измеримого управления, удовлетворяющего условию | и (t)—v (t) | < е на Покажите, что данный процесс является локально вполне управляемым вдоль решения х = ф(/), если уравнение в вариациях <р(0) + ^(/, <р (Л Ф(О)« является вполне управляемым на интервале 8. Рассмотрим процесс в Rn: х=А (х) + Ви класса С1 при условии, что | А (х) / + | дА/дх | < k (^—константа) в Rn, а В — постоян- ная nxm-матрица, причем матрица ВВ' неособенная. Доказать, что каждую начальную точку x^Rn можно перевести в каждую целевую точку х&К* при помощи непрерывного управления и (t) (0 «С t < 1). [Указание: пусть «(/) = £'£, где g—постоянный вектор из Rn, а х=ф£ (/) —соответствующая траектория. Взять в качестве £ неподвижную точку отображения 5—>(ВВ')-х *! — х0 — J А (ф^ (t))dt
428 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 9. Покажите, что соотношение Т между входным и выходным сигналами скалярного наблюдаемого процесса i=w, <в = х2 нельзя реализовать ни в каком локально вполне наблюдаемом и вполне управ* ляемом процессе. Следующие три задачи, развивающие некоторые положения теории диф- ференциального исчисления в банаховом пространстве, приводят к теореме о неявной функции, которая требуется нам для теории локальной наблю- даемости нелинейных процессов. 10. Пусть Е и F — банаховы пространства и пусть f — абстрактная функ- ция, определенная в открытой окрестности U начала координат пространства Е и принимающая значения в пространстве F. Говорят, что функция f диффе- ренцируема в точке uQ^Ut если существует непрерывное (ограниченное) ли- нейное отображение Т пространства Е в F такое, что f (uQ + Aw) = f (w0) + Г Aw + о (| Д w I), для всех малых Awg£. При этом пишут/'(w0) = r. Заметим, что функция f' (w0) принадлежит банахову пространству L (£, F) всех непрерывных линей- ных отображений Е в F. Если f'(и) существует в каждой точке u£U и ото- бражение ' и —> f' (и) : и —► L (Е; F) является непрерывным, говорят, что f^C1 в U (т. е. непрерывно и имеет непрерывную производную). (а) Покажите, что композиция отображений класса С1 вновь принадлежит классу С1 и что цепное правило дает производную композиции отображений. (Ь) Пусть f(u) = Tu есть непрерывное линейное отображение Е в F. До- кажите, что f^C1 и f' (и) &и — Тки. Если Т есть взаимно однозначное отобра- жение Е на F, то теорема о замкнутом графике утверждает, что Т-1 является непрерывным отображением F на Е. (с) Если fgC1, то теорема о среднем дает, что 1 f (w0 + Ди) — f (w0) Г («о + dt о для сегмента w0-|-/Aw, 0 «С t < 1 в U. [Интеграл Римана определяется, как для обычных непрерывных функций]. Кроме того, для каждого линейного функционала <p£L(F, /?х) выполнено равенство / 1 \ Ф (/(w0+Aw)/ (ц0))=Ф Н Г (Uo + tku) &и dt) ] . \0 / (d) Если f^C1, то имеет место теорема о среднем: I f (м0+Дм) — f («о) | < | Дм | sup f' ©, где w0 + tku (О^С t< 1) — сегмент из £/, а точка 5 лежит на этом сегменте. Далее, _ _ I f (Mo+Au) — f (ua)—f (й) Дм | < | Ди | sup | f © —f' (и) |, где w —фиксированная точка сегмента, и точная верхняя грань берется по всем £ на сегменте. 11. Пусть f:U—* F есть принадлежащее классу С1 отображение открытой окрестности U начала координат банахова пространства Е в банахово про- странство F. Предположим, что отображение
6 2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ нёлинёйных процессов 429 х ч у—*L(E, F):u—> f'(и) равномерно непрерывно на U и (b) f (0) есть взаимно однозначное непрерывное линейное отображение пространства Е на замкнутое подпространство пространства F. И Покажите, что в этом случае существует подокрестность Vczt/, на кото- рой из соотношения f == f (и2) следует, что иг — и2. [Указание: теорема о замкнутом графике утверждает, что f' (О)-1 есть непрерывное отображение f' (0) Е на Е. Таким образом, существует постоянная с > 0 такая, что ( ff (0) Да >с|Дм| для всех Да в £; тем самым, | f'(а) Да | | Да | для всех а в некоторой окрестности VdU начала координат. Теперь теорема о среднем дает I / («1) — /' (“) («2~Mi) I и2 — «11 sup | f (g)-/' (а) |, где и и В принадлежат сегменту, соединяющему точку с точкой а2. Из свойства равномерной непрерывности отображения f' (а) следует, что мы можем сузить окрестность V так, что | f' (£)—/' (а)(Сс/4. Тогда I f («i) I (“z — «1), откуда и следует нужный результат.] 12. Использовать упражнения 10 и 11 для доказательства теоремы 4, за- метив, что отображение R"XLa>-+Cr[(), 1]: х0, u-+Q(x0, и) имеет равномерно непрерывную производную в некоторой окрестности U на- чала координат, которая в точке х0 = 0, « = 0 задается соответствием t 1хх0, 1хи —► HeAt Дх0+Н J ел (t~ВДи (s) ds. о Показать, что отображение [0, ljx^^i Xq, и—> Q (Xq, и), и удовлетворяет (в окрестности начала координат) условиям предыдущего упраж- нения и что, тем самым, существует окрестность VcU, на которой из соотно- шения Q (х0, a) = Q(xo, и) следует, что х=х0. 6.2. Глобальная устойчивость нелинейных процессов В предыдущем разделе мы изучали локальную полную управ- ляемость нелинейного процесса x — f(x, и) в Rn. Область # нуль-управляемости состояла из всех начальных со- стояний x0£Rn, которые можно перевести в начало координат х1 = 0 допустимыми управлениями за конечное время. Мы нашли, что при выполнении алгебраического условия полной управляе- мости для линейной аппроксимации процесса область ‘в содержит открытую окрестность начала координат. В этом разделе мы опишем процессы, для которых % = Rn\ при этом, как правило, процесс & будет предполагаться глобально асимптотически устойчивым, а так- же локально управляемым вблизи начала координат.
430 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 В главе 2 было показано, что линейный процесс в R" (S’) х = Ах+Ви с ограничивающим множеством содержащим точку и = 0 внутри себя, имеет своей областью нуль-управляемости все про- странство Rn, если: 1) Матрица А устойчива, т. е. каждое характеристическое число X матрицы А имеет отрицательную действительную часть, и 2) rank [В, АВ, ..., Ап~1В]=п. Наши результаты распространяют эти понятия и методы на нелинейные процессы. Мы сначала напомним общепринятую тер- минологию, используемую для описания устойчивости автономной системы дифференциальных уравнений. Определение. Система дифференциальных уравнений х — f (х) класса С1 в R" называется устойчивой относительно начала координат, если для каждого е > 0 существует 6 > 0 такое, что при | х | < 6 решение х (/), с началом в точке х (0) = х0, удовлетворяет условию | х (/) | < в при 0^/ < оо. Ясно? что необходимое условие устойчивости таково: /(0) = 0, начало координат есть критическая точка, или точка покоя, или точка равновесия. Если у матрицы А = -|^(О) все характеристи- ческие числа имеют отрицательную действительную часть, то лег- ко доказать, что система дифференциальных уравнений устойчи- ва, даже асимптотически, относительно начала координат. Определение. Система дифференциальных уравнений x~f(x) в Вп класса С1 называется асимптотически устойчивой относительно начала коор- динат, если для каждого е > 0 существует такое б > 0, что при 1X1 < б решение x(t) с начальным условием х(0) = хо удовлетво- ряет условию | х (/) | < е на интервале 0 С t < 00 и lim х (t) — 0. I -> ОО Если каждое решение системы в R" определено на 0 t < 00 и стремится к нулю при t—>оо, то система & называется гло- бально асимптотически устойчивой. Отметим, что условие устойчивости относительно начала коор- динат слабее, чем условие асимптотической устойчивости, которое в свою очередь слабее условия глобальной асимптотической устой- чивости. Следующие две теоремы дают условия глобальной асимптоти- ческой устойчивости для систем дифференциальных уравнений
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 431 возникающих в нелинейных управляемых процессах. Первый ре- зультат есть непосредственное обобщение известного критерия устойчивости Ляпунова, а второй результат показывает,^что свой- ство устойчивости зависит от знака характеристических чисел некоторой матрицы. Заметим, что из теоремы относительно гло- бальной асимптотической устойчивости, а так же из предыдущих результатов о локальной полной управляемости следует, что ^S—Rn. Теорема 7. Рассмотрим управляемый процесс в Rn: (^) x=f(x, и) в С1 в Rn+a, с ограничивающим множеством Q с Rm. Предположим, что суще- ствует скалярная функция V (х) и т-мерная вектор-функция U (х) в Rn класса С1 такие, что (а) V (х)^0 и V(x)=0 тогда и только тогда, когда х=0; (b) lim V (х) = + сю; I *1 - » (с) U (х) с Q; (d) %{f‘(x, Щх))<0 для х^О. Тогда система дифференциальных уравнений W X=f(x, U (х)) является глобально асимптотически устойчивой относительно на- чала координат. Следовательно, для каждого начального состояния x0£Rn решение x(t) системы &v стремится к точке х^О при t—* + сю, а управлению u(t) = U (x(t)) с Q, определенному на интервале 0s^<oo, соответствует то оке самое решение x(t) процесса £Г, переводящее точку х0 в начало координат. Доказательство. Сначала отметим, что линии уровня У(х) = с>0 являются компактными подмножествами пространства R" и ло- кально каждая из них является гладкой гиперповерхностью, так как grad V (х) =/= 0. Таким образом, каждая такая линия уровня является компактным гладким подмногообразием (гиперповерх- ностью), которое разделяет пространство Rn на две области, и начало координат лежит во внутренней области, там, где V (х) < с. [Кривые ортогонального семейства ведут из внешней области в окрестность начала координат, причем каждая пересекается только один раз с каждой из линии уровня У(х) = с.] Для каждой начальной точки х0 £ R" рассмотрим решение х (/) системы of ц, начинающееся в х0. Вычислим скорость изменения функции V вдоль решения x(f):
432 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. |ё и, таким образом, решение x(t) остается все время внутри гипер- поверхности уровня V(x) = V(x0). Поэтому решение x(t) опреде- лено на интервале 0 t < оо. Кроме того, если х0=0, то V (х (/)) э= О, так что х (0 == 0. Следовательно, f (0, U (0)) = 0 и начало коор- динат является критической точкой системы дифференциальных уравнений Если хо#=О, то решение x(f) стремится внутрь, пересекая гиперповерхности уровня V (х) = с > 0, но никогда не достигает начала координат. Пусть lim V(x(0) = V»> 0. t -> co Если V«, > 0, то решение х (/) должно асимптотически прибли- жаться к некоторой точке хх, лежащей на компактной гиперпо- верхности V(x)=Va. Однако решение системы ^fv, начинающееся в точке х», проникает во внутренность гиперповерхности V(x)=Va> и соображения непрерывности показывают, что х (f) должно также пересечь эту внутренность. Таким образом, мы заключаем, что V» = 0 и lim х (0 = 0. t -> со Мы Доказали, что система является глобально асимптоти- чески устойчивой относительно начала координат. Очевидно, что управлению класса С1 и (0 = U (х (0) на интервале 0 t < оо соответствует решение x(t) системы еА Теорема доказана. В специальном случае, когда функция f (х, и) не зависит от и, а на функцию U (х) никакие условия не налагаются (при этом она просто исключается из рассмотрения), приведенная выше теорема известна как критерий устойчивости Ляпунова. Функция V (х) называется функцией Ляпунова для систем дифференциальных уравнений. Следствие. Рассмотрим управляемый процесс в R": (&) x = f(x, и), feC1 в Rn+m, с ограничивающим множеством Q <z Rm. Допустим, что ^ сущгствуют. функции U (х) и V (х) класса С1 в пространстве Rn, удовлетворяющие условиям (a), (b), (с), (d) теоремы. Предположим далее, что (а) /(0, 0)=0; (f) и = 0 лежит внутри Q; (g) rank [В, АВ, ..., Ап~1В] = п, где A=fx (0, 0), В = (0, 0). Тогда область нуль-управляемости % для управляемого процесса $ совпадает с Rn,
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 433 Доказательство. Доказательство немедленно следует из теоремы и полученных выше результатов о локальной полной управляемости. Теорема 8. Рассмотрим управляемый процесс (&) x=f(x, и); feC1 в Rn+m, с ограничивающим множеством Q a, Rm. Предположим, что (а) /(О, 0) = 0; (Ь) существует т-мерная вектор-функция U (х) в Rn класса С1, причем U (х) с Q и U (0) = 0; (с) каждое характеристическое число X (х) матрицы J (х) + J' (х) удовлетворяет условию X (х) — е < 0 для всех x$Rn и некото- рой константы в > 0, где J(x)=-^(x, U(x)) + ^(x, U(x))d-^, a J' (х) есть транспонированная матрица для матрицы J (х). Тогда система дифференциальных уравнений Wu) x = f(x,U(x)) является глобально асимптотически устойчивой относительно начала координат. Следовательно, для каждого x0^Rn решение х(0 системы стремится к х1 = 0, при t-t-oo, и управлению u(t) = U (х (/)) ей на 0 t < оо соответствует то же решение х (t) системы переводящее точку х0 в начало координат. Доказательство. Начало координат х^О есть критичес- кая точка для системы дифференциальных уравнений и мы покажем, что это единственная критическая точка. Пусть х—критическая точка системы в R", такая, что F (х) — 0, где F(x) = f (х, U (х)), a J (х)=(х) является матрич- ным коэффициентом линейного приближения для системы вблизи критической точки. Если матрица J (х) является особой, то суще- ствует неравный нулю постоянный вектор w С R", для которого J(x)w = Q. Это означает, что w'Jw = 0 и w'J'w = 0, так что имеет место равенство w’ (J + J')w = 0, которое противоречит предположению о том, что w' (J -|- J') w < 0,
434 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 Поэтому матрица J (х)—не особая и, следовательно, отображение x—^Ffx) пространства Rn в себя имеет изолированный нуль в критической точке х системы Таким образом имеет лишь изолированные критические точки. Пусть x(t)—решение системы tsfUt начинающееся в произ- вольной начальной точке х0. Определим вектор скорости вдоль этого решения v(t) = x(t). Тогда с = J(x(t))v и, таким образом, v'v=v'J v, v'v = v'J'v. Так как ||v||’ = v't>, то имеем Поэтому вектор скорости вдоль решения x(t) удовлетворяет не- равенству || v (t) || || v (0) || е~8</2 и, следовательно, . t ||X (t) |] < II х01| + $ || v (s) II ds < II х0 II + II v (0) II (2/8); о тем самым, решение x(t) остается внутри компактного шара в Rn для 0^/г^оо и решение x(f) должно стремиться к критической точке системы при t—>оо, ибо || v (/) || —► 0. Так как функция || f (х, U (х)) || обращается в нуль только в изолированных критических точках, а функция || v(t) || является монотонно убывающей, то каждая критическая точка системы является локально асимптотически устойчивой. Но каждое реше ние x{t) системы должно стремиться к некоторой [критиче- ской точке при t—*оо. Легко видеть, что множество начальных состояний x^R", для которых решение x(t) системы стре- мится к заданной критической точке х, является открытым под- множеством 0(х) в Ra. Так как пространство Rn связно, оно не может быть разложено на два непересекающихся, непустых откры- тых подмножества. Поэтому имеется только одна критическая точка хх = 0 системы^е/у и, таким образом, эта система является глобально асимптотически устойчивой. Для каждой начальной точки х0 движение x(t) системы можно также получить как решение управляемой системы соответствующее управлению u(t) = U (x(t)). Теорема доказана. Следствие. Рассмотрим управляемый процесс в Rn; (&) x = f{x,u), f^C1 в %п+п
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 435 с ограничивающим множеством Q с R*. Предположим, что усло- вия (а), (Ь) и (с) теоремы выполняются, и пусть также (d) точка и = 0 лежит внутри множества й в Rm; (е) rank [В, АВ, .... Ап~1В]=п, где A=fx(O,O), B = f„(O,O). Тогда область % нуль-управляемости для системы совпадает с Rn. Доказательство немедленно вытекает из теоремы и ранее полу- ченных результатов о локальной полной управляемости. В главе 2 мы изучали задачу стабилизации линейного авто- номного процесса в Rn: (3?) х = Ах+Ьи с наблюдаемой линейной обратной связью а=сх и законом управ- ления и = о — сх. Здесь А есть действительная и X «-матрица, b—действительный вектор-столбец, с—действительный вектор- строка, а о есть действительная скалярная величина. В теореме 9 главы 2 мы показали, что если пара (Л, Ь) является (вполне) управляемой, то вектор с можно выбрать так, что матрица А + Ьс будет устойчивой, т. е. если det[6, Ab, АгЬ, ..., Л-’-^^О, то можно выбрать вектор с так, что все характеристические зна- чения матрицы А-\-Ьс будут иметь отрицательные действительные части и процесс будет асимптотически устойчивым относительно начала координат. В этом разделе мы проанализируем устойчивость вышеупомя- нутых процессов, но с нелинейным законом управления: и = и (ст), где ои (ст) > 0 для ст Ф 0. Эта задача известна как задача Лурье для прямого управления. Определение. Рассмотрим управляемый процесс в R": (Л) х— Ах+Ьи (ст), ст = сх, где Л есть действительная п х «-матрица, а b и с—действитель- ные векторы. Предположим, что закон управления таков, что управление и (ст) порождает отрицательную обратную связь, т. е. функция и (ст) принадлежит классу С1 на интервале —оо < ст < оо, причем стм (ст) > 0 для ст Ф 0. Эти условия определяют класс уп- равлений 4Й, и процесс Л называется абсолютно устойчивым, если система х = Ах -|- Ьи (сх) является глобально асимптотически устойчивой для любого
436 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 и (о) с 41. Если матрица А и вектор b заданы, то область абсо- лютной устойчивости ® состоит из всех таких векторов с в Rn, для которых процесс Л является абсолютно устойчивым. Замечания. Если хотя бы одно характеристическое число матрицы А имеет положительную действительную часть, то область (£ является пустой, так как класс ‘И содержит также линейные законы управления и = ест для произвольно малого е > 0. Поэтому мы рассмотрим задачу Лурье только для случая, когда А есть устойчивая матрица. (Случай, когда матрица А имеет чисто мни- мые характеристические числа, требует более тонкого анализа.) Тогда область 6 всегда содержит точку с = 0. Вообще говоря, область 6 содержит объединение полупрямых, выходящих из начала координат. Чтобы доказать это свойство множества рассмотрим обратную связь и (Хсх) при X > 0 и с £ 6. Положим «х (о) = и (Хо) и тогда мк лежит в ‘М всякий раз, когда и лежит в ‘U. Следовательно, процесс Л является глобально асимптотиче- ски устойчивым с обратной связью их (сх) = и (hex) и, таким обра- зом, Хс£®, что и требовалось доказать. Геометрию множества ® не легко описать, и задача Лурье состоит в определении области устойчивости 6 для заданных (А, Ь). Обычрый метод доказательства абсолютной устойчивости про- цесса Л использует функцию Ляпунова (см. теорему 7) вида V(x, а) = х'Вх + $ и (s) ds, о где вектор-строка х' получен транспонированием вектора-столбца х. Положительно определенная матрица В>0 в некоторых случаях может быть найдена из соотношения А'В + В'А = — С', где С > 0. Напомним, что в теореме 7 главы 3 было показано, что если А—устойчивая матрица, то каждой такой матрице С > 0 соответствует одна и только одна матрица В > 0. А именно, В = J eA,tCeAtdt. о Теорема 9. Рассмотрим в R" процесс (Л) х = Ах+Ьи(о), о = сх с законом управления и (о) из класса еИ, где А есть действитель- ная устойчивая матрица, а b и с суть действительные векто- ры. Предположим, что существует положительно определенная матрица В > 0 такая, что совокупность объектов {А, Ь, с}
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 437 удовлетворяет условию — cb> Л'е'4-уос'Ус-1 (Вб + уД'с' + уас') для некоторого а > 0, где А'В + В'А = — С и С>0. Тогда с С 6, так что процесс Л является абсолютно устойчивым. Доказательство. Зафиксируем закон управления и (а) С ‘М и для каждого решения x(t) уравнения, описывающего процесс Л-, положим <s (t) = cx(t). Тогда получим систему х = Ах+bu (а), а=с Ах4-cbu (ст) в 7?л+1. Определим действительную функцию О V(х, о) = х’Вх+ $ и(s) ds о в Rn+1, которая является положительной всюду, кроме точки х = ст = 0. Вычисляя производную функции V (х, о) вдоль решения х(0, ст (О» получим V=х'В (Ах+bu) + (х' А' + ub') Вх+и (сАх 4- cbu) или, учитывая, что х'А'с' —с Ах, прибавляя и вычитая ааи (о) получим — V = jx'Cx—2х' (вб-|-у А’с’ +уас') и—cbu2} 4-асти (а). Для того чтобы функция V (х, ст) могла служить функцией Ляпунова, потребуем, чтобы —V > О везде, кроме точки х=ст=0. Заметим, что производная —V представлена в виде квадратичной формы от («4-1) переменной (х, и) с матрицей ГС d 1 |d' —cb ] ’ где d = —[Bb 4-у А'с' + -^ас''} . Эта матрица является положи- тельно определенной в том случае, когда все ее главные миноры положительны. Условие С > 0 гарантирует положительность всех главных миноров, за исключением, быть может, самого опреде- лителя С d d' — cb Покажем, что из условий теоремы следует его положительность.
438 управляемость, наблюдаемость и устойчивость гл. 6 Так как С > 0, то для этого нужно лишь доказать положи- тельность определителя ГС"1 01 ГС d 1 _ Г/ С-М1 [о 1J d' —cb\ ~ [d' —ей] Раскрывая его, получим — cb—d'C~1d = = —cb — (Bb -j-^-A'c' +4- осс'Ус-1 (ВЬ 4--i- А'с’ +4-ас'') , а последнее выражение, по условию, положительно. Теперь докажем глобальную асимптотическую устойчивость про- цесса Л. Для любого начального состояния решение x(t) системы х = Ах А-Ьи(сх) остается в той области пространства Rn, где x'Bx^V(х0, сх0) и, следовательно, решение x(t) определено на интервале 0^/ <оо и начало координат является устойчивой критической точкой. Так как V(x(t), о(/))<0 вдоль решения х(/)у=0, а(/) = сх(0#=0, то мы заключаем, что lim х (/) = 0. /->00 Таким образом, написанная выше система глобально асимптоти- чески устойчива относительно начала координат, а процесс Л является абсолютно устойчивым. Теорема доказана. Пример. Задача Лурье часто формулируется на языке не- прямого управления, включающего производную от входного сигнала. Мы здесь поставим задачу Лурье с непрямым управле- нием и покажем, как ее можно свести к эквивалентной задаче с прямым управлением, т. е. к задаче того типа, который изучен в теореме 9. Рассмотрим задачу с непрямым управлением в ₽”+1: (Д) х=Лх-|-6о, v = ы(о), о = сх—pv, где управление и (о) принадлежит классу ‘U, т. е. ои(сг)>0 для а^О. Мы должны найти значения действительной постоянной nxn-матрицы А, n-мерных векторов b и с и скаляра р, при кото- рых система Лх является глобально асимптотически устойчивой для каждого соответствующего и (о). Заметим, что задача Лх с непрямым управлением эквивалентна следующей задаче с прямым
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 439 управлением в пространстве Rn+1: W = Aw + bu(<J), O = CW, c = (c, —p). Здесь матрица А осзбая, и это ведет к некоторым дополнительным ограничениям на решение задачи Лурье непрямого управления. При линейном законе управления и(а) = еа для некоторого малого 8 > 0 система Лг принимает вид х = Ax-j-bv, v = ecx—epv. Для того чтобы обеспечить асимптотическую устойчивость этой системы в Rtt+1 для всех малых 8 > 0, мы предположим, что матрица А является устойчивой. Пусть, кроме того, р > 0. Так как след матрицы (т. е. сумма всех ее характеристических чисел), соответствующей последней системе, равен (ТгА—8р), где^ТгЛ — след матрицы А, то ясно, что первые п характеристических чи- сел матрицы системы близки к соответствующим характеристи- ческим числам матрицы А, а последнее характеристическое число (в силу условия р >0) отрицательно. Потребуем также, чтобы точка х = 0, о = 0 была единственной критической точкой про- цесса т. е. чтобы система уравнений Ax + bv = 0, сх—ро = 0 имела единственное решение. Для этого достаточно, чтобы А b с —р =#0 или Вычислив последний определитель, получим неравенство —р—сА-Ц? 0. Итак, мы рассматриваем процесс при следующих исходных предположениях'. А есть устойчивая матрица, р > 0, р#=—сА~Ч>. Введем теперь новые координаты в 7?n+1: у = Ax-J-bu, s—cx—pv. чтобы получить процесс с прямым управлением (Лг) y=Ay + bu(a), s = cy—рц(о), д = §.
440 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 Ясно, что система Л2 является глобально асимптотически устой- чивой в том и только в том случае, когда этим свойством обла- дает система Так как матричные коэффициенты процесса Лг имеют вид то ясно, что условия теоремы 9 не выполняются. Однако мы продолжим наши исследования. Утверждение. Предположим, что существует симметричная положительно определенная матрица В > 0 такая, что р>(вь+1С'Ус-1(в&+|с'), где А'В + В'А = — С и С>0. Тогда система Л-! является глобально асимптотически устойчивой при каждом законе управления ±® и (а) из 4L таком, что \ u(o)de = oo. I о Мы укажем доказательство этого утверждения, которое является аналогом теоремы 9 для задачи с непрямым управлением. Опре- делим функцию Ляпунова для системы Л2 в Rn+1: V(У> s) = y'By+^u(s)ds>0 о для всех (у, s) (0, 0). Теперь, вычисляя производную от функ- ции V (у, s) вдоль решений системы Л2, получим —• V = tfCy + pu2(s)—2 ( Bb -}- у с' у уи (s). Таким образом, —V > 0 при (у, и) =/= (0,0), если выполняется условие С {ВЬ+^С')' ВЬ+^с'~ Однако последнее неравенство следует из предположения Так как р>(вь+|С'Ус-* (вЬ-Цс'). lim V(у, s) = oo, l»l + |S|->«
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 441 то совокупность точек, удовлетворяющих неравенству V (у, s) ^V(y0, s0), образует компактное подмножество в Rn+1, и рассуж- дение, аналогичное использованному в доказательстве теоремы 9, показывает, что процесс Д является глобально асимптотически устойчивым, что и требуется. Мы теперь перейдем к изучению задачи Лурье с прямым управ- лением при помощи методов, напоминающих метод передаточных функций линейного анализа. Рассмотрим передаточную функцию от входа и к выходу о автономной линейной системы х -Ах-}-Ьа, о = сх, т. е., рациональную комплексную функцию с А-1 (г) Ь, где A (z) — zl—А. Если мы допускаем линейный закон управления и (о) = ео для е > О, то критерий абсолютной устойчивости (для скалярного случая, с которого мы начнем), требует, чтобы матрица (Л + еЬс) была устойчивой для каждого е > 0. Это означает, что определитель | zl—А—ebc j = | А (г) |-| I—гсА~1 (z) b|, рассматриваемый как функция от г, не должен иметь нулей в замкнутой правой полуплоскости Rez>0. Так как матрица А является устойчивой, то критерий абсолютной устойчивости для линейных законов управления и (о) = еа принимает такой вид {—сЛ-1(г)&} >0 в замкнутой области Rez^O. Это условие, соответствующим образом модифицированное для нелинейной задачи Лурье, известно как критерий устойчивости Попова. Мы его рассмотрим в следующей ниже теореме. Ограни- чимся случаем, когда матрица Л и вектор b образуют вполне управляемую пару (Л, Ь), хотя от этого предположения при жела- нии можно было бы освободиться. Сначала напомним некоторые специальные свойства вполне управляемых и вполне наблюдаемых линейных процессов. Рас- смотрим линейный автономный процесс в (j?) х — Ax+bu, <j = cx. Если пара (Л, b) является вполне управляемой, то существует действительное неособое преобразование координат х = Рх в про- странстве состояний R" такое, что процесс S принимает вид х—'Ах-\-Ьи, а = сх,
442 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 где О "I о и _~ОП Ип-i • • • Пользуясь этими координатами, можно легко вычислить переда- точную функцию от входа и к выходу о, Здесь | А (г) | есть определитель матрицы Л (г) или A(z) — zl—А, а полином » c(z) = cnzn~1 + cn^1zn-i+...+c2z + c1_ имеет своими коэффициентами компоненты вектора с = (с1г с2, ... ... ,с„). Это важное вычисление облегчается тем, что ГМ г 0"| так что А-1 (г)Ь = |Л(г)|-1. z Таким образом, для любого заданного действительного полинома с (г) степени —1 имеется единственный вектор с, удовлетво- ряющий соотношению Теперь вернемся к координатам х в Rn, и пусть р(г)—любой действительный полином степени —1. Рассмотрим уравнение относительно неизвестного вектора р:
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 443 Его можно переписать в виде (рР) (Р-М-1 (г) Р)(Р~Ч>) = относительно (рР) или в виде уравнения которое имеет единственное решение для (рР) и, таким образом, вектор р однозначно определен. Процесс и, следовательно, процесс 2 [или пара (Л, с)] является вполне наблюдаемым тогда и только тогда, когда det|c', Л'с', ..., Л,п“1с'|#=0. Согласно лемме 2 теоремы 14 главы 2 процесс 2 является вполне наблюдаемым тогда и только тогда, когда полиномы с (z)_= cnz”-1 + c„_1z,,~2 +... +c2z4-Cj, | A (z) | = | A (z) | = det | zl - A | = z»+<hzn~ *+...+an взаимно просты (не имеют общих корней). Таким образом, пара (Л, с) (или система 3?) является вполне наблюдаемой тогда и только тогда, когда передаточная функция сЛ-1(г)6= |4(?)| есть дробно-рациональная функция, у которой числитель и зна- менатель взаимно просты. Теперь вернемся к первоначальным координатам х в Rn и рассмотрим _процесс 2. Вид передаточной функции при переходе от системы 2 к системе 2 (или обратно) не изменяется, с A-1 (z)b = (cP) (Р-М"1 (г) Р) (P~1b)=cA~1 (z) b и, таким образом, пара (Л, с) наблюдаема тогда и только тогда, когда взаимно просты числитель и знаменатель передаточной функции _ Вернемся теперь к задаче Лурье о стабилизации систем с не- линейным законом управления. Мы сначала докажем сложную алгебраическую лемму, относящуюся к теории матриц. Лемма. Пусть А—действительная устойчивая пхп-матрица, b и с—действительные п-мерные векторы и т—неотрицательный скаляр. Предположим, что пара (Л, Ь) вполне управляема и что рациональная комплексная функция Т(г) = т—2сЛ~»(г)Ь^О
444 УПРАВЛЯЕМОСТЬ, наблюдаемость и устойчивость гл. 6 удовлетворяет условию Re Г (ко) 2^0 при —оо<®<оо. Тогда существуют две действительные симметричные пхп-матрицы В>0 и D>0 и n-мерный действительный вектор q такие, что: 1) А'В + В'А= — qq' — D\ 2) В6+с' + Кт<7 = 0; 3) пара (A, q') является наблюдаемой. Доказательство. Заметим, что b я q суть векторы-столбцы, и что с есть вектор-строка, в соответствии с ранее введенными обозначениями. Мы начнем с определения действительного поли- нома Я (z) = | А (г) 11А (—г) | {т—с А-1 (г)Ь—Ь'А'-1 (—г) с'}. Заметим, что степень полинома т|(г) равна 2п, так как наивыс- шая степень полиномов — элементов присоединенной матрицы | А (г) | Л-1 (г),— естьп—1, и что старший член т] (г) есть (—1)"тг2л. [Если т = 0, то полином т](г) имеет степень < 2п. Однако важно лишь, что т] (г) 0 (см. приведенное ниже упражнение).] Далее, для доказательства необходимо провести анализ струк- туры разложения полинома ц (z) на действительные неприводимые (линейные) и квадратичные множители. Так как А' (г) и | А (г) | Л-1 (г) суть действительные полино- миальные матрицы, то т] (г) есть полином с действительными коэффициентами. Так как я (г) = л (—z), то i\(z)—четный поли- ном. На мнимой оси (при z = i®) имеем Re л (i®) = | Л (ио) | | Л (—iw) | {т—2 Reo4-1 (i®) b} О при —оо < © < оо, как следует из условий леммы. Таким обра- зом, нули полинома т| (г) распределены симметрично относительно действительной и мнимой оси, а нули функции л(г®) имеют чет- ную кратность [так как Re г] (t®) не меняет знак на мнимой оси]. Поэтому т](г) = 0(г)0(—г), где 0 (z) есть действительный полином, у которого нет нулей в полуплоскости Re z > 0. Положим, наконец, 0(z) = 0x(z)0,(z), где 0x(z) и 02(z) суть действительные полиномы с нулями только в полуплоскости Re z < 0 и только на мнимой оси соответственно. Выберем полином 0a(z) так, чтобы его старший коэффициент был равен +1. Имеем
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 445 Так как 0Х (i®) есть многочлен от ®, не обращающийся в нуль, то 0x(i®)0x(—i®) > 80 > О при —оо < и < оо. Пусть а—такое действительное положительное число, что а* < в0 и а2 =И= 0Х (X,) 0t (—X,), где Хх, Х2, ..., Хга суть характеристические числа матрицы А. Если 0x(z)—константа, то полагаем а =0. Пользуясь свойством управляемости пары (Л, Ь), определим действительный вектор g с помощью соотношения Это возможно, так как степень полинома 02(z) меньше п, если полином 0Х (г) не является константой и а #= 0. Нужная нам сим- метричная матрица D задается соотношением D=gg'. Рассмотрим действительный четный полином Г (г) = 02 (г) 02 (-z) [0Х (z) 0Х (—г)—а2]. Так как 0, (i®) 02 (—i®) 0 и 0Х (ico) 0Х (—i®) > 80 а2, то Г(/®)^0 для всех действительных ®. Кроме того, полином Г (г) взаимно прост с полиномом | А (г) 11А (—г) |, так как нули полинома Г (г) не равны ни одному из чисел ±Хх, ±Х2, ..., или ±Х„. Так как Г (г) есть действительный четный полином и Re Г (i®) 0, то существует действительный полином v (г) с нулями только в полуплоскости Rez^O, и такой, что Г (z) = v (z) v (—z). Так как главный член полинома Г (г) тот же, что и у полинома г] (г), а именно (—1)ятг2п,_то в качестве v(z) можно взять поли- ном с главным членом V\zn. Теперь разделим v(z) на | А (г) |. Частное есть J/т, а остаток мы обозначим через —р(г) Здесь р (z) есть действительный полином степени меньшей, чем п. Ясно, что р (г) 0, ибо в этом случае v(z) = Kt|4(z)| и Г(г)=т| А (г)|-|4(—г)|,
446 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 что противоречит тому факту, что полином Г (г) взаимно прост с полиномом | А (г) 11 А (—z)|. [Если т = 0, то v(z) =—p(z)^0.] Определим вектор q соотношением Поскольку полиномы р (г) и | Л (г) | взаимно просты, то из теории наблюдаемости следует, что пара (Л, q') является вполне наблю- даемой. Зададим положительно определенную матрицу В> О соот- ношением А'В + В'А = — qq'—D, или B = ]eA,t{qq' + D}eAtdt. о Покажем теперь, что Bb-\-c' +J/\<7 = 0. Для этого заметим, что v (г) v (- г) = Г (г) = Л (г)-а202 (г) 6, (- г). Делением обеих'Частей последнего равенства на | Л (г) |-| Л (—z) получим Г" Мг). 1/~т1 Г~и(~г)-+Кт] = [|Л(г)| +ит| L IЛ(-+ И J = {т—сЛ-1 (z)b—b'A'-1 (— z)c'}—-b'A'-1 (z)gg'A~1 (— z)b. Заменяя —р (г)/| Л (г) | на ^,Л~1(г)Ь и полагая z = i®, после не- которых упрощений получим с {Л-1 (i«) + Л-1 (— йо)} b + Ктд' {Л-1 (йо) + Л-1 (— йо)} Ь= =6'Л'-1 (i®) {— qq'—gg'} А-1 (— йо)Ь. Учитывая соотношение А'В + B’A = ~qq'—gg' и используя формулы A = zl—Л(г), Л"1(г)Л= ЛЛ-1(г) = гЛ“1(г)—Л найдем, что c+f/iq') {Л”1 (йо)+Л"1 (— йо)} b = — Ь’В (Л-1 (йо)+Л-1 (— йо)} Ь. Таким образом, Re (Ь'В + с-f- j/^rq') Л-1 (йо) = 0. Но Л-1(0) = — Л-1 есть действительная и неособая матрица, так что b'B-t-c+faq' =0.
6.2 глобальная устойчивость нелинейных процессов 447 Поэтому Bb+с'+ Vr'rq = О, что и требовалось. Лемма доказана. Мы приведем краткое следствие, представляющее собой неко- торую модификацию доказанной леммы. Следствие. Пусть А—действительная устойчивая п х п-мат- рица, abac действительные п-мерные векторы. Если Т (i<o) 0 при — оо < со <ОО, то Re Т (г) > 0 при Re г 0. Доказательство. Заметим, что Т(г) = т—2cA~1(z)b есть комплекснозначная аналитическая функция без особенностей в по- луплоскости Rez:>0, так что ReT(z) есть гармоническая функ- ция в правой полуплоскости. Но lim 7'(г)=т^0, если Rezi>0 и, следовательно, функция Re Т (г) неотрицательна, если г лежит в правой полуплоскости и имеет достаточно большой модуль. Таким образом, ReT(i®)^0 при —оо<ш<оо. Если теперь Re Т (г0) < 0 в некоторой точке г0 из правой полу- плоскости, то гармоническая функция — Re Г (z) где-то в области Re z > 0 должна иметь максимум. Но это противоречит принципу максимума для гармонических функций. Следовательно, Re Т (г) 0 при Re г 0, что и требуется. Следствие доказано. Следствие показывает, что предположение леммы относительно функции Т (г) можно заменить условием Re Т (г) 0, если Re г 0, которое выглядит естественнее и при этом не ограничивает об- щности утверждения леммы. Условие Т (г) 0 эквивалентно тре- бованию т4-|с|>0 (см. упражнения). Такие функции иногда на- зывают положительными и класс таких функций изучается в тео- рии аналитических функций комплексного переменного. В последней формулировке лемма напоминает критерий устойчивости для про- цессов с линейным законом управления. Эта лемма нам понадо- билась для доказательства следующей теоремы. Теорема 10. Рассмотрим процесс в Rn: (Л) х = Ах+Ьи(а), с = сх
448 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 с законом управления и (о) из класса ‘U, где А есть действитель- ная устойчивая матрица, b и с—действительные векторы, а пара [А, Ь) вполне управляема. Предположим, что существуют неотри- цательные действительные числа а и ₽, где а + Р > 0 такие, что рациональная комплексная функция T(z) = — (a + fiz)cA-1(z)b удовлетворяет условию ReT(i<B)^0 при —оо<<о<оо. Тогда начало координат есть устойчивая критическая точка про- цесса Л для каждого и (о) из elL. Если, кроме того, а > 0, то процесс Л является глобально асимптотически устойчивым и, сле- довательно, абсолютно устойчивым. Доказательство. Пользуясь равенством zI = A(z) + A, получим Т (?) = — pcfe—2 ( рсЛ+ас ) А-Цг)!). Так как lim Д-1(?) = 0 и ReT(fo)>0, то —0сЬ:>О. Заметим, что Т (г) ф. О, иначе выполнялось бы равенство с А'1 (z)b = O, которое с^начает (см. упражнение ниже), чтос = 0. Но мы исклю- чаем из рассмотрения этот случай, ибо при с = 0 теорема триви- альна. Применим лемму, полагая ас т =— pcb и k — -——. Согласно лемме существуют симметричные матрицы В > 0 и 0>0и вектор q, такие, что A'B + B,A = — qq'—D, Bb+^A^wy+}^q = Q. Определим действительную функцию в R"+1: V (х, о) = х'Вх+Р $ u (s) ds. о Ясно, что V (х, о)>0, причем V (х, о)>0 при х^Ои lim V (х, о) = оо. I *1*«> Вычислим производную от функции V вдоль произвольного ре- шения x(t), o(i)—cx(t) системы х = Ах-\-Ьи(е>), о = с Ахcbu (а) в Rn+1, соответствующего фиксированному управлению и (ст) С “7/: V = х'В (Ах+Ьи (о))4-(х'Л'4-«(о) &')^Х + Р“(а) (сАх+cbu (<т)),
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 449 откуда — V = — х' (ВА + А'В) х—(2Ь’В + 0сД) хи (о) — 0cta2 (а), или — V = x'Dx+x’qq'x+2 (—Bb—° ) хи(о)+асха(а)+тиа(<т). Из последнего соотношения следует, что — V — x'Dx + (Кхи (о) + д'х)2 + аои (о) > 0. Пусть х0, а0=сх0 есть начальное состояние системы. Тогда соот- ветствующее решение x(t) удовлетворяет условию x'Bx^V (х0, сх0). Тем самым решение x(t) определено для "всех t из интервала 0s^£<oo, и начало координат является устойчивой критической точкой. Предположим, что а>0. Если решение x(i) не приближается к началу координат, то оно должно стремиться при t —► оо к не- которой точке х С Л", так чтобы limV(x(/), cx(t))—V(x, сх) > 0. t -> во Но решение (x(Z), сг (Z)), начинающееся в точке (х, сх), удовлет- воряет неравенству _ _ V (х (t), сх (/)) < V (х, сх), для некоторого t > 0, и по непрерывности V (х (/), сх (/)) < V (х, сх), если только о (/) 0. Но в этом исключительном случае решение x(t) удовлетворяет уравнению х— Ах или x(t)=eAtx и —V=x'Dx-)- 4-(<?'х)2 = 0. Но тогда q'eAlx = Q, откуда в силу условия наблю- даемости пары (Д, q') следует, что х = 0, что является противо- речием. Итак, lim х (/) = 0, /->00 и процесс Л является абсолютно устойчивым. Теорема доказана. Следующая теорема распространяет задачу Лурье на нелиней- ные процессы с нелинейным законом управления ы(о) из еИ. Мы докажем, что алгебраические условия теоремы 10 гарантируют асимптотическую устойчивость системы относительно начала коор- динат при любом и (о)^^. Конечно, это утверждение для нели- нейного процесса относится лишь к некоторой окрестности начала координат. Теорема 11. Рассмотрим процесс в Rn: (2) x = f(x,u) = Ax-\-bu + o(x,u) класса С1 15 Э. Б. Ли. Л. Маркус
450 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 с заданной обратной связью о = о(х) = сх+о(х) класса С1 и законом управления и (о) из <U. Предположим, что А есть дей- ствительная устойчивая матрица, b и с—действительные векторы, причем пара (А, Ь) вполне управляема. Предположим далее, что существуют действительные числа а>0, 0>О такие, что т=— 0с&>О и что рациональная функция T(z) = — (a + McA-^zjb удовлетворяет условию ReT(fo)>0 при —<х><ю<оо. Тогда процесс 2 асимптотически устойчив относительно начала координат для каждого и (а) £ ‘IL, где и' (0) > 0. Доказательство. Пусть о(х, и) есть величина высшего порядка малости по сравнению с (| х | +1 и |). Положим Л_^(0. 0), 4-=|*(0, 0), c-g(O). Пусть матрицы В > 0, и вектор q^0, получены так же, как и в теореме 10. Фиксируем закон управления и (о) £ И и оп- ределим действительную функцию в Rn+1 по формуле а V (х, а) = х'Вх+₽ J и (s)ds. о Ясно, что V(x, о) > 0 всюду, кроме х = сг = О. Выберем в качестве начального состояния точку х0=#0 в Rn, и пусть х(1)—соответ- ствующее решение уравнения x = f(x, и (о (х))). Полагая а (/) = а (х (£)) и вычисляя производную от функции V (t) = V (х (t), а (х (/)))> получаем — V = х'Dx(У хи + q'х)^а (а—о (х)) и + ио (х, м)4-хо(х, и). Однако, поскольку матрица D не является положительно опре- деленной, то очевидная оценка по Ляпунову может и не проходить для произвольного управления u(t)^4l,. Поэтому положим и (о) = щ а + о (а), где щ = и' (0) > 0. Тогда, по теореме 10, линейный процесс (Л) х = Ах-\-Ьи(а), а = сх будет асимптотически устойчивым при линейном законе управле-
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 451 ния и = иха. Однако Л в точности совпадает с линеаризацией не- линейного процесса (2) X = f (X, и(а(х))) для заданного закона управления и (о) = а-|-о (о). Следовательно, 2—асимптотически устойчивый процесс в окрестности начала координат, что и требовалось доказать. В качестве последнего вопроса теории устойчивости мы рас- смотрим вопрос о корректности задачи оптимального управления. Является ли задача оптимального управления хорошо поставлен- ной в том смысле, что малые изменения данных задачи порождают лишь малые изменения критерия оптимальности? Рассмотрим задачу управления в Rn: Р = {&, с, х0, xlt й} для процесса (<^) х = А(х) + В(х)и с критерием качества i, С (и) = [Я0 (х) 4- В° (х) и] dt, о и коэффициентами Д(х), В(х), Д°(х), В°(х) класса С1 в R". Управления суть измеримые функции u(f), определенные на раз- личных подынтервалах заданного конечного интервала причем u(t)cQ, где й—компактное выпуклое ограни- чивающее множество в Rm. Мы пытаемся перевести некоторую точку компактного множества Хо начальных состояний в точку компактного целевого множества Хг в пространстве Rn при опти- мальном (минимальном) значении критерия качества С (и). Мы скажем, что другая такая задача управления Р = {S, С, Хо, Х1; й}, лежит на расстоянии, не превосходящем б от Р, если |Д (х)-Л (х)| + |В(х)—В(х)| + |Д0(х) —Д°(х)|-|-|В0(х)—В°(х)| < б, когда | х | < у, и dist(X0, JQ + distfG, XJ + distfQ, Й) < б (мы пользуемся принадлежащим Хаусдорфу определением рассто- яния между непустыми компактными подмножествами пространств Rn и Rm). Расстояние между задачами Р и Р мы определим как точную нижнюю грань всех таких б > 0. Тем самым, мы трактуем множество всех таких задач управления как метрическое пространство. 15*
452 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 Теорема 12. Рассмотрим задачу управления Р в простран- стве 3>, заданную в Rn системой (ef) х=А(х)-\-В(х)и с критерием качества t, С(и) = \ [ А° (х) + В° (х) и] dt о с коэффициентами А (х), Л° (х), В (х), В0 (х) класса С1 в Rn, из- меримыми управлениями u(t)cQ, определенными на различных интервалах и компактным выпуклым ограничи- вающим множеством QcRm. Начальную точку х0 £ R" нужно по оптимальной траектории перевести в целевую точку хх = 0. Предположим, что: (а) существует равномерная оценка | х (01 ₽ для всех траек- торий процесса начинающихся в точке х(О) = хо и соответст- вующих управлениям u(t)c:Q на интервале 0^/Т4-1; (Ь) существует допустимая траектория системы iif, переводя- щая точцу х0 в точку х/=0 и соответствующая такому управ- лению щ (/) (0 t sC tj), что С (u0) < С (и) для всех u(t) (0 t т; Т т Т + 1) со значениями в £2; (с) rank [В, АВ, А2В, .... А1г~1В]=п, где А (0)=0, А=д£ (0), В = В(0);с (d) £2 содержит точку и = 0 внутри себя. Тогда существует окрестность off задачи Р в пространстве 3* такая, что каждая задача обладает оптимальным управ- лением и* (t), определенным на интервале а опти- мальное значение критерия качества С (и*) стремится к С (и*), когда Р стремится к Р. Доказательство. Первые два условия предполагают су- ществование оптимального управления и*(/)а£2 для задачи Р, определенного на интервале 0 t t*. Кроме того, С (и*) < inf С (и) для всех «(/)с£2 (0^/^т; T^x^T+l). Пусть теперь задача Р лежит в некоторой достаточно малой окрестности off задачи Р в метрическом пространстве 3*. Общеиз- вестные оценки показывают, что имеется равномерная граница для всех траекторий процесса <^’, соответствующих управлениям й (t) с £2 (0 t Т +1). Таким образом, если точки множества Хо можно пе- ревести в точки множества Хх с помощью управлений из £2, опре- деленных на интервалах 0 t t, t Т, то задача Р обладает оптимальным управлением «*(/) t*^T).
6 2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 453 Пусть управление и* (t), определенное на интервале 0 t t*, переводит точку х0 оптимально в хх = 0 вдоль траектории систе- мы Of- Пусть управление щЦ)—ближайшая к u*(t) точка в й, и пусть точка х0 € Хо близка к х0. Тогда управление \ (t) перево- дит точку х0 в некоторую точку х± из некоторой окрестности на- чала координат, вдоль траектории процесса При предположе- ниях (с) и (d) точку хг можно перевести в любую точку в окрест- ности начала координат малыми управлениями из вдоль траекторий процесса £f. С помощью методов приближения, исполь- зуемых в локальной теории управляемости, мы находим, что точку в течение короткого промежутка времени можно перевести в множество вдоль траектории процесса Поэтому для каждой задачи Р из достаточно малой окрестности <ЛГ существует оптималь- ное управление u*(t), определенное на интервале 0^ t< Т). Пользуясь изложенной конструкцией, можно показать, что для любого наперед заданного е > 0 существует столь малая окрест- ность </fxcjf, что С (и*) < С (и*)-|-8. Теперь предположим, что С (и*) < С (и*)—8 для некоторого P<zelfx, независимо от того, как мала окрестность jfx, выбираемая для задачи Р. Тогда, пользуясь управлением u(t)czQ, ближайшим к u*{t), точку х0 можно пере- вести в окрестность точки хх = 0 за время и отсюда перевести точно в хх = 0 некоторым управлением ы, опре- деленным на отрезке 0 t Т + 1 с критерием качества С (й) < < С (и*) —у. Но это противоречит условию (Ь) и, таким образом, С(н*)^С(«*)—8 всякий раз, когда окрестность <№х достаточно мала. Поэтому функция С (и*), являясь одновременно функцией от непрерывна по Р в точке Р. Теорема доказана. Следствие 1. Пусть Р\м—последовательность задач управ- ления из и пусть lim Р(*> = Р. k со Тогда существует подпоследовательность для которой t(ko lim = слабо i -+ оо U lim X(kf)(t)—x*(t) равномерно i оо на каждом компактном подынтервале отрезка 0 < t < t*. Здесь и* есть оптимальное управление для задачи Р, **(/)—соответствующее решение.
454 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ гл. 6 Доказательство. Так как все Ц лежат на компактном интервале, подпоследовательность t(ko сходится к некоторой точке Так как все u(%) (OgQ^,) hQm-»-Q, то функции u*fc|) (f) равномерно ограничены на компактном интервале времени 0 t и на нем подпоследовательность слабо сходится. Заме- тим, что все (0 определены на интервале 0 t «С? для боль- ших kt и мы сохраняем за соответствующей подпоследовательностью обозначение и*^ (I). Обозначим через и* (t) ее слабый предел. Ясно, что u*(f)cQ (почти всюду), так как в силу предположения о том, что и й(4()—<-□, точка и* (/) не может лежать снаружи какой-либо из счетного числа гиперплоскостей, определяющих об- ласть Q в течение промежутка времени ненулевой длительности. Соответствующие решения х<*(> (/) равномерно ограничены с равно- мерно ограниченными производными, и таким образом, подпосле- довательность (пока еще занумерованная индексами А() сходится равномерно на каждом подынтервале 0 t =С7; 7 < t* к некоторой предельной функции x*(t). Пользуясь методами доказательства теорем существования главы 4, мы находим, что и* (t) (О «С t ?*) является допустимым управлением для процесса <$Л переводящим точку х0 в точку хх = О вдоль решения x*(t). Аналогично, С(л()(и*4())—+С(ы*) и, следова- тельно, и* (t) есть оптимальное управление для процесса След- ствие доказано. Следствие 2. Рассмотрим задачу управления Р в простран- стве соответствующую системе (&) х=А(х) + В(х) и в Rn, с критерием качества Cfu)^. В условиях теоремы существует такая окрестность <№ задачи Р в пространстве 9\ что каждая задача управления Р£<№ имеет оптимальное значение критерия качества 1* < Т, причем 7* стре- мится к t*, когда Р стремится к Р. Упражнения 1. Рассмотрим позиционное управление вращающимся твердым телом: Z^i = (Z2—Z3) й>ги3+И1 (t), Z2e)2 ~ (^3— ^1) <0з®1 + «3 (0> Z3<b3 = (ZX—Z2)<В1<о2и3 (/), где Z1( Z2, Z3 есть главные моменты инерции, а сох, со2, ю3—соответствующие компоненты угловой скорости. Построить функцию Ляпунова и доказать, что система может быть Переведена из любого заданного начального состояния в начало координат посредством управлений, удовлетворяющих ограничению IM0K1-
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 455 2. Рассмотрим автономную систему дифференциальных уравнений х = /(х) класса С1 в Rn. Допустим, что функция V (х) класса С1 в Rn удовлетворяет условиям: (a) V(x)^0 в Rn, причем У(х)=0 только при х=0; (b) lim V(x) = co; |Х| -* ® (c)^/‘ W<0(x, V), где 0—функция класса С1 в R”*1 такая, что каждое решение скалярного дифференциального уравнения V=0 (х, V) стремится к нулю при t —> оо . Доказать, что система & глобально асимптотически устойчива относитель- но начала координат. 3. Рассмотрим систему дифференциальных уравнений (<Л х = /(х), /(x)gC1 в /?«. Пусть D—компактное множество в Rn. Мы скажем, что D—инвариантное подмножество, если каждое решение, начинающееся в D, всегда остается в D. Пусть V (х)—действительная функция класса С1 в D такая, что (grad V) / (х) 0. Пусть, далее, Е— максимальное инвариантное подмножество в D, на котором (grad V) f (х)==0. Доказать, что каждое решение системы & в D стремится к Е при t —>+ оо. 4. Рассмотрим управляемый процесс в Rn: (<^) х=/(х, и) класса С1 в Rn+m, с компактным ограничивающим множеством £kzRm. Показать, что шар ради- уса р > О О(р) = {х|х'х<р2} является инвариантным, если шах х'/ (х, и) «С 0. U&Q б. Показать, что критерий устойчивости теоремы 9 инвариантен относи- тельно подстановки 4 = Р-МР, В = Р'ВР, C = P'CPt b = P-1bt с=сР, где Р—ортогональная матрица. 6. Показать, что условия теоремы 9 при а = 0 являются бессодержатель- ными, так как форма —>V=— (2Bx-\-uc'Y (Ах-\-Ьи) от переменных х, и не является положительно определенной. Пусть -сЬ=^ВЬ+^-А'с'Ус~1 (56+4 А'С'} ' и предположим, что система уравнений (Л) Лх+&ц(сх) = 0 имеет только нулевое решение для всех Показать, что тогда Л является абсолютно устойчивой системой. 7. Рассмотрим линейный автономный разомкнутый процесс х— Ах^Ви,
456 УПРАВЛЯЕМОСТЬ, НАБЛЮДАЕМОСТЬ И УСТОЙЧИВОСТЬ ГЛ. 6 где х и и изменяются в Rn. Теперь рассмотрим замкнутый контур с обратной связью, описываемый системой х = Ах-}-В (и—х). Пусть передаточная матрица разомкнутого контура будет T(z) = (z— А)-1 В, а передаточная матрица замкнутого контура будет ТДг) = [г-(Л-В)]-1В. Доказать формулу Найквиста: Tc(z) — [I-\-T(z)]“1T(z), Показать, что если функция Tc(z) имеет п полюсов в левой полуплоскости, то замкнутая система устойчива [т. е. что (Л—В) есть устойчивая матрица]. 8. Пусть Л—действительная устойчивая пХn-матрица, b и с—действитель- ные векторы, пара (Л, Ь) — вполне управляема и cA~l (z) б + сЛ”1 (— г) Ь = 0. Доказать, что тогда (как и в лемме, предшествующей теореме 10) с = 0. [Ука- зание: для больших | г | анализ соответствующего степенного ряда показы- вает, что сАЬ — 0, сЛ3Ь = 0, ... , сЛ2"-1 & = 0. Поэтому, если пара (Л2, Ь) управляема, то с = 0. Но пара (Л, Ь) управляема, что эквивалентно необращению в нуль некоторых компонент вектора b (см. упражнение 7 раздела 2.3). Изучая жорданову форму А матрицы Л (см. так- же упражнение 7 раздела 2.3), легко установить, что пара (Л2, Ь) также управ- ляема.] 9. Рассмотрим управляемый процесс в Rn: (<Я х=Л (х) + В(х)и> с критерием качества Т С (и) [Л«(х) + В° (x)u] dt о с измеримыми управлениями и (/), определенными на фиксированном конечном интервале времени 0 t Т и с компактным выпуклым ограничивающим мно- жеством Предположим, что коэффициенты Л (х), В(х), Л° (х), В° (х) принадлежат классу С1 в 7?", а начальное состояние х0 лежит в замкнутом ограниченном множестве Дс:/?". Ищется оптимальное управление и* (t) на ин- тервале O^t^T с соответствующей траекторией х* (ОсД. Применим к этой задаче, являющейся задачей с ограниченными фазовыми координатами, метод штрафных функций (см. упражнение 12 раздела 3.4). Пусть В(х)—действительная непрерывная функция, равная нулю на Д, и строго положительная вне Д. Для каждого действительного % > 0 пусть и£ (t) (b^t^/T) есть оптимальное управление для системы с соответствующим значением критерия качества т Сх («) = J [ Л о (х) + В° (х)и + kF (х)] dt о (без учета фазовых ограничений Д). Предположим, что (а) совокупность траекторий процесса соответствующих управлениям из Q, является равномерно ограниченной: |х(/)1«СР; (Ь) существует константа К > 0 такая, что | С\ (u£) | < К для всех > 0.
6.2 ГЛОБАЛЬНАЯ УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ ПРОЦЕССОВ 457 Показать, что существует последовательность X/—> оо, такая, что (О —► и* (0 слабо, х{{ (0 —> х* (/) равномерно, Си(и&-+С(и*). Здесь и* (0 есть оптимальное управление для задачи с ограниченными фазо- выми координатами, а х* (0— соответствующая оптимальная траектория, ле- жащая в А. 10. Рассмотрим линейный автономный процесс в (J?) х== Ах-\-Ви, с измеримыми управлениями и (/), которые определены на различных конечных интервалах времени 0 «С t «С tr и принимают значения из компактного выпуклого многогранника QdRm, содержащего точку и = 0 внутри себя. Нужно перевести систему из начального состояния х0 в точку Xj = 0 за минимальное время. Предположим, что существует оптимальное управление и* (/) (0 и что процесс является нормальным, так что такое управлением* (/) единственно. Управление й (f)czQ (0 t t) называется 6-субоппгимальным, если & и | x(f)|<6. Показать, что для любого 6> 0 существует е > 0такое, что если сущест- вуют абсолютно непрерывные функции х(/), Л (/), удовлетворяющие условиям: (а) | х (0 — Ах (0 — Ви (/) | < в; (Ь) |х(0)— х0| < 8 и |х(0| < 8; (с) |n(0 + i](<M| <в; (d) [ ц (0 В и (t)— шах ц (/) Ви | <8 почти всюду; «€ Q (е) функция т) (t) не обращается в нуль; (f) существует лишь конечное множество моментов времени /, при которых выражение т] (t) Ви, рассматриваемое как функция от и, достигает своего мак- симального значения в каждой точке некоторого ребра многогранника Q, тогда управление и (/) является субоптимальным, т. е. выполняется нера- венство f «С t* + 6 и | х (?) | < б. 11. Рассмотрим систему дифференциальных уравнений в Rn\ (<л i=Hx)+^(o, tec1 с непрерывными возмущениями на 0 =</ < оо. Система считается устой- чивой (в начале координат) относительно постоянно действующих возмущений, если для каждого е > 0 найдется такое б > 0, что | х (0 | < 8 (0 t < оо), если |х0 | < 6, |ш(0| < б (0«С/ < оо). Рассмотрим теперь управляемый про- цесс в Rn'. (<&>) x = f(x, и), f^C1 в Rn+m, причем f (0, 0) = 0 и ran к [В, АВ, ..., А"”1 В] = п, где A=fx (0, 0), В = fa (0,0). Показать, что существует линейное управление с обратной связью u = Dx, такое, что процесс х = /(х, Dx) + w(t) является устойчивым относительно постоянно действующих возмущений.
ГЛАВА 7 СИНТЕЗ ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ ДЛЯ НЕКОТОРЫХ ОСНОВНЫХ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ ПРОЦЕССОВ В этой главе мы применим ранее развитую общую теорию опти- мального управления к ряду технических и теоретических задач управления. Синтез здесь имеет целью определить управление с обратной связью, когда это возможно сделать, или привести задачу к некоторой вычислительной процедуре, при помощи которой может быть определена управляющая функция. Более подробное обсужде- ние вычислительных методов для решения двухточечной краевой задачи оптимального управления можно найти в дополнении А и трудах, указанных в библиографии. В дополнении А мы даем краткий обзор методов, пригодных для определения оптимального управления с использованием вычи- слительных машин, точнее, методов решения двухточечной краевой за- дачи, которая возникает при применении принципа максимума. Это дает нам управляющую функцию для управления по разомкнутому циклу (см. главу 1) при заданных начальных условиях. Одна из возможностей для синтеза управления в виде системы с обратной связью по известному управлению по разомкнутому циклу состоит в измерении текущего состояния обычного управляемого процесса и вычислении в очень быстром темпе управляющей функции разомк- нутой системы. Первые найденные значения этой функции исполь- зуются на коротком интервале времени, после которого произво- дится новое измерение состояния процесса и вычисляется новая управляющая функция разомкнутой системы, соответствующая это- му новому измерению. Потом процедура повторяется. Таким обра- зом, внешние возмущения и другие неизвестные берутся в расчет тем же самым образом, как при построении управления с обрат- ной связью. Если никакие возмущения или другие неизвестные не встречаются, то значения повторно вычисленной управляющей бу- дут совпадать с соответствующими значениями ранее вычисленного управления. Это, по существу, принцип оптимальности Веллмана в теории динамического программирования.
ГЛ. 7 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 459 Принцип оптимальности. Оптимальная управляющая политика обладает тем свойством, что каково бы ни было начальное состояние и начальная управляющая по- литика, последующая управляющая политика (т. е. политика после короткого промежутка времени) должна составлять оптимальную политику относительно состояния, которое получается в результа- те использования начальной политики в течение указанного корот- кого промежутка времени. Имеются некоторые задачи оптимального управления, которые непосредственно не удовлетворяют этому принципу. Например, при рассмотрении задачи о минимизации времени управления при движе- нии к началу координат, при ограничениях на среднюю энергию, после короткого промежутка времени, в течение которого движе- ние происходило вдоль оптимальной траектории, указанное среднее значение может далее оказаться недоступным. Этот недостаток легко устраняется при переходе в рассматриваемой задаче к другим коор- динатам. Мы теперь вернемся к задачам прямого конструирования синтезирующей функции управления с обратной связью. Многие особенности нелинейных задач управления проявляются уже в системах второго порядка. При решении теоретических и технических задач часто встречаются системы, которые можно свести к обыкновенному дифференциальному уравнению второго поряд- ка. Синтез оптимального управления с обратной связью для нели- нейных процессов второго порядка с одной степенью свободы рас- смотрен в разделе 7.1. Раздел 7.2 содержит классический пример, относящийся к воп- росу об управлении ракетой, а именно, задачу о достижении ме- теорологической ракетой нужной высоты (относительно земли) при наименьшей затрате топлива. Раздел 7.3 посвящен задаче управления угловой скоростью космического корабля, а в разделе 7.4 содержатся приложения к задаче оптимального наведения. Дальнейшие приложения теории можно найти в доступных кни- гах, относящихся к экономике, проектированию химических процес- сов, исследованию операций и т. д. Вообще, эта теория может быть использована во всех задачах, приводящих к динамическому про- цессу, например, таких, как управление предприятием и т. д. Однако в таких задачах зачастую трудно построить адекватную математи- ческую модель управляемого процесса. Тем не менее, с помощью современных эффективных вычислительных машин с каждым днем удается исследовать все более широкий круг подобных задач, в соот- ветствии с появлением адекватного описания динамики процесса, происходящего в исследуемой системе.
460 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Журналы всех технических обществ (например, AIAA, IEEE, ASME, AIChE, ORS, SIAM Journal on Control, «Автоматика и теле- механика») содержат много примеров применения рассматриваемой нами теории. 7.1. Синтез оптимальных по быстродействию управлений с обратной связью для нелинейных систем второго порядка с одной степенью свободы Рассмотрим дифференциальное уравнение системы с одной сте- пенью свободы, x+f(x, х) = и, или эквивалентную систему дифференциальных уравнений первого порядка (£0 х = у, y = — f(x, у) + и. Предположим, что функция f (х, у) принадлежит классу С1 в пло- скости R2, и что управление и принимает значения из компакт- ного интервала Q: — Определение. Для заданных начальных условий (х0, у9) в момент t — О обозначим через А класс всех измеримых управ- лений u(t), определенных на различных конечных интервалах времени 0 t tv принимающих значения из множества £2 и переводящих систему из точки (х0, у^ в начало координат (0, 0) в момент времени / = /х. Соответствующая траектория (х(/)> 1/(0) есть абсолютно непрерывное решение системы уравнений х=у, y = —f(x,y) + u(t) с начальными условиями х(0) = хо, у(О) = у9. Управление u(t), определенное на интервале [0, /х] в Д, на- зывается оптимальным (по быстродействию), если для каждого управления u(t) в Д, определенного на интервале [0, Fx], мы имеем Из принципа максимума [теорема 2 главы 5] из- вестно, что оптимальное управление необходимо является макси- мальным управлением. Это означает, что: 1) существует сопряженное решение, нигде не обращающееся в нуль, представляющее собой абсолютно непрерывный вектор Ч(О = (Я1(О. ъ(0) такой, что вектор-функции х (t) = (х (/), у (/)) и т| (/) удовлетворяют гамильтоновой системе дН • дН • дН • дН . х ~ dm ’ У дг|2 ’ 111 — дх ’ — ду ’
7 1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 461 2) Я(П1(0> П»(0, x(t), y(f), ы(0) = А1(111(0. МО, x(t), y(t)) для почти всех t из интервала [О, /х]. Здесь Я(тц, П2, х, у, u) = i]1y—‘r\2f(x, y) + ‘r\su М (П1> П2, х, у)= max Н (п1( П2, х, у, и); -1 < и < 1 3) (П1(0), МО), *(0), 0(О))=М(МО, МО,* (О, f/(0) для всех t из интервала [О, /х]. Мы хотим построить такую функцию Y (х, у), чтобы каждая траектория (х(0, */(0) системы х = *Л t/ = — f(x, у) + Ч(х, у) достигала начала координат за минимальное время. Для этого мы для каждой начальной точки (х0, z/0) найдем управление, которое переводит точку (х0, уа) в точку (0, 0) за оптимальное время, а затем укажем, как использовать найденное управление и (/) для построения синтезирующей функции, которую мы обозначим через Y(X, у). Мы рассмотрим сначала задачу оптимального быстродействия, т. е. задачу определения управлений и (t) с Q, переводящих точку (х0, у0) в целевую точку (0, 0) вдоль соответствующих траекто- рий (х(0, y(t)) системы У за минимальное время. Требуемый синтез управления с обратной связью Т (х, у) может быть осу- ществлен затем при помощи попятного движения во времени вдоль траекторий системы. При этом мы будем отмечать те точки в пло- скости (х, у), где величина управления u(t) меняется скачком. Линию переключения управления обычно можно легко найти, так как максимальные управления принимают только два значе- ния (4-1 или —1) и имеется определенное соответствие между изменением величины управления и положением фазовой точки на плоскости (х, у). Мы рассмотрим в дальнейшем два примера, иллюстрирующих метод построения Т (х, у): Покажем теперь, что оптимальное управление может принимать только два значения, 4-1 или —1. Максимальные управления суть релейные управления Рассмотрим задачу управления для системы (<§0 х — у, y = — f(x,y) + u, f(x, yj^C1, Q: —I s^us^A с измеримыми управлениями w(/)£A, переводящими начальную точку (х0, z/0) в начало координат, как сказано выше. Траектория системы соответствующая максимальному управлению, назы- вается максимальной траекторией.
462 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Определение. Управление u(t) из класса Д называется релейным управлением, если существует конечное число моментов переключения О = то<тх< ... <xk = tlt таких, что на каждом открытом интервале T/.j < f < т,, i = 1, ..., k функция u(t) постоянна и равна —1 или 4-1, причем значения функции u(t) на каждой паре соседних интервалов отличаются по знаку. Применяя принцип максимума, мы немедленно получаем сле- дующий результат. Следствие. Пусть u(t) (0есть максимальное уп- равление из класса Д для системы Тогда u(f) почти всюду равно релейному управлению sgni%(£). Кроме того, сопряженное решение г)2 (/) (О t Q имеет только конечное число нулей и каждый из этих нулей является простым. Доказательство. Так как Н (т) (f), х (0, и (т) (0, х(0) для почти всех t из интервала то u(0 = sgniq2(0 для почти всех t. Действительно, мы можем доопределить управление и(0 на множестве меры нуль, не изменяя соответствующего ре- шения, т^к что —1, если t)»(0<O, О, если т]2 (0 = О, 4-1, если т|2 (2) > 0. Теперь учтем, что сопряженное решение т|(0 удовлетворяет си- стеме уравнений df • , df и, таким образом, не обращающийся в нуль вектор 1)(0 принад- лежит классу С1 на интервале 0^/^^ и удовлетворяет приве- денной выше системе линейных дифференциальных уравнений всюду на этом интервале. Если бы функция т)а(О имела на ин- тервале бесконечное множество нулей, то в точке на- копления t мы имели бы f|s (0 = 0, t)2 (0 = 0, откуда tij (7) = 0, что невозможно. Следовательно, функция Яа (0 имеет на интервале 0 t лишь конечное число нулей. В каждом таком нуле t = т мы имеем (т) #= 0, так что т]2 (т) =/= 0 и t = т есть простой нуль функции т)2 (t). Следствие доказано. Замечание. Впредь мы будем всегда рассматривать макси- мальное управление u(t), модифицированное на множестве меры нуль таким образом, чтобы оно совпадало всюду с соответствую- щим релейным управлением u(0 = sgnr]2(0. Заметим, что на замкнутом интервале между моментами переключения решение х (0,
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 463 соответствующее максимальному управлению u(t), принадлежит классу С1. Следующая теорема связывает моменты переключения для максимального решения с геометрией фазовой плоскости. Этот результат, который состоит в том, что нули функции y(t) чере- дуются с нулями функции т)2 (/), нужен для описания свойств множества переключений W, необходимых для конструирования управления с обратной связью. Теорема 1. Пусть управление u(t) (О/х) из Д является максимальным для системы &, в смысле, определенном выше. Пусть x(t) = (x(t), у (t))—соответствующее решение, а т| (/) = Оъ (О, т]8 (/))—сопряженное решение Пусть далее |х, |2 — моменты времени из интервала [О, такие, что О С Si < ts Тогда справедливы следующие четыре утверждения'. 1) если т)2^1) = 'П2(^) = О и у(^) = 0, /по у(Ц=0; 2) если ц2 (£х) = Яг (U = 0 и у (£х) #= 0, то у (g2) =#= 0, wo функция у (/) имеет нуль на открытом интервале < t < |2; 3) если </(^1) = f/(la) = O, j/(0#=0 на интервале h<t<ls и если ib(£i) = 0, то (|2) = 0; 4) если у (gj = у (fg) = 0, y(t)^= 0 на интервале и если =/= 0, то т]2 (|g) #= 0, но функция т]2 (t) имеет нуль на откры- том интервале |х < t < g2. Таким образом, при условии, что нули функции у (t) являются изолированными, они или совпадают с нулями функции т]2(1) или никакой из нулей функции у (f) не является нулем функции ц2(0, но эти два множества нулей ^переплетаются». Доказательство. Предположим, что ц2(gx) = Tje(g2) = 0. Так как М (ч(0), х(0)) = М (т](0> х(0) = 1М—Ла/(х, y) + hal>0 для всех t из интервала то (^) цх (g2) < 0 и Т11(£1)0&) = МШ&)>О. Таким образом, г/(11) = 0 тогда и только тогда, когда у(|2) = 0. Если у (gx) 0, то у (gx) у (gg) < 0 и, таким образом, у функции y(t) имеется только один нуль на интервале |х < t < g2. Поэтому утверждения 1) и 2) доказаны. Теперь предположим, что у (£х) = у (g8) = 0 и //(/)#= 0 на интер- вале gx < t < |g. Предположим также, что ц2 (|х) = 0. Мы уже показали, что функция т|а(О не обращается в нуль на интервале gx < / < |2. Таким образом, на замкнутом интервале §2 функция у (t) € С2, причем под производными в концевых точ- ках понимаются односторонние производные. На замкнутом интер- вале имеет место равенство [УЯх + Й2] =0. Поэтому
464 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Далее, уг (/) 4- у2 (/) #= 0 на интервале |х < t < g2, так как в про- тивном случае из свойства единственности решений системы диф- ференциальных уравнений вытекало бы, что y(t) = O на этом интервале. Так как Th(li) = 0. то мы находим, что т|2 (|2) = 0. Таким образом, утверждение 3) доказано. Допустим, наконец, что у (|х) = у (£,) = 0, у (f) =# 0, (|х < t < g2) и П«(61)¥=0. Тогда ясно, что rh(?;2)#=0. Но если функция ц2(4 не обращается в нуль нигде на интервале то У (£i) У (U > что невозможно, так как и |2 — последователь- ные нули функции y(t). Теорема доказана. Замечание. В специальных случаях, проанализированных ниже в этом разделе, нули функции y(t) являются изолирован- ными, так как момент переключения для максимального управ- ления не совпадает с критической точкой решения систем §f+ или e/L. Здесь и е/’- являются системами дифференциальных уравнений £f, соответствующими управлениям и — 4-1 и м =—1. Следствие. Пусть управление u(t) из Д яв- ляется максимальным для системы в смысле, определенном выше. Пусть далее х (/) — (х (t), у (/))—соответствующее решение, ax\(t)= =(t)i(0, уПг(0)—сопряженное решение на интервале Пусть, наконец, л2(£) = 0, Если у (|) > 0, то т]2 (|) < 0. Если у (|) < 0, то ц2 (В) > 0. Доказательство. Имеем М (л (t), х(/)) = ц1г/—ц2/ (х, у) 4- +1 Ла |>0. Если Л2(£) = 0> у(£)>0, то Л1(1)>0 и> таким обра- зом, ц2 (£) = — Л1 (S) < 0- Другой случай рассматривается анало- гично. Следствие доказано. Замечание. Это следствие устанавливает, что при движе- нии точки вдоль максимальной траектории максимальное релейное управление переключается с 4-1 на —1 при у > 0 и с —1 на 4- 1 при у 0. Области управляемости и существование оптимальных управлений Определение. Рассмотрим систему дифференциальных уравнений (<Ю х = у, y = — f(x, у) + и, /(0, 0) = 0, f(x, yj^C1, где управление удовлетворяет ограничению —l^u^l, как и выше. Множество # всех точек (х0, ya)€fi2, для которых сущест- вует измеримое управление u(t) (—1^м(/)^1) на конечном интервале 0 t sg: /1; переводящее систему из^точки (х0, у0) в на- чало координат (0, 0), называется областью нуль-управляемости.
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 465 Замечание.- Мы условимся, что точка (0, 0) всегда нахо- дится в и соответствует максимальному управлению u(t) = O, определенному на вырожденном интервале / = 0. Теорема 2. Для системы (&) х = у, y = — f(x, у) + и, f(0, 0) = 0, f(x, yjeC1 с ограничением — 1 и 1 область нуль-управляемости есть открытое связное подмножество пространства R*. Доказательство. Вычислим действительные постоянные матрицы А = -?(0, I ох' ’ подобно тому как это сделано в теореме 1 главы 6. Утверждение теоремы станет очевидным, если заметить, что векторы В и АВ линейно независимы. Теорема доказана. Теорема 3. Рассмотрим систему (<S0 х=у, y = — f(x,y) + u, f(x,y)£&, где и (f) — измеримая функция, удовлетворяющая ограничению — Предположим, что f (х, у) есть притягивающая сила с неотрицательным трением, т. е. xf(x, 0)>0 при х=/=0 и ^(х, у)^0 в Ra. Тогда область управляемости ё есть Ra. Более того, каждая точка из Ra может быть переведена в начало координат при помощи оптимального управления u(t)£A. Доказательство. Существует окрестность N начала коорди- нат, которая лежит в ё. Выберем точку Р в верхней полуплоскости у > 0 (случай у < 0 является аналогичным, а случай у — 0 при- водится немедленно к одному из этих случаев) и покажем, что существует управление u(t), с помощью которого систему можно перевести из точки Р вдоль соответствующего решения в окрест- ность N. Сначала переведем точку вдоль решения So системы (<^о) Х = у, y = _f(x, у), начинающегося в точке Р, пока она не попадет в первый квадрант. Затем применяем управление u(t)=—1 до тех пор, пока точка Р не встретит положительную полуось х в точке Рг. Если решение системы ^f, построенное описанным образом, попадет в N, то Р£ё, ибо №сё (см. рис. 7.1). Далее следуем вдоль решения системы проходящего через точку Ри до тех пор, пока оно не достигнет третьего квадранта,
466 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 при движении вперед во времени Рис. 7.1. Построение области управляемости на плоскости при наличии восстанавливающей силы и неотрицательного трения. и затем применяем управление а(()=-|-1 до тех пор, пока ре- шение не пересечет отрицательную полуось х в точке Р2. Пусть SJ будет решением системы проходящим через Р2. Следуем вдоль решения SJFb направлении убывания времени до первой точки пересечен и я’Р} с положительной полуосью х. Если кривая SJ из точки Р2 не пересекает по- ложительную полуось х, то мы получаем область, ограни- ченную кривой SJ и верти- кальным сегментом, проходя- щим через точку PJ, что про- тиворечит условию Бендиксо- на, так как д/7дг/>Ох). Таким образом, SJ должно быть либо периодическим решением сис- темы либо спиралью, кото- рая в свою очередь, закручи- ваясь, либо пересекает по оче- реди положительную и отри- цательную полуоси х, прибли- жаясь при этом к N, либо наматывается на некоторый предельный цикл системы <^0. Но в некоторый момент фазовая точка, двигаясь вдоль траекто- рии SJ, приближающейся к предельному циклу, под действием управ- ления и (t), вновь переходит на некоторое решение системы ^0?так, что соответствующее решение S системы of проникает во внутрен- ность данного предельного цикла системы <§^0. Предельные циклы системы линейно упорядочены относительно вложения. Пусть Б будет точной нижней гранью всех предельных циклов системы ^0, к которым можно приблизиться вдоль таких решений S системы Однако и в цикл 2 можно проникнуть так же, используя соот- ветствующий малый импульс управления «(f). Таким образом, решение S системы проходящее через точку Р, можно заста- вить под действием соответствующего управления u(t) войти в область N и затем перевести его в начало координат. Для того чтобы доказать существование оптимального управ- ления в Д для каждой начальной точки Р £ R2, мы должны показать, пользуясь условием ограниченности из теоремы 4 главы 4, что решения системы которые начинаются в точке Р и достигают начала координат до момента времени f,-fr-1, где момент времени tr задан заранее, не могут уйти далеко от начала координат. г) Поток векторного поля, определяемого системой через границу этой области был бы положительным, в то время как дивергенция этого поля, равная —df!dy> всюду неположительна. (Прим, ред.)
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 467 Пусть X g(x) = f(x,Q) и G(x) = § g(s)ds^O. О Положим Е(х, y) = £- + G(x). Тогда Ё=у [g (x)—f (х, z/)] + и (0 у < и (0 у. Поэтому + l <£+1 И Е(0+1<[Е(хо, «/0) + 1]е<1+1 вдоль любого решения, начинающегося в Р = (х0, у0) и определен- ного на'некотором подынтервале времени из интервала О t +1 • Итак ^<[£(х0, &,) +1]е**+* и | y(t)\, а следовательно, и | х (t) | является ограниченным для всех таких решений системы Теорема доказана. Для изучения систем дифференциальных уравнений с отталки- вающей силой мы предположим, что выполняются следующие условия (которые можно немного ослабить так же, как это сде- лано в теореме 3): (^о) х = у, y — у), f(0, 0) = 0, f(x, у)£&, где (х, 0) < —в < 0, 0 для некоторого 8 > 0. Эта система имеет в начале координат единственную критическую точку. Вблизи начала координат семейство кривых—решений системы — является топологически эквивалентным [Хартман] семейству кри- вых— решений линейной системы (=^) х = у, у = х—у. Таким образом, имеются четыре кривые-решения системы <§Р0, кото- рые приближаются к началу координат при t —> + оо или t —>— оо. Обозначим эти кривые символами I, II, III, IV соответственно квадрантам, в которых они лежат. Изучение геометрии системы показывает, что каждая из кривых I и III однозначно определена как функция на одной из полуосей х. Аналогично, кривые II и IV однозначно определены на некоторых подынтервалах оси х, причем | г/1—>-оо с возрастанием |х|. Действительно, критическая
468 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 точка и кривые I, II, III, IV, и только они, являются сепаратрисами системы ^0, а остальная часть семейства кривых-решений систе- мы <$^0 состоит из четырех параллельных канонических областей [см. Маркус]. Поэтому система глобально гомеоморфна систе- ме S в 7?2. Сепаратрисы II и IV называются главными сепа- ратрисами системы <^0 (рис. 7.2). Теорема 4. Рассмотрим систему (£0 х = у, y=—f (х, у) 4- и, Рис. 7.2. Область управляемости при на личин отталкивающей силы и неотрица- тельного трения. f(Q, 0) = 0, f(x, у)£С\ где u(t) — измеримая функция, удовлетворяющая ограничению —1<м<1, как и выше. Пред- положим, что f (х, у) есть от- талкивающая сила с отрица- тельным трением, т. е. g(x,0)<-e<0, g(x, й>0 о R' для некоторого е > 0. Тогда каж- дая из систем £f+ и (см. ниже) гомеоморфна линейной системе 2 и имеет своими сепаратрисами кривые I+, II+, III+ , IV + и I//_, III_, IV_ соответственно. Область % нуль-управляемости системы является открытой топологической полосой Зд, ограниченной двумя линиями, гомеомор- фными прямым, одна из которых составлена из кривых II + и IV +, состыкованных в критической точке системы &+, а другая со- ставлена аналогично из кривых II_ и IV_. Кроме того, каждую точку из Зд можно перевести в начало координат оптимальным управлением u(t)£& (см. рис. 7.2). Доказательство. Каждая из систем (^+) х = у, y = — f(x, у)+1 И (^-) Х = у, y = — f(x, у)— 1 имеет в точности одну критическую точку и четыре других сепа- ратрисы 1±, П±, 1П±, IV + и является гомеоморфной системе =2?. Далее, главные сепаратрисы II+, IV + и //_, IV. вместе с двумя критическими точками систем и <^_ ограничивают открытую полосу которая гомеоморфна плоской полосе, расположенной между двумя параллельными линиями. Кроме того, область управ- ляемости совпадает с Зд.
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 469 Сепаратрисы I + и III_ ограничивают относительно замкнутый криволинейный четырехугольник Q в Si (см. рис. 7.2). Начальная точка из Q, которая переводится в начало координат при помощи управления и (/) £ Д, не может покинуть Q во время своего пере- мещения в начало координат. Кроме того, начальная точка Р из Si, которая переводится в начало координат при помощи управления и (t) £ Д, никогда не может покинуть ограниченное множество, состоящее из объединения множества Q и подмно- жества Si ограниченного: 1) решениями систем <$/'+ и _, прохо- дящими через Р (t^ 0); 2) граничными сепаратрисами полосы S и 3) краем множества Q, ближайшим к Р. Таким образом, в лю- бом случае точка Р и ее будущая траектория лежат в ограни- ченном подмножестве пространства Р2. Такая априорная оценка гарантирует существование оптимального управления из Д для каждой начальной точки Р в 33 = ё. Теорема доказана. Кривая переключений Рассмотрим задачу оптимального управления для системы (£0 х = у, y = — f(x, у) + и, f(0, 0) = 0, ffx, у^С1, где u(t)—измеримая функция, удовлетворяющая ограничению — как и выше. Если u(t) есть максимальное управле- ние из Д, то «(O=sgnT)2(Z), где 1] (/) = (т^ (/), г]2 (/)) есть решение сопряженной системы df , df Определение. Рассмотрим множество максимальных релей- ных управлений в Д для системы <ff, переводящих точку области управляемости ё в начало координат. Линия переключений W есть множество всех точек в ё, в которых соответствующие ре- шения х (/) не имеют производных, т. е. W состоит из тех точек, в которых стыкуются £?+- и -куски какой-либо максимальной траектории. Для определенности мы включаем начало коорди- нат в W. Перейдем к описанию метода построения W. Пусть №+ есть решение (или дуга решения) системы Sf+, проходящего через начало координат и расположенного в четвертом квадранте х 0, t/^О. Пусть есть решение (или дуга решения) системы <^_, проходящего через начало координат и расположенного во втором квадранте х^О, г/^0. Отложим теперь из каждой точки траек- тории в направлении, обратном ходу времени, на соответ- ствующем решении системы e/L дугу, соответствующую промежутку времени, равному интервалу между нулями функции т)2 (/). Это
470 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 означает, что мы пользуемся решением системы уравнений = ИО), П2= —111 + П2^(^(0,«/(0), где x(t) = (x(t), y(t))—соответствующее решение системы начинающееся на дуге WL, а т]1(0) =—1, Ла (0) = 0. [Отметим, что сопряженная линейная система является однородной и что мы начинаем траекторию х (t) автономной системы <£/’_ в момент времени / = 0.] Мы получаем первый нуль функции т]2(0 в м0‘ мечт времени t < 0, что определяет интервал времени, в течение, которого мы следуем вдоль решения x(t) системы начинаю- щегося на №+ Геометрическое место ? концов всех построенных таким образом дуг решений системы <&’_ с началом на дуге W'V мы обозначим через Wt и назовем отражением дуги №+. Теперь из каждой точки дуги отложим в направлении, обратном ходу времени на соответствующем решении системы <^+, дугу, соответствующую промежутку времени, равному интер- валу между нулями функции т]2(/). Это означает, что мы пользу- емся решением системы уравнений П1 = П2^(*(0> НО), ч2 = —П1+л2^(*(0, где x(t) = (x(t), y(t))—соответствующее решение’ системы <^+, начинающееся на дуге W'L, а т|1(0) = 1, т)2 (0) = 0. Как и выше, мы встречаем первый нуль функции 1% (t) в момент времени t < 0. Обозначим отражение множества WL с помощью системы через Пусть теперь W+, ..., Wk+ и WL, Wt, ...» опре- делены, и пусть W^1 есть отражение траектории с помощью системы of+, a Wk+1—отражение траектории Wk+ с помощью си- стемы <^_, построенное как указано выше. Конечно, может слу- читься, что множество WkuW^. окажется пустым для любого достаточно большого k. Теорема 5. Рассмотрим систему (<S0 х = у, y = — f(x, у) + и, f(0, 0) = 0, f(x, у}$С1 с измеримыми управлениями u(t), удовлетворяющими ограничению — 1 1 Линия переключений W есть в точности объединение множеств Wk+ иWk_ no £= 1, 2, 3, ... Доказательство. Пользуясь теоремой 1, получаем, что для каждой точки Р траектории 1Г+ (у < 0) мы можем выбрать сопряженное решение ч(О = (Лх(О, В2(0) так> чт°бы функция
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 471 ЛзСО обращалась в нуль, когда x(t) = P и нигде более. Анало- гично, если Р есть концевая точка a y = Q, мы можем вы- брать ч(0 так» что Функция т]2 (0 обращается в нуль в моменты времени, соответствующие х (t) = Р и х (t) — 0. Тогда каждая точ- ка из IF+, включая концевые, может оказаться точкой переклю- чения для решения, соответствующего максимальному релейному управлению в А. Таким образом, W\a.W и аналогично WLcW. Так как каждому максимальному релейному управлению, которое переводит точку из в начало координат, должно соответствовать решение, которое входит в начало координат вдоль одной из кри- вых IF+ или WL, и так как решение должно состоять из чере- дующихся кусков кривых, представляемых семейством решений или , с переключениями, происходящими в нулях функции г|2 (/), то мы видим, что IF есть объединение всех IF* и IF* для k=l, 2, 3, ... Теорема доказана. Синтез оптимального управления для случая притягивающей силы Мы рассмотрим здесь синтез оптимального управления для системы с одной степенью свободы, к которой приложена при- тягивающая сила. Итак, рассмотрим систему (£0 х = у, y = — f(x,y) + u, f(0, 0) = 0, f(x,y)^C1, где управление и (/) является измеримой функцией с ограничением — 1 1, и g(x, 0)>8>0, |(х, 0)>О для некоторого в > 0. Эти предположения, до некоторой степени более сильные, чем предположения теоремы 3, гарантируют, что каждая из максимальных систем £f+ и e/L имеет в точности одну критическую точку, и вообще упрощают изложение задачи. Так, например, каждое решение системы <§f±, кроме единственной кри- тической точки, есть или периодическое решение, или же накру- чивается как спираль на предельный цикл, или, наконец, стремится к критической точке при t—>4-оо. Если к тому же df/dy>Q, то из условия Бендиксона следует, что здесь не имеется предель- ных циклов. Теорема 6. Рассмотрим систему (£) Х = У' [У=---f(x, у) + и, f(0, 0) = 0, f(x, у)£С*, где^(х, 0) > е > 0 для некоторого, е > 0, ^^0 в R2. Рас- смотрим, далее, максимальные управления u(t)£&, переводящие
472 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 точки из % = R2 в начало координат, и построим линию переклю- чения W как объединение множеств как описано в тео- реме 5. Тогда множество W содержит гомеоморфный образ прямой, который является кусочно-гладкой кривой, разделяющей плоскость. Кроме того, множество W лежит целиком во втором и четвертом квадрантах. Доказательство. Линия переключения W совпадает с объеди- нением Wk+(]Wk_ по k = 1, 2, 3 ... Конечно, и WL— кривые класса С2. Так как сопряженный интервал времени, использован- ный в процессе отражения, гладко зависит от начальных условий, то ясно, что и WL являются кривыми класса С1. Аналогично, Wk+ и Wk_ (k = 1, 2, 3, ...) являются кривыми класса С1, и гладко зависят от начальных условий. Мы покажем теперь, что множество W содержит гомеоморфный образ прямой, который разделяет плоскость. Для простоты изложе- ния сначала рассмотрим консервативный случай, когда df!ду= Ов R2. В этом случае каждое решение системы кроме критической точки, есть периодическое решение, охватывающее критическую точку. Легко также видеть, что каждое такое периодическое ре- шение есть выпуклая замкнутая кривая, симметричная относительно оси х. При у > 0 имеем х у У и <Ру __ —yf' (x) — [f(x) — u]*/y п dx* “ у* Аналогично, при у < 0 мы получим, что у" > 0, откуда легко следует, что периодическое решение выпукло и симметрично в смысле, указанном выше. Пусть SV есть решение системы £f+, проходящее через начало координат так, что W + есть дуга кривой Обозначим через Rx правую точку пересечения дуги с осью х. Пусть аналогично SL есть решение системы q/L, проходящее через начало координат, —его дуга (см. рис. 7.3), а —левая точка пересечения дуги WL с осью х. Пусть S1— решение системы проходящее через точку R±, a S+ — решение системы £f+, проходящее через точку Lt. Пусть S+ и S1, 6=1, 2, ..., определенные аналогично тому как указано выше, решения систем и соответственно, a Rk и Lk—аналогично определенные точки оси х, так что S*+1 есть решение системы проходящее через точку Rk, a SJ+1 есть решение системы £f+, проходящее через точку Lk. Легко видеть, что решение лежит внутри области, ограниченной решением S|+1. Аналогичное замечание можно сделать по поводу
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 473 взаимного расположения решений S* и Sk+1. Далее, 0<4-оо и О >... Lk * оо. Теперь мы опишем множество W для каждого сегмента [О, /?х], Т?2], ... [Т?А, ..., с тем, чтобы получить непрерывную кривую, определенную при х 0 и лежащую в четвертом квадранте. Затем аналогично построим кривую W для х^О. Положим на отрезке [О, W = W\. По теореме 1, дуга W2+, соединяющая точ- ки 7?! и R2 и лежащая между траекториями S} и S+ (уСО), есть кривая класса С1. Ана- логично, дуга WL, соединяю- щая точки с L2 и лежащая между траекториями SL и SL при у > О, есть кривая клас- са С1. По индукции мы нахо- дим, что W'L есть кривая клас- са С1, соединяющая точки Lk_1 с Lk и лежащая между траекториями S1-1 и в обла- сти у^=0, a Wk+ есть кривая класса С1, соединяющая точки R^.t с Rk и лежащая между реше- ниями S|-1 и S* в области уСО для любого k—2, 3, 4, ... Таким образом, W— (j (Wk+ (j^-) есть счетное объединение кри- *= i вых класса С1 и W разделяет плоскость на две части. Случай, когда df/dy 0, рассматривается аналогично, за исклю- чением того, что здесь S+ или SL или одно из последующих отражений Wk± может иметь концевую точку в ±оо, т. е. W± мо- жет не пересекать оси х, а стремиться к бесконечности. В таком случае совокупность непустых множеств может быть конечной (см. рис. 7.4). Однако утверждения теоремы справедливы и для этого случая. Теорема доказана. Специальные гипотезы относительно геометрии линии переключения Мы здесь вынуждены предположить, что линия переключения W = W (х) определяется однозначной функцией, определенной на оси х. Это, конечно, справедливо, если кривые W\ и WL уходят
474 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 в бесконечность, не пересекаясь с осью х, как в случае системы с отталкивающей силой (см. теорему 4). В качестве иллюстрации рассмотрим систему х+bx+g/x) = и (/), — 1 < и (/)< 1, где 6>0—постоянная величина и g(x)£C1, причем g(0) = 0, g7 (х) > О, |g(x) | > 1 для всех х с достаточно большим | х |. Далее мы предположим, что^' (х)^.Ьг/4 при (—оо < х <+оо). В качестве примера системы с такой слабой упругой силой и линейным тре- нием возьмем систему х+2х + (х—у Arctg х) — и (t), где —у < Arctgx< у. Если бы кривая W'V пересекала ось х более, чем в одной точке, * то уравнение в вариациях, по- строенное для x(t) = W\, имело | бы решение о1 (/) = х (/), которое обращается в нуль дважды. Но это j уравнение в вариациях v 4- bv+g' (х(/))и — О при помощи подстановки z = e6//4v приводится к виду y)z = O. , Но нетривиальное решение z(t) этого уравнения имеет не более | одного нуля. Отсюда следует, что кривая W* не пересекает поло- жительную полуось х, и простая оценка ее наклона показывает, что^кривая определена для всех х > 0. Аналогично, кривая W7! является однозначной на отрицательной полуоси х. Максимальное решение вне множества W (х) = U не имеет никаких переключений. Это следует из вида присоединен- ного уравнения ц2—й2+я'(^(О)п2 = о. Поэтому линия переключений есть в точности W7(x) = W7LuIT1+ и сделанные выше особые предположения в этом случае выпол- няются. Они выполняются также, когда система имеет лишь
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 475 изохронные периодические решения, например, в случае, когда f(x, у) = х. В этом случае уравнение в вариациях вдоль решений системы $+ или имеет вид V1 О®, V® —---%- V1 V®, ’ дх ду ’ где v (t) = (v1 (/), о® (/))—вектор параллельного смещения вдоль потока систем <^±. Но о1т]1 + = const и, таким образом, 1»1(0)т]1(0) = о1(/1)т]1(Л) для двух последовательных моментов переключения t = 0 и t = tl. Так как МОИ^хХО, то ^(OX^iXO. Поэтому, взяв в качестве с(0) касательный вектор к траектории получим, что есть также касательный вектор к траек- тории и, поэтому кривая №±+1 определяется однозначной на оси х функцией, если кривая W± обладает этим свойством. Теперь (по индукции) можно показать, что W = W (х) является однозначной функцией на оси х. Следствие. Рассмотрим систему & теоремы 6. Предполо- жим, что кривая W = W (х) определяется однозначной функцией на оси х. Тогда для каждой точки P$R2 в А имеется одно и только одно максимальное релейное управление, которое переводит точку Р в начало координат. Доказательство. Мы должны только показать, что ника- кая траектория S системы <^_ (или £f+) не пересекается с кривой Wk+ (или с кривой Wt) по внутренней точке дуги (траектории S), использованной при построении кривой Wk+ (или Wk_). Так как кривая лежит в области у<0 целиком, за исключением своих концевых точек, то решение S системы начинающееся в точке Р кривой Wk±, не может пересечь кривую Wk+ в области г/< 0 в ка- кой-нибудь точке, абсцисса х которой лежит левее Р. Кроме того, так как в соответствующей кольцевой области на каждом решении системы имеется только одна точка кривой Wk+ и, так как решения системы Of.. имеют отрицательный касательный вектор (—у, /4-1) в противоположность вектору (— у, f—1) для реше- ний системы §f+, то получаем, что траектория S не может пере- сечь кривой Wk+ в полуплоскости у < 0. Аналогичное рассуждение справедливо для решений системы §f+ пересекающих кривую W1. Следствие доказано.
476 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Теорема 7. Рассмотрим систему (<Ю х = у, y = — f(x, у) + и, f(0, 0) = 0, f(x, где (х, 0) > е > 0 для некоторого 8 > 0 и ^->0 в Предположим, что функция W = W (х) однозначна на оси х. Тогда для каждой точки Р в R* имеется в точности одно оптимальное управление u(t) (—1 и 1) из класса А, которое переводит точку Р в начало координат. Определим синтезирующую функцию {1 для у <W (х), 0 для y = W(x), —1 для y>W (х). Тогда искомая оптимальная траектория для точки Р есть един- ственное решение уравнения x + f(x, х) = Т(х, х), соответствующее начальному условию х(0) = Р. Доказательство. Согласно общей теории существования оптимального и, тем самым, максимального релейного управления, развитой выше, каждая точка Р £R2 лежит по крайней мере на одной траектории, соответствующей максимальному релейному управлению, переводящему точку Р в начало координат. Но кон- струкция, использованная в теореме 6 вместе со следствием, пока- зывает, что точка Р лежит на единственной траектории, соответ- ствующей такому максимальному релейному управлению и, следо- вательно, это управление должно быть единственным оптимальным управлением из класса А для точки Р. Из теоремы 6 следует, что синтезирующая функция ¥ (х, у) обладает нужными свойствами. Теорема доказана. Синтез оптимального управления для случая отталкивающей силы Рассмотрим задачу управления для системы (<Ю х = у, y = — f(x, у) + и, f(0, 0) = 0, f(x, у)£С\ где u(t)—измеримая функция (—Предположим, что (х, у) < — 8 < 0, (х, у) > 0 для некоторого 8 > 0. Эти пред- положения, до некоторой степени более сильные, чем предполо- жения теоремы 4, гарантируют существование полосы S3 между главными сепаратрисами систем и которая является областью £ нуль-управляемости системы &. Для каждой точки Р^ЗЗ существует оптимальное управление u(t) из допустимого класса А, которое переводит Р в начало координат.
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 477 Линия переключений W системы определяется так же, как и в теореме 5. Перейдем к построению W. Пусть IF*— решение системы £?+, проходящее через начало координат и лежащее в четвертом квадранте. Путем сравнения наклонов траекторий систем <^+ и мы обнаружим, что W + лежит всегда внутри полосы в полуплоскости «/<0, и что у—»—оо с ростом х вдоль кривой W\. Пусть IF1 — решение системы <^_, проходящее через начало координат и лежащее во втором квадранте. Ясно, что кривая WL—лежит внутри и что у—>—оо с ростом (—х), если (х, у) Отражения определяются как в теореме 5, но мы покажем, что все эти отражения являются пустыми мно- жествами для & = 2,3,4,..., и что, тем самым, W = W+uWL (см. рис. 7.2). Теорема 8. Рассмотрим, систему (£0 х = у, y'—~f(x, у) + и, /= (0, 0) = 0, f(x, у)^О, где (х, у) < —г < 0, ^(х, у)^0 в R2 для некоторого в > 0. Рассмотрим максимальное релейное управление u(t) (—1 из класса Д, и построим линию переключения W. Тогда W = № (х) есть непрерывная однозначная функция на сегменте оси х, раз- бивающая область S3 на две подобласти. Кроме того, ( IF1 (х) для х 0, w (х\ = < ’ w I W1_(x) для х<0, так что W (х) С С1 при х 0. Доказательство. Мы сначала докажем, что множества являются пустыми. Это будет в том случае, если нетривиальное решение ч(0 = (т11(0> Ла (0) системы Л1 = Ла-^-(^(0. 1/(0)» Л2 = -Л1 + Ла|£-(*(0» 1/(0) таково, что функция т]2(/) имеет не более одного нуля. Здесь х(/) = (х(/), y(t)) есть решение системы или <&’+. Пусть 0, 0 (О < 0) Два последовательных нуля функции ц2 (/) и пусть Ла(0 > 0 при 0 < / < t2. Тогда Th(/х) <0 и (/2) > 0. Так как df/dx < —8 < 0, то Лг (0 < 0 при < t < /2, что невозможно. Аналогично рассматривается случай т]2 (/) <0 (/х < t < /2). По- скольку в силу теоремы 5 и WLcW, то W = W(x) = W\(x) W>_(x) для для х^0, х<0.
478 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Ясно, что W есть топологический образ прямой, и что W разби- вает полосу S на две части. Теорема доказана. Следствие. Рассмотрим систему теоремы 8. Тогда для каждой точки Р$93 имеется одно и только одно максимальное релейное управление в Д, которое переводит точку Р в начало координат. Доказательство. Никакое решение системы не может пересечь IF}. в двух различных точках, как это следует из срав- нения наклонов касательных векторов решений систем SP+ и <§₽_. Аналогичное утверждение справедливо и относительно кривой IF1. Конструкция линии W показывает, что каждому максимальному релейному управлению из класса Д, переводящему Р£ 93 в начало координат, соответствует траектория, которая пересекает кривую W и затем никогда не покидает IF, а следует по IF в начало коор- динат. Следствие доказано. Теорема 9. Рассмотрим систему (&) х = у, y = — f(x,y) + u, f(0, 0) = 0, f(x, yj^C1, где ^(х, У) <—8 < 0 для некоторого 8 > 0 и (х, О в R*. Рассмотрим далее область % = 33 управляемости для измеримых управлений u(t) (— 1 и 1) из Д и построим линию пере- ключения W = IF (х). Тогда для каждой точки Р£93 существует только одно опти- мальное управление u(f) из класса Д, которое переводит точку Р в начало координат. Определим синтезирующую функцию ( 1 для у <W (х), ¥(х, у) = \ 0 для y = W(x), [ —1 для y>W (х). Тогда оптимальная траектория для Р есть (единственное) реше- ние уравнения x + f(x, х) = ¥(х, х) с начальным условием х(0) = Р. Доказательство. Общая теория оптимального и макси- мального управления, развитая выше, показывает, что каждая точка Р € 33 лежит по крайней мере на одной траектории макси- мального управления, переводящей Р в начало координат. Но построения теоремы 8, вместе со следствием, показывают, что точка Р лежит на единственной траектории такого максимального релейного управления и, следовательно, это управление должно быть единственным оптимальным управлением класса Д для Р. Из построений теоремы 8 следует, что функция Y (х, у) обла- дает нужными свойствами. Теорема доказана.
7,1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 479 Примеры построения управлений с обратной связью Пример 1 (жесткая пружина). Рассмотрим уравнение Дуф- финга с управлением х + % + 2х8 = ы(0 или эквивалентную систему первого порядка: (£Q х=у, у= — х—2х3 + и, где —1 и 1. Эта система есть математическая модель, описы- вающая поведение нелинейной жесткой пружины под действием внешней силы u(t). Для задачи оптимального быстродействия оптимальное управ- ление u(t) на различных интервалах времени равно 4-1 или —1. Поэтому рассмотрим систему уравнений (<|Р±) х = у, у — — х—2х8± 1. Ясно, что каждая точка в фазовом пространстве может быть со- единена с началом координат кривой, состоящей из кусков траек- торий систем и что гарантирует нам существование опти- мального управления. Рассмотрим теперь сопряженную систему (как и в предыдущем случае) (Л) 4 = - = (1 +6х8 (0), Я2= — = ~ П1. из которой мы найдем функцию (0, определяющую интервалы времени, на которых максимальная траектория совпадает с траек- ториями того или другого семейства. Построим теперь линию переключения W способом, указанным в предшествующей теории. Здесь W\ есть решение системы <^+, проходящее через начало координат и лежащее в четвертом квад- ранте (см. рис. 7.5), a WL есть решение системы проходящее через начало координат и лежащее во втором квадранте. Мы теперь построим отражение кривой 1FL с помощью системы §f+. Из точек 1, 2, ..., 9 кривой wl. следуем вдоль соответст- вующих решений системы <^+ в направлении обратному ходу вре- мени в течение промежутков времени, равных интервалу между нулями функции Яг (0> т. е. например, из точки 2 (^(0) = !, Я2(0) = 0) следуем вдоль соответствующего решения ef+ до тех пор, пока. я2 (0 не будет5 снова нулем. Это определяет точку 2а на кривой W\. Повторив эту процедуру для каждой из точек 3, ..., 9, мы получим соответствующие точки За, ..., 9а кри- вой W\. Так как мы знаем, что Ц78 есть кривая класса С1, то мы можем проинтерполировать ее гладкой кривой, соединяющей 2а, За, ..., 8а. По этой причине требуется рассмотрение лишь конечного числа максимальных траекторий для построения линии W.
480 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Теперь, когда кривая U7* построена, мы можем получить кри- вую W1 отражением кривой W 5, относительно начала координат (рис. 7.5). Далее мы находим UP переносом кривой W\ вдоль решений системы как указано выше. Остальные дуги кривой W строятся точно таким же образом. У Рис. 7.5. Синтез управления с обратной связью для уравнения Дуффинга. Тем самым, мы построили управление и = Ч (х, у) с обратной связью для уравнения Дуффинга (<^d). Синтез будет полным, если положить Т (х, у) = 4-1 ниже границы переключения W и Y (х, у) = =— 1 выше границы переключения W. Возникает вопрос относительно точности, с которой мы построили кривую W на рис. 7.5 (она была построена при помощи аналого- во-цифровой вычислительной машины). Тем не менее, на рис. 7.5 видно, что линия переключения действительно является однознач- ной функцией относительно обоих потоков <^+ и Числен- ный метод построения управления с обратной связью, использую-
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 481 щий цифровую машину, подробно рассмотрел X. Л. Бурмейстер (Н. L. Burmeister). (Сравните его рис. 3 с нашим рис. 7.5.) Для уравнения Дуффинга с управлением х = у, у — — х—х® 4-м, где —мы также построили на рис. 7.6 изохронные кривые в окрестности начала координат. Мы уже обсуждали свой- ства изохронной функции для линейной задачи оптимального быстродействия перед теоремой 21 главы 2 и в упражнении 2 раздела 5.2 для нелинейных систем. Замкнутая область, ограни- ченная каждой из этих кривых, совпадает со множеством дости- жимости из начала координат за время Т для задачи с обращен- ным временем на отрезке [О, Т], где Т—значение изохронной функции на соответствующей кривой. Из рис. 7.6 и рис. 7.5 видно, что множество достижимости не является выпуклым, но, по-вцди- мому, имеет гладкую границу. 1® Э. Б. Ли. Л. Маркус
482 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Пр имер 2 (маятник). Рассмотрим уравнение движения плоского маятника (рис. 7.7) массы т, подвешенного к точке опоры при помощи жесткого невесомого стержня: /0 4- bQ + mgl sin 0 = М. (t). Здесь I— ml*—момент инерции; b^Q коэффициент демпфирова- ния; М (/) — внешний управляющий момент; g—гравитационная постоянная (ускорение силы тяжести); I—длина жесткого стержня маятника; т—масса, сосредо- точенная в конце жесткого стержня (см. рис. 7.7). Чтобы привести уравнение к стандарт- ной форме, сделаем замену переменной r=t\^mgl/I и получим уравнение движения в следующем виде: 0 + a0+sin0 = 0 (/), где a = &/КImgl О, 0 (t) = М (t)/mgl. Эквива- лентная система уравнений первого порядка т имеет вид Рис. 7.7. к Управляе- мый маятник. 0 = 2, 2 =— sin0—аг + 0(/). Задачей оптимального по быстродействию управления является остановка маятника в одной из точек устойчивого равновесия (0 = ±2л/г, 2 = 0), для k = 0, 1, 2, ... за минимальное время посредством выбора управляющего момента 0 (/), удовлетворяю- щего ограничению 10 (/) | В, В > 0. Таким образом, целевое множество G имеет вид (? = {(©, г)|0=±2л£, г = 0, А = 0, 1, 2, ...}. Сначала покажем, что применением некоторого допустимого управ- ления из каждой начальной точки плоскости (0, г) система может быть переведена в G. Действительно, для этого достаточно при- менить следующую последовательность управлений: 1. 0 (0 = —В sgn 2 (/) до тех пор, пока система не попадет в точку с координатами 2 = 0, 0, где 2л/?^0 ^2(^+1)л для некоторого fe = 0, 1, 2, ... 2. 0(0 = — 0о2(О> гДе Ро > 0 является настолько малым, что В>|0(/)| (после вывода системы из состояния неустойчивого равновесия, если это окажется необходимым). 3. Когда исходная система попадает в окрестность точки 0 = 2&л, 2 = 0, мы применим критерий управляемости (глава 6) для системы 0 = 2, 2 = — 0—аг + 0(О
7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 483 с матрицей и п -жл- неособой для всех а. Это обеспечивает возможность точного дости- жения точки равновесия в течение конечного времени из любой точки некоторой окрестности положения равновесия. Покажем теперь, произведя оценку скорости фазовой точки, что целевое множество для этой задачи можно считать компакт- ным. Тем самым, исходя из соображений непрерывности, его можно считать просто конечным. Имеем |z | < 1 +а| z | + В, | z (/) | се^ для некоторых с > 0, у > О и 10 (t) | c1eY* для некоторого <\ > О (0 t < оо). Таким образом, решение является равномерно ограниченным на любом конечном отрезке времени. Заметим, что точки 0 = 2лй, г = 0 для больших |й| можно достичь лишь за очень длительный промежуток времени, и поэтому она не является кандидатом в концевые точки траектории, оптимальной по быстродействию. Согласно теоремам главы 4 оптимальное управление 0*(/) су- ществует. Кроме того, из предшествующих результатов этого раз- дела вытекает, что оптимальное управление есть релейное управ- ление, принимающее только два значения, +В и —В, на различных интервалах времени. Здесь можно также применить предшествую- щие результаты этого раздела, касающиеся геометрии линии переключения. Приступим к построению линии переключения оптимального управления. Для удобства мы изучим сначала слу- чай, когда а = 0, и затем покажем, что для случая а > 0 резуль- таты выглядят даже проще. При а = 0 каждую целевую точку можно достичь, т. е. маят- ник может быть приведен в колебательное движение все с большей и большей амплитудой, даже если В очень мало, до тех пор, пока маятник пройдет через точку неустойчивого равновесия, из кото- рой можно перейти к любым другим точкам равновесия. Мы сначала рассмотрим оптимальный переход только к одной точке равновесия, в качестве которой возьмем начало координат. Имеется два особенно интересных случая: (1) случай, когда В > 2/л, который соответствует ситуации, когда линия переклю- чения (для одной целевой точки) пересекает ось 0 только в начале координат; (2) случай В^.2/л—когда линия переключения пере- секает ось 0 больше, чем в одной точке. 16'*
484 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Рассмотрим гамильтонову систему уравнений (как и в главе 5): дН , • дН П1 = — -50 =(cos0)t]2) т]8 = — _- = аТ]2— а дН дН . а , _ _ 0 = Э^=2’ 2 = ^ = -sin0-az + P(f), где Н = Н(т)1( Яг» 0. Z, 0) = 1V + T]2[—sine—аг + Р]. Оптимальное управление является релейным максимальным управ- лением вида 0(0 = sgnr]2(0. Вопрос о том, пересекает ли линия переключения ось 0 более, чем в одной точке, эквивалентен вопросу о том, имеет ли более одного нуля функция т)2 (0, когда фазовая точка системы дви- жется в плоскости (0, г) из начала координат в направлении, противоположном ходу времени вдоль траектории системы, удов- летворяющей начальным условиям 0 (0) = г (0) = i]> (0) = 0, Л1 (0) — 1 • Из предшествующих результатов следует, что нули функций ц2(0 и z(t) вдоль такой траектории чередуются. Для специаль- ных начальных условий (0, 0, ±1, О) = (0(О), г(0), rji (0), т]а(0)) нули функций т]2(0 и z(t) совпадают. Уравнения движения с обращенным временем имеют вид 0 = —г, z = sin0—Bsgnr|2, 4 = — cos 0, ii2 = Tii с начальными условиями (0, 0, 1, 0) (или (0, 0, —1, 0)). Здесь функция т]2 (0 не может иметь других нулей, кроме тех, что имеет функция z(t). Рассмотрим фазовую кривую на фазовой плоскости первых двух координат, когда 1]2 (0 > 0. т. е. кривую, удовлетворяющую уравнению dz sin0—В dG =?“ ’ проходящую через начало координат, и лежащую в четвертом квадранте. Интегрирование дает z = — j/2(cos0 + B0—1). Эта кривая изображена на рис. 7.8 для различных значений В и, понятно, она не пересекает ось 0, если В > 2/л и является частью кривой переключения, именно кривой ЦТ*. Для того чтобы определить, имеет ли линия переключения ветви, смыкающиеся на бесконечности, достаточно выполнить процедуру, описанную ранее. Именно, из точки кривой №iChi(O) =—1, '02(0)==0) мы следуем вперед во времени вдоль решения уравнений с обращен-
О -/ -2 12^ 4 5 6 7 89 109 84 8-2 В-4 8-8 8-8 8-10 -4 7.1 СИНТЕЗ ОПТИМАЛЬНЫХ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 485 ным временем до тех пор, пока функция r|2 (t) не обратится снова в нуль, и отмечаем эту точку в плоскости (0, г) (она принадлежит линии переключения). На рис. 7.9 построена линия переключения для случая а = О, В = 1, причем при построении, произведенном ана- логично тому, как это было сде- лано в примере 1, использовано десять точек кривой №+• Ветвь линии переключения, ле- жащую во втором квадранте, можно получить отражением построенной кривой относительно начала коор- динат. Аналогично строится линия переключения для произвольной целевой точки, являющейся концом некоторой оптимальной траектории. Однако мы должны еще уста- новить аналогичную процедуру, которая годилась бы для всей со- вокупности целевых точек одно- временно. Покажем, что требуется рассмотреть только линию переключения слева или линию пере- -6 -7 -8 -9 -10 -11 - -12- -13- -14е Z Рис. 7,8. Кривая переключения для маятника при отсутствии демпфиро- вания. Рис. 7.9. Построение кривой переключения для маятника в случае больших ограничений на управления. ключения справа от начальной точки при решении вопроса, ка- кая точка берется в качестве целевой, если линия переключения
486 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 не имеет ветвей, смыкающихся на бесконечности. Ситуация указана на рис. 7.10 для всех кривых переключения. Рассмотрим точку р на рис. 7.10. Если сначала выбрано управ- ление Р = то может не быть переключений до тех пор, пока траектория не достигнет одной из точек а, b и т. д., т. е. пока траектория не пересечет один из кусков линии переключения. Очевидно, что переключение в точке а и последующее движение в начало координат предпочтительнее, чем переключение в точке b и движение из нее в начало координат. Это верно потому, что движение из точки а' в точку 0 вдоль пути, проходящего через точку а' при ₽=+ В, занимает меньше времени, чем движение по пути от точки а к точке b и затем к точке (\ и, таким обра- зом, путь от точки а к 0 занимает меньше времени, чем путь от точки а к точке b и затем в точку 0v Аналогично, если 0 вна- чале выбрано равным —В, переключение происходит в точке пе- ресечения с первой кривой переключения. Полное построение синтеза оптимального управления с обратной связью показано на рис. 7.11, где пунктирная кривая найдена с помощью только что проделанного рассуждения и определяет равные по времени пути перевода системы в точку с наименьшей угловой координатой. Если а > 0, то наклон кривых переключения будет круче, а способ построения аналогичен способу построения для случая а = 0. В самом деле, легко показать, что если а > 2, то линия
7J СИНТЕЗ ОПТИМАЛЬНЫХ fio БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ 48? переключения не имеет кусков ветвей, смыкающихся на бесконеч- ности. Мы должны лишь показать, что решения уравнения + + (cose (/))== О имеют не более одного нуля. Сделаем замену переменного = V. Получим уравнение относительно v: v v —— + cos 0 == 0. Решения этого уравнения при а > 2 имеют не более одного Ряс. 7.12. Кривая переключения для маятника в случае В=1, а=8. действительного нуля. Линия переключений и синтез управления с обратной связью для а = 3, В — 1 показаны на рис. 7.12.
48Й НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УЙРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Рассмотрим, наконец, случай, когда В^2/л, а а^О. При В = 0,1 и а = 0 линия переключения для задачи перевода системы в начало координат строится как в предыдущем примере, и пока- зана на рис 7.13. Эта же процедура годится и для нахождения линии переключения при а > 0. Рис. 7.13. Кривая переключения для маятника в случае В=0,1, а=0. Вообще, интересно заметить, что фазовое пространство для маятника является цилиндром, если все точки устойчивого равно- весия считать эквивалентными. Задача оптимального быстродейст- вия, таким образом, должна решаться в фазовом пространстве, которое топологически отлично от плоскости, и это топологическое несоответствие является причиной чрезмерной сложности линии переключения. Упражнения 1. Найти область нуль-управляемости для системы
7.2 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ МЕТЕОРОЛОГИЧЕСКОЙ РАКЕТОЙ 489 2. На рисунке 7.5 мы обозначили расстояния между последовательными точками, в которых линия переключения пересекает ось х через а, р, у, соот- ветственно, в порядке возрастания абсцисс точек пересечения (см. рис. 7.5). Для уравнения Дуффинга (в примере 1 а^Р^у) доказать, что расстояние между двумя последовательными точками пересечения вообще убывает с ростом их абсцисс (для этого примера) и что оно стремится к нулю при х —> оо. 3. Построить кривую переключения для уравнения Дуффинга с управле- нием и демпфированием: х—у, у = — х—х3—у+и, |и]<1 (см. пример 1 и рис. 7.5). 7.2. Оптимальное управление метеорологической ракетой В 1919 г. Годдар рассмотрел задачу о подъеме летательного аппарата с реактивным двигателем на заданную высоту над зем- лей при минимальном расходе топлива. Он установил, что эта задача не может быть решена обычными методами вариационного исчисления. Эта задача эквивалентна задаче максимизации высоты подъема аппарата с заранее заданными топливными ресурсами. Мы рассмотрим этот вариант задачи для случая, когда сила тяги двигателя ракеты ограничена по величине, и примем обычную математическую модель для описания силы лобового сопротивле- ния. Случай, когда ограничения на силу тяги заранее не нало- жены, был исследован Эвингом (Ewing) и сведён к задаче с огра- ничением на силу тяги путем введения некоторого равномерного условия Липшица. Надо иметь в виду, что в практических зада- чах сила тяги всегда ограничена. Мы исследуем систему уравнений dh __ „ dv____________T—D(vth) „ dm_______ T dt~V’ di~ m ~Clt dt где h есть высота летательного аппарата над землей, v—его вер- тикальная скорость, т—его масса, а сх и с2—положительные константы. Управление Т есть сила тяги ракеты, которая может изменяться в границах Q^.T a D(y,h)—лобовое сопротив- ление, определенное для й>0 и удовлетворяющее условиям: 1) D(0, Л) = 0. 2) | D (v, hj) | > | D (v, h2) |, если h2 > hv 3) —D(—v, h) — D (v, h) 0, если v^O. 4) D (о, й) —> 0 при h —> оо для всех v. 5) Dfv.tyeC1. 6) vD(v,h)^0. 7) [D(u1(/i)|^|D(v2,/i)|, если |01|>|v,|. Лобовое сопротивление как функция v и h задается приближенно формулой D = o|v|e~“ft, где a = const>0. Масса m в начальный момент равна /п0, а затем уменьшается до /«j > 0 вследствие рас- хода топлива. Система с более точной формулой для лобово- го сопротивления может быть исследована примерно теми же
490 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 методами, которые Эвинг применил для случая, когда лобовое сопротивление задается формулой D = o| В последнее время были исследованы некоторые новые аспекты этой задачи (см. [Лоуден]). Предполагается, что имеется момент времени t (0 < t < сю), до которого эксперимент должен [быть закончен и поэтому мы рас- смотрим только задачи максимизации высоты для моментов времени меньших или равных t. Задача состоит в том, чтобы в классе допустимых управлений найти управляющую функцию Т (/) (опре- деленную на интервале [0, и удовлетворяющую ограничениям O^T^Tj) так, чтобы первая координата h(t) соответствующего решения v(t), m(t)) системы с начальными условиями (0, 0, т0) в момент tt ^.1 достигала бы максимального возможного значения h(tj, а само решение удовлетворяло фазовым ограниче- ниям: tn1 т (t) т0, h (/) 0. Мы займемся сначала вопросом о существовании оптимального управления, а потом воспользуемся необходимыми условиями оптимал^ости, найденными в главе 5. Затем мы выведем доста- точные условия оптимальности управления, а также произведем синтез оптимального управления для рассматриваемой задачи при некоторых предположениях относительно характера изменения силы лобового сопротивления. Существование. Для того чтобы установить существование оптимальной управляющей функции нам придется изучить струк- туру замыкания множества достижимости (см. главу 4). Доказа- тельство существования получится более длинным, чем это необ- ходимо, однако некоторые из промежуточных результатов понадобятся нам в дальнейшем при обсуждении характера оптимального управления (см. упражнение 3). В ходе доказатель- ства мы воспользуемся монотонностью функции m(t), а также учтем соответствующие ограничения. Ограничение на h будет учтено следующим образом. Сначала мы позволим величине h принимать и отрицательные значения и дадим доказательство су- ществования оптимального управления для этого случая, а затем покажем, что оптимум всегда имеет место при /iJ>0. Предполагается, что функция D(v, h) определена по написан- ной выше формуле. Заменим систему системой т %t = F(M)[T~D(v,h)]-cv dM Т dt с8 ’
7.2 ОНТИМАЛЬНОЁ УПРАВЛЕНИЕ МЁТЁОРОЛОГИЧЁСКОЙ РАКЕТОЙ 491 !(М + т^~1, если М О, , если М < 0. Эта система совпадает с системой а70 при О^М^/по—mlt т. е. при тх С т тй и на этом интервале М = К этой системе мы добавим еще координату х для того, чтобы учесть независимую переменную—время, и рассмотрим расши- ренную систему dx . dh й di~v- * »)]-<:„ с начальными условиями х(0) = г>(0)=Л(0) = 0, Л4(0) = то—mt. На этот раз, не принимая во внимание приведенные выше ограниче- ния на h и М, рассмотрим множество достижимости (см. главу 4) R (?) для системы в пространстве переменных (х, h, v, М). Это множе- ство является компактным в R8+1, если каждое решение системы & является ограниченным на интервале [0,7]. Каждой допустимой управляющей функции Т (t), т. е. измери- мому управлению Т (/), изменяющемуся на интервале [0, 7\], соответствует единственное ограниченное абсолютно непрерывное решение (х (0, h (/), v (t), М (0) системы удовлетворяющее на- чальным условиям (х(0), й(0),_о(0), Л4(0)) = (0, 0, 0, /п0—и определенное на интервале [0,1]. Оно удовлетворяет системе диф- ференциальных уравнений У почти всюду на интервале [0, /]. Ограниченность решения доказывается следующим образом. Функция М (/), соответствующая каждой допустимой управляю- щей функции Т (t), определенной на интервале [0,/], является ограниченной, и поэтому таковой является и функция F Рассмотрим выражение 11^=^=^(М)[Т (0-D(o, из которого следует, что ^^<|v||F(AlH(0-*i| ИЛИ ^L<|F(M)T-q|.
492 некоторый ОСНОВНЫЕ нелинейные управляемые системы гл. 7 Поэтому функция v(t) [а следовательно, и функция h(t)] ограни- чена на конечном интервале [0, /]. Тем самым ограничение на М наложено. Рассмотрим пересе- чение замкнутых множеств Н = {х, h, v, М |О х, v и h в R1, О^М^т^т^ и R(f), т. е. рассмотри^ компактное множество R(i)=H Л К (Г). Так как M(J)— невозрастающая функция на интервале [0, /], то очевидно, что К (/) есть множество достижимости при учете огра- ничений. Линейная функция £ (х, h, v, M)?=h на компактном множестве K(f) достигает своего минимального и максимального значения. Это доказывает существование оптимальной управляю- щей функции для случая, когда функция h (t) может принимать и отрицательные значения. Теперь мы хотим показать, что вдоль оптимального решения скорость и высота положительны. Для этого сначала докажем лемму. Лемма 1. Рассмотрим систему как и выше, с началь- ными условиями (h0, t»o^0, т0—пц) в момент tQ. Пусть T(t) — допустимая управляющая функция с соответствующим решением (h(t), v(t), M(t)) на интервале р0, /J, a v(/)>0 на интервале р0, Тогда для каждой начальной т°чки (h0, v0, Л40), такой, что (h0 h0, v0 v0, Мо = тЛ—mJ, существует такая допустимая управляющая функция Т (t) на интервале р0, /J, что соответст- вующее ей решение [ftp), v(t), М (/)] проходит через начальную точку (й0, ц0, ЛТ0) в момент t9 и удовлетворяет условиям h(t)^ ~^h(t), v(t)~^v(t)—при и М рх) =М рх). Кроме того, если ht>h0, то можно добиться строгого неравенства h(f)>h(t). (Т. е. всегда есть возможность получить решение, превышающее в смысле высоты и скорости наперед заданное решение с поло- жительной скоростью, если это превышение имело место в на- чальный момент времени.) _ Доказательство. Выберем Т (t) = T (t) при Тогда M(t) = M(t) и F(M(t))==F (M(t)) всюду на интервале ро, /х]. Так как D (v, Ji) D (v, h) при о^О, и_Л^Л, то v(t) не может стать меньше, чем v(t). Но тогда и h(t) по крайней мере не меньше, чем h(t). Так как D(v, h) > D (о, Л) при7г>/1, то строгое неравенство также выполняется. Из физических соображений следует, что Тх пуу гщ < т0.
7 2 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ МЕТЕОРОЛОГИЧЕСКОЙ РАКЕТОЙ 493 Это дает возможность показать, что даже если физическое ограни- чение на h не используется в задаче, максимальная высота h* > О, причем высоты h* можно достичь вдоль решения, скорость кото- рого все время положительна. Однако, если 7\ < т<рг, то мы рассмотрим жесткое ограничение на /г и сожжем столько топлива, сколько нужно для того, чтобы масса т уменьшалась до значения, при котором если возможно, и до тех пор, пока это значение не достигнуто, каждое управление, которое использует топливо, оптимально. Когда это значение достигнуто, задача принимает указанный выше вид, и мы тогда снимаем фа- зовое ограничение. Поэтому достаточно рассмотреть только слу- чай, когда Т1'^т,р1 без ограничений на h. Лемма доказана. Теорема 10. Рассмотрим системукак и выше, с началь- ным условием /г0 = о0 —0, М0 — тв—пц. Пусть T*(t) будет опти- мальной управляющей функцией, которой соответствует на оптимальном интервале [0, /•] решение (h*(t), Тогда на [0, /*], a T*(t) есть оптимальное управле- ние, удовлетворяющее всем ограничениям. Доказательство. Если т± = тв, т. е. топлива нет, опти- мальная высота h* = 0. При этом также t* = 0. Если т2 < та, то h* > 0, и ясно, что t* > 0. Так как то i>(Z*)Z>0, где v*(t)—абсолютно непрерывное решение на интервале [0, /•]. Предположим, что о* (/) < 0 на некотором подынтервале поло- жительной длины из интервала [0, Г], и пусть t3 и t3—концевые точки этого интервала, т. е. о*(/)<0 при tG(t3,t3); o*(Q = =t>*(f8) = O, a o*(Z)^0 при t € [/3, £*]. Ясно, что Af*(/2)^Af*(Z3)^0. Так как о*(/)<0 на интервале (t2, t3), то h*(t3) Пусть — М*(/3) = р. В точке (h*(t2), v*(/2) = 0, выберем управляющую функцию T(t) = Tl для интервала времени [/2, /3] такой длины, чтобы (Tjcj (t3—f2) = ₽. Очевидно, что W3, v(U>0, h(T3y^h*(t3)^h*(t3) и M(T3) = M(t3). На интервале [/8, /•—(t3—/3)] выберем управление Т (t) таким же, как и в доказательстве леммы, с соответствующим сдвигом во времени. Так как о*(^)^0 на_ интервале [/3,/*], на интервале [#8, fx], (t1 = t*—(t3—13)), то как и в лемме 1 находим, что h (/J > h* (t*), t*, что противоречит оптимальности управ- ления Т* (t). Теорема доказана. Необходимые и достаточные условия оптимальности управления Теперь сформулируем задачу в стандартной форме с тем, чтобы мы могли воспользоваться результатами главы 5 относительно необходимых условий оптимальности. Различные свойства опти- мального управления будут описаны ниже.
494 НЕКОТОРЫЕ ОСН06НЫЁ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ гл. 7 Рассмотрим систему — у dv Г Bq (р) e~gA dm _____Т (\<?Т<?Т dt ~V’ dt m C1’ dt ~ c2 ' где предполагается, что лобовое сопротивление имеет вид D0(o)e-aA (D0(u)£C2), и, кроме того, удовлетворяет условиям 1) и 7) пре- дыдущего раздела. В дальнейшем мы предположим также, что: о. fd2Dn । 1 dD0 I । Dn . n . n 8) v 11^+77 1TJ +7Г>0 ПРИ v>0; С1 ИС2—положи- тельные постоянные. Мы выбираем начальные условия h (0) = = v (0) = 0, m (0) = m0 и накладываем ограничения h 0, v 0, 0 < mi m т0. Предполагается, наконец, что Тх > m^ (см. рассуждения, предшествующие теореме 10). Выпишем соответствующую функцию Гамильтона (см. главу 5) Я Oh, Th. т)3, h, v, tn, T) = r)xt» + т|2 [Г~Р^Р) • — —^1] + Пз [ —£] • Сопряженная система дифференциальных уравнений имеет вид 4 = — n2^-D0(g)e~aft, . dD0(t>) М) Т]2 = -Я1 + Т12-^—, Пз = т]2^[Т—Do (»)*"“*] • Пусть /х—время, за которое достигается максимальная высота. Тогда имеют место следующие граничные условия (см. главу 5): т)1(0) >0. т]201) = 0, ti,0x)>0, /и 00 > "in "01)>°. ^0x)>0. Определим функцию переключения по формуле ^=[т)2~Т18^-]. Из принципа максимума следует, что если Т (/) есть максималь- ная управляющая функция на интервале [0, /х], то для почти всех t из интервала [0, 0], Т (0 = Тх, если W (0 > 0, ТО) = 0, если W (0 < 0, 0<Т(/)^Тх, если W(t) = G. Подынтервал [|х, |2] интервала [0, /х], на котором максимальное управление Т (t) равно нулю, мы будем называть интервалом, дрейфа; если W 0) > 0 на [|х, £2], то мы назовем [|х, |2] интерва- лом полной тяги; и, наконец, интервал, на котором W = 0, будем называть интервалом переменной тяги. Отметим, что W (t) есть сумма некоторого числа абсолютно непрерывных функций. Кроме того, Н = 0 вдоль максимального решения v(t), m(t)),
ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ МЕТЕОРОЛОГИЧЕСКОЙ РАКЕТОЙ 495 ^€[0Л1]> и не обращающееся в нуль решение сопряженной си- стемы является абсолютно непрерывным на интервале [О, /ж]. Обозначим для удобства Е = + mci = 'k(v)e~ah—mct, где Отметим, что условие 8) для силы лобового сопротивления тогда принимает вид ^>0 при а > 0. dv r Далее, Л (0) — 0, так что % (о) > 0 при_ о > 0. Теорема 11. Рассмотрим систему £?, удовлетворяющую усло- виям 1)—8) предыдущего раздела с начальными условиями й(0) = = v (0) = 0, т (0) = та. Пусть T(t) (0 / С /х) есть оптимальная управляющая функция, которой соответствует решение (h(t), v(t), т (t)), удовлетворяющее ограничениям h (f) 0, v (f) 0, тЛ '^m(t')'^mx (0 Тогда существует е > 0 такое, что IF (/) > 0 для t G (0, б), т. е. интервал управления начинается с интервала полной тяги. Доказательство. Для того чтобы скорость и высота оста- вались положительными (при Тх > тос}) для t С [0, t х] необходимо, чтобы оптимальное управление было строго положительным (Т (0 > 0) на некотором компактном подмножестве Тч положитель- ной меры из интервала [0, 8Х] для малого ег > 0. Допустим, что W (/) = 0 на [0, е2] для некоторого 82 > 0. Тогда ^- = 0 на [0, 82] (вычисляем производную на внутренней части интервала), т. е. ___Ln । п 1 РДое-аЛ I Pofr)e~aft т т2 \_dv е + с2 на интервале [0, е2]. Из условий, что Я==0, IF(0) = 0 и IF(0) = 0, получим, что т)х (0) = Ла (0) = Пз (0) = 0- Это противоречит тому факту, что сопряженное решение в нуль не обращается. Следо- вательно, W (0) =/= 0 при W (0) = 0. Очевидно, в этом случае из условия W (0) > 0 следует положительность функций v, h. [(IF (/)) является также абсолютно непрерывной функцией на интервале [0, /х].] Таким образом, если JF(O) = O, то W (0) > 0, и существова- ние нужного нам 8 > 0 гарантировано. Случай, когда W (0) < 0, противоречит условиям положитель- ности функций ft и о, а [случай, когда W (0) > 0, обеспечивает существование нужного отрезка времени (0, е). Теорема доказана.
496 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Пусть момент времени 2 таков, что mv с2 Если t^i, то оптимальное управление, очевидно, надо выбрать таким: Т (t) = Тх при 0 < t sC tx и оптимальное время /х =7. Мы теперь рассмотрим случай, когда t > t. Следующая лемма необходима для дальнейшего исследования свойств оптимального управления. х Лемма 2. Рассмотрим решение (лх(0» т]2 (/), Лз (0) сопряжен- ной системы уравнений Л, записанной выше, которое соответствует допустимому управлению Т (t) на интервале [0, ^]. Пусть v(i), m(t)) есть порожденное управлением T(t) решение системы <sf, где при t С [0, /х]. Пусть, наконец, сопря- женное решение удовлетворяет граничным условиям т]х (Q = k± > 0, Лз(О = 0> Лз (О > 0- Тогда т|2 (/) > 0 при t £ [0, /х]. Доказательство. Допустим, что т|2(Q = 0, t2 < tv Рас- смотрим сначала случай, когда т^ (t2) > 0. Но тогда т]2 (/2) = = — Лх (Q < 0 и т]х (/») = 0- Эт° означает, что функция т]х (/) долж- на стать отрицательной на интервале [Z2, /х) и т|2(/) отрица- тельно в' той же самой точке. Таким образом, мы должны рас- смотреть только случай, когда Лх (^) < 0 ПРИ Л2 (Q 0. Когда Ла (0 > 0» Лх (0 0- Так как гц (^х) > 0> то необходимо, чтобы функция Лх(О стала положительной раньше, чем л2(0- Но тогда Ла(0 < 0 и функция т|2 (t) не сможет достигнуть конечного значения Л2(^х) = О- Таким образом, если требуемое решение системы Л существует, то Ла (0 > 0 на интервале [0, fx). Лемма доказана. Укажем теперь некоторые свойства оптимальной траектории, которые будут использованы для построения оптимального управ- ления в рассматриваемом ниже примере. Теорема 12. Рассмотрим приведенную выше систему §f, удов- летворяющую условиям 1) — 8), с сопряженным решением, удовлетво- ряющим граничным условиям леммы 2. Пусть Т (t) (t $ [0, fx]) есть оптимальная управляющая функция и (h. (t), v(t), т (/))—соот- ветствующее решение, удовлетворяющее граничным условиям v (0) = = h (0) = 0, т (0) = тй и фазовым ограничениям h (t) 0, v (/) 0, m(/)^/nx при t С [0, /х]. Тогда переключение с интервала полной тяги на интервал дрейфа возможно только после того, как исчер- пается топливо (m(t) = m^, т. е. если W (t) > 0 для [£х, /2) и для tj), то т(1^ = тг. Доказательство. В точках переключения с интервала полной тяги на интервал дрейфа абсолютно непрерывная функция переключения W (t) должна обращаться в нуль. Так как (t) > 0
7.2 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ МЕТЕОРОЛОГИЧЕСКОЙ РАКЕТОЙ 497 всюду, за исключением конечного момента времени, то из леммы 2 следует, что ЁЕ = Л1Ё<'0 dt mav в точках переключения, т. е. Е 0. В течение интервала дрейфа т = 0, v < 0 и ^=к(о)е~аЛо—aX(v) e~a/lh = [Ji(t>)u—а%(о)о] е-вА < 0. Таким образом, dW/dt < 0 при t, не совпадающим с моментом переключения, так что величина W (t) никогда не может стать положительной. Осталось воспользоваться принципом, который гласит, что во время оптимального движения все топливо исполь- зуется. Теорема доказана. Следствие. Переключение с интервала переменной тяги на интервал дрейфа может иметь место, только если топливо израс- ходовано. Последний результат этого раздела устанавливает, что если максимальная сила тяги достаточно велика, то оптимальная про- грамма управления допускает не более двух переключений. Теорема 13. Рассмотрим систему & из теоремы 12. Если Л > (асЦс^ % (с2 log (mo/mj) log (mJ mJ, то интервал оптимального управления состоит из интервала пол ной тяги при W > 0, за которым следует интервал переменной тяги W = 0, а затем интервал дрейфа-, или из интервала полной тяги, за которым следует интервал дрейфа-, или только из ин- тервала полной тяги, когда (сила тяги может принимать максимальное знамение лишь на интервале переменной тяги, как это отмечено ниже.) Доказательство. В соответствии с предшествующими ре- зультатами требуется только проверить невозможность переключе- ния с интервала переменной тяги на интервал полной тяги. Сна- чала мы установим ограниченность достижимой скорости. Из неравенства и граничных условий следует, что fmax<cjog(^)=0. При переключении в момент ts с интервала переменной тяги на
498 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 интервал полной тяги Е = 0. На интервале полной тяги v > 0 и ^ = е~«л —aX(»)v4-eeA^-c1j > 0, если 7\^ (3—h(v)v. Но тогда dW/dt > 0 для t^ts, и так как IF (G) = 0, то величина W (/) не может уменьшиться до требуемой граничным условием 117 <'.)=[5гт-1- «>]< °- Таким образом, переключение с интервала переменной тяги на интервал полной тяги невозможно. Теорема доказана. Замечания. Требования на 1\ в условиях теоремы 13 можно ослабить [см. Munick]. На интервале переменной тяги W (t) == 0, так что оптимальное управление должно иметь такой вид, чтобы Е (t) = 0. Отсюда следует, что А, (у) [Do (v) е~ + amvi. (у) к (») + (ciM me*h Дальнейшие подробности и другие варианты этой задачи можно найти в работе Мьюник’а [Munick], Численный пример для задачи Годдара На рисунках 7.14 и 7.15 мы построили решения для четырех различных программ силы тяги, отмеченных цифрами 1, 2, 3 и 4 т(0 1 Рис. 7.14. Кривые высота — скоростьвзадаче Годдара при лобовом сопротивлении D (и, для силы лобового сопротивления £)0 (и) e~ah, где Do (v) — v2 и a = 1. Обращаем внимание читателя на увеличение максимальной вы-
7.3 уПравлёниё угловой скорбсТыб Твердого тёлА 499 соты, достигнутое путем перехода от программы «полная сила тяги до момента сгорания всего топлива» к программе 4, которая близка к оптимальной программе (см. упражнение 4). Упражнения 1. Показать, что для атмосферы постоянной плотности D(v, h) = Dt(v) вывод теоремы 13 имеет силу и без требований на 7\. 2. Вычислить оптимальную программу изменения силы тяги для типовой метеорологической ракеты для случая, когда сила лобового сопротивления резко возрастает с приближением скорости ракеты к скорости звука. Рис. 7.15. Сравнение высот в задаче Годдара для программ силы тяги 1—4. 3. Доказать существование оптимального управления для системы ура в нений <^0 при условии, что функция D(v, h) кусочно-дифферёнпируема и vD(v, (см. теорему 4 главы 4). 4. Пополнить совокупность программ изменения силы тяги построением оптимального решения в численном примере для задачи Годдара, которая была рассмотрена выше в тексте. 7.3. Управление угловой скоростью твердого тела Рассмотрим твердое тело в инерциальной системе отсчета, сво- бодное от всех внешних неинерциальных сил. Пусть <лх, ау, <ог есть компоненты угловой скорости тела относительно жестко свя- занных с телом осей х, у, г прямоугольной системы координат, проходящей через центр тяжести, и пусть через /х, /у, 1г обо- значены главные моменты инерции (положительные действительные числа). Предположим, что мы можем приложить к телу вращаю- щие моменты при помощи управляемых газовых струй. Обозначим эти моменты через их, иу и иг в зависимости от осей, относительно которых они действуют. Уравнение движения Эйлера для этой задачи имеет такой вид: Ас®* = ®у®г (1 у h) “Ь ^*Ц*> (Q) 1уйу = (0гах (I2—Ix) + byuy, I z^z = ®*®у (Ас—Iу) + Ьгиг,
500 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 где Ьх, Ьу, Ьг—положительные константы. Естественно предполо- жить, что сила, с которой управляющие газовые струи действуют на твердое тело, ограничена. Мы^рассмотрим два случая. 1) Для каждой оси имеется пара управляемых струй, создаю- щих независимые вращающие моменты для каждой оси, причем |u, | 1, 1 = х, у, г. 2) Имеется в распоряжении только одна пара управляемых струй, но газовые сопла могут быть установлены под любым углом относительно твердого тела. Наложенное на управление ограни- чение принимает вид || и ||2 — их -|- и# + ul 1. Задачей управления является остановка вращающегося объекта оптимальным способом, в частности, требуется дать синтез управ- ления с обратной связью, который обеспечивал бы оптимальное управление для каждой начальной угловой скорости. Оптималь- ность будет выражена в терминах наименьшего затраченного вре- мени, или минимального расхода топлива или энергии в течение заданного интервала времени. В следующем разделе мы рассмот- рим задачу о существовании оптимальных управлений. Существс^ание оптимальных управлений Рассмотрим упомянутую выше систему уравнений Q с началь- ной угловой скоростью (<олО, <ву0, в момент t = 0. Мы сначала покажем, что в каждом случае, 1) или 2), существует допустимое управление, переводящее систему Q с начальными условиями (<ох0, <о>о, шг0) вдоль траектории (©*(/), (0» ®«(0) в точку (0, 0, 0) в течение конечного промежутка времени. Положим J = и построим синтез управления с обрат- ной связью: 1 al^x 1 alyOty 1 alz^z U* T b*.!'1*-' Uy ~2 byj'/> ’ U*~ 2bzJ4*' где [ b% by bg 1 a=mini77;’ 7^’ 74* V x Z J Очевидно, что 1 и |ux|^l, |«х1г^==1» Вычислим dJ[dt вдоль решений системы Q при указанном выше управлении с обратной связью: __1^а Пусть W — Тогда = — -i-а (при W7 >0). Таким образом, величина W (I) для каждого заданного начального условия приво-
7.3 УПРАВЛЕНИЕ УГЛОВОЙ СКОРОСТЬЮ ТВЕРДОГО ТЕЛА 501 дится к нулю за коренное время и то же имеет место для J = IFa. Вследствие неотрицательности величины J соотношение J = 0 озна- чает, что а>х = блу = а>г — 0. Теперь надо показать, что каждое решение системы Q при ограничениях 1) или 2) является равно- мерно ограниченным на каждом конечном отрезке времени [0, т]. Рассмотрим указанную выше функцию J. Для этой функции ~ ыхЬхих -|- (itybyUy (игЬгиг. Очевидно, что при некотором постоянном у(О^у< оо), если мы примем во вни- мание ограничение 1), которое содержит в себе ограничение 2) и, следовательно, 0</(/)<№+<:)• для некоторой константы с(0^с < оо). Таким образом, каждое решение, начинающееся в точке (сохО, ®у0, ®z0), является равномер- но ограниченным на каждом конечном интервале времени 0 t т. Ясно, что в рассматриваемом случае для задачи оптимального бы- стродействия выполняются условия выпуклости и непрерывности теоремы существования 4 главы 4. Только что мы как раз пока- зали, что всегда имеется допустимое управление, переводящее каждое начальное состояние в начало координат за конечный от- резок времени и что все решения равномерно ограничены на каждом конечном интервале времени. Это имеет место даже в рас- ширенном фазовом пространстве, когда добавляется координата времени—критерия качества. Таким образом, существование управления, оптимального по быстродействию, установлено при любом из ограничений 1) или 2). Задача минимальной затраты энергии, которую мы теперь рас- смотрим, есть задача приведения системы Q из начальной точки (cox0, ®>0, <огО) в точку (0, 0, 0) за время Т, где Т — фиксиро- ванное конечное число, при помощи управления, доставляющего минимум критерию качества т 4(T)=4jii«(oiM. о Задача минимизации топливаг) аналогична этой задаче, за исключением того, что критерий качества здесь другой, а именно, т *°(Т) = $||«(/)И. ______________ о х) Используемые здесь термины «топливо» и «энергия» могут не соответ- ствовать обычным физическим понятиям топлива и энергии.
502 НЁКОТОРЫЁ ОСНОЁНЫЁ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. ? Если добавить координату качества х! (или х°), соответствующую значению критерия качества, к основной системе, то предположе- ние нашей основной теоремы существования 4 главы 4 о выпукло- сти нарушается. Однако обе координаты качества как в случае 1), так и в случае 2), удовлетворяют теореме существования из упраж- нения 2.2 главы 4. Мы уже установили существование равномерно ограниченного основного решения (/), &>у (/), сог (/)) на каждом ко- нечном интервале времени, и легко видеть, что координаты ка- чества также являются ограниченными, если учитываются огра- ничения 1) или 2). Таким образом, оптимальные управления топливом и энергией существуют, если основной интервал времени (О, Т) является по крайней мере столь же большим, как и время, требуемое для перехода системы из состояния (wx0, <в^,0, <ого) в состояние (0, 0, 0) в задаче оптимального быстродействия. Мы далее рассмотрим только задачу оптимального быстродей- ствия для иллюстрации применения изложенной теории. Задачи минимизации расхода топлива и затраты энергии можно тракто- вать аналогичным образом, и мы предпочитаем их решение оста- вить читателю в качестве упражнений. При этом мы обращаем внимание читателя на теорему существования из упражнения 2.2 главы 4. Синтез управления, оптимального по быстродействию Рассмотрим приведенную выше систему уравнений Q при огра- ничении на управление u*+ С 1, и предположим, что Ьх = = b9 = b3, т. е. что воздействие управляющего фактора на систему одинаково в каждом направлении. Мы теперь непосредственно покажем, что решение задачи оптимального быстродействия при ограничении 2) дается следующим выбором управления с обратной связью: Ux=~m^' = Uz где Очевидно, что «Г+ «7 + “Г Cl- Легко показать, используя неравенство Шварца, что 1 dt 1 вдоль любого пути при упомянутом ограничении 2) на управление. Более того, если используется управление и*, то dM*11* _ . dt ~
7.3 УПРАВЛЕНИЕ УГЛОВОЙ СКОРОСТЬЮ ТВЕРДОГО ТЕЛА 503 / и и* переводит систему в начало координат за конечное время, как показывает исследование, аналогичное проведенному в пре- дыдущем разделе. Сравнивая упомянутые выше дифференциальные неравенства, можно вычислить время, соответствующее указанно- му управлению с обратной связью. Таким образом, максималь- ная амплитуда оптимального управления равна единице, а вектор оптимального управления прямо противоположен вектору кинети- ческого момента (1х<лх, 1уа>у, 1г<лг). Более общие задачи, называемые задачами с инвариантной нормой, можно исследовать таким же образом, как упомянутую выше задачу оптимального быстродействия при ограничении 2) (см. упражнение 1). Обратимся теперь к методу построения синтеза управления с обратной связью для задачи оптимального быстродействия при ограничении 1), т. е. когда |ux|^l, | иу | 1, | иг\1. Для про- стоты предположим, что твердое тело обладает центральной сим- метрией, а именно, 1х = 1у. Для этого случая, когда первые два главных момента инерции равны, уравнения Эйлера принимают вид (Q$) == а<йу<йг “j- fixMx> фу “ Ч” Ру^у > Рг^г» где а=(1у—1г)1х и рх = ^, = ₽г = ^. Как и в главе 4, определим гамильтониан И = Pi [“®у+ РлЧ + Л2 [—а“х<йг + $уиу] + т)8ргиг, где вектор-функция (т]х> т]2, т)3) удовлетворяет системе дифферен- циальных уравнений дН f • дН дН Лз = ~д^г = —ао)уЛ1 + ао)Л- Первый интеграл этой системы имеет вид rjJ -|- = с, а так как функции Лх> Ла» Лз входят в Н линейно, то предположим, что | т)1 (0) I +1 Лз (0) | -Н Лз (0) I = 1 • Это условие не меняет распо- ложения нулей функций л ДО, t = 1,2,3. Принцип максимума устанавливает, что если управление (их(0> Ыу(0, ыг(0) оптимально, то оно должно максимизировать функцию Н. Поэтому для известных ®Д0, Л/(0 ( 1, если Л/(0>0, j —1, если г), (/) <, 0, i==x, у, z, или 1, 2, 3,
504 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Таким образом, управление u(i) = (ux(t), uy(t), uz(t)) вполне определяется вектором ч(0 = (Л1(0> Лз(0> ЛзСО) в любой момент времени, в который все координаты вектора т) (t) отличны от нуля. Таким образом, оказывается, что нули функций rji (0» Лз (0> Пз(0 играют специальную роль в определении максимальных управлений. Если общее время, в течение которого вектор т](0 обращается в нуль, имеет меру нуль, то управления определены почти всюду. Рассмотрим теперь систему уравнений Л. Предположим, что "Пх (0) — Лз (0) = 0; тогда из соотношений tj^O, т)2 = 0, т]3 = 0 сле- дует, что т]1(^) = 0, т|2(/) = 0, т|з (0= 1 или —!• Эти соотноше- ния определяют лишь управление и2(/), а этого недостаточно. Тем не менее, и в этом случае есть метод, который можно исполь- зовать для построения оптимальных траекторий, ведущих В на- чало координат. Заменим t на — t в системах Qs и Л и выберем в качестве начальных условий точку <вж (0) = соу (0) = ©г (0) = 0. При этом вектор (^(О), Лз (0), “Пз (0)) выберем так, чтобы I(0) | +1 Лз (0) | +1 Лз (0) | = 1. Рассмотрим далее решение уравне- ний Qs к Л на интервале при максимальном управле- нии. П^и t, изменяющемся от 0 до т, точка (®х(/), ©у(0» ®г(0) описываег специальное множество точек, называемое максималь- ной траекторией. При всевозможных значениях вектора (i)x (0), Лз (0), Лз (°))> подчиненных условию | -rji (0) | +1 Лз (0)1+1 Лз (0)1 = 1 > получаются все максимальные траектории, проходящие через на- i чало координат. Среди этих максимальных траекторий содержатся оптимальные траектории. Поэтому, если имеется лишь конечное число максимальных траекторий, соединяющих заданную точку с началом координат, из них можно выбрать оптимальную траек- торию. Вдоль этой оптимальной траектории управление известно, и может быть выражено как функция переменных (<вх, ау, <ог); эта функция и является искомым управлением для всех точек, которые лежат на рассматриваемой траектории. Если найдено плотное множество непересекающихся оптимальных траекторий, то [оптимальное управление известно почти всюду. Это и есть информация, требуемая для вычисления управляющей функции с обратной связью. Этот метод (метод попятного движения) ис- пользован при нахождении управления с обратной связью в разделе 7.1. Вернемся теперь к определению максимальных управлений, в случае, когда 111(0 = 0» Л»(0 = 0» Лз (0 — 1 или —!• Для опре- деленности рассмотрим случай, когда Лз (0=1. Взяв в качестве начальной точки точку сох (0) = (0) = (0) = 0 и перебрав все управления и — (их, иу, иг) вида и2(0=1 и |иж(0|^1, | иу (01 ssC 1 определенные на интервале tt t 0, получим неко- торый конус К, состоящий целиком из соответствующих траекто-
7.3 УПРАВЛЕНИЕ УГЛОВОЙ СКОРОСТЬЮ ТВЕРДОГО ТЕЛА 505 рий. Легко показать, что этот конус непрерывно увеличивается при ty—>-х. Очевидно, что первое значение t* переменной време- ни tt, для которого точка (®х, ау, <ог) находится в этом конусе, определит наименьший интервал времени для обратной задачи — задачи перевода начальной точки в начало координат. Так как uz.(t) должно быть равно +1, то в качестве ux(t), uy(t) можно взять любые допустимые управления, удовлетворяющие ограниче- ниям |мх(/)|^1, |пу(/)|^1 и переводящие точку (<лх, а>у) в точку (0, 0) на интервале (/*, 0). Нетрудно показать, что точка (сох, <лу, <вг) лежит внутри некоторого меньшего конуса, который получится, если на некотором интервале [/в, 0] использовать управления их (t) = и„ (/) = 0, а затем любые допустимые управле- ния на интервале [г, /в]. Для плоского случая (<ох, <оу) можно показать, что если их (/) — = uy(t) — Q на интервале [/„, 0], то при /£[£*, ta] в качестве ux(t) и uy(i) можно взять релейные управления, которые един- ственным образом определяются значением вектора т|1(0» Ла (0» если IMQI+haO > 0. Неединственность выбора оптимального управления в общем слу- чае объясняется, грубо говоря, тем, что в силу самого характера исследуемой трехмерной системы сог может оказаться настолько большим в сравнении с <оу и ®г, что для приведения а. к 0 тре- буется гораздо больше времени. В этом случае задача распадается на две, по существу, независимые: а) приведение тг к 0; б) приве- дение <вх и (ду к 0; результирующую задачу можно решить, ре- шая задачи а) и б) последовательно; при этом некоторая неопти- мальность полученного на первом этапе управления может быть скомпенсирована соответствующим выбором управления на вто- ром этапе. Посмотрим, при каких еще значениях координат r)z соответст- вующее управление определяется неединственным образом. Пред- положим, что функция 1^(0 на некотором интервале обращается в нуль; следовательно Тогда или т)з(0 — 0, или Если ®z = 0. то ®2 = 0 = Ргиг и, следовательно, Лз = 0. Но тогда -п3 = 0, т. е. = <охт)а и sgnTi2 = Пзру sgn 1] i, что, как легко показать, невозможно. Если 1% (I) = 0, то г|2 (/) ss 0 и, следовательно, i]2(0s0, и так как |т)3|= 1, то мы пришли к случаю, рассмотренному ранее. Предположим, наконец, что Лэ (0 = 0; тогда т|з (/) ss 0 и = <oxi)2, что невозможно. Таким образом, вектор Лз(0» Лз (0] определяет управление не единственным образом, лишь когда t|i (0) = Лз (0) == 0, т. е. в ко- нусе, описанном ранее. Поэтому в качестве оптимального управ- ления их и иу может быть выбрано релейное управление, а выше
506 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ гл. 7 было показано, как оптимальное управление можно определить экспе риментально. Мы не будем далее продолжать этот анализ. Выше было ука- зано, как можно найти оптимальные траектории, и если эта ин- формация получена, она может храниться при помощи, например, логической схемы (см. [Смит], где описана соответствующая про- цедура). Остается еще вопрос, не проходят ли две максимальные (или оптимальные) траектории через одну и ту же точку. Ниже в упражнениях приводится пример системы, для которой имеются начальные точки, через которые проходят две оптимальные траек- тории. Упражнения 1. Рассмотрим систему нелинейных дифференциальных уравнений (в век- торном обозначении) (<Л х=/(х, /) + «(0 в /?«, с ограничивающим множеством Q с: Rm v Q: || и || «С k для некоторого k > 0. Здесь ' т и« па= 2 («О2- i=l Предположим, что указанная выше система обладает тем свойством, что все решения однородного уравнения х = /(х, 0 лежат на сфере в т. е. II * (Olli = IIх (°) II Для всех t 0. Требуется рассмотреть задачу наискорейшего попадания в начало координат и показать, что оптимальное по быстродействию управление с обратной связью имеет вид где х (/) есть текущее состояние системы. 2. Рассмотрим систему Q уравнений движения Эйлера для твердого тела в свободном пространстве. Предположим, что 1х£1у£1г и что угло- вая скорость (&х (t) может быть измерена на интервале [ 0, /J, (t^ > 0) гиро- скопическим прибором. (а) Показать, что если i = xt у, z на интервале [0, /J, то не- возможно вычислить Щу(0), (дг (0), зная (dx(t) на интервале [0, /х]. (Ь) Показать, что если на интервале [0, /х] н/ = 0, а на интервале [/х, /2] «/(0 = ^, где ki # 0, (0 < ^ < /2, i = x, у, z), то можно определить оба числа (0) и (0), если известна система Q и («(/), wx(^)) на интер- вале 0<^/2.
7.4 ОПТИМАЛЬНАЯ АСТРОНАВИГАЦИЯ 507 7.4. Оптимальная астронавигация ✓ Мы рассмотрим задачу управления на расстоянии ракетным кораблем в межпланетном пространстве при минимальной затрате топлива. В типичной задаче такого типа требуется привести корабль из начального фазового состояния (положение, скорость) в Солнечной системе в некоторое предписанное фазовое состояние (цель). Это—общая задача встречи при (или без) предписанной продолжительности полета. Такая общая задача пока не решена сколько-нибудь эффективным способом, и мы упростим эту задачу так, что элементарное, но важное решение можно будет вычислить. Мы будем искать управление, переводящее корабль с одной эллиптической орбиты Кеплера на другую при минимальном удель- ном импульсе. Никакого ограничения на место или время встречи не накладывается. Будем рассматривать лишь орбиты, располо- женные в одной фиксированной плоскости, содержащей Солнце в начале координат (х, у). Мы рассмотрим эллипсы, один фокус которых фиксирован (совпадает с Солнцем), а другой фокус лежит на заданной линии—оси х. Таким образом, каждый такой эллипс полностью определяется двумя действительными параметрами f и I (движение по всем эллиптическим траекториям происходит так, что радиус-векторы движущейся точки вращаются в одну и ту же сторону), где f—“-абсцисса второго фокуса (—оо < f < оо) I—длина большой оси (/>0). Обычные параметры эллипса Круговые орбиты соответствуют значению f = 0 (эксцентриситет е = 0) и имеют диаметры, равные I. Мы будем считать допустимыми только импульсные силы тя- ги, которые направлены по касательной вдоль эллиптической орбиты точно в моменты прохождения через перигелий или афе- лий. Каждое такое импульсное управление изменяет эллиптиче- скую орбиту заданного типа на новую эллиптическую орбиту рассмотренного типа. Таким образом, допустимое управление со- стоит из конечной последовательности импульсов силы тяги, ка- сательных к орбите в чередующихся точках пересечения положи- тельной и отрицательной полуосей х. Критерием качества каждого допустимого управления будем считать сумму всех удельных импульсов, т. е. сумму модулей всех изменений скорости. Представим каждую орбиту Кеплера с заданными параметрами в виде точки на верхней полуплоскости с декартовыми координа- тами f, / > 0. Тогда каждое управление можно представить в виде конечной последовательности точек в этой птоскости, или в виде ломаной, соединяющей начальную и конечную орбиты.
508 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Если орбита имеет координаты f > 0, I > 0, то сила тяги (направленная назад или вперед) в афелии (в момент перехода при х>0) сохраняет афелиальное расстояние (l + f)/2. Анало- гичная проверка всех возможных случаев приводит к заключению, что силы тяги при х>0 не меняют величины (/4-/)/2, а силы тяги при х < 0 не меняют величину (I—f)/2. Поэтому ломаная, изображающая любое допустимое управление, должна состоять из чередующихся сегментов с тангенсом угла наклона —1 и 4-1 в плоскости (f, I). Перейдем теперь к вычислению критерия качества для каждой такой ломаной, характеризующей управление. Как следует из за- конов небесной механики, орбиты Кеплера описываются решениями уравнений Ньютона х- ~kx й- ~ky х— гз > У— гз где k есть гравитационная постоянная. Уравнение орбиты в по- лярных координатах (г, 0), как известно, имеет вид _ h*lk Т 1-,-ecos 6’ где \ h* = ka(\ — в»), а г«0=Л. Скорость в перигелии (орег) удовлетворяет уравнению j-^aPer—'t> откуда ирег— У I У Далее, - л/?* i/ЕЗД ’Р”- V I У H-I/I ’ где vaj)h—скорость в афелии. Рассмотрим силу тяги при х > 0. Если f > 0, то это соответствует афелию и удельный импульс есть В перигелии (f < 0) удельный импульс вычисляется по формуле Тем самым удельный импульс вычисляется в обоих случаях по одной и той же формуле. Поэтому сила тяги в точках, где х > 0, соответствует отрезку ломаной с угловым коэффициентом —1 и критерию качества, равному модулю приращения величины
7.4 ОПТИМАЛЬНАЯ АСТРОНАВИГАЦИЯ 509 y2kllV(l—+ на этом отрезке. Аналогично силе тяги в точ- ках, где х < 0, соответствует отрезок ломаной с угловым коэф- фициентом + 1 и критерий качества, равный модулю приращения величины ]/2£/Z]/\Z + f)/(Z—f) на указанном отрезке. В качестве примера применения нашей теории рассмотрим переход с одной из двух заданных эллиптических орбит (f0, /0) на другую (fx, Zx) под действием двух импульсов. Это управление Рис. 7.16. Импульсное управление для перехода с одной эллиптической орбиты на другую. изображается ломаной, состоящей из двух отрезков. Имеются два варианта такого управления (см. рис. 7.16, на котором (f, Z) координаты повернуты на 45°). В случае, когда f0 — f\ = 0, т. е. когда начальная и конечные орбиты — круговые, обоим вари- антам соответствует одно и то же значение критерия качества (в силу симметрии) и такое управление называется преобразова- нием орбит Гомана (Hohmann). Мы вычислим критерий качества для преобразования орбит Гомана между круговыми орбитами диаметров 10 и Zx > Zo. Единственная промежуточная орбита Гомана есть эллипс с f = (Zx—Zo)/2 и Z = (Zx4-Z0)/2, который касается на- чальной и конечной окружностей. Первому отрезку (для х < 0) соответствует критерий качества До = /{1 _ _/‘2fe ’ !<> а второму (для х > 0)—критерий качества
510 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Если отношение диаметров = р > 1, а масштаб времени выбран так, чтобы начальная орбитальная скорость была единицей то суммарное значение критерия качества равно (3 \ у] =0,18, С(2) = = 0,29. Орбитальное изменение 1 < р < 2 имеет относительную важность в теории преобразования орбит Гомана, так как ниже мы покажем, что если 1 < р < 2, то преобразование орбит Гома- на является оптимальным управлением перехода между двумя круговыми орбитами. Заметим для дальнейшего, что производная критерия качества равна dC = уГ 1______________1 _ (2р-Ц) dp г 2р (i + p)3/, 2рГр Kziplp+l)]’7’’ и при > 1 < р < 2 величина суммы первого и последнего членов ’ dC п превышает величину второго члена, так что > 0. Для р = 12 имеем С (12) = 0,534. Сравним это значение со значением критерия качества для управления, составленного из трех импульсов силы тяги: сначала очень большой силой тяги при х < 0, затем малой тягой при х > 0 и, наконец, большой тягой при х < 0. Вначале это управление переводит ракетный корабль с первой круговой орбиты на очень вытянутый эллипс, затем на эллипс, незначительно измененный по сравнению с предыдущим и касающийся последней круговой орбиты. На третьем этапе корабль замедляется и переходит на последнюю круговую орбиту. Маневр этого типа можно выбрать, чтобы дать сколь угодно хорошую аппроксимацию параболическому выходу с первой окруж- ности, оценить поведение критерия качества на бесконечности и аппроксимировать параболическое возвращение на желаемую кру- говую орбиту. Учитывая, что скорость параболического перехода всегда в V 2 раз больше круговой орбитальной скорости, мы можем вычислить значение критерия качества для этого управления, состоящего из трех импульсов силы тяги: С.(12) = [Г2-1]+0+[/2 У^-]/^]= 0,533. Для произвольного значения р > 1 этот переход, состоящий из трех импульсов силы тяги, дает вблизи бесконечности следующее значение для критерия качества: С® (р) = 0,414 [1 + j/p7p]- Поэтому
?А ОПТИМАЛЬНАЯ АСТРОНАВИГАЦИЯ 511 мы заключаем, что при 12 преобразование Гомана уже не является оптимальным управлением в классе допустимых импульс- ных управлений. Итак наша теория показывает, что круговой орбитальный переход из окрестности Земли в окрестность Венеры или Марса можно осуществить наиболее эффективно с помощью преобразования Гомана. Однако для перехода из окрестности Земли в окрестность Урана переход Гомана не оптимален. Мы теперь должны показать, что для малых отношений р > 1 переход Гомана является оптимальным. Нам будет удобно чертить графики в координатах (|, т|), где В координатах (£, т|) линия f = 0 переходит в прямую ц — Допустимые управления изображаются ломаными с горизонталь- ными и вертикальными звеньями и с критериями качества, вы- числяемыми в соответствии с изменением функций i /~ 4*5 н -|/~ V (5+ц)11 и V (£-Н))Г Таким образом, мы можем найти критерий качества, вычисляя криволинейный интеграл f V(1+ч)Ч V «+<*) drl' Рассмотрим совокупность всех допустимых траекторий, соеди- няющих точки 5о = т1о = А) и Si —’ll = = РА» каждая из которых лежит в секторе Любую такую траекторию можно заменить ломаной £ г] 2| без изменения критерия качества. Это следует из симметрии функ- ционала, с помощью которого определен критерий качества, отно- сительно линии т] = |. Далее, любую ломаную можно «улучшить» (уменьшить критерий качества), избавляясь от перемещений вниз при переходе из точки (|0, ц0) в точку (gx, цх). Это следует из монотонности критерия качества Д \/~ Л_________Гл! 5—2ц , п (6+П)Ч ~ L(£+n)3d 2g(g+t])«^u- Любой подъем ломаной над уровнем пх может быть устранен. Это следует из непосредственного вычисления, показывающего, что основанию любого прямоугольника соответствует значение критерия качества меньшее, чем сумме остальных трех сторон. Аналогично,
512 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 можно избавиться от горизонтального движения влево, подкоррек- тировав управляющую ломаную. Тем самым, каждую ломаную можно улучшить, заменив ее ступенчатой ломаной, всегда подни- мающейся вправо. Покажем, наконец, что каждую ступень ломаной можно выбрать так, чтобы соответствующее значение критерия качества было наименьшим. Мы вычислим значение критерия качества вдоль пути, составленного из левой вертикальной стороны и верхней стороны прямоугольника, и покажем, что оно меньше соответствующего значения вдоль пути, состоящего из нижней стороны и правой вертикальной его стороны. Чтобы это сделать, мы проверим, что <f> V<%+ 1/zt Лз dr] > О, J Г (1+ч)Ч У (S+n)sn где интеграл взят вдоль контура, обходимого против часовой стрелки и лежащего внутри некоторого углового сектора. По тео- реме Грина, этот криволинейный интеграл равен двойному интегралу по прямугольнику Л к V (g-Hn)8n “^1 Подынтегральное выражение имеет тот же самый знак, что и мно- гочлен q (А,) = А,3—2А,2 + 2Х— 1 = (А,— 1) (%г—X + 1), где А, — т] 11 лежит в интервале 1 < А < 2. Элементарное исследо- вание показывает, что q (А,) > 0 и, следовательно, каждую ступень нашего управления можно выбрать так, чтобы ей соответствовало вогнутое звено ломаной с наименьшим значением критерия качества. Поэтому оптимальное управление внутри сектора ygsg^T|^2£ совпадает с преобразованием Гомана, которому соответствует ломаная из двух звеньев: вертикального звена, соединяющего точку (|0, -По) с точкой (|0, Их)» и горизонтального звена, соединяю- щего точку (g0, -Hi) с точкой (£р ти). Ясно, что при 1 р 2 преобразованию Гомана соответствует ломаная, лежащая в задан- ном секторе. В заключение мы хотим показать, что на управлениях, которым соответствуют ломаные, лежащие вне этого сектора, критерий качества всегда принимает большее значение, чем на преобразо- вании Гомана, если р > 1 соответствующим образом ограничено. Рассмотрим любую ломаную, соответствующую допустимому управ- лению, ведущему из 5о = т1о = ^о к границе сектора. Пользуясь описанными выше приемами уменьшения значения критерия ка- чества, можно показать, что оптимальный путь является либо горизонтальным отрезком, либо вертикальным отрезком, либо
7.4 ОПТИМАЛЬНАЯ АСТРОНАВИГАЦИЯ 513 ломаной, состоящей из вертикального отрезка, за которым следует горизонтальный отрезок. Мы покажем, что для произвольной точки (I, п) сектора пути, ведущему из U, ц) вдоль верти- кальной прямой до пересечения с линией т| = 2|, соответствует не большее значение критерия качества, чем аналогичному пути вдоль горизонтального отрезка. Это наблюдение, вместе с заме- чаниями, сделанными раньше, позволяет показать, что оптималь- ным путем от точки |0 = г|0 = /0 до линии г) = 2£ является верти- кальный отрезок. Для этого надо доказать неравенство яри Подстановкой Х = это неравенство приво- дится к виду Умножая на VX получаем эквивалентное неравенство Кз /ПТ Возводя в квадрат и упрощая, получаем 2/2Х<2 + Х или (|/Т— /2)2>0. Поэтому значение критерия качества для вертикального отрезка, ведущего к прямой ц = 2£, не больше соответствующего значения для горизонтального отрезка, ведущего к той же прямой. Теперь легко вычислить минимальное значение критерия ка- чества для управления, которое выводит точку |0 = т]0 — /0 на границу основного сектора, и затем переводит ее в точку = = = р/0. Это суммарное значение должно превосходить (если положить 2£//0=1) величину Заметим, что Ся (2) 2^ 0,26 и Ся(р) есть убывающая функция от р. Мы показали, что С(р)<Ся(р) при 1 <р< 1,8. 17 э. Б. Ли, Л. Маркус
514 НЕКОТОРЫЕ ОСНОВНЫЕ НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ГЛ. 7 Это неравенство есть наш главный результат. Оно означает, что преобразование Гомана является оптимальным управлением в классе импульсных управлений между двумя круговыми орбитами Рис. 7.17. Сравнение критериев-качества. С (р)=(/2-1)(1+р-,/’). QD с отношением диаметров, меньшим, чем р = 1,8, даже по сравнению с управлениями, которые значительно изменяются по величине. Весьма вероятно, что переход Гомана оптимален для р = 2 и даже для некоторых значений р > 2. Однако, как мы показали, пре- образование Гомана уже не оптимально, если р^12. Поведение критерия качества в зависимости от р иллюстри- руется диаграммой 7.17.
ПРИЛОЖЕНИЕ А МЕТОД НАИСКОРЕЙШЕГО СПУСКА И ДРУГИЕ ЧИСЛЕННЫЕ МЕТОДЫ В ЗАДАЧАХ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Во многих задачах оптимального управления, рассмотренных в предыдущих главах, удавалось получить необходимые и достаточ- ные условия оптимальности. Как правило, в этих случаях мы по- казывали, что основное необходимое условие—принцип макси- мума—является также и достаточным. Для целого ряда задач удалось также разрешить вопросы существования и единственности оптимальных решений. Однако даже в этих случаях задачу не всегда удавалось довести до конца, т. е. выразить оптимальное управле- ние как функцию измеряемых величин начальных и конечных условий. В таких случаях остается нерешенной двухточечная краевая задача—задача нахождения решения системы 2п диффе- ренциальных уравнений, с т начальными условиями и 2п—т конечными условиями. Такую двухточечную краевую задачу удается иногда решить методом наискорейшего спуска, как в случае, когда для нахождения оптимального управления используется принцип максимума, так и в случае, когда строится последовательность управляющих функ- ций, имеющих пределом оптимальное управление. Этот последний подход, именуемый прямым методом, может быть иногда использо- ван для описания необходимых условий оптимальности по извест- ным свойствам предельного управления; кроме того, если предель- ное управление существует, то бывает возможно доказать сущест- вование оптимального управления. Ниже мы рассмотрим примеры, иллюстрирующие такой конструктивный подход. Основной довод в пользу применения метода наискорейшего спуска или других кон- структивных методов состоит в том, что эти методы позволяют ис- пользовать для построения последовательности приближенных уп- равляющих функций, или получения параметров, определяющих оптимальные управляющие функции, вычислительные машины. Тем самым, после конечного числа итераций может быть получена доста- точно близкая к оптимальной управляющая функция (см. дис- куссию об управлениях с обратной связью в начале главы 7). 17*
516 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А В настоящем приложении мы рассмотрим метод наискорейшего спуска для общей задачи оптимизации, и покажем, как он при- меняется для выбора оптимальных управлений. В первом разде- ле дается определение и описание метода для наиболее общей задачи оптимизации. Второй раздел содержит примеры применения метода наискорейшего спуска к задачам оптимального управления. В заключительном разделе рассматривается литература по итера- ционным (численным) методам и соответствующая библиография. А1. Метод наискорейшего спуска Мы рассмотрим сначала метод наискорейшего спуска в конечно- мерном евклидовом пространстве Ет. Полученные результаты бу- дут справедливы и для любого другого пространства конечной раз- мерности, со скалярным произведением , •>, полного в метрике | • | = < •, • > 2. Метод наискорейшего спуска может быть применен и в бесконечномерном пространстве, удовлетворяющем тем же усло- виям, например, в гильбертовом пространстве Норма в про- странстве Ет с элементами и = («х, .... um) обозначается через а скалярное произведение элементов и и v в Ет как т <_U, V/ = 2 uivi- »=1 Пусть С (и)—действительная функция, непрерывно дифферен- цируемая на некотором открытом подмножестве в Ет. Для простоты рассмотрим случай т = 2. Пусть функция С — С(и1, u2) имеет вид, изображенный на рис. А. 1, а точка и° = (и®, и?) из £0 тако- ва, что градиент (и°) = [^-(и°), ^(м°) не равен нулю. Здесь, как и раньше, штрих означает транспонирование вектора или матрицы. Направлением наискорейшего спуска в точке и° из Ет называется направление, соответствующее вектору в Rm с на- чалом в и0, вдоль которого скорость изменения функции С по от- ношению к длине дуги является минимальной. Пусть S—множе- ство всех гладких кривых в Е2, проходящих через точку и°. Пусть у: u1 = u1(s), ut = ut(s) есть кривая из S, заданная в параметри- ческой форме, где s—длина дуги, измеренная от точки и°. По- скольку у—гладкая кривая, то I duj. (s) у , / du2 (s) у _ . V ds J ds ) ~l для всех s. Обозначим направляющие косинусы кривой у в точке n du, du2 иа через -з~, -тг. г as as
Al МЕТОД НАИСКОРЕЙШЕГО СПУСКА 517 Для непрерывно дифференцируемой функции С (и) скорость изменения С по отношению к длине дуги равна dC дСа dUi . дС0 du2 ~ds ди-i ds "1” ди2 ds для любой у £ S. Таким образом, направление наискорейшего спуска из ы° мы получим, найдя направ- ляющие косинусы dujds, dujds, минимизирующие величину dC/ds при ограничении (duA2 । (dUiV _ I \ds J ‘ \ ds J ~ 1 ’ Минимизирующие значения в точке и0 равны ___ 1___дС (,л\ ds= ||£<<“ Таким образом, направление наискорейшего спуска противо- положно направлению градиента функции С в точке и0. Для того чтобы найти траекторию наиско- рейшего спуска, рассмотрим обыкновенное дифференциальное урав нение £=-£<“) “(»)“(“!.<« а>0, обладающее решением для достаточно малых <т. Если решение предполагается единственным, то полученная пространственная кривая («х (<т), и2(а)) определяет гладкую траекторию, касатель- ная к которой в каждой точке (ult и2) совпадает с направлением наискорейшего спуска для С. Длина дуги вдоль этой кривой дается выражением а (ds/da можно рассматривать, как скорость вдоль этой траектории). Вдоль этой кривой имеем dC dC ds IIdC , , „ || Л dC , n — k-(«(a)) <0, если т-=/=0. do ds do |[ du ' ' " || a« Поэтому функция С убывает при движении по траектории наиско- рейшего спуска, и при а —> -|-оо мы приближаемся к той точке
518 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А области S), в которой функция С достигает минимума. В даль- нейшем будет доказана теорема, дающая достаточные условия существования единственного локального минимума, и показываю- щая, что решение дифференциального уравнения, с начальной точкой, достаточно близкой точке, в которой достигается этот минимум, стремится к этой точке при а—>оо, если только вы- полняются некоторые локальные условия. Рассмотрим теперь за- дачу наискорейшего спуска при дополнительных ограничениях, поскольку такие ограничения часто встречаются в задачах опти- мального управления. Пусть функции С (и) и g; (и), i=l,2, ..., г < т принадлежат классу С1 в @)сЕт, и предположим, что векторы dgjdu образуют линейно независимую систему в каждой точке множества S>. Пусть и—точка из S), в которой grad С не равен нулю, но S’/== 0, i=l,2,..., г. Направление наискорейшего спуска из точки w° определяется вектором ди "Г k ди ’ где постоянные определяются из системы линейных уравнений ' Ы = у. Здесь ,._Г/^£ dgA /ОС ag„\T " L'd« ’ ди /.....'ди ’ ди / J ’ a G есть матрица Грама , I, j = 1, 2, ..., т, 'ди ’ ди/’ ’ 1 ’ ’ ’ ’ которая при принятых выше допущениях является положительно определенной. Таким образом,, траектории наискорейшего спуска являются решениями дифференциального уравнения Д=— + , м° = ы(0), <т>0. Jda ди ' х ди \ Если имеются дополнительные ограничения вида gy(«)<ZO, / = г4-1, ..., г-]-/</и, что часто случается в задачах оптималь- ного управления,— то методом, принадлежащим Вэйлентайну (Va- lentine), эту задачу можно свести к задаче с ограничениями в виде равенств. Это достигается введением функций Sj («1» • • • > ^я1+1» • • • > ^m + z) = = gJu1, ..., um) + («ra+y_r)2 = o для / = r+l, . ..,Г + / и, кроме того, заменой исходной функции С функцией С по фор- муле С(«р .... и^, цт+1) = С(«Р ...,«w). Тем самым, исходная
Al МЁТОД нАиСкОРЕЙшЕГО CftycrtA 510 задача сводится к задаче минимизации функции С в Em+l при ограничениях «и) = 0, i = l, 2,..., г, gj(ult ...,um+l) = Q, / = г4-1, ..., r-i I. Далее мы будем рассматривать задачу наискорейшего спуска в функциональном пространстве; полученные при этом результаты относительно сходимости будут верны также и для пространств конечной размерности. Прежде чем применить метод наискорей- шего спуска к функционалам, определенным на некотором функ- циональном пространстве, необходимо уточнить понятие градиента (см. также упражнения раздела 6.1). Для этого нам придется развить некоторые методы функционального анализа. Все ниже- следующие результаты имеются в главе 6 книги Люстерника и Соболева. Прежде всего введем понятие длины в банаховом про- странстве. Пусть U—действительное банахово пространство с нормой |-|; рассмотрим функцию и (t), заданную на конечном интервале a^t^b, и принимающую значения из U. Функция u(t) называется непре- рывной на [а, Ь], если она непрерывно отображает отрезок [а, Ь] в пространство U с топологией, индуцированной на нем его нор- мой. Функция u(f) непрерывно дифференцируема на [а, &], если имеется элемент и' такой, что lin ,_ыЧ0|=0 д/-.о1 Ы V ' I для любого [а, Ь]. На концах интервала рассматриваются од- носторонние производные. (Более общие определения можно найти в книге Хилле и Филлипса, глава 3.) Рассмотрим некоторое разбиение интервала [а, &], sgZ Ц =С ti tm — Ь И ПОЛОЖИМ т s («> л») = 2 I«(Л) — « (ti-1) I- Непрерывная кривая в U, определяемая функцией и (t), называется спрямляемой, если для нее величина L = supS(u, ля), конечна. Здесь супремум берется по всем конечным разбиениям интервала [а, 6]. Если, кроме того, и'(t) непрерывна и | и' (t) | 0 для /£[а, b], то u(t) называется гладкой кривой. Если u(t)—гладкая кривая, то можно показать, что длина дуги ее вычисляется, как и в пространстве Ет, по формуле t s = J | и' (о) | do. о
520 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Отсюда видно, что если параметром в параметрическом представ- лении кривой является длина дуги, то |ы'(/)| = 1. Справедливо и обратное утверждение. Например, если t/ = L2[0, 1], где L2[0, 1] есть пространство функций, интегрируемых с квадратом, то для гладкой кривой u(s, о), 0< 1 выполняется соотношение 1 где J-(s. °) = «'(s). о Этот факт весьма важен для применения метода наискорейшего спуска к задаче минимизации функционала. Важным понятием в методе наискорейшего спуска является также понятие производной Фреше. Мы дадим здесь определение этого понятия в форме, достаточно общей для наших целей. Обо- значим через ЗК действительное гильбертово пространство со ска- лярным произведением <•, •>; пространство действительных чисел обозначим символом R. Пусть С есть некоторая функция С: 3%-+R, и пусть ы0, h£3%. Говорят, что функция С имеет дифференциал Фреше (или сильный дифференциал) С (u0) h, если существует такой непрерывней линейный функционал С (и0) на 3%, что |С(Ыо+Л)-С(Ыо)-С'(Мо)Л| = о(||Л||), при || h|| —► 0, где ||/г|| = «Л, Л»1/2. Функция g(h) обозначается символом о(|| Л ||), если '—»0 при ||Л||—>0. Линейный функ- ционал С (м0) называется производной Фреше функции С в точке и9. Выражение DC(u0,A) = g(u0 + M)l = lim |A=U %-»-0 Л если оно существует, называется производной по направлению, или слабым дифференциалом функции С в точке и9. Если слабый диф- ференциал обладает некоторыми определенными свойствами, то DC (и9, Л) = С' (ы0) h, что дает возможность вычислить производную Фреше. Эти свойства выражаются следующей теоремой: Теорема 1. Если производная по направлению DC (и, h) су- ществует при Ни—м0II ^а, а>0, и если она равномерно непре- рывна по и и непрерывна по h, то тогда существует дифференциал Фреше, и С' (и) h = DC (и, h). (Доказательство см. в главе 6 книги Люстерника и Соболева.) Аналогично определяются производные Фреше высших поряд- ков. Обозначим через 3V* банахово пространство непрерывных линейных функционалов на ЗК с нормой | • |х. Говорят, что функ- ция С, имеющая производную Фреше, имеет второй дифференциал Фреше C"(u0)ft, если | С (u0+h)-C' (и9) — С (и0)h |1=о (|| h ||)
Al МЕТОД НАИСКОРЕЙШЕГО СПУСКА 521 при II ft II —* 0. С"(м0) есть непрерывный линейный оператор, пере- водящий SfC в Ж*- Применив теорему 1, можно показать, что если вторая производная по направлению + |m=0’wo> /'j— о удовлетворяет всем условиям непрерывности, то <с' <“•)h = « (“• + + W Lo. Оператор С" (и) называется второй производной Фреше. Пусть функция С удовлетворяет тем же условиям, что и рань- ше, и предположим, что она обладает непрерывными первой и вто- рой производной Фреше в 5К. Первая производная Фреше есть линейный функционал на и по теореме Рисса имеет представ- ление С'(u)h = h), где (dC/5u)(u)—однозначно определенный элемент SK. Элемент (дС/ди) (и) называется градиентом функции С в точке и. Это оп- ределение совпадает с определением градиента в пространстве ко- нечной размерности £". Поскольку С" (и) h есть также непрерывный линейный функционал на SK, то по теореме Рисса (C"(«)/i)/i = <£c(jz) Л, Л>, где Яс(«) есть непрерывный линейный оператор на Нс(и) называется гессианом функции С в точке и. Для пространств ко- нечной размерности Нс(ц) сводится к симметрической матрице вторых частных производных функции С. Основным пространством в наших рассуждениях до сих пор было гильбертово пространство 9С. Это требование можно несколько ослабить. Пусть U—линейное топологическое пространство с опре- деленным на нем скалярным произведением <•, •>; обозначим через U его пополнение в метрике d(u, у) = || и—у || = <_и—у, и—у>1/2. Пусть С—действительная функция на U, имеющая производную Фреше С'(и). По теореме Рисса о представлении существует един- ственный элемент Са £ U, такой, что С' (u)h = (Cu, hy, h£U. Если Си С U, то Са называется градиентом функции С и (dCldu) (и) = Са. Функция С может не обладать градиентом для каждого u£U. Поэтому в пространстве U часто приходится заменять имеющуюся там норму более слабой и рассматривать пополнение простран- ства U по этой норме. При этом новая норма выбирается так, чтобы функция С имела градиент в любой точке и из пополнения. Так, например, вместо банахова пространства действительных
522 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А непрерывных функций на интервале I удобнее рассматривать его пополнение по норме /С «j \1/2 / j trap. \ , V / т. е. гильбертово пространство интегрируемых с квадратом по Лебегу функций со скалярным произведением J иу dp. I I Будем теперь рассматривать метод наискорейшего спуска для функций, определенных на гильбертовом пространстве Пусть С—действительнозначная функция, определенная на ЗС, и имеющая непрерывную первую производную Фреше. Пусть и± £ ЗС, и пусть у—гладкая кривая в ЗС, проходящая через ых. Если за параметр принять длину дуги кривой, то || и' (s) ||2 = 1 и АС Hm C(H(s+As))-C-(«(s)) = <g(M(s))) „,(s)y иь As-* 0 'c/i* ' Направление наискорейшего спуска есть направление, минимизи- рующее функционал » (gw. «'(О)) при ограничении ||ц'(0)||2 = 1. Здесь мы умышленно сохранили обозначения, использованные нами | в конечномерном случае, так как все сформулированные выше I результаты для Еп переносятся и на бесконечномерный случай, конеч- но, в соответствующей интерпретации. Траектория наискорейшего спуска находится как решение дифференциального уравнения 37= u(Q) = U1e3C,a^Q. i Решение является функцией со значениями в ЗС, и вдоль этой траектории функция С (а (о)) убывает, так как при dC/du=#0. Это вытекает из следующих теорем, принадлежа- щих Розенблюму. В этих теоремах С есть действительнозначная функция, определенная на гильбертовом пространстве ЗС. Теорема 2. Пусть функция С имеет две непрерывные про- изводные Фреше в некоторой выпуклой области D пространства ЗС, и пусть сфера S (и) = {и | и £ ЗС, || и — «0|| а| Л}, где а = ^^(ив) ||, | а константа А определяется ниже, содержится в D. Далее, пред- т положим, что <Jic(u)v, о>> Л||1>||2,
Al МЕТОД НАИСКОРЕЙШЕГО СПУСКА 523 при u£D, и фиксированном А > 0, и что функция и (о) удовлетворяет уравнению (’) >(»)=-£(“(’» (для а 0, ы (0) = и0 £ D). Нс (и) есть гессиан функции С в точке и. Тогда-. а) в существуют пределы-, lim и (а) = и«; b) lim С (и (о)) — с; О-*со и, кроме того, с) ||«(<т)—(аМ)ехр(-Ла), 0 С (и (а))—с yv exp (— 2Ла), и для всех u£D С(м)>с + у[|ы—иа ||2. Таким образом, если выполнены все предположения теоремы 2 то метод наискорейшего спуска гарантирует экспоненциальную сходимость соответствующей последовательности значений функ- ции С к минимальному значению. Из пункта а) следует, что ми- нимизирующий элемент определен однозначно. Заметим также, что решение уравнения (*) должно существовать при всех неотрица- тельных а, что в некоторых случаях довольно сложно проверить. В статье Розенблюма получено несколько достаточных условий существования решения для всех а. Одно из наиболее простых условий состоит в том, чтобы производная дС1ди удовлетворяла условию Липшица внутри шара S(u), откуда следует, что lta||g-(«(o))|| = 0. Метод наискорейшего спуска может быть использован для реше- ния некоторых изопериметрических задач. Для простоты рассмотрим задачу нахождения минимума функции С на SK, при дополни- тельном условии g’ = 0. Траектория наискорейшего спуска опре- деляется из уравнений dg\ м %(ы)= ' ' do ди 1 4 ' ди ’ 4 7 dg 2 IM при условии, что dC do #=0. При таком выборе траектории ftell ди И \ ди * ди ) k q dg(u) _ 1111Г Г л "
524 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. ? Следующая теорема, также принадлежащая Розенблюму, дает достаточные условия для того, чтобы метод наискорейшего спуска определял единственное решение этой задачи. Теорема 3. Пусть функции С и g имеют по две непрерыв- ные производные Фреше в некоторой выпуклой области D прост- ранства Ж. и пусть есть многообразие, определенное равенст- вом g(u) = 0, u^D. Предположим, что dgldu=£b на М и что <(НС («)-Х (и) Hg (и)) v, v> < А II v ||2, А > О при и£<^1, v^&C, <dg(u)!du, а>=0. Пусть k(u)—расстояние от точки и до границы многообразия '41, и пусть Е—множество точек и„£е/% таких, что а (“о) = IIТ ~К <“») ТII < Ak Ш>’ и таких, что решение системы (**) при и(0) = и9 существует при всех о^О. Гогда для всех и0£Е решение и (а) обладает все- ми свойствами, сформулированными в теореме 2. Более того, если точки «0 \i щ из Е можно соединить дугой класса С1 в Е, то их=их, и, наконец, если с = lim С (и (о)) при и(0) = иЛ£Е, то Q->00 С(«о)>с + ^^(1 +^) , 6 = (|и0—и® ||, а = а(щ). Теорема верна и при наличии нескольких дополнительных условий. До сих пор мы занимались вопросом о том, как построить траекторию наискорейшего спуска, базируясь на локальной гра- диентной информации относительно функции (или функционала) С (и). Пользуясь такой информацией, можно получить решение дифференциального уравнения, дающее траекторию наискорейшего спуска, в конечномерном случае с помощью аналоговой вычисли- тельной машины. Однако чаще применение метода наискорейшего спуска осуществляется с помощью цифровых вычислительных устройств. При этом итерация производится по формуле = “А—PaVC (ыа), рА > О, где & = 0, 1,2, ... Таким образом, машина вычисляет изменение и на &+1-М шаге, в зависимости от первоначального значения и и от значения градиента уС на fe-м шаге. Результаты применения этого метода можно найти в работах Голдстайна (Goldstein). На этом мы закончим введение в метод наискорейшего спуска и приступим к приложениям этого метода в задачах оптимального управления.
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 525 А2. Применение метода наискорейшего спуска к задачам оптимального управления и формулировка вычислительных алгоритмов В этом разделе мы займемся применением метода наскорейшего спуска к задачам оптимального управления. Вначале, в приме- рах 1—3, будет показано, что метод наискорейшего спуска можно считать конструктивным подходом к задачам оптимального управ- ления, удовлетворяющим, например, необходимым условиям, типа тех, которые выводятся из принципа максимума. Затем в приме- рах 4—7 мы покажем, как можно получить вычислительные алго- ритмы для отыскания оптимальных управлений. Один из подхо- дов— прямой, в другом используется принцип максимума, с по- мощью которого определяется вид оптимального управления как функции от параметров, а затем система параметров корректи- руется методом наискорейшего спуска. Примеры 4—7 доводятся лишь до той стадии, когда становится ясным соответствующий алгоритм вычислений на машине, и поэтому не могут считаться завершенными. Пример 1. Рассмотрим линейную управляемую систему первого порядка, x—ax-\-u(t), со скалярным управлением u(t) и фундаментальной матрицей Ф-1(/)=еа< на интервале [О, Т] с х(0) = 0, Ф(0) = 1 и фиксиро- ванным Т > 0. Задача оптимального управления состоит в том, чтобы перевести систему из точки х (0) =х0 = 0 в точку х = Ф'1 (Т) с для некоторого постоянного с, за время Т, с минимальным зна- чением критерия качества т С(я) = $(а(0)’Л. о Как и в аналогичных задачах главы 3, потребуем, чтобы €L2[0, Т], где L2 [0, Т] обозначает гильбертово пространство функций, интегрируемых с квадратом по Лебегу на интервале [0, Г]. Таким образом, задача состоит в минимизации выра- жения г \u*(t)dt о при ограничении т о
526 метод НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А где и—скалярная функция из L2 [О, Т], Ф(0СЬ2[О, Т], а с — заданная константа. Если с = 0, то м = 0 есть оптимальное реше- ние. Заметим, что ЦфЦ^&О. В обозначениях теорем 2 и 3 имеем т т С(и) = \ и* (0 dt; g(u) = l<D (0 и (0 dt — с. О о Вычислим теперь градиенты функций С и g. Рассмотрим их про- изводные по направлению т (« + М |х=0 = J 2а (0 z (0 dt, О и т ^(а + м|х=о = Уф(Ог(ОЛ, z€L2[0, Т]. о В силу того, что ограниченные линейные функционалы на L2 [О, Т1 т обладают представлением J ф (0 z (0 dt для некоторого фиксиро- ванного ф^£2[0, Т], то мы видим, что дС п dg ^- = 2и и -г = Ф. ди ди Для того чтобы вычислить гессианы функций С и g, рассмотрим их вторые производные по направлению ®<“+ч-=Ьг’('>'л о Гессиан функции С является непрерывным линейным оператором Hc(u)z = 2z, z СЬ2[О, Т], а гессиан функции g есть нулевой оператор Hg(u)z = 0, z^L9[0,T]. Покажем теперь, что выполнены условия теоремы 3. Поскольку <(ЯС (а)—X (a) Hg (и)) v, о> = <ЯС (и) а, о> = 21| v ||2, то А = 2. Если точки а0 и и0 принадлежат Е, т. е., если т т ^Ф(0ао(04& = с, ^Ф(0ао(0Л = с, о о
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 527 то функция м = р.ы0 + (1 — р)й0, представляет собой кривую класса С1 в Е, соединяющую точки и0 и й„. Следова- тельно, если решение существует, то оно единственно. т Множество В — Im|u^L2 [О, Г], представ- о ляет собой гиперплоскость, и значит, условие а («о) < Ak(u0) теоремы 3 выполняется для любого элемента из многообразия (см. теорему 3). Функция м0, удовлетворяющая уравнению g(«0) = О, может быть найдена из определенного выше уравнения, если использовать ступенчатые функции. Дифференциальное уравнение, определяющее функцию и (о) из теоремы 3, имеет вид ^ = -2м + Ц«)Ф, «(0) = «о, <*>0. Но поскольку т /дС dg к 2^Ф(1)и(1)<Н \ \ди ’ ди / ______________ о _ 2с ЦФ||а ~ ЦФ|12 ~ ||Ф|12 ’ ТО £((, а)+1гАр-ф(0, 0<о, u(i, O^U'd). Решение этого линейного уравнения дается выражением u(t, a) = e-2ff„o(O+_£®« (1_е-2а). Таким образом, по теореме 3, единственным минимизирующим элементом является Ы«о (0 = у ф ц2 Ф (0> а С(иа>) = сг. Этот же результат можно получить, используя необ- ходимые условия, вытекающие из принципа максимума так же, как в главе 3. Пример 2. Рассмотрим линейную управляемую систему х1 = ах1-|-а ((), x2 = bx2-|-u(() со скалярным управлением и (t) и а Ь. Задача оптимального управления состоит в том, чтобы перевести систему с выходом хх(/) из точки х1(0) = 0 в точку х1 = Фх-1(Т)с, для некоторого
528 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А постоянного с, при минимальном значении критерия качества С (и) = ( $ Ф2 (0 и (0 di) + $ (u (0)2 dt, \о /о где Т—фиксированное положительное число, а фундаментальная матрица ФгЧО о, . О Ф.->(0 удовлетворяет условию Г1 01 4>(°)-[о 1 Таким образом, мы рассматриваем здесь задачу минимизации функционала j Ф2(0 u(t)dt) + \u*(t)dt о /о при дополнительном ограничении \ т J Фх (0 u(t)dt = c. о Функции Ф2(0 и Фх(0 принадлежат пространству L2 [0, Т], Ф1=/=Ф2 и || Фх || #= 0. Здесь С (и) = ( J Ф2 (0 u(f)dt) 4-$ и2 (0 dt; \о /о т обозначая g(u) = J Фх(t)u(t)dt—с, вычислим производные функ- о ций С и g по направлению: т g = 2 уФ2(т)«(т)ЛФ2(0 + 2и(0 О и Аналогичное вычисление показывает, что т Нс(и) г = 2 $ Ф2 (т) z (?) dx Ф2 (0 4- 2г (0, о Яг(ы)г = 0, z€L2[0, Т].
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 529 Поскольку <(ЯС (и)—X (и) Hg (u)) V, v)> = (Т \ 2 j Ф2 (т) v (т) dx ] +2 <v, v> 2 <v, t»>, о / то, пользуясь теоремой 3, заключаем, что единственное оптималь- ное решение может быть найдено из дифференциального уравнения «(«)=«,, «>0, т 2с+2 <Ф2, <Di> j Ф2 (т) и (т, a) dr которое может быть приведено к виду £-(i, а)=—2и (t, а) —2 Ф2 (т) и (т, о) ЛФ2 (О + о т +12<Ф2, Фх> J Ф2 (т) и (т, а) dt + 2с, о u(t, O) = u9(t), а^О. Эго дифференциальное уравнение имеет единственное решение при всех о^О, поскольку оно удовлетворяет условию Липшица в L2[0, Т]. Пользуясь теоремой 3, находим единственное опти- мальное решение и (t) нашей задачи. Пользуясь неравенством Шварца и учитывая замечание, сделанное после теоремы 2, полу- чаем “ <'> = {^7^7 ф‘ <'>} jф-« л+ т Остается вычислить интеграл J Ф2 (/) и (t) dt- Функция о “<' »={<7^ф.<')-ф.(0}? + ^7 определяет аналитическое семейство кривых в L2 [О, Т], удовлет- воряющее условию g(u(t, ₽))=с при всех действительных 0. Существует значение 0, которое мы обозначим через ₽0, такое, что ₽0 = <Ф2, и>. Это значение 0О получается минимизацией
530 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А выражения С {и (t, 0)) как функции от р. Полагая U(t, Р) = (СФ1(0-Ф2(0)Р+^>1(0, где Г _ <ФЬ Ф2> - _ с <Фр ’ <ФП Фг> ’ получаем, что О _ С <^2» Ф1> __ С Ро - ? <ФХ, Ф2>-<Ф2, ф2> - II Ф2 IP II Фх |р-<Ф1( Ф2>2 • Знаменатель этого выражения не равен нулю, поскольку функ- ции Ф2 и Фх не совпадают. Оптимальное решение дается формулой i (о - =-с ф, и+ф. т. где ||Ф2||2||Ф1||2-<Ф2>Ф1>а = С- Пример 3. Обобщение примеров 1 и 2. Мы будем рассматри- вать линейную управляемую систему (^) х= A(t)x-\-B(t)u, где B(t) и A (t)—непрерывные пхт и пх «-матрицы соответст- венно, определенные на некотором конечном интервале [/0, Т]. Не теряя общности, можно считать, что /о = 0. Вектор состояния системы x(f) — n-мерный вектор с начальным значением х(О) = хо, а и—ограниченный и измеримый m-мерный вектор, который представляет управляющее воздействие в системе. Критерий каче- ства имеет вид т C(u)=g (х (Т)) + $ «'(s) U (з) и (s) ds, о где g(x(T))—действительная выпуклая функция, определенная на Rn, a U (t)—непрерывная на отрезке [0,7’’], симметричная и положительно определенная матрица. Надо минимизировать функционал С (и), где «С£2[0, Т], а функция x(t) удовлетворяет записанному выше дифференциальному уравнению. В некоторых задачах с фиксированными концами задаются еще дополнительные ограничения. Этот тип задач управления подробно рассматривался в главе 3. Сейчас мы рассмотрим несколько случаев, чтобы показать возможность использования метода наискорейшего спуска для решения такого рода задач. Случай 1. Требуется минимизировать функционал т С(и)=^ и' (s) U (s) и (s) ds, u £ L2 [0, Т], о
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 531 при условии на конце х (Т) = х. Можно считать, что U (t) = I, ибо общий случай всегда можно свести к этому заменой управляющих переменных, для чего достаточно ввести новое скалярное произведение J u'U (t) v. К со- жалению, нельзя утверждать, что данная задача обладает хотя бы одним решением. Поэтому мы введем дополнительное предпо- ложение об управляемости системы, т. е. будем считать, что си- стема может быть переведена в любое наперед заданное конечное состояние из R" за время Т с помощью ограниченного измеримого управления и. Система S обладает свойством управляемости на интервале [О, Т] тогда и только тогда, когда матрица г М (Т) = $ Ф-1 (0 В (0 В' (0 (Ф-1 (0)' dt о имеет ранг п. Здесь Ф (0 есть фундаментальная матрица решений уравнения x = A(t)x с начальным условием Ф(0) = /.Доказатель- ство имеется в главе 3. Решение, соответствующее любому огра- ниченному измеримому и, полученное с помощью формулы ва- риации произвольных постоянных имеет вид t х (0 = Ф (0 xe + J Ф (0 s) В (s) и (s) ds, о где Ф(0 s) = Ф (0 Ф-1 (s), и таким образом, граничное условие можно записать в виде т $ Ф (Т, s) В (s) и (s) ds = х—Ф (Т) х0. о Для решения этой задачи методом наискорейшего спуска обозначим через прямую сумму гильбертовых пространств I? [0, Т] ф ф£а [0, Т] ф ... ф£2 [0, Т]. Элементами пространства SK явля- ются векторы « = («!, ..., ит)', а скалярное произведение <•, -X определяется формулой т г (и, v\ = %<Ui, vt> = j u'vdt. 1 о Пусть фА (s) есть k-я строка матрицы Ф(Т, s)B(s), а а*—k-я компонента вектора х—Ф(Т)х0. Тогда задача сводится к мини- мизации функционала т С (и) = J и'и dt о
532 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А при ограничениях gfc(u) = 0, k= 1,2, ..., п, т где 8k (ы) = $ 'Ф* (0 и (0 dt—ak- Легко показать, что о дЙ = 2“’ k=X........ Hc(u)z = 2z, z^SK, Hg(u) = 0 и, следовательно, задача решается применением теорем 2 и 3 для случая нескольких дополнительных ограничений, при условии, что матрица Грама G = (<фу, не вырождена. Можно показать, что G = Ф (71) Л4 (Т) Ф' (Т), где матрица М (Т) определена выше, и значит, матрица G не- вырождена. Рассмотрим дифференциальное уравнение \ где Gl=c, = м(0) = «о. k=i Г /дС dgM 1 с = = 2а. ,дС dgn\ \ди ’ ди / Переписывая это уравнение, получим ^(t, o)=—2u(t, о) + 2В' Ц)Ф' (Т, Решив это дифференциальное уравнение и устремив о—»-оо, по- лучим оптимальное управление в виде цх(/) = В'(/)Ф'(Г, 0G-Ja=B'(0<D'(T, t)G~\(x—Ф(Т)х0). Этот результат вполне совпадает с результатом, полученным в главе 3 с помощью принципа максимума. Случай 2. Рассмотрим задачу минимизации функционала т C(u) = xa,(T)Gxa(T)+<\u,uds, о где т хи(Т) = Ф(7’)х0+$ф(Т, s)B(s)u(s)ds о
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 533 и SK—гильбертово пространство, такое же, как в примере 1. G—симметричная постоянная положительно определенная матрица размера пхп. Градиент функции С равен %-=2В'«)Ф'(Т, t)Gxa(T) + 2u, а гессиан имеет вид /Г \ ' Нс (и) z = 2г (s) + ( $ Ф (Т, т) В (т) z (т) dx) 6Ф(Т, s) В (s), \о / z€^. Более того, <ЯС (и) z, z\ 2 <z, z>x; следовательно, по теореме 2, требуется решить дифференциальное уравнение <т) = -2«(Л о)- / т » —2В'(Г)Ф'(Т, ()О(ф(Т)хо+^Ф(Т, s)B(s)u(s, o)dsY \ о / и (/, 0) = 0. Поскольку правая часть удовлетворяет условию Липшица, то решение должно существовать при всех а 0. Единственное опти- мальное решение и дается формулой (см. теорему 2) й (0 = —В’ (0 Ф' (Т, 0 Gxs (Г). Произведя подстановку и некоторые вычисления, получим Г т ч (/+$Ф(Т, s}B($B’ ^Ф‘ (Т, з)с&О)х2(Т) = Ф(Т)хо. \ о ! т Поскольку матрица I -f- J Ф (Т, з) В (з) В' (з) Ф' (Т, s) ds G невырож- о дена, можно найти х% (Т); тогда получим, что w (0 = — В' (0 Ф' (Т, t) G (/ + Ф (Т) М (Т) Ф' (Г) G)-1 Ф (Т) х0. Управление u(t) есть управление в виде разомкнутой цепи. Для данной задачи можно найти также и управление с обратной связью, или в виде замкнутой цепи с переменными коэффициен- тами усиления. Попытаемся найти матрицу E(t), такую, чтобы й = х (t), где x(t) есть состояние системы в момент t. Запишем решение в виде t х (t) = Ф (Л х9 + J Ф (/, s) В (s) й (s) ds = о t = Ф (0 х0— $ Ф (/, S) В (з) В' (з) Ф' (Т, з) ds Gx- (Т). о
534 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Имеем, далее, / Т ч х(0=Ф(/, T)(/+JO(T, s)B(s)B'(s)(D'(T, s)dsG]x~(T). \ t J Отсюда следует, что U(0 = / т ч -1 =-B\t)®' (Т ,t>M +\ф(Т, s)B(s)B'(s}<b'(T,s)dsG\ 0>(T,t)x(t). \ t / Тем самым, матрица обратной связи Е (t) имеет вид £(0 = / Т ч-1 = —В; (/) Ф' (Т, 0 ( /4- $ Ф (Т, s) В (s) В’ (s) Ф' (Т, s)dsG) Ф (Г, t) \ t / и решение, определенное с помощью Е (/), не зависит от началь- ного условия х0. Решение этой задачи было дано также в главе 3. Пример 4. Рассмотрим автономную линейную управляемую систему (J?)\ х — Ax + bu(t), где n-мерный вектор х описывает состояние системы, и—скаляр- ная управляющая функция, удовлетворяющая ограничению и(0|<1 на интервале [0, 7], а Ли b—действительные постоян- ные матрицы размеров пхп и nxl соответственно. Следующие ниже результаты легко распространяются на случай линейных уравнений с переменными коэффициентами, и с несколькими управляющими переменными. Рассмотрим критерий качества С (и) = g (х (7)) — х' (7) Н х (Т), где Н = Н' > 0. В главе 3 было показано, что многие задачи управления можно путем введения дополнительной координаты свести к задачам управления конечным состоянием. Итак, нам надо найти управление и* (t), t С [0, 7] так, чтобы конец соответствующей ему траектории хи» (7) вышеуказанной системы £ являлся бы точкой множества достижимости К (7), ближайшей к началу координат, где расстояние определяется скалярным произведением х' Нх. Здесь под множеством /С (7) по- нимается совокупность всех концов траекторий ха (/), исходящих из точки хо = х(0) и соответствующих всевозможным измеримым управлениям u(t) на интервале [0, 7], удовлетворяющим ограни- чению | и (01 1. Мы воспользуемся свойствами множества К (Т), установленными в главе 2. Решение этой задачи может быть использовано и для некото- рых других задач. Например, мы можем увеличивать 7, начиная с 7 = 0, пока функция ошибки S (х) = х' Нх не обратится в нуль
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 535 в некоторой точке хи(Т) множества достижимости К(Т). Опреде- лив этот момент, мы найдем решение задачи приведения системы в начало координат за минимальное время. Если же задача со- стоит в приведении системы в точку, как можно более близкую к некоторому выпуклому целевому множеству G за фиксированное время Т, если множество G может быть задано приближенно с помощью квадратичной формы, т. е. G: х' Нх^с, где Н — Н' > О, а с—константа, то для решения этой задачи нужно найти точку множества К(Т), для которой х’ Нх минимально, где х' Их есть функция расстояния. Задача оптимального по быстродействию приведения системы в заданную выпуклую цель G решается так же, как и задача оптимального по быстродействию приведения системы в начало координат: для этого надо представить прибли- женно множество G в виде G: х'Нх^с и затем увеличивать Т, начиная с нуля до тех пор, пока функция ошибки $ (х) — х’ Нх—с не обратится в нуль в некоторой точке множества достижимо- сти К(Т). Мы займемся сейчас нахождением точки х„ (Т) множества К (Т), ближайшей к началу координат в смысле расстояния х' Нх, а также управления u*(f), порождающего соответствующую траекторию. Из главы 2 известно, что К(Т) есть компактное выпуклое под- множество пространства R" для любой системы 3 указанного выше вида, причем множество К (Т) обладает внутренностью в Rn тогда и только тогда, когда det [о, АЬ...Дп-1&] =/= 0. Таким образом, если /С(Т) не содержит начала координат, то в К{Т) имеется единственная точка х*, в которой функция g(x) = x' Нх достигает минимального значения. Мы используем метод наиско- рейшего спуска для построения алгоритма нахождения оптималь- ного управления u*(t), приводящего систему в точку хи» (Т). Итак, мы ищем семейство управлений и, (/) (0 t Т), зависящее от некоторого параметра а, такое, чтобы с ростом о управление и„ (t) приближалось к. искомому оптимальному управлению. Мы будем обозначать эту зависимость просто u(t, о) и отожде- ствлять а с временем счета на вычислительной машине. Если отбросить ограничения на и, то траектории наискорей- шего спуска в пространствеЗС с нормой |-| = <-, -/^найдутся из уравнения где = а положительная константа k введена для того, чтобы учесть воз- можные изменения времени счета о. Введем теперь ограничение |w(Z, о)[<1, выбирая зависимость и от о так, что при о^О (***)|(Л ^ = -k%{x(T, если |«(/, о)|<1
536 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А или, если u(f, о)^(х(Т, а))'Л(0>0, а в остальных случаях d£(t, а) = 0, Предполагается, что начальное значение u(t, 0) удовлетворяет ограничению ] и (t, 0) | 1. При таком выборе зависимости и от а имеем я=-*Пе(х<7’' где Я = {*|^(/, а)¥=0, /€[°, Г]} • Заметим, что dg/do^O. Предполагая, что множество К(Т) обла- дает внутренностью в Rn, покажем, что < 0 всюду, кроме точки х (Т, о) = х* при указанном выборе зависимости и от а. Предположим также, что х = 0$/<(Т). Пусть dg/da = Q в точке х(Т, а), лежащей внутри К(Т). Это может быть лишь в том случае, если g(x(T, о))'ft (0 = 0 ИЛИ И(/, о)=— Sgn<JJ(x(T, <т))'Л(о} почти для всех t С [0, Л при х = 0^К(Т). Как показано в главе 2, решение соответствующее максимизирующему управлению M(0 = sgn{n(Ob} (где т] (/) = ce~At—вектор-строка с п компонентами), является точ- кой из дК(Т} для любого с =#0. Но управление «(0 о) = —sgn|^(x(T, о))'ft (/)}• = = —sgn{2x(71, a)' HeATe~Atb} будет максимизирующим при с= —2х(Т, о)' НеАт. Таким образом, не существует точки внутри К (Т), в которой бы dg/do = 0, если х = 0£К(Т)-
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 537 Рассмотрим те точки границы дК(Т), где dg/do = 0. Вновь видим, что это возможно лишь при и (t, а) = —Sgn (х (Т, а))' h (/)} или g(x(T, а))'ft (0 = 0 для почти всех t £ [0, Т]. А это есть максимизирующее управление, соответствующий которому конец траектории принадлежит мно- жеству дК. (Т), причем г/ (Т) = е~А'тс' есть внешняя нормаль к К (Т) в этой точке, как было показано в главе 2. Таким образом, в точке х(Т, о) из дК(Т) имеем (Т)=е~А"гс'= е~А’т(—2х(Т, о)'НеАТ)' = —2Нх(Т, о), где rfCO—внешняя нормаль к К(Т). Но это может быть лишь в точке х(Т, о)=х*, в которой вектор Нх нормален к поверх- ности х' Нх = х*'Нх* = k*. Аналогичными рассуждениями можно показать, что и в случае х = 0 £ К (Т) точка х* есть единственная точ- ка /С(Т), в которой dg/do — O. Таким образом, оптимальное (пре- дельное) управление по виду совпадает с тем, которое было по- лучено в главе 2. Займемся теперь вопросом приближенного решения уравнения (***) с помощью вычислительной машины. Один из путей состоит в замене дифференциального уравнения (***) с непрерывным па- раметром о следующим рекуррентным уравнением (итерационным уравнением): и (t, i + 1) = и (t, i)—ki (х (Т, i))' ft (t), если | и ft, i) | < 1 или если ц(/,0^(х(Т, i))'ft(0>0, а в остальных случаях u(t, i+l) = w(/, I), (здесь k{ > 0 выбирается так, чтобы | и (t, I -|-1) | 1). Тогда зави- симость от о заменяется зависимостью от дискретного параметра i=l, 2, ... Таким путем мы найдем последовательность управ- лений u(t, i), i= 1, 2..причем есть надежда, что g(x(T, i))—> —>g(x*) при возрастании i. Эти вычисления легко осуществить на аналого-цифровой вычислительной машине, причем имеется достаточно удачный опыт их осуществления (Хо; Гилберт). Другой метод приближенных вычислений состоит в том, что оптимальное управление аппроксимируется ступенчатыми функ- циями, т. е. интервал от tQ до Т разбивается на конечное число
538 МЕТОД нАискорейшёго сйускл ПРИЛ. А подынтервалов, на каждом из которых управление полагается постоянным. Затем указанным выше способом определяется на- илучший набор таких постоянных. Для простоты предположим, что интервал [/0, Т] разбит на v одинаковых подынтервалов длины (Т—/0)/v. Пусть u(0), «(1), и (у—1) есть то множество постоянных, которое надо определить, где u(j)—значение аппро- ксимирующей управляющей функции на интервале ^ + /^<^<(/ + 1)^-1-^ / = 0. 1. 2..v-l. Таким образом, дифференциальное уравнение относительно и (I, о) как функции о в полосе 0 = t0 t Т, заменяется конечной си- стемой уравнений = если |«(/,а)|<1 или если ц(/,а)^(х(Т,о))'Л(/)>0 И в противном случае—для / = 1, 2, v—1. Здесь т х(Т, о) = еАтх^ + еАТ ^e~ATbu(t9 c)dt = о v-l p(i +1) T/V J u(i, <т) = IT/V J V-l = eAT x0 4- 52 h (t) и (I, o) i о 1 = 0 Из этого последнего уравнения определяется ft(i), представляю- щая собой весовую функцию для управлений на различных ин- тервалах (мы выбрали t9 = 0). В том случае, когда управления принадлежат к классу огра- ниченных ступенчатых функций, определенных на v подынтерва- лах интервала |70, Г], мы можем так же точно, как и для случая непрерывного времени, показать, что dg/do^Q всюду, кроме точки х*^/С,(Т), где К,(Т)—множество достижимости, а х*—оп- тимальная точка этого множества. Описанные выше вычисления легко осуществляются на анало- говой вычислительной машине. [Лю (Luh).] Пример 5. Рассмотрим автономную управляемую систему в Rn: х = /(х, и), х(О)=хо,
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 539 где /С С1 в а и (/) — скалярные управления, удовлетворяю- щие ограничению j и (t) | 1. Критерий качества имеет вид C(«)=g(x(T)). где Т > 0 фиксировано и g £ С1 в Rn. Обозначим решение системы с начальными условиями х (0) = хо> соответствующее управлению и (s) (0 < s < t) через ха (/). Мы можем также вычислить С (u) = g(xa(T)), ибо известно, что точка хи (Т) должна являться точкой множества достижимости /((Г), как схематично показано на рис. А2 для случая двух пе- ременных. Вычисляя оптимальное управление, мы ищем траек- торию, исходящую из заранее вычисленной начальной точки ха (Т) € К (Т) и ведущую к та- ким точкам х К (Г), в кото- рых g (х) были бы меньше, чем g(x^T)). На самом деле мы стремимся найти путь к точ- ке х*, в которой функция g принимала бы наименьшее значение на К (Т). Ясно, од- нако, что минимальное зна- чение может и не существо- вать, например, в том случае, если множество К (Т) не замк- нуто. Тогда можно все же попытаться искать наилучшие управления, но при этом необходимо придумать условие, при выполнении которого процесс вычислений должен быть прекра- щен. Случай замкнутого множества К (Т) рассматривался в гла- вах 4—6. Если и принимает значения из гильбертова пространства 5? с нормой |-| = <• и на и не наложено никаких ограничений, то можно показать, что градиентное направление наискорейшего спуска в точке ы0 £ определяется траекторией, начинающейся в точке ы0 и удовлетворяющей уравнению где й(^) = фв(7’)фв-1(Т) а Фв есть решение линейного уравнения в вариациях Фо(0=^(^(0. «Ю)Фо(0 с Фй(/,) = / и Вв(0 = (д/7д«)(хй(0, “(0) на Т\.
540 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Чтобы учесть ограничение | и | 1. положим (t) o) = -d/x(xa(T)Yh(t), если |«(/,о)|<1 или если и u(t,o)d/x(Xa(T)yh(t)>Q в противном случае ^.Т, о^О); предполагается, что )u(t, 0)| 1. Далее видим, что ё-й-ж <* =- Ш *'(т»" <*>]‘л < °' где 3 = {t \ди/до^=0, |70, Т]}. Поэтому есть надежда, что после- довательность приближений, получаемых при решении уравне- ния (|) на вычислительной машине, сходится. В работах Келли (Kelly) и Брайсона (Bryson) содержатся оценки эффективности этого алгоритма. П р 1гм е р 6. В этом примере, так же как и в следующем, мы будем применять результаты, полученные в главах 2, 3, 4 и 5, к различным задачам управления. При этом наши сведения об оптимальном управлении будут исчерпывающими лишь в том случае, когда известно начальное значение сопряженного решения. Для того чтобы получить решение, соответствующее этим условиям, мы будем строить функции таким образом, чтобы они достигали своих экстремальных значений при правильных начальных значениях сопряженных решений. Тем самым, задача сведется к рассмотрен- ной в разделе А.1 задаче, где минимум (или максимум) функции, зависящей от конечного числа переменных, отыскивался с помощью метода наискорейшего спуска. Сейчас мы рассмотрим задачу об управлении, оптимальном по быстродействию. Однако результаты можно будет распространить и на задачи с другим критерием ка- чества, а также на нелинейные задачи. (Нейштадт (Neustadt).) Рассмотрим автономную линейную управляемую систему x~=Ax+bu(t) ео скалярными управлениями «(/), удовлетворяющими ограниче- нию | и (/) | 1. Ниже мы будем рассматривать и более общие линейные системы. Пусть задача состоит в приведении системы в начало координат за минимальное время, т. е. совпадает с за- дачей, рассмотренной в главе 2. В главе 2 для этой системы было найдено оптимальное управление, соответствующее любому начальному условию r|(U = c» гДе с—постоянная из некоторого
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 541 множества. В этом примере мы займемся отысканием этих посто- янных. В задаче оптимального по быстродействию управления, приводящего систему в начало координат, требуется найти на- именьшее t > 0, для которого уравнение t x(t) = eAtx^ + eAt \e-A*'bu(t')dt' = § о удовлетворяется при некотором управлении u(f) удовлетворяющем ограничению | и (Г) | 1 в каждой точке интер- вала [0, ?]. Это требование можно записать так: t —х„ = J e~At'bu(t')dt' о для некоторого допустимого Пусть {t ч х|х= J e~At'bu (t')dt'; «(/')—допустимое управление? о * есть множество начальных состояний, исходя из которых система может достичь начала координат за время, меньшее, чем t. С (t) есть просто особый вид множества достижимости, упоминавшийся в главе 2. На самом деле С (t) = K(—t), с начальной точкой х0 = 0. Поэтому С (/) является замкнутым, выпуклым множеством в Rn, с границей {t ч х| х= $ e~At'bsgn{ce~At'b}dt', ||с||= 1/. о > Более того, если t,£dC(t), а с' есть внешняя нормаль к C(t) в точке С, и если система 3 нормальна, то множество дС (0 не содержит никакого отрезка прямой. Заметим, что С (tj), если и C(t) непрерывно возрастает с ростом t. Предположим, что существует некоторое управление, перево- дящее систему из точки х0 в точку 0 за конечное время; тогда существует и оптимальное по быстродействию управление вида sgn {п (06} = sgn {се~ Atb}, переводящее систему из точки х0 в 0, где с' есть внешняя нор- маль к множеству С (t*) в точке—х0. Обозначим через Z множе- ство всех таких векторов с, где || с || = 1, исходящих из точки —хо£ЗС(0. Тогда, если c$Z, то управление u(/) = sgn{ce_?,z6} переводит систему из состояния х0 в начало координат и является оптимальным.
542 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Пусть t z(t, с) = e~At'bsgn{се~At'b} dt’. о Тогда z(t, c)£dC(t), и следовательно, для нормальной системы имеем cz(t,c)>ct>, ^z(t, с). Заметим, что t t cz(t, c) = ^ce-At'bsgn{ce-At'b}df = ^\ce~At,b\dt' >0 для f>0 о о и, значит, для нормальной системы cz(t, с) есть монотонно воз- растающая функция от t, непрерывная по с. Рассмотрим (как это делает Нейштадт), функцию /(/, с, x0)—c[z(t, с)4-х0], непрерывную по t и с. При фиксированных (х0, с) она будет строго возрастающей по t, так как t fit, с, х0) = § lce-A/'b]dt'+cx0 о строго возрастает по t. Рассмотрим теперь лишь те с, для кото- рых сх0 = f (0, с, х0) < 0. Если с не принадлежит множеству Z, то из условия, что cz (t, с) > %, для всех £ из С (t) следует, что сг(Гс)>—сх0 или f(t*, С, х0) > 0, где t*—оптимальное время. Следовательно, для некоторого единственного t из интервала 0 < t < t* имеем с, хо) = 0. Обозначим это t через Т(с, х0), так что для каждого с такого, что сх0 < 0, будем иметь f(T (с, х9), с, х0) = 0. Поскольку функция f непрерывна по всем аргументам, то и функция Т непрерывна по с. Следовательно, если c£Z, то функ- ция Т (с, х0) принимает свое максимальное значение. Это и есть функция, которую нам придется максимизировать для получения требуемого с. Для того чтобы найти вектор с, максимизирующий функцию Т(с, х0), рассмотрим векторную функцию с (о), непрерывно зави- сящую от некоторого параметра о и удовлетворяющую следую- щему дифференциальному уравнению: de ,дТ t, п где^>0-
А2 применение метода нАийкореЙшего спуска 543 а дТ/дс есть соответствующий вектор градиента. Для решения этого уравнения применим метод наискорейшего подъема. Для даль- нейшего нам необходимо вычислить вектор дТ дТ/дс дс dfjdT ' Из определения f(T, с, х0) следует, что и _ т + sgn {ce~At’b} [e~Ai'bydt, 1 о где есть i-я компонента вектора e~Atb (для нормальной системы). Таким образом, дт _ [х0+г(Т, с)Г дс Ice-^bl Выбрав А = | [се~А*ЬЦ, вычислим новое значение с из уравнения <tt) g=-[xe + z(T(c, х0), с)]. Поскольку правая часть этого уравнения непрерывна по с, то оно имеет решение. Если \се~АГ (с- *«>6| > 0, то d(j дс do 1 1 дс дс В этом случае, если c(£Z, то дТ/дс>§. Если |се~ЛГ <с> М>| = 0, то дТ/до не определено, но 3f/5c=[xe4-z(T (с, х0), с)]' опреде- лено для фиксированного Т и (5f/5o)(T, с, x^ = df/dcdc'/до= = —дс/додс'/до <0 при c^Z. Итак, функция f монотонно убы- вает по о при фиксированном Т; но, как мы показали ранее, функция f возрастает с ростом Т; отсюда следует, что если ве- личину Т выразить явно из соотношения Д(Т, о, хо) = 0 как функцию от а, то получим возрастающую функцию. Заметим, что значение Т (с, х0) определено тогда и только тогда, когда сХо^О, и если система нормальна, то из соотноше- ния схо = О следует, что Т (с, хо) = 0. Пусть D—область опреде- ления функции Т (с, х0). Если вектор с первоначально находился в D, то решение с (о) уравнения (ff) остается в D. Для того чтобы вектор с (о) вышел за пределы области D, необходимо, чтобы с(сто)хо = О при некотором а„, но тогда Т(с(о0), хо) = О. Но это невозможно, так как Т (с (0), х0) > 0, и Т возрастает с ростом о.
544 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Итак, ясно, что функция Т (с, х0) обращается в нуль на границе dD области D, достигает положительного максимума на выпуклом множестве ZaD, и не имеет в D других локальных максимумов или минимумов. Поэтому, если с (о) стремится к пре- делу при о—+оо, этот предел принадлежит множеству Z. Заме- тим, что || с (о) |[ = const, поскольку т=2с^=-2сК+г<7’-сМ = о. Для нахождения решения уравнения (ft), дающего новое значе- ние с, необходимо применить приближенный метод. Дело в том, что вычисление нулей функции f (Т, с, х0), необходимых для опре- деления Т (с, х0), требует больших затрат машинного времени. Итак, рассмотрим дискретный вариант уравнения (ft); пусть с</+1> = с> + k , х0) при k > О, / = 1, 2, 3, ..., где функция Т (c{J\ х0) определяется следующим образом: увеличиваем t до тех пор, пока выражение ~f (t, cWy, х0)= [х. + z (t, с<л)] не обратится в нуль, и берем в качестве Т х0) соответствующее значение t. Для этого приходится прибегать лишь к интег- рированию, которое вычислительная машина производит довольно быстро [см. Паевонский (Paiewonsky)]. После того как найдено Т (c{J\ х0), с</+1) вы- числяется из указанного рекуррент- ного соотношения. Затем вся проце- дура повторяется для вычисления T(cf+1, х0), и так далее. Скорость сходимости этого процесса определяет- ся выбором постоянной k >0. Рис. АЗ. Построение наискорейшего спуска для управлений, оптималь- ных по быстродействию. Этот метод имеет простую геометрическую интерпретацию. Пусть (рис. АЗ) — х0—произвольная точка, а с—любой нулевой вектор, такой, что с^,< 0. Увеличению t до тех пор, пока не насту- пит равенство f(t, с, х0)=с [х0 + г(^, с)]=0, соответствует па- раллельное перемещение гиперплоскости л: с[—х + z (t, с)]=0 до тех пор, пока она не пройдет через точку —х0. При этом вектор с меняется так, чтобы вектор —х0—z(t, c) = v стал ортогональ- ным вектору с'. Далее проводится итерация, как показано выше. Обобщим теперь наши результаты для случая системы с пе- ременными коэффициентами и m управляющими переменными. Рассмотрим систему (J?) x = A(t)x + B(t)u(t) + v(t), / = 1,2,
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 545 где A (t), В (i)—как обычно, матрицы, непрерывные по t, разме- ров пхп. и пхт соответственно, a v(t) —заданная непрерывная вектор-функция, определенная на рассматриваемом интервале. Решение этого линейного уравнения, соответствующее некото- рому измеримому управлению u(t), имеет вид t х(1)=Ф (О ХО+у ф (О ф-1 (Г) [в (Г) U (/')+V (Г)] df, и где Ф(0 = Л(0Ф(0 И ф(/о) = /. Переписывая указанное выше уравнение, получим t t —х„—J Ф"1 (Г) v (Г) dt’ + Ф’1 (0 х (0 - У Ф-1 (/') В (Г) и (Г) dt’. ^0 о Предположим, что задача состоит в определении такого до- пустимого управления, которое обеспечивало бы достижение ра- венства x(t) = ^(t) за минимальное время, где £(/)—параметри- ческое представление некоторой непрерывной кривой в R". Пусть t X» + У Ф-1 (Г) V (Г) dt’-Ф-' (0 & (О *0 <о(О = Тогда для осуществления оптимального по быстродействию управ- ления системой необходимо найти такое допустимое управление u(t) и время t, для которых t ю(/) = уф-1 (/') В (Г) и (Г) dt' to с минимальным Поскольку a>(t) есть точка пространства Rn для каждого t, то можно рассмотреть такое же множество C(t), как и раньше, и задача сводится к нахождению наименьшего t, для которого o(t)^C(t). Рассмотрим снова максимизирующие управления «/ (t) = sgn {сФ-1 (О В (/)}/, / = 1, 2, ..., т, S предположим, что ни одна из компонент вектора (сФ"1^) В(/)}/ е обращается в нуль на некотором интервале при ||с|| = 1, т. е., что система нормальна. Пусть, как обычно t г (t, с) == I Ф-i (Г) В (t') sgn {сФ-1 (Г) В (f)} dt', 18 Э. Б. Ля, Л. Мяркуо
546 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А где z(f, с) принимает значения из множества дС(/), а с'—внешняя нормаль к множеству C(t) в точке z(t, с). Рассмотрим соотноше- ние f (t, с, а (/)) = с [z (t, с)—а> (/)]. Геометрическая интерпрета- ция этой задачи приведена на рис. А4, (для дискретных значе- с(1>, будем увеличивать ний с). В качестве первого приближения выберем любой вектор удовлетворяющий условиям с(1)со (Q > О, ||с(1>||=1. Далее пор, пока функция f(t, c(li, ©(f)) не станет равной 0, что соответствует параллельному движению гиперплос- кости л до тех пор, пока она не пересечет кривой <в (t). Пусть это произойдет в момент £ = /(п. Если <о (f п) #= z (/(1), с(1)), то нужно сделать следующий шаг. Для этого выберем вектор с(8’ = с<1,4-Й1><1), где о(1)—век- тор, соединяющий конец вектора z (t1, с1) с точкой © Таким обра- зом, получим С(2) = C(l) + k z (/(1), с(1))] , где k > 0. Опять легко показать, что v есть направление градиента к Т, где Т (Т > /0) есть наименьший корень уравнения f (t, с, а> (/)) = 0. Если оптимальное управление существует, и если k выбрано правильно, то итеративный процесс приведет к некоторому век- тору c£Z, который мы обозначим через с*. Тогда оптимальное управление, переводящее систему в точку кривой ©(/), будет равно t до тех ш(*о) b>(t) 1 Рис. А4. 1 Наискорейший в случае зависящего от времени 'це- левого множества. спуск u(0=sgn[c»O-t(0B(0]. Реализация этого алгоритма на аналоговой и цифровой вычисли- тельных машинах имеется в работе Паевонского (Paiewonsky). Он также применил некоторые методы, разработанные Н. Н. Красов- ским и непосредственно связанные с рассмотренными выше пост- роениями. Пример 7. Рассмотрим управляемую систему (<§0 x=f(x, и), xiQ^x^, u$Q с критерием качества С(и)=8(х(Т)), где Т—фиксированное время окончания процесса управления. Предполагается, что f^C1 в К^йи^Ов Rn. С помощью принципа максимума (см. главы 1 и 5) часто бывает возможно
А2 ПРИМЕНЕНИЕ МЕТОДА НАИСКОРЕЙШЕГО СПУСКА 547 получить управление и как функцию состояния х и сопряженной переменной t|, максимизируя выражение Н = r\x = r\f (х, и) по и, явно входящему в Н для wgQ. Мы будем рассматривать лишь те задачи, в которых такое единственное управление и существует. В этом случае задача сводится к нахождению такого начального вектора r| (/„), чтобы экстремальная кривая удовлетворяла задан- ным граничным условиям и минимизировала бы функционал C(u)=g(x(T)). Будем рассматривать только максимальные кривые, т. е. ре- шение дифференциальных уравнений W i = = f(x,U (х, я)) = f (X, Т]), л'=—=—57 (*> и (*» п)) п'=~е' (х, п), где U = U (х, т]) определяется из условия Н(х, 1], U) — max{Н(х, т], и)} для всех х,ч\£Rn. Здесь х(/0) = х0 и г](/0) требуется определить так, чтобы удовле- творялись заданные граничные условия (см. ниже), и чтобы дости- гался минимум g(x(T)). Итак, наша задача сведена к исследованию семейства кривых, зависящих от п параметров t](/0). Цель наших вычислений—опре- делить вектор я (/0) так, чтобы соответствующее решение системы gfE минимизировало’'бы функцию g. Для каждого т| (/0)=с решение системы £7Б запишем в виде Гх(<, с) 1 1У (t> C)J , причем предполагается, что по заданному и — U (х, т]) всегда можно вычислить такое решение. В этом случае нетрудно определить и g(x(T, с)). Мы’ищем такую функцию с (а), чтобы функционал g (x(T, с (а))), рассматриваемый как функция от о, убывал с возра- станием а. Пусть зависимость с от а определена из уравнения наискорей- шего спуска <ttt) X—къ- где [dg/dc]'—вектор градиента, a k = const >0. Тогда dg_dgd_S_ >,Г^1*<гп da~~ деда K LdcJ ’ где под [dg/3cp понимается скалярное произведение. Если dg/dc Ф 0, то функция g (<т) = g (х (Т, с (о))) убываете возрастанием а, а зна- чит, точка, где dg/dc = Ot достигается при о—<-оо. 18*
548 МЕТОД НЛИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Чтобы вычислить с (а) из указанного выше уравнения необходимо знать, как меняется g в зависимости от с. Поэтому рассмотрим уравнение dgdg'дх дс дх дс' где х—х(Т, с), и г dx1 дх1 ~i ах= ” дс" & д£ ах» - ЙС1 ’' дсп- Для того чтобы вычислить эту матрицу, требуется выяснить, как сильно меняются решения при малом изменении с. Поскольку x=~f(x,rfi, n = i(x, n), то максимальное решение (x(t,c), ц(/, с)) должно удовлетворять системе уравнений x(t,c)=f(x(t,c), Т](/, с)), Т](/, с)=g(х(t, с), я(t, с)) при < Т. Рассмотрим систему уравнений с), п ((. C))g«, e)+^(x(i, Г),ч(/, с), с) + |(х(Т, с), о)) с). В предположении, что изменение порядка дифференцирования в данном случае допустимо, получаем “fir) \dcjj __ df дх. . df di) ___ dt дх det * * di) def ’ (^) - \dcjj__dg'dx . dgdx\ dt dx dci ' dr\dci' где производные dfldx, df/di\, dg/dx, dg/dr\ вычисляются вдоль эк- стремальной кривой х(/,*с),гя(Л1с) Пусть *()=1<(о ^:(oJ — фундаментальная матрица решений системы линейных уравне- ний J?, удовлетворяющая начальному условию ф(^0) = /. Тогда ус дх
АЗ РАБОТЫ ПО МЕТОДУ НАИСКОРЕЙШЕГО СПУСКА 549 где функция ф®(Т) зависит, конечно, от максимальной кривой x(t, с), так что с возрастанием а величина фИЛ непре- рывно меняется. Таким образом, локальная чувствительность ре- шений может быть оценена с помощью вариационного подхода. Другой метод, часто употребляемый при машинных вычисле- ниях, состоит в приближенном вычислении dg/dc с помощью ме- тода возмущений [см., например, Шармак (Scharmack)]. Существуют различные применения вычислительного алгоритма, основанного на методе наискорейшего спуска, к задачам простран- ственной навигации (Шармак) и к некоторым другим задачам [Келли—Брайсон (Kelley—Bryson)]. А.З. Работы по методу наискорейшего спуска и вычислительным методам оптимального управления В двух предыдущих разделах метод наискорейшего спуска был предложен в качестве конструктивного метода построения опти- мальных управлений. Многие из алгоритмов для вычисления оп- тимальных управлений основаны на методе наискорейшего спуска; точнее говоря, почти все из них, даже методы, рассмотренные в примерах 5 и 6, основаны на некоторых модификациях метода наискорейшего спуска. В примере 5, например, модификация со- стоит в изменении отсчета времени с помощью постоянной k. В дальнейших модификациях меняется уже геометрия функцио- нального пространства [в методе Ньютона—Рафсона (Newton — Raphson) для систем второго порядка вводится локально-линейное преобразование]. При рассмотрении различных специальных клас- сов задач применяются и другие модификации, позволяющие уве- личить эффективность алгоритма; кроме того, существуют и такие методы вычисления оптимальных управлений, как метод динами- ческого программирования [Беллман (Bellman)] и другие, кото- рые не имеют никакого отношения к методу наискорейшего спуска. Общая теория метода наискорейшего спуска излагается в статьях Голдстейна (Goldstein), Канторовича и Розенблюма (Rosenbloom). В литературе встречается множество прекрасных примеров применения метода наискорейшего спуска к задачам оптимального управления. В частности, несколько примеров есть в статьях Брайсона и Келли. Поскольку авторы настоящей книги сами до- статочно серьезно не занимались применением метода наискорей- шего спуска, то мы не будем здесь высказывать своего мнения о преимуществах одного вычислительного метода перед другим. Мы завершаем этот раздел подробной библиографией по методу наискорейшего спуска и другим численным методам. Мы, однако, расположили работы по разделам, указывая, как нам кажется, сферу применения результатов каждой из работ.
550 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А БИБЛИОГРАФИЯ К ПРИЛОЖЕНИЮ А Метод наискорейшего спуска и оптимизация управлений Balakrishnan А. V., An Operator Theoretic Formulation of a Class of Control Problems and a Steepest Descent Method of Solution, J. Soc. Ind. Appl. Math., Ser. A, Control, 1, No. 2, 109—127 (1963). Curry H. B., The Method of Steepest Descent for Nonlinear Minimization Problems. Quart. Appl. Math., 2, Ns 4 (Oct. 1944). Denham W. F., Steepest—Ascent Solution of Optimal Programming Problems. Ph. D. Thesis, Div. Engr. and Applied Physics, Harvard University (1963). Goldstein A. A., Minimizing Functionals on Hilbert space, In A. V. Ba- lakrishnan and L. W. Neustadt (eds.). Computing methods in Optimization Problems, Academic Press Inc., New York, 1964, pp. 159—165. [См. также J. Soc. Ind. Appl. Math. Ser. A, Control 4, 81—89 (1966).] Gollwitzer H. E., Application of the Method of Steepest Descent to Op- timal Control Problems. Thesis, University of Minnesota, 1965. Hi 1 Isley R. H., Robins H. M., Steepest Ascent Trajectory Optimi- zation Method Which Reduces Memory Requirements. В книге: A. V. Balakrishnan, L. W. Neustadt (eds.), Computing Me- thods in Optimization Problems, Academic Press Inc,, New York, 1964, pp. 107—133. Канторович Л. В., Акилов Г. П., Функциональный анализ в нор- мированных пространствах, Физматгиз, 1959. Rosen Ыол)т Р. С., The Method of Steepest Descent. Proceedings of Sym- posia in ^Applied Mathematics, vol. 6, pp. 127—176, The American Mathe- matical Society, 1956. Tompkins С. B., Method of Steepest Descent. В к н и г е: F. F. В е с к е п- bach (ed.) Modern Mathematics for the Engineer. McGraw-Hill Book Co., Inc., New York, 1956, Chapter 18. V a c h i n о R. F., Steepest Descent with Inequality Constraints on the Control Variables, J. Soc. Ind. Appl. Math., Ser. A, Control 4, № 1, 245—261 (1966). Вайнберг M. M., О сходимости метода наискорейшего спуска для нели- нейных уравнений. ДАН СССР, т. 130, № 1, 1960. Метод наискорейшего спуска в применении к проблемам оптимизации управлений Bryson А. Е. Denham W. F., A Steepest Ascent Method for Solving Optimum Programming Problems. J. Appl. Meeh. 29, 247—257 (1962). Bryson A. E., Denham W. F., Caroil E. J., Mikamic К.» De- termination of the Lift or Drag Program that Minimizes Re-entry Heating with Acceleration or Range Constraints Using a Steepest Descent Computa- tion Procedure. J. of Aerospace Sci., 29, № 4, 420—430 (1962). Denham W. F., Bryson A. E., Optimal programming with inequality constraints, II: Solution by steepest ascent. AIAAJ 2, 25—34 (1964). Neustadt L. W., Minimum Effort Control Systems. J. Soc. Ind. Appl. Math., Ser. A., Control 1, № 1, 16—31 (1962). Neustadt L. W., Synthesizing Time Optimal Control Systems. J. Math. Anal. Appl., 1, № 4, 484—493 (1960). Численные методы в задачах оптимизации управлений Aoki М., On a Successive Approximation Technique in Solving Some Control Problems. Trans. ASME, Ser. D. J. Basic Eng. 85, 177—180 (1963). Balakrishnan A. V., Hsieh H. C., Function Space Methods in Con- trol System Optimization. Proc. Optimum System Synthesis Conference, Dayton, Ohio, September 1962, pp. 10—40,
БИБЛИОГРАФИЯ К ПРИЛОЖЕНИЮ А 551 Bohn Е. V., A Numerical Trajectory Optimization Method Suitable for a Computer of Limited Memory. Proc. J ACC Seattle, Washington, 1966, 177—186. Brea к we 11 J. V., Speyer J. L., Bryson A. E., Optimization and Control of Nonlinear Systems Using Second Variation. J. Soc. Ind. appl. Math., Ser. A, Control, 1, № 2, 193—223 (1963). Canon M. D., Eaton J. H., A New Algorithm for a Class of Quadratic Programming Problems with Applications to Control. J. Soc. Ind. Appl. Math., Ser. A, Control, 4, № 1, 34—45 (1966). Eaton J. H., An Interative Solution to Time-Optimal Control. J. Math. Anal. Appl., 5, 324—344 (1962). Eaton J. H., An On Line Solution to Sampled—Data Time Optimal Control. J. Electron. Control, 15, Ka 4, 333—341 (1963). Eaton J. H., Improper Solutions under Existence Assumptions: an Example. Tech. Note on NASA Grant NsG—354, Ser. 5, Issue 16, University of Ca- lifornia (1964). Fad den E. J., Gilbert E. G., Computational Aspects of the Time-Op- timal Control Problem. Вкниге:А. V. Balakrishnan, L. W. Ne- ustadt (ред.), Computing Methods in Optimization Problems. Academic Press Inc., New York, 1964, pp. 167—193. Fancher P. S., Iterative Computation Procedures for an Optimum Control Problem. IEEE Trans. Auto., Control AC—10, 346—348 (1965). Fletcher R., Powell M. J. D., A Rapidly Convergent Descent Method for Minimization. Computer Journal, 6, № 2, 163—168 (1963). Fletcher R., Reeves С. M., Function Minimization by Conjugate Gra- dients. Computer Journal, 7, № 2, 149—154 (1964). Forsythe G. E., Acceleration of the Optimum Gradient Method, Abstract. Bull. Amer. Math. Soc., 57, 304—305 (1951). Forsythe G. E., Motzkin T. S., Asymptotic Properties of the Optimum Gradient Method (Abstract), Bull. Amer. Math. Soc. 57, 183 (1951). Frank M., Wolfe P., An Algorithm for Quadratic Programming, Naval Res. Logist, Quart., 3, 95—110 (1956). Gilbert E. G., An Iterative Procedure for Computing the Minimum of a Quadratic Form on a Convex Set. J. Soc. Ind. Appl. Math. Ser. A, Control, 4, № 1, 61—80 (1966). G о 11 i 1 i e b R. G., Rapid Convergence to Optimum Solutions using Min-H Strategy. Proc. JACC, Seattle, Washington, 1966, pp. 167—174. Goldstein A. A., Convex Programming and Optimal Control, J. Soc. Ind. Appl. Math., Ser. A, Control, 3, № 1, Ser. A., 147—151 (1965). Halkin H., Method of convex ascent. В книге: A. V. Balakrishnan, L. W. Neustadt (eds.), Computing Methods in Optimization Problems, Academic Press Inc., New York, 1964, pp. 211—239. Ho Y. C., A Successive Approximation Technique for Optimal Control Systems Subject to Input Saturation. Trans. ASME, Ser. D. J. Basic Eng., 84, №1, 33—40 (1962). Ho Y. C., Computational Procedure for Optimal Control Problem with State Variable Constraints, J. Math. Anal. Appl. 5, 216—224 (1962). Ho Y. C., Brentani P. B., On Computing Optimal Control with Inequa- lity Constraints, J. Soc. Ind. Appl. Math., Ser. A, Control, 319—348 (1963). Ho Y. C., Kashyap R. L., A Class of Iterative Procedures for Linear Inequalities, J. Soc. Ind. Appl. Math. Ser. A, Control 4, № 1, 112—115 (1966). Isaacs D., Leondes С. T., Nieman R. A., On a Sequential Optimi- zation Approach in Nonlinear Control. Proc. JACC, Seattle, Washington, 158—166, 1966. Jurovics A. S., McIntyre J. E., The Adjoint Method and its Appli- cation to Trajectory Optimization, ARS J., 32, 135s (1962).
552 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Kazda L., Control System Optimization Using Computers as Control System Elements, Proc, of Computer in Control Systems Conference, New York, 1958. Kelley H. J., Methods of Gradients. В книге: G. Leitman (ed.) Optimiza- tion Tecdnlques, Academic Press Inc., New York, 1962, Chapter 6. Knapp С. H., Frost P. A., Determination of Optimal Control and Tra- jectories Using the Maximum Principle in Association with a Gradient Te- chnique. Proc. JACC, Stanford, California, 1964, p. 222. Knudsen H. K-, An Iterative Procedure for Computing Time—Optimal Con- trols, IEEE Trans. Auto. Control, 9, 23—30 (1964). Kopp R. E., McGill R., Several Trajectory Optimization Techniques. В книге: A. V. Balakrishnan and L. W. Neustadt, (ed.) Computing Methods in Optimization Problems. Academic Press Inc., New York, 1964, pp—65—89. Kulikowski R., Synthesis of a Class of Optimum Control Systems. Bull. Acad. Polon. Sci., Ser. Sci., Tech. 7, 663—671 (1959). Luh J. Y. S., On a Computational Scheme for Time Optimal of Linear Di- screte Systems, IEEE Trans. Auto. Control, AC11, № 1, 145 (1966). McGill R., Optimal Control, Inequality State Constraints, and the Generali- zed Newton—Raphson Algorithm. J. Soc. Ind. Appl. Math., Ser. A, Cont- rol 3, № 2, 291—298 (1965). McReynolds S. R., A Successive Sweep Method for Solving Optimal Prog- ramming Problems, Ph. D. Dissertation, Div. of Engineering and Appl. Phy- sics, Harvard University (1966). Мееров M. В., Фридман В. Г., Линейное программирование в гиль- бертовом пространстве и оптимизация одного класса многосвязных систем. Труды III Конгресса ИФАК, Лондон, 1966. Merriam С. W., An Algorithm for the Iterative Solution of a Class of Two Point Boundary Value Problems, SIAM J., Control, 2, 1—10 (1964). Mikami T., An Iterative Computing Method for Solving Time—Optimal Problems. Proc. Third IFAC Congress, London (1966). Mi t ter S. K., Successive Approximation Methods for the Solution of Optimal Control Problems. Automatica 3, 135—149, Pergamon Press (1966). Moyer H. G., Pur ham G., Several trajectory optimization techniques, Part II. В книге: A. V. Balakrishnan and L. W. Neustadt (ed.), Computing Methods in Optimization Problems. Academic Press Inc., New York (1964), pp. 91—105. Neustadt L. W., A Synthesis Method for Optimal Controls. Proc, of Opti- mum System Synthesis Conference, Dayton, Ohio (September 1962), pp. 273—382. No ton A. R., Numerical computation of automatic control, Proc. JACC, Seattle, Washington (1966), pp. 193—204. Paiewonsky B., Woodrow P., Brunner W., Halbert P., Syn- thesis of Optimal Controllers Using Hybrid Analog-digital Computers. В книге: A. V. Balakrishnan and L. W. Neustadt (eds.), Com- puting Methods in Optimization Problems. Academic Press Inc., New York (1964). pp. 285—304. Plant J. B., At hans M., An iterative Technique for the Computation of Time Optimal Controls. Proc. Third IFAC Congress, London (1966). Rosen J. B., Iterative Solution of Nonlinear Optimal Control Problems. J. Soc. Ind. Appl. Math., Ser. A, Control, 4, № 1, 223—244 (1966). Rosen J. B., Optimal Control and Convex Programming. В книге: J. Abadie (ed.), Nonlinear Programming, A Course, North-Holland Publishing Company, Amsterdam (1966). Sc ha rm ack D. K., The Equivalent Minimization Problem and the New- ton—Raphson Optimization Method. Proc, of the Optimum System Syn- thesis Conference, Dayton, Ohio (September 1962), pp. 119—158.
БИБЛИОГРАФИЯ К ПРИЛОЖЕНИЮ А 553 Scheie у С. Н.,Optimal Control Computation by the Newton—Raphson Me- thod and the Riccati Transformation. Proc. JACC, Seattle, Washington (1966), pp. 186—192. ShahB. V., Buehier R. J., Kemp throne O., Some Algorithms for Minimizing a Function of Several Variables. J. Soc. Ind. Appl. Math., 12, 74 (1964). Применение вычислительной техники к прикладным задачам теории управления Bat tin R. Н., A Statistical Optimizating Navigation Procedure for Space Flight, ARS J., 1681—1698 (1962). Bellman R., Dreyfus S., An application of Dynamic Programming to the Determination of Optimal Satellite Trajectories, J. Brit. Interplanet. Soc. № 3—4, 17, 78—83 (May—August 1958). Kelley H. J. Successive Approximation Techniques for Trajectory Optimiza- tion, Proc, of the IAS Symposium on Vehicles System Optimization, Insti- tute of Aerospace Sciences, New York (1961), p. 10. Landgraf S. K., Some Practical Application of Performance Optimization Techniques to High—Performance Aircraft. J. Aircraft, 2, № 2, 153—154 (1965). Med itch J., Optimal Thrust Programming for Minimal Fuel Midcourse Gui- dance, Proc, of Optimum Synthesis Conference, Dayton, Ohio (1962), pp. 55-68. Melbourne W. G., Sauer C. G. Constant Attitude Thrust Program Optimization, AIAAJ, 3, 8, 1428—1431 (1965). Melbourne W. G., Sauer C. G., Optimum Thrust Program for Power Limited Propulsion Systems, Astronaut., Acta 8, 1962. Paiewonsky В. H., The Syntheis of Optimal Controller. Proc, of the Opti- mum System Synthesis Conference, Dayton, Ohio, (September 1962), pp. 69—88. Smith F. T., Optimization of Multistage Orbit Transfer Processes by Dyna- mic Programming. ARS J. 31, pp. 1553—1559 (1961). Spang H. A., Ill, Optimum Control of an Unknown Linear Plant Using Bayesian Estimation of the Error. IEEE Trans., Control AC—10, № 1, 80—83 (1965). Swerling P., A Proposed Stagewise Differential Condition Procedure for Satellite Tracking and Prediction, J. Astro. Sci., 6, 46—52 (1959). Tsien H. S., Evans R. C., Optimum Thrust Programming for Sounding Rocket. ARS J., 21, 99—107 (1951). Обзорные статьи, посвященные оптимизации управлений с применением вычислительной техники Bell D. J., A Review of Flight Path Optimization ... in the Period 1945—1960, J. Roy. Aeron. Soc. 67, 119 (1963). Greenley R. R., Comments on the Adjoint Method and its Application to Trajectory Optimization, AIAA J., 1, 1463 (1963). Paiewonsky В. H., A Study of Time Optimal Control. В книге: J. P. Lasalle, S. Lefshetz (ed.), Proceedings of International Sym- posium on Nonlinear Differential Equations and Nonlinear Mechanics, Academic Press Inc., New York (1963), pp. 333—365. Paiewonsky В. H., Optimal Control: A Review of Theory and Practice AIAA J. 3, 11, 1985—2006 (1965). Spang H. A., Ill, A Review of Minimization Techniques for Nonlinear Func- tions, Soc. Ind. Appl. Math. Rev. 4 (1962).
554 МЕТОД НАИСКОРЕЙШЕГО СПУСКА ПРИЛ. А Литература общего характера Арис Р., Оптимальное проектирование химических реакторов, перев. с англ., ИЛ, 1963. Бэттин Рм Навигация в космосе, перев. с англ., «Машиностроение!, 1966. Веллман Р., Динамическое программирование, перев. с англ., ИЛ, 1960. Блисс Г., Лекции по вариационному исчислению, перев. с англ., ИЛ, 1950. Bryson А. Е., Denham W. F., Dr eyfus S. E., Optimal Programming Problem with Inequality Constraints I: Necessary Conditions for Extremal Solutions. AIAA J., 1, pp. 2544—2550, (1963). Chang S. S. L., General Theory of Optimal Processes, J. Soc. Ind. Appl. Math. Ser. A, Control, 4, № 1, pp. 46—55, (1966). Чанг С. С. Л., Синтез оптимальных систем автоматического управления, перев. с англ., «Машиностроение», 1964. Cicala Р., An Engineering Approach to the Calculus of Variations (in English), Levrotto and Bella, Torino, Italy, 1957. Коддингтон Э., Левинсон H., Теория обыкновенных дифферен- циальных уравнений, перев. с англ., ИЛ, 1958. Курант Р., Дифференциальное и интегральное исчисление, т. 2, перев. с англ., «Наука», 1969. Гельфанд И. М., Фомин С. В., Вариационное исчисление, Физматгиз, 1961. Hestenes М. R., Variational Theory and Optimal Control Theory, in Com- puting Methods in Optimization Problems. Academic Press, N. Y. (1966). Хилле Э.,’ Филлипс P., Функциональный анализ и полугруппы, пе- рев. с англ., ИЛ, 1962. Канторович Л. В., Функциональный анализ и прикладная математика, УМН, № 3, вып. 6, 1948. Kelly Н. J., Guidance Theory and Extremal Fields. IRE Trans. Auto. Cont- rol, pp. 76—82 (1962). Kuhn H., Tucker A. W., Nonlinear Programming, Second Berkley Sym- posium of Math. Statistics and Probability, University of California Press, Berkley, 1951. Л e й т м а н Дж. (ред.), Методы оптимизации с приложениями к космиче- ским летательным аппаратам, перев. с англ., «Наука», 1965. Люстерник Л. А., Соболев В. И., Элементы функционального ^ана- лиза, «Наука», 1965. Мерриэм К., Теория оптимизации и расчет систем управления с обратной связью, перев. с англ., «Мир», 1967. Рисе Ф., Надь Б., Лекции по функциональному анализу, ИЛ, 1954. Saaty Т. L., В ram J., Nonlinear Mathematics, McGraw-Hill Book Co., N. Y., 1964. Taylor A. E., Introduction to Functional Analysis, John Wiley, N.Y. (1958). Wilde D. J., Optimum Seeking Methods, Prentice Hall, New Jersey (1964). Zoutendijk G., Nonlinear Programming: A Numerical Survey. J. Soc. Ind. Appl. Math., Ser. A, Control, 3, № 1 (1966).
ПРИЛОЖЕНИЕ Б РАБОТЫ ПО ОПТИМАЛЬНОМУ УПРАВЛЕНИЮ СИСТЕМАМИ, ОПИСЫВАЕМЫМИ ОБЫКНОВЕННЫМИ ДИФФЕРЕНЦИАЛЬНЫМИ УРАВНЕНИЯМИ И УРАВНЕНИЯМИ В ЧАСТНЫХ ПРОИЗВОДНЫХ В этом приложении мы расскажем о новейших исследованиях в области оптимальных систем, описываемых дифференциальными уравнениями с запаздывающим аргументом, а также другими бо- лее сложными функциональными уравнениями. Мы ограничим- ся здесь рассмотрением детерминированных систем, не касаясь обширной литературы, посвященной стохастическим управляемым системам. В конце этого приложения дается специальная библио- графия работ, посвященных рассматриваемым здесь проблемам. Б1. Управляемые системы, описываемые функционально-дифференциальными уравнениями или уравнениями в частных производных, и применимость функционального анализа Рассмотрим управление линейным осциллятором с вектором состояния (х(0, x(t)) и скалярными управлениями u(t), и пред- положим, что упругая восстанавливающая сила действует с за- паздыванием в одну секунду. Тогда уравнения движения системы будут иметь вид ^+х(/-1) = и(0 или X(t)=y(t), y(t} = x(t— l)+u(0. Это—пример системы дифференциальных уравнений с запаздываю- щим аргументом, или дифференциально-разностной системы. Если состояние (x(f), y(i)) системы определено на единичном интервале —1 t 0, то оно будет однозначно определено и для всех/>0, при условии, что при t >0 определено управление u(t). Заметим,
556 РАБОТЫ ПО ОПТИМАЛЬНОМУ УПРАВЛЕНИЮ СИСТЕМАМИ ПРИЛ. Б что начальное состояние системы, (а также все последующие ее состояния, если задача сформулирована соответствующим образом), являются функциями, определенными на действительном единич- ном интервале, а не точками пространства конечной размерности. Это сразу приводит нас к динамическим системам в простран- ствах бесконечной размерности, и естественно, что основную роль в их исследовании будут играть методы функционального анализа. Для описания общей системы обыкновенных функционально- дифференциальных уравнений введем обозначение xt (0) для «-мер- ной вектор-функции на интервале — 1<0^О, соответствующей каждому «-мерному вектору x(t). Если x(t) (—(где tx—любое положительное число) есть функция со значениями в Rn, то xt (0), для каждого t из интервала 0 t tt представ- ляет собой единичный отрезок x(t), конец которого соответствует моменту t или xt (0) = х(t-|-0) на — 1^0s^O. Очевидно, что из непрерывности функции x(t) следует непрерыв- ность функции xf(0), т. е. Х/(0) принадлежит пространству С([—1, 0]' R") непрерывных «-мерных вектор-функций на интер- вале — 1 0 0. С введением обычной нормы это пространство становится банаховым. Аналогично, если функция x(f) интегри- руема на любом конечном интервале, то функция xt(&) принадле- жит пространству £х[(—1, 0), Я'2]. Обыкновенная управляемая функционально-дифференциальная си- стема описывается «-мерным векторным управлением: x(O = f(/, xt, ut, u(t)), где f есть непрерывное отображение пространства ^ХС([—1, 0], R^xL^t— 1, 0), Rm)xRm в Rn. Если задано непрерывное начальное состояние х.(0) = <р(0), -1<9<0 и интегрируемое управление и (0, — 1 < * С ti, то существует однозначно определенное решение х (/), если только функция f удовлетворяет некоторым условиям гладкости, а также ограничениям на скорость возрастания. Обычно в задачах опти- мального управления функции u(t) выбираются из некоторого класса допустимых управлений, так, чтобы решение х (t), соответ- ствующее «(/), доставляло минимум заданному функционалу.
Bl ПРИМЕНИМОСТЬ ФУНКЦИОНАЛЬНОГО АНАЛИЗА 557 В качестве одного из важнейших примеров рассмотрим линей- ную автономную дифференциально-разностную систему р X (О = S A* &~Ъ) + Ви (О 1 с постоянными матрицами Ак и В и постоянными запаздываниями 0^тА^1. Это наиболее хорошо изученный вид функционально- дифференциальных систем. Очевидный переход к непрерывным запаздываниям приводит к уравнению восстановления о х(/) = J A(e)x(t + Q)dQ + Bu(t). -1 При других обобщениях запаздывания тА > 0 могут изменяться по времени и быть неограниченными. Для того чтобы ввести понятие управляемой системы с рас- пределенными параметрами, рассмотрим уравнение теплопровод- ности дТ д*Т , ,, « dt “ {ду* U У)’ Здесь Т (t, у)—температура точки бесконечного стержня — оо<г/<оо в момент времени t 0. Распределенное управление и (t, у) может рассматриваться как регулирующий источник тепла, распределенный по стержню. Рассмотрим аналогичное уравнение в интегральной форме (которую мы примем за определение по- добной управляемой системы): со /со T(t,y) = Jtf(f,y.-|)T(O,£)d&+J y-l)u(t,l)^dv, — со 0 — оо где Н (t, у)—ядро теплопроводности Я(/,£) = у==-е-^, />о. Начальная температура стержня Т (0, у) задается с помощью функции из банахова пространства Со непрерывных функций, определенных на оси у и стремящихся к нулю при |^|—>оо (норма выбирается как обычно). Управляющие функции непре- рывны по t 0, — оо < г/ < оо, и стремятся к нулю при \у\—► оо, равномерно на каждом компактном интервале t > 0. Теперь можно определить пространство состояний % как банахово простран- ство Со, так что состояние х(<) системы отождествляется с функ- цией Т (t, •). В качестве пространства управлений выбираем ‘U = Со; тогда каждое управление и (t, у) определяет непрерывное отобра- жение /—►«(/) пространства R1 в ‘U, и каждое такое отображение
558 РАБОТЫ ПО ОПТИМАЛЬНОМУ УПРАВЛЕНИЮ СИСТЕМАМИ ПРИЛ. В определяется единственным управлением и (/, у). В этих обозна- чениях наше уравнение теплопроводности представляет собой полугруппу Ф (/) линейных преобразований пространства % в себя, 00 Ф(о«(о)- 0-£)Т(оли. Полугруппа Ф(0 будет сильно непрерывна при t^O, и более того, Ф(/)х непрерывно по (/, х). Таким образом, получаем фор- мулу для управляемого распределения температур t х (0 = Ф (/) х (0) -f- 5 Ф (i—т) и (т) dx, о в которую входит интеграл Римана от непрерывной функции Ф(/—т)и(т) из при каждом фиксированном /^0. Эта формула вариации произвольных постоянных согласуется с опи- санием процесса теплопроводности с помощью обыкновенного диф- ференциального уравнения ^=Лх(0+«(0, где •)—элемент банахова пространства Со, а Л—не- ограниченный линейный оператор дифференцирования второго порядка (или лапласиан для большого числа переменных). Приведенные примеры показывают, что обыкновенные функцио- нально-дифференциальные системы, дифференциальные системы в частных производных и даже системы с запаздыванием могут рас- сматриваться как динамические системы в пространствах беско- нечной размерности. Если первоначальные системы линейны и автономны, то теория полугрупп дает нам единообразный подход к таким задачам; в противном случае необходимо ввести в рас- смотрение более общие эволюционные системы. Методы функционального анализа применимы также к класси- ческим задачам оптимизации, описываемым системами обыкновен- ных дифференциальных уравнений в Rn: X = f(t, X, и) с ограничениями x<zAczRn и u(f)<zRc:R'tt. Критерий качества С(и) можно считать функционалом с действительными значениями на пространстве управлений ‘U. Оптимальное управление «* тогда соответствует критической точке функционала С (и), т. е. точке, в которой обращается в нуль градиент С (и), понимаемый в не- котором обобщенном смысле. Все накладываемые условия ограни- чивают пределы изменения управления и некоторым подмножест- вом (часто подмногообразием) пространства 41. Следовательно, необходимым условием оптимальности управления и* является
Б2 1 АБСТРАКТНЫЙ ПРИНЦИП МАКСИМУМА 559 равенство нулю некоторой проекции градиента функционала С (и) на подмножество 1^. Это необходимое условие может выражаться через множители Лагранжа как в условии Куна—Таккера (Kuhn—Tucker), которое в классической задаче превращается в принцип максимума Понтрягина. Б2. Абстрактный принцип максимума Абстрактная или аксиоматическая трактовка принципа макси- мума вполне укладывается в общую схему классического функ- ционального анализа. Пусть &—линейное топологическое прост- ранство, a —его квазивыпуклое подмножество; это означает, что любое линейное отображение конечномерного симплекса о в пространство eF, с вершинами, отображаемыми в <Flt всегда может быть равномерно аппроксимировано непрерывными отобра- жениями симплекса о в Пусть <р: —>- Rn:f—+x—непрерывное отображение с минимальным значением х1 в некоторой точке Если отображение <р дифференцируемо (в смысле Гато) в окрестности f*, то оператор dtp, представляющий собой линей- ную часть отображения <р, отображает выпуклую оболочку мно- жества Fj на выпуклое множество Q в R", причем точка dtp (/*) попадает на границу множества Q. Тогда принцип максимума состоит в утверждении, что в Rn существует гиперплоскость я, отделяющая множество Q от луча, параллельного оси х1, направ- ленного вниз от точки <р (/*)- Покажем теперь, как обычная задача оптимального управления может быть сформулирована в терминах функционального анализа. Рассмотрим управляемую систему в Rn: (fif) x=f(x,t,u), где f—функция класса С1 в R«+l+". В качестве управлений u(t) рассмотрим измеримые /n-мерные вектор-функции на фиксирован- ном конечном интервале 3: подчеркнем, что функции u(t) принадлежат некоторому множеству функций <U. Часто ‘U есть просто совокупность всех измеримых функций u(f)a:Qc:Rm на интервале где О—некоторое фиксированное мно- жество. Однако такое описание множества "И вовсе не обязательно; Рассмотрим некоторое фиксированное начальное состояние x(t0) = х0 в Rn. Предположим, что каждому допустимому управлению м (t) 6 ‘М соответствует решение х (/), принимающее значения из заданного компактного множества XcRn, и что | f (х, t, и (/)) | т„ (t) для всех х£Х, t£3, где ma(t)—интегрируемая функция на интервале 3, зависящая от управления u (t). Тогда каждое решение x(t) определено на
560 РАБОТЫ ПО ОПТИМАЛЬНОМУ УПРАВЛЕНИЮ СИСТЕМАМИ ПРИЛ. Б всем интервале и требуется минимизировать функцио- нал х^Т). Пусть Fj—совокупность всех функций {f(x, t, u(0)}, ц (0 € т. е. функций, зависящих только от (х, t), и полученных путем подстановки в fix, t, и) управления u(t). Мы будем обозна- чать такие функции через f (х, t). Каждой функции f € соот- ветствует решение x(t), определенное на интервале 3, конец кото- рого x(T)£Rn. Рассмотрим отображение <р: 3\->-Rn: f—+x(T). Будем считать подмножеством линейного топологического пространства состоящего из n-мерных вектор-функций g(x, t) на ХхЗ, где g(x, t) непрерывны по х при всех t£3', g(x, t) измеримы по t при всех х^Х; \g(x,t)\^mg(t)eL1(3) для (х, t)£Xx3, причем интегрируемая функция mg(t) зависит от g. Для того чтобы пространство стало топологическим, необходимо дать определение окрестности начала координат. Это можно сделать различным^ способами, однако все они достаточно сложны. Одно из новейших определений дал Л. Нейштадт: окрестностью NE, у начала координат для каждого положительного е > 0 и для каж- дого вспомогательного семейства Y равностепенно непрерывных n-мерных вектор-функций y(f) считаем совокупность тех g(x, t), для которых t ^g(y(s), s)ds *0 gZNt'Y, если <8 при всех t£3, у GY. Такое определение окрестности Ne> у иногда называют вибрацион- ной топологией в Зг. Для того чтобы вывести принцип максимума для оптимального управления «*(0^^, или для соответствую- щего элемента f*=f*(x, t, u*(0)€<F, остается теперь лишь дока- зать, что множество <Ft квазивыпукло в IF, и что отображение <р дифференцируемо (оба утверждения должны быть справедливы хотя бы в некоторой окрестности /*). Наиболее сложная часть доказательства принципа максимума, как показано в главе 4, состоит в проверке справедливости этих двух утверждений для случая, когда семейство ‘М включает все управления u(t)aQ. В рассматриваемом здесь самом общем случае принцип макси- мума выражается в интегральной форме [через функцию Гамиль- тона Й(г\, х, и), введенную в теореме 5.2] $ Й (т|* (0, ? (0, и* (0) dt > Й (ц* (0, ? (0, и (0) dt, 3 3
БЗ КРАТКИЙ УКАЗАТЕЛЬ К БИБЛИОГРАФИИ 561 где u*(t) есть оптимальное управление, a u(t)—произвольное управление из ‘U. В том случае, когда множество ‘U задается ограничением и(/)сЙ, из интегральной формы принципа макси- мума немедленно следует его обычная форма **(0» “* (0) — тах Н (Л* (0> **(0» и) почти всюду. ueQ Абстрактная трактовка принципа максимума объединяет мно- гие классические методы оптимизации. Наиболее важен абстракт- ный подход в том случае, когда он применяется к задачам с ограниченными множествами фазовых состояний, а также в зада- чах минимаксной оптимизации. В этих случаях классический анализ в Rn становится слишком громоздким, и поэтому особенно удобно описание задачи в функциональных пространствах. БЗ. Краткий указатель к библиографии Каждый из пунктов нижеследующего списка снабжен номе- рами, указывающими на относящиеся к нему работы. После списка будут приведены некоторые замечания по поводу этих ссылок. 1. Обыкновенные дифференциально-функциональные системы: а) Дифференциально-разностные уравнения [12; 13; 14; 15; 36; 37; 38; 39; 50; 51; 54; 55]. Ь) Специальные функциональные уравнения [16; 25; 31; 40; 59]. с) Примеры и приложения [12; 13; 38]. 2. Системы с частными производными: а) Линейный случай. (а) Существование оптимальных управлений [2; 3; 22; 26; 41; 57]. (Р) Принцип максимума; релейные управления [2; 3; 18; 24; 26; 56; 57]. (у) Управляемость и качественная теория [23; 26; 45]. Ь) Нелинейный случай. (а) Существование оптимальных управлений [42]. ф) Принцип максимума и дальнейшие исследования [21; 22]. с) Различные примеры и приложения [7; 8; 9; 10; 18; 19; 22; 24; 59]. 3. Минимизируемые функционалы в векторных пространствах бесконечной размерности: а) Обобщенные условия Куна—Таккера [17; 27; 29; 34; 35; 48; 49; 58]. Ь) Применения теории управления [11; 17; 27; 33; 34; 48; 49; 58]. с) Метод наискорейшего спуска и численные методы [30; 52; 53]. d) Используемые понятия функционального анализа [5; 32; 56]. 4. Общая теория линейных систем в пространствах бесконечной размерности:
562 РАБОТЫ ПО ОПТИМАЛЬНОМУ УПРАВЛЕНИЮ СИСТЕМАМИ ПРИЛ.В а) Передаточные функции [4; 44]; Ь) Управляемость, наблюдаемость [4; 23; 44; 45]. с) Приложения и примеры [4; 44; 45]. Одно из наиболее ранних исследований по оптимальному управлению с дифференциально-разностными уравнениями содер- жится в работе [36, 54], где доказан принцип максимума для нелинейных систем. Систематическое изложение теории оптималь- ного управления для дифференциально-разностных систем дается в работе [13], причем ход изложения близок к нашему. Наиболее важные положения работы [13] получают свое дальнейшее раз- витие в работе [15]. Одной из главных нерешенных проблем в теории управления дифференциально-разностных систем является синтез оптимального управления в виде цепи обратной связи. Попытки решения этой задачи предприняты в работе [38]. Принцип максимума для нелинейных разностных уравнений доказан в работе [31]. В этой статье подробно изложены топо- логические понятия, необходимые для доказательства теорем трансверсальности для дифференциальных и разностных систем управления. В работе [26] рассматриваются системы с последей- ствием, измучается принцип максимума для таких систем, а также релейные управления и управляемость. Отметим, что в литературе имеется очень немного упоминаний о задаче оптимального управления для функционально-дифферен- циальных систем общего вида. Теория существования оптимальных управлений для систем с частными производными затрагивается во многих работах. Наи- более общие теоремы существования для линейных систем урав- нений в частных производных (параболических и некоторых видов гиперболических) доказаны в работе [41]. Продолжение этого исследования для нелинейных систем проведено в работе [42]. Наиболее подробное изложение принципа максимума (а также связанных с ним вопросов релейного синтеза оптимальных управ- лений) для линейных систем в частных производных содержится в работе [26]. В статье [22] предложена формулировка принципа максимума для нелинейных систем в частных производных. Однако эта тема нуждается в дальнейшем уточнении, особенно в отноше- нии влияния различных предположений на общие методы решения систем уравнений в частных производных. В работах [3; 18; 57] рассмотрены некоторые специальные виды линейных систем уравнений в частных производных, прин- цип максимума для этих систем, а также синтез оптимальных управлений. В этих работах дается ряд весьма интересных при- меров и приложений. Обобщение условий Куна—Таккера для критических точек в пространствах бесконечной размерности сделано в работе [35]. В работе [17] дается первая попытка использования этих идей
БИБЛИОГРАФИЯ К ПРИЛОЖЕНИЮ Б 563 для доказательства принципа максимума для задач с ограничен- ными фазовыми координатами; более подробно эта тема изложена в работах [27; 34; 48; 49; 51]. Дальнейшее обобщение условий Куна—Такера для слабо непрерывных функционалов можно найти в работе [28]. Проблеме минимизации функционалов в банаховом пространстве методом наискорейшего спуска посвящена работа [30]. Здесь изло- жены основные численные методы решения классических задач оптимизации. Последний пункт приведенного выше списка относится к тео- рии передаточных функций в общих линейных пространствах. Вопросы управляемости, наблюдаемости и распознавания образов изучались также в работах [4; 44; 45]. БИБЛИОГРАФИЯ К ПРИЛОЖЕНИЮ Б 1. Arrow К. J., Hurwicz L., Uzawa Н., Constraint Qualifications in Maximization Problems, Naval Res. Logist. Quart., 8. 175—181 (1961). 2. Balakrishnan A. V., Optimal Control Problems in Banach Spaces. J. Soc. Ind. Appl. Math., Ser. Control 3, 1, 152—180 (1965). 3. Balakrishnan A. V., Semigroup Theory and Control Theory. Proc. IFIP Congress, Tokyo (1965). 4. Balakrishnan A. V., A Theory of Linear Systems of Non-Finite Di- mension. Proceedings of the Symposium of System Theory, Polytechnic Insti- tute of Brooklyn, April (1965). 5. Berger M., Generalized differentiation and utility functionals for commo- dity spaces of abritrary dimensions (в печати). 6. Болтянский В. Г., Гамкрелидзе Р. В., Понтрягин Л. С., Теория оптимальных процессов, I. Принцип максимума. Изв. АН СССР, Сер. матем., 24, Ns 1, 1960. 7. Бутковский А. Г., Оптимальные процессы в системах с распределенными параметрами. Автоматика и телемеханика, 22, № 1, 1961. 8. Бутковский А. Г., Принцип максимума для оптимальных систем с распределенными параметрами. Автоматика и телемеханика, 22, № 10, 1961. 9. Бутковский А. Г., Лернер А. Я., Об оптимальном управлении системами с распределенными параметрами. Автоматика и телемеханика, 21, № 6, 1960. 10. Бутковский А. Г., Лернер А. Я., Об оптимальном управлении системами с распределенными параметрами, ДАН СССР, т. 134, Ns 4, 1960. 11. Chang S. S. L., General Theory of Optimal Processes, J. Soc. Ind. Appl. Math., Ser. A, Control, 4, 46-55 (1966). 12. Chosky N. H., Time Lag Systems—A Bibliography, IRE Trans. Autom. Control, AC5, 66-70 (1960). 13. Ch уu ng D. H., Optimal Control Systems with Time Delays, Ph. D. The- sis, University of Minnesota (1965). 14. Chyung D. H., Lee E. Bruce, Linear Optimal Systems with Time Delays, SIAM Journal of Control, 4, Ns 3 (1966) 15. Chyung D. H., Optimal Systems with Time Delay. Proc. Third IFAC, Conf., London (1966). 16. Corduneanu C., Sur une Equation Integrate de la Theorie du Reglage Automatique. C. R. Acad. Sci„ 256, 3564—3567 (1963). 17. Дубовицкий А. Я., Милютин А. А., Задачи на экстремум при наличии ограничений. Журнал вычисл. матем. и матем. физ. 5, Ns 3, 1965.
564 РАБОТЫ ПО ОПТИМАЛЬНОМУ УПРАВЛЕНИЮ СИСТЕМАМИ ПРИЛ. В 18. ЕгоровА. И., Об. оптимальном управлении процессами в распределен- ных объектах. Прикл. матем. механ. 27, № 4, 1963. 19. Егоров А. И., Об одной вариационной задаче в теории уравнений эллиптического типа. Сибирский матем. журнал 5, № 3, 1964. 20. Егоров Ю. В., О некоторых задачах теории оптимального управления. ДАН СССР, т. 145, № 4, 1962. 21. Егоров Ю. В., Оптимальное управление в банаховом пространстве, ДАН СССР, т. 150, № 2, 1963. 22. Егоров Ю. В., Необходимые условия оптимальности управления в ба- наховом пространстве. Матем. сборн., т. 64, № 1, 1964. 23. Falb Peter L., Infinite Dimensional Control Problems I: On the Closure of the Set of Attainable States for Linear Systems. J. Math. Anal. Appl. 9, № 9, 12—22 (1964). 24. Fat tori ni H. O., Time—Optimal Control of Solutions of Operational Differential Equations. J. Soc. Ind. Appl. Math., Ser. A. Control, 2, 54—59 (1964). 25. Friedman A., Optimal Control for Hereditary Processes, Arch. Rat. Meeh. Anal., 15, 396—416 (1963). 26. Friedman A., Optimal Control in Banach Spaces (to appear). 27. G a m k г e 1 i d z e R. V., On Some External Problems in the Theory of Differen- tial Equations with Applications to the Theory of Optimal Control. J. Soc. Ind. Appl. Math., Ser. A, Control 3, № 1, 106—128 (1965). 28. Гапошкин В. Ф., О критических точках функционалов в банаховых пространствах, Матем. сборн., т. 64, № 4, 1964. 29. Гирсанов И. В., Минимаксные задачи в теории диффузионных процес- сов, ДАН СССР, т. 136, № 2, 1960. 30. Go 11 wi t z er H. E., Applications of the Method of Steepest Descent to Optimal Control Problems. MS Thesis, University of Minnesota (September 1965). 31. Hal kin H., A Maximum Principle of the Pontryagin Type for Systems Described by Nonlinear Difference Equations. J. Soc. Ind. Appl. Math., Ser. A, Control 4, № 1, 90—111 (1966). 32. H a 1 k i n H., Finite Convexity in Infinite Dimensional Spaces, Proc. Col- loqium on Convexity, Copenhagen, 1965. 33. Hal kin H., An Abstract Framework for the Theory of Process Optimiza- tion” (to appear in Bull. Amer. Math, Soc.) 34. H a 1 k i n H., Neust ad t L. W., General Necessary Conditions for Opti- mization Problems. University of Southern California Report, 173^,(1966). 35. Hurwicz L., Programming in Linear Spaces, In «Studies in Linear and Nonlinear Programming» by K. J. Arrow, L. Hurwicz, and H. U z a- wa, Stanford University Press, pp. 38—102 (1958). 36. Харатишвили Г. Л., Принцип максимума в теории оптимальных процессов с запаздыванием. ДАН СССР, т. 136, № 1, 1961. 37. Крамер Дж., Об управлении линейными системами с запаздыванием. «Механика», сборн. перев., 4, 1963. 38. Красовский Н. Н., Оптимальные' процессы в системах с запаздыва- нием, Труды II Конгресса ИФАК, Базель, 1963, «Наука», 1965. 39. Красовский Н. Н., Аналитическое конструирование оптимального регулятора в системе с запаздыванием. Прикл. матем. механ., 26, № 1,1962. 40. Lee Е. В., Recurrence Equations and the Control of their Evolution. J. Math. Anal. Appl., 7, 1, 118—126 (1963). 41. Lions J. L., Sur quelques problems d’optimisation dans les equations d’evolution lineaires de type parabolique. В книге: E. Caianiello (ed), Applications of Functional Analysis to Optimization. Academic Press Inc., New York (1966). 42. Lions J. L., Optimisation pour certaines classes d’equations non linearies Proc. Symp. on Math. Theory of Control, USC (1967).
БИБЛИОГРАФИЯ К ПРИЛОЖЕНИЮ Б 565 43. Лурье К. А., Задача Майера—Больца для кратных интегралов и опти- мизация поведения систем с распределенными параметрами. Прикл. матем. механ., 27, № 5, 1963. 44. Markus L., Controllability and Observeability, В книге E. Caianiello (ed.), Applications of Functional Analysis to Optimization, Academic Press Inc., New York (1966). 45. Mi ranker W., Approximate Controllability for Distributed Linear Sys- t ms, J. Math. Anal. Appl., 10, 378—387 (1965). 46. Мищенко E. Ф., Понтрягин Л. С., Об одной статистической задаче оптимального управления, Изв. АН СССР, сер. матем., 25, № 3, 1961. 47. Neustadt L. W., Optimal Control Problems as Extremal Problems in a Banach Space. Proc, of Poly. Inst, of Brooklyn Symposium on System Theory, pp. 215—224 (April 1965). 48. Neustadt L. W., An Abstract Variational Theory with Applications to a Broad Class of Optimization Problems I: General Theory. J. Soc. Ind. Appl. Math., Ser. A, Control 4, (1966). (Available as report of the Electro- nic Sciences Laboratory, University of Southern California, Los Angeles, California.) 49. Neustadt L. W., An Abstract Variational Theory with Applications to a Broad Class of Optimization Problems II: Applications. (Available as report of the Electronic Sciences Laboratory, University of Southern Cali- fornia.) 50. Oguztoreli M. N., A time Optimal Control Problem for Systems Descri- bed by Differential Equations, J. Soc. Ind. Appl. Math., Ser. A, Control 1, 3, 290—310 (1963). 51. Ожиганова И. А., К теории оптимального управления системами с запаздыванием. Труды семинара по теории дифф, уравн. с отклоняю- щимся аргументом, Университет Дружбы народов, 2, стр. 136—145, 1963. 52. Пшеничный В. Н., Численный метод решения некоторых задач опти- мального управления, Журнал вычисл. матем. и матем. физ.,4,№2, 1964. 53. Пшеничный Б. Н., Выпуклое программирование в нормированном пространстве. Кибернетика, 1, № 5, 1965. 54. Понтрягин Л. С., Болтянский В. Г., ГамкрелидзеР. В., Мищенко Е. Ф., Математическая теория оптимальных процессов, Физ- матгиз, 1961. 55. Попов В. М., Халанай А., Об одной задаче теории оптимальных систем с запаздыванием. Автоматика и телемеханика, 24, № 2, 1963. 56. Porter W. A., On the Optimal Control of Distributive Systems, Depart- ment of Electrical Engineering. The University of Michigan, Ann. Arbor, Michigan (1965). 57. Russel D. L., Optimal Regulation of Linear Symmetric Hyperbolic Systems with Finite Dimensional Controls. J. Soc. Ind. Appl. Math., Ser. A, Control 4, № 2, 276—284 (1966). 58. Russel D. L., The Kuhn—Tucker Conditions in Banach Space with an Application to Control Theory. Math. Research Center, University of Wis- consin. 59. Wang P. К. C., Aymptotic Stability of a Time Delayed Diffusion System. Trans. Amer. Soc. Meeh. Eng., Ser. E., J. Appl. Meeh., ЗОЕ, 500—504 (1963). 60. Wang P. К. C., Control of Distributive Parameter Systems. Advances in Control Systems, 1, 75—171 (1964). 61. Wang P. К. C., Tung F., Optimum Control of Distributed Parameter Systems. Proc. Joint Automatic Control Conference, pp. 16—31 (1963).
ЛИТЕРАТУРА К главе 1 Арис Р. (А г i s R) 1. Оптимальное проектирование химических реакторов, пер. с англ., ИЛ, Белл^ман Р., Гликсберг И.» Гросс О. (Bellman R., Glicks- berg I., Gross О.) 1. Некоторые вопросы математической теории процессов управления, пер. с англ., ИЛ, 1962. Блисс Г. (В 1 i s s G.) 1. Лекции по вариационному исчислению, пер. с англ., ИЛ, 1950. Бесс P.UBass R.) 1. Equivalent Linearization, Nonlinear Circuit Synthesis and the Stabili- zation and Optimization of Control Systems. Proceedings of the 2nd Nonlinear Circuit Analysis Symposium, Polytechnic Institute of Brooklyn, New York, pp. 163-198 (1956). Б у ш о у Д. (В u s h a w D.) 1. Optimal Discontinuous Forcing Terms, in Lefschetz S. (ed.), vol. 4. Con- tributions to the Theory of Nonlinear Oscillations, Princeton University Press, Princeton, N. J., pp. 29—62 (1958). Гантмахер ,Ф. P. 1. Теория матриц, „Наука", 1967. Г p e й в с Л. (Graves L.j 1. Theory of Functions of Real Variables. McGraw-Hill Book Co., New York (1956). Данфорд H. и Шварц Дж. (Dunford N., and Schwartz J.) 1. Линейные операторы. Общая теория, пер. с англ., ИЛ, 1962. Коддингтон Э. А. и Левинсон Н. (Goddington Е. A., and Le- vi nson N. L.) 1. Теория обыкновенных дифференциальных уравнений, пер. с англ., ИЛ, 1958. Лейтман Дж. (ред.) (Leitmann G.) 1. Методы оптимизации с приложениями к космическим летательным аппаратам, пер. с англ., „Наука", 1965. Ли Э. Б. и Маркус Л. (Lee Е. В., and Markus L.) 1. Optimal Control of Nonlinear Processes, Arch. Rat. Meeh. Anal., 8, 36-58 (1961). Макшейн Э. (McShane E.) 1. Integration, Princeton University Press, Princeton, N. Y. (1944). Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе P. В., Ми- щенко E. Ф. 1. Математическая теория оптимальных процессов, Физматгиз, 1961. Цянь Сюэ-сень 1. Техническая кибернетика, пер. с англ., ИЛ, 1956.
ЛИТЕРАТУРА 567 К главе 2 Антосевич Г. (Antosiewicz Н.) 1. Linear Control Systems. Arch, Rat. Meeh. Anal., 12, 313—324, 1963. Веллман P., Гликсберг И., Гросс О. (Bellman R., Glicks- berg J, Gross O.) 1. Некоторые вопросы математической теории процессов управления, пер. с англ., ИЛ, 1962. Галкин Г. (Halkin Н.) 1. Some Further Generalizations of a Theorem of Lyapounov. Arch. Rat. Meeh. Anal., 17, № 4, pp. 272—277 (1964). Гамкрелидзе P. B. 1. Теория оптимальных по быстродействию процессов в линейных систе- мах, Изв. АН СССР, серия матем., т. 22, № 4, 1958. Гильберт Э. (Gilbert Е.) 1. Controllability and Observability in Multivariable Control Systems. J. SIAM, Ser. A., Control, 1, № 2, 1963. Данфорд H. и ШварцДж. (Dunford N. and Schwartz J.) 1. Линейные операторы. Общая теория, пер. с англ., ИЛ, 1962. Заде Л. и Дезоер Ч. (Zadeh L., and Deso er С. A.) 1. Теория линейных систем, пер. с англ., „Наука", 1970. Иглстон X. (Eggleston Н.) 1. Convexity, Cambridge University Press, London (1958). К а л м а н P. (K a 1 m a n R.) 1. Mathematical Description of Linear Dynamical Systems. J. SIAM, Ser. A, Control 1, № 2 (1963). Калман P., Хо Ю., Нарендра K. (Kalman R., Ho Y. C., Naren- dra K.) 1. Controllability of Linear Dynamical Systems. Contrib. Diff. Equa- tions, 1, № 2, 1963.> Конти P. (Conti R.) 1. Contributions to Linear Control Theory, J. Diff. Equations, 1, №4, 1965. Красовский H. H. 1. К теории оптимального регулирования. Автоматика и телемеханика, т. 18, № 11, 1957. Л а-С а л л ь Ж. (L а-S а 11 е J. Р.) 1. Time Optimal Control Systems. Proc. Nat. Acad. Sci. U. S., 45, 573-577 (1959). Ла-Салль Ж*, Л ефше ц C. (Lа-Sа 11 е J. Р., L е f sch е t z S.) 1. Исследование устойчивости прямым методом Ляпунова, пер. с англ., „Мир", 1964. Лэнинг Дж., Бэттин Р. (Laning J., and Battin R.) 1. Случайные процессы в задачах автоматического управления, пер. с англ., ИЛ, 1958. Ляпунов А. А. 1. О вполне аддитивных вектор-функциях, Изв. АН СССР, т. 4, Ns 6,1940. Нейштадт Л. (Neustadt L.) 1. The Existence of Optimal Controls in the Absence of Convexity Condi- tions. J. Math. Anal. Appl., 7, pp. 110—117 (1963). Полна Г., и С e г e Г. (Р о 1 у a G. and S z е g о G.) 1. Задачи и теоремы из анализа., пер. с нем., Гостехиздат, 1956. Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Ми- щенко Е. Ф. 1. Математическая теория оптимальных процессов, Физматгиз, 1961. Филлипов А. Ф. 1. О некоторых вопросах теории оптимального регулирования. Вестник МГУ. Серия матем., механ., астрон., физики, химии, 2, Ns 1, 1959.
568 ЛИТЕРАТУРА Харви К., Ли Э. Б. (Harvey С., Lee Е. В.) 1. On Nesessary and Sufficient Conditions for Time Optimal Control of Linear Systems. J. Math. Anal. Appl., 5, pp. 258—268 (1962). Х арви К., Ли Э. Б., Маркус Л. (Harvey С., Lee Е. В.,Mar kus L.) 1. On Time Optimal Control of Systems with Numerator Dynamics. Presentea at ASD Symp. on Optimization, Dayton, Ohio (1962). К главе 3 Белл’ман P., Гликсберг И., Гросс О. (Bellman R., Glick- berg I., Gross О.) 1. Некоторые вопросы математической теории процессов управления, пер. с англ., ИЛ, 1962. КалманР. (Kalman R.) 1. Contributions to the Theory of Optimal Control. Bui. Soc. Mat. Mexi- сапа., 5, pp. 102—119(1960). Летов A. M. 1. Аналитическое конструирование регуляторов, I, II, III. Автоматика и телемеханика, 21, №№ 4, 5, 6, I960. Ли Э. Б. (Lee Е. В.) 1. Design of Optimum Multivariable Control Systems. Trans. ASME, 83, pp. 85—90 (1961). 2. A Sufficient Condition in the Theory of Optimal Control. J. SIAM, Ser. A, Control I, №3, pp. 241—245, 1963. Нейшта^т Л. (Neustadt L.) 1. The Existence of Optimal Controls in the Absence of Convexity Condi- tions. J. Math Anal. Appl. 7, pp. 110—117 (1963). 2. Time Optimal Control Systems with Position and Integral Limits, 4J. Math. Anal. Appl., 3, 1961. Ч а и г A. (C h a n g A.) z 1. An Optimal Regulator Problem. J. SIAM, Ser. A, Control, 2, № 2, 1964. К главе 4 Альбрехт Э. Г. 1. Об оптимальной стабилизации нелинейных систем. Прикладная матема- тика и механика, т. 25, вып. 5, 1961. ВажевскийТ. (Wazewski Т.) 1. Sur les systems de commande non lineaires dont le contre de maine de commande n’est pas forcement convexe. Bull. Acad. Polon. Sci., Ser. Sci. Math., Astron, Phys. 10, 17—21 (1962). Варга Дж. (W arg a J.) 1. Relaxed Variational Problems. J. Math. Anal. Appl., 4, pp. 111—128, 1962 Галкин Г. (H a 1 k i n H.) 1. On the Necessary Condition for Optimal Control of Nonlinear Systems. J. Anal. Math., 12, pp. 1—82 (1963). Г амк рели дзе Р. В. 1. О скользящих оптимальных режимах. ДАН СССР, т. 143, № 6, 1962. Г рейве Л. (Graves L.) 1. Theory of Functions of a Real Variable. McGraw-Hill Book Co., New York (1956). Джонс Г. (Jones G.) 1. Asymptotic Fixed—Point Theorems and Periodic Systems of Functional— Differential Equations. Contrib. Diff. Eq. II, pp. 385—405 (1963). Ли Э. Б., Маркус Л. (Lee E. В., Markus L.) 1. Optimal Control of Nonlinear Processes, Arch. Rat. Meeh. Anal. 8, pp. 36—58 (1961).
ЛИТЕРАТУРА 569 Л ю к с Д. (Lukes D.) 1. Optimal Control of Nonlinear Systems. Ph. D. Thesis, University of Minnesota (1966). Нейштадт Л. (Neustadt L.) 1. The Existence of Optimal Controls in the Absence of Convexity Condi- tions. J. Math. Anal. Appl., 7, pp. 110—117 (1963). 2. A General Theory of Minimal—Fuel Space Trajectories. J. SIAM, Ser. A, Control, 3, № 2, pp. 317—356 (1965). 3. Optimization, a Moment Problem, and Nonlinear Programming J. SIAM, Ser. A, Control, 2, № 1, pp. 33—53 (1964). Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Ми- щен к о Е. Ф. 1. Математическая теория оптимальных процессов, Физматгиз, 1961. Роксин Э. (Roxin Е.) 1. The Existence of Optimal Controls. Mich. Math. J.9, pp. 109—119(1962). Филиппов А. Ф. 1. О некоторых вопросах теории оптимального регулирования. Вестник МГУ. Серия матем., механ., астрон., физ., хим., 2, № 1, 1959. Чанг С. (Chang S. S. L.) 1. Optimal Control in Bounded Phase Space, Automatica, vol. l,pp. 55—67, Pergamon Press, N. Y. (1962). Чезари Л. (Cesari L.) 1. An Existence Theorem in Problems of Optimal Control, J. SIAM, Ser. A., Control 3, № 1 (1965). Шмэдеке В. (Schmaedeke W.) 1. Optimal Control Theory for Nonlinear Vector Differential Equations Containing Measures. J. SIAM, Ser. A, Control, 3, № 2, pp. 231—280 (1965). К главе 5 Берковиц Л. (Berkowitz L.) 1. The Equivalence of Some Necessary Conditions for Optimal Control in Problems with Bounded State Variables. J. Math. Anal. Appl., 10, № 2, pp. 275—283 (1965). Болтянский В. Г. 1. Достаточные условия оптимальности, ДАН СССР, т. 140, № 5, 1961. Каллум Дж. (Cullum J.) 1. Private communication on bounded phase problem. Калм ан P. (Kalman R.) 1. When is a Linear Control System Optimal?. Trans. ASME, Ser. D, J. Basic Eng., 86, № 1, 1964. Also numerous private discussions on the Hamilton—Jacobi theory. Каратеодори К. (CaratheodoryC.) 1. Variationrechnung und partielle Differential gleichungen erster Ordnung, Teubner Verlagsgesselschaft, Leipzig (1935). Л и Э. Б. (L e e E. B.) 1. A Sufficient Condition in the Theory of Optimal Control. J. SIAM, Ser. A., Control 1, № 3, pp. 241—245 (1963). Л и Э. Б. и Маркус Л. (Lee E. В., and Markus L.) 1. О необходимых и достаточных условиях оптимальности по быстродей- ствию для нелинейных систем второго порядка. Труды II конгресса ИФАК, Базель, 1963, «Наука», 1965. Н ейштадт Л. (Neustadt L.) 1. Optimization, a Moment Problem, and Nonlinear Programming. J. SIAM, Ser. A., Control, 2, № 1, pp. 33—53 (1964).
570 ЛИТЕРАТУРА Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Ми- щенко Е. Ф. 1. Математическая теория оптимальных процессов, Физматгиз, 1961. Рассел Д. (R u seel D.) 1. Penalty Functions and Bounded Phase Coordinate Control. J. SIAM, Ser. A, Control, 2, № 3 (1965). Фалб П. (Falb P). 1. A Simple Local—Sufficiency Condition Based on the Second Variation. IEEE Trans. Auto. Control, pp. 348—350 (1965). ХермесХ. (Hermes H.) 1. The Equivalence and Approximation of Optimal Control Problems. J. Diff. Eq., 1, Xs 4, pp. 409—426 (1965). ХестенсМ. (Hestenes M.) 1. On Variational Theory and Optimal Control Theory. J. SIAM, ser. A, Control, 3, Xs 1, pp. 23—48 (1965). ШмэдекеВ., Рассел Д. (Schm aedeke W., Russel D.) 1. Time Optimal Control with Amplitude and Rate Limited Controls. J. SIAM, Ser. A, Control, 2, Xs 3 (1965). К главе 6 Альбрехт Э. Г., Красовский Н. Н. 1. О наблюдении нелинейной управляемой системы в окрестности задан* ного движения. Автоматика и телемеханика, т. 25, Xs 7, 1964. А та нс М., Фалб П. (At hans М., Falb Р.) 1. Оптимальное управление, пер. с англ., «Машиностроение», 1968. Галкин Г. (Halkin Н.) 1. On a Generalization of a Theorem of Lyapounov. J. Math. Anal. Appl. 10, Xs 2, 1965. Гилкрайст Дж. (Gilchrist J.) 1. n-Observability for Linear Systems. IEEE Trans. Auto. Control, 11 Xs 3 (1966). Заде Л., Дезоер 4. (Zadeh L., Desoer C.) 1. Теория линейных систем, пер. с англ., «Наука», 1970. К а л м а н Р. (Kalman R.) 1. Liapunov Functions for the Problem of Lur’e in Automatic Control. Proc. Nat. Acad. Sci., 49, Xs 2 (1963). Кириллова Ф. M. 1. О корректности постановки одной задачи оптимального регулирования. Изв. вузов, Математика, Xs 4, 1958. Ла-Сал ль Ж-, ЛефшецС. (La Sall J., Lefschetz S.) 1. Исследование устойчивости прямым методом Ляпунова, пер. с англ., «Мир», 1964. ЛефшецС. (Lefschetz S.) 1. Устойчивость нелинейных систем автоматического управления, «Мир», 1967. Ли Э. Б. и Маркус Л. (Lee Е. В. and Markus L.) 1. Optimal Control of Nonlinear Processes. Arch. Rat. Meeh. Anal., 8, pp. 36—58 (1961). Майер К. (Meyer К.) 1. On a System of Equations in Automatic Control Theory. Contrib. Diff. Eq., 3, pp. 163—173 (1964). Маркус Л. (Markus L.) 1. Controllability for Nonlinear Processes. J. SIAM, Ser. A. Control 3, pp. 78—90 (1965). 2. Controllability and Observability. Applications of Functional Analysis to Optimization. Academic Press, N. Y., (to appear). 3. Stability of the Optimal Control Problem. Proc. IBM Symp. (to appear.)
ЛИТЕРАТУРА 571 4. The Bang—Bang Principle, Lecture Series in Differential Equations, AFOSR Report (1965). Маркус Л., Ямабе X. (Markus L., Yamabe H.) 1. Global Stability Criteria for Differential Systems. Osaka Math. J., 12, pp. 305—318 (1960). К главе 7 Ата нс M., Ф а лб П., ЛэкосР. (AthansM., F а 1 b Р;, Lacoss R.) 1. On optimal Control of Self-Adjoint Systems. IEEE Trans. Appl. Ind., 83, pp. 161—166 (1964). Буземан A. (Busemann A.) 1. Minimal problem der Luft—und Raumfahrt. Zeitschr. fur Flugwissen- schaften, 13, pp. 401—411 (1965). Бурмейстер Г. (Burmeister H.) 1. Genaherte Bestimmung der Schaltkurve in Zeitoptimalen Regelkreisen mit nichtlinearen strecke 2 Ordnung. Intern. Colloq, pp. 113—117 (1963). Ивинг Г., Хэсэлтайн В. (Ewing G., Haseltine W.) 1. Optimal Programs for an Ascending Missile. J. SIAM, Ser. A., Cont- rol 2, № 1, pp. 66—88 (1964). Л и Э. Б. (Lee E. B.) 1. Discussion of Satellite Attitude Control. ARS J. (June 1962). Ли Э. Б., Маркус Л. (Lee E. В., Markus L.) 1. Синтез оптимального управления для нелинейных систем с одной сте- пенью свободы. Труды I Международн. симпозиума по нелинейным ко- лебаниям, Киев, 1961, изд. АН УССР, К., 1963. Лоуден Д. (Lawden D.) 1. Оптимальные траектории для космической навигации, пер. с англ., «Мир», 1966. Мьюник Г. (Munick Н.) 1. On Nonlinear Optimal Control Problems with Control Appearing Linear- ly. Ph. D. Thesis, Adelphi University (1965). Смит Ф. (Smith F.) 1. Time Optimal Control of Higher—Order Systems. IRE. Trans. Auto. Control, 6,4pp. 16—21 (1961).
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Абсолютно устойчивый процесс 435 Автономная вполне управляемая ли- нейная система 97, 101, 102, 106 ------ вполне наблюдаемая линейная система, каноническая форма 130 — линейная наблюдаемая система 115, 125 — стабилизируемая линейная система 107 Автономный вполне управляемый про- цесс 39, 101 Арцела—^сколи теорема 266 Веллмана принцип оптимальности 458, 459 Бендиксона условие 471 Вейерштрасса условия 389 -----необходимые 29 Вектор элементарного возмуще- ния 273 Вероятностная мера 292 Вертикальное насыщение множе- ства 254 Весовая матричная функция про- цесса 117 Вибрационный базис 293 Возмущенная задача 163 Вполне наблюдаемая система 121, 122 — управляемая часть системы ПО — управляемый автономный про- цесс 39, 101 -----линейный процесс 40 -----неавтономный процесс 39 Выпуклое подмножество 168 ----, выпуклая оболочка 168 -----, размерность 168 Выпуклый многогранник 169 Гипотеза «проникновения» 378 Гомана преобразование орбит 510 Демпфирование критическое 316, 318 Диагональный канторов процесс 171 Динамическое программирование 7 Дифференциал Фреше 520 Дифференциальное включение 293 Достаточные условия оптимальности управления 493 Дрейфа интервал 494 Единственность оптимального управ- ления 147 — экстремального управления 147 Задача Лурье 435 — Лурье—Летова ИЗ — Майера — Больца 25 — об оптимальном по быстродействию управлении 343 — равномерно ограниченная 263 — с дифференциальным оператором управления 43 — с ограниченными фазовыми коорди- натами 251 — со свободным временем 249 — со свободным концом траектории 345 — подвижными концами 211 — управления 38 Импульсная дифференциальная систе- ма 304 Импульсно-переходная матрица 117 Интегральный критерий качества 184 -------квадратичный 184 Интервал дрейфа 494 — переменной тяги 494 — полной тяги 494 Каноническая форма вполне управ- ляемой, вполне наблюдаемой авто- номной линейной системы 130 Канторов диагональный процесс 171 Касательный конус возмущения 273 Класс Д допустимых управлений 36 Классический вариационный подход к задаче оптимального управле- ния 25
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 573 Корректность задачи оптимального управления 451 Крайняя точка выпуклого подмно- жества 169 Критерий глобальной устойчивости неавтономных систем 139 — существования оптимального управ- ления 139 — устойчивости Ляпунова 432 ---Рауса — Гурвица 113 Критическое демпфирование 316, 318 Лежандра условие 390 Лемма Фату 267 Летова — Лурье задача 113 Линейно-эквивалентные наблюдаемые системы 121 Линейный вполне управляемый про- цесс 40 Линия переключения 17, 470, 471 Локально вполне n-наблюдаемый про- цесс 416 — наблюдаемый процесс 412 — топологически эквивалентные на- блюдаемые процессы 423 Лурье задача 435 Ляпунова функция 432 Майера—Больца задача 25 Максимальное управление 198 Матричная передаточная функция системы 117, 118 Матрица импульсная переходная 117 Метод изохронных гиперповерхностей 157, 160 — наискорейшего спуска 516 — «попятного» движения 148 Многогранник выпуклый 169 Множество ограничивающее 37 — строго выпуклое 169 — целевое 36 ---, непрерывность 36 Множители Лагранжа вариационной задачи 29 F Наблюдаемая автономная линейная система 115 ---------полностью неуправляе- мая 121 Наблюдаемость неавтономных си- стем 131 Наблюдаемые процессы 411 ---локально топологически эквива- лентные 423 Найквиста формулу 456 Направление наискорейшего спу- ска 516 Начальная точка 35 Начальное состояние 35 Неавтономный вполне управляемый процесс 39 Ненаблюдаемая часть свободной на- блюдаемой системы 123 Необходимое условие Вейерштрасса 28 ----оптимальности управления 493 Непрямое управление 438 Неравенство Гёльдера 314 Нормальность задачи 144, 147 Ньютона уравнения 508 Область нуль-управляемости 40, 41 Обобщенная характеристическая экс- понента системы 317 Обобщенное релейное управление 372 Ограничивающее множество 37 Оптимальное управление гармониче- ским осциллятором 18 ----, классический вариационный подход 25 ----механизмом, движущимся по гладким рельсам 12 ----по отношению к критерию каче- ства 38 ----угловой скоростью ротора 9 ----химической реакцией с нелиней- ным показателем качества 21 Отражение дуги 470 Передаточная функция системы мат- ричная 117 Передаточный оператор 419 Переключения управлений системы 155 Перенос касательных пространств 270 Подмножество выпуклое 168 ----, выпуклая оболочка 168 ----, размерность 168 Подпространство управляемости 110 Показатель качества 37 Полностью неуправляемая наблюдае- мая система 121 Попова критерий устойчивости 441 Преобразование орбит Гомана 510 Принцип максимума Понтрягина 5, 7, 14, 28 ----для автономных систем 45, 142 ----для линейных систем 141 — оптимальности Веллмана 458, 459 Производная Фреше 520 Процесс вполне управляемый автоном- ный 39, 101 ---------линейный 40 -------неавтономный 39 — локально вполне п-наблюдаемый 416 — —наблюдаемый 412
574 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Процесс наблюдаемый 411 •—управления нормальный 48 Прямое управление 438 Равномерно ограниченная задача 263 — ограниченное семейство функций 266 Равностепенно непрерывное семейство функций 266 Рауса —Гурвица критерий устойчи- вости 113 Регулирование на бесконечном интер- вале 214 Рисса—Фишера теорема 171, 191 Свободный осциллятор 33 Симплекс ^-мерный 169 Система автономная линейная стаби- лизируемая 107 ----наблюдаемая 115, 125 ----г—вполне 121, 122 -------полностью 137 -------свободная 121 — импульсная дифференциальная 304 Слабое управление 292 Сопряженнее решение 45 Состояние начальное 35 Спрямляемая кривая 519 Строго выпуклое множество 169 Существование оптимальной управля- ющей функции 490, 492 Теорема Арцела—Асколи 266 — о замкнутом графике 428 — Рисса —Фишера 171, 191 — существования оптимального управ- ления 138 — Хелли—Брея 308, 356 Теория оптимального управления 7 Траектория экстремальная 194, 230 Управление максимальное 45, 198,377 — непрямое 439 — оптимальное гармоническим осцил- лятором 18 Управление оптимальное, классический вариационный подход 25 ----механизмом, движущимся по гладким рельсам 12 ----по отношению к критерию каче- ства 38 ----угловой скоростью ротора 9 ----химической реакцией с нелиней- ным критерием качества 21 — прямое 438 Управляемость автономных систем 112 — неавтономных систем 131 Уравнение восстановления 557 — наблюдаемости 115 — Ньютона 508 — теплопроводности 552 Уравнения Эйлера—Лагранжа 28 Условие Бендиксона 471 — Лежандра 390 — нормальности 147 — трансверсальности 212 Условия Вейерштрасса 389 Фату лемма 267 Формула Найквиста 456 Фреше дифференциал 520 — производная 520 Функция Ляпунова 432 Хелли—Брея теорема 308, 356 Целевое множество 36 ----непрерывное 36 Цель управления 36 Экспоненциально-полиномиальные мат- рицы 118 Экстремальная траектория 194, 230 Экстремальное управление 194, 230 Элементарный симплексный конус 274 Ядро множества 42, 132
Э. Б, Ли, Л. Маркус Основы теории оптимального управления М., 1972 г., 576 стр. с илл. Редактор В. Я* Лин Техн, редактор В. Я. Кондакова Корректоры Е. А. Белицкая, Е, Строева Сдано в набор 18/11 1972 г. Подписано к пе- чати 20/IX 1972 г.Бумага 60x90 */1в. Физ. печ. л. 36. Условн. печ. л. 36. Уч.-изд. л. 35,43. Тираж 12500 экз. Цена книги 2 р. 79 к. Заказ № 1211. Издательство «Наука» Главная редакция Тизико-математической литературы 17071, Москва, В-71, Ленинский проспект, 15 Ордена Трудового Красного Знамени Первая Образцовая типография имени А. А. Жданова Главполиграфпрома Комитета по печати при Совете Министров СССР. Москва, М-54, Валовая, 28. Отпечатано во 2-ой типографии издательства «Наука» Москва Г-99, Шубинский пер. 10
ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО- МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 117071, Москва, В-71, Ленинский проспект, 15 ГОТОВЯТСЯ К ПЕЧАТИ: К. А. Абгарян, Матричные и асимптотические методы в теории линейных процессов. Р. Б а с а к е р, Т. Саати, Конечные графы и сети, перев. с англ. В. Г. Болтянский, Оптимальное управление дискретными система ми. Е. П. Попов, Прикладная теория процессов управления в нелинейных системах. Я. 3. Цыпкин, Релейные автоматические системы. ^ерия «Т ео р ет и ч е с к и е основы технической кибернетики» В. И. Варшавский, Коллективное поведение автоматов. Р. Габасов, Ф. М. Кириллова, Особые оптимальные управления. В. Г. Гусев, Методы исследования точности цифровых ав- томатических систем. В. Ф. Кротов, В. И. Гурман, Методы и задачи опти. мального управления. А. Н. Мелихов, Л. С. Берштей н, В. М. К у р е йч и к, Применение графов для проектирования дискретных устройств. Е. Н. Розенвассер, Периодически нестационарные си- стемы управления. В. И. У т к и н, Скользящие режимы и их применения в си- стемах с переменной структурой. Р. Т. Янушевский, Теория линейных оптимальных мно- госвязных систем управления. Предварительные заказы на указанные выше книги прини- маются всеми магазинами Книготорга и Академкниги. При отказе в приеме заявки заказы можно направлять по адресу: 103050, Москва, К-50, ул. Медведева, 1, магазин № 8 Москниги, отдел «Книга—почтой».