Текст
                    ARTHUR E. BRYSON, JR.
STANFORD
UNIVERSITY
YU-CHI HO
HARVARD
UNIVERSITY
APPLIED
OPTIMAL
CONTROL
OPTIMIZATION,
ESTIMATION
AND CONTROL
WALTHAM, MASSACHUSETTS
TORONTO, LONDON
1969
BLAISDELL PUBLISHING
COMPANY
A DIVISION OF GINN AND
COMPANY

А. БРАЙСОН, XO Ю-ШИ ПРИКЛАДНАЯ ТЕОРИЯ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ОПТИМИЗАЦИЯ, ОЦЕНКА И УПРАВЛЕНИЕ ПЕРЕВОД С АНГЛИЙСКОГО Э. М. МАКАШОВА, Ю. П. ПЛОТНИКОВА ПОД РЕДАКЦИЕЙ А. М. ЛЕТОВА ИЗДАТЕЛЬСТВО «МИР» МОСКВА 1972
УДК 62.505 В книге подробно и достаточно строго изложены совре- менные методы решения прикладных задач оптимального управ- ления. Авторам удалось охватить по существу все основные моде- ли задач оптимизации, включая детерминированные, игровые и стохастические. Приведено много новых результатов теории оптимального управления (необходимые условия оптимально- сти для некоторых классов вырожденных задач, оптимальная фильтрация в системах с коррелированными шумами и др.), которые ранее не освещались в монографиях. Значительное внимание уделено различным численным методам решения задач оптимального управления и вопросам реализации численных алгоритмов. Изложение теории сопровождается большим коли- чеством подробно разобранных примеров решения разнообраз- ных прикладных задач, в том числе задач оптимального управ- ления летательными аппаратами (в этом отношении книга является уникальной); кроме того, приведены задачи и упраж- нения для самостоятельной работы. Книга предназначена для инженеров и научных работни- ков, занимающихся прикладными задачами оптимального управ- ления, а также для преподавателей, аспирантов й студентов старших курсов соответствующих специальностей. Она может быть использована как справочное руководство по методам реше- ния задач оптимального управления. Редакция литературы по новой технике Инд. 3-3-4 131-72 БРАЙСОН, ХО Ю-ШИ Прикладная теория оптимального управления Редактор Л. П. Якименко Художественный редактор В. М. Варлашин Технический редактор Л. П. Бирюкова Корректор М. А. Смирнов Сдано в набор 24/1 19-71 г.(Подписано к печати 16/V 1972 г. Бумага .№ 2 60х901/1в= = 17 бум. л. 341усл. печ. л., Уч.-изд. л. 29,77. Изд. № 20/5611, Цена 2 р. 26 к. Зак. 0102 ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2 Ордена Трудового Красного Знамени Московская типография 7 «Искра революции» Главполиграфпрома Комитета по печати при Совете Министров СССР г. Москва, Трехпрудный пер., 9
ПРЕДИСЛОВИЕ РЕДАКТОРА РУССКОГО ИЗДАНИЯ Мысль о том, что расходование природных ресурсов, где бы оно не производилось, должно быть наиболее экономным, все более проникает в сознание людей. Этим объясняется возрастаю- щий интерес к проблемам оптимального управления и непрекра- щающийся поток книг, им посвященных. Данная монография принадлежит к числу лучших книг, посвя- щенных прикладным задачам теории оптимального управления. Авторы книги проф. Стэнфордского университета А. Брайсон и проф. Гарвардского университета Хо Ю-ши являются крупными специалистами в области теории управления и ее приложений. В нашей стране особенно известен проф. А. Брайсон. Ему при- надлежат многие публикации, посвященные как развитию общих методов решения задач управления, так и их приложению к управ- лению летательными аппаратами. Книга начинается с простейших задач — поиска экстремума функций конечного состояния, определенных как в открытом, так и в замкнутом фазовом пространстве, и заканчивается рассмот- рением современных проблем синтеза оптимальных автоматических устройств, придающих объектам управления требуемые свойства. Изложение сопровождается большим количеством примеров реше- ния частных задач, многие из которых имеют самостоятельный практический интерес. Это одна из наиболее ценных особенностей книги. Большая часть этих задач относится к технике управления летательными аппаратами. Тем не менее книга представит интерес для всех, кто занимается вопросами оптимизации управления в любой области, поскольку это одна из немногих доступных инже- неру монографий, где рассмотрены основные проблемы теории оптимизации как в детерминированном, так и стохастическом ва- риантах. Читатель, не интересующийся техникой управления летатель- ными аппаратами, может рассматривать примеры из этой области как чисто иллюстративные. Очень интересен пример с простой мо- делью распределения государственного бюджета на две статьи расхода — производство основного капитала и образование. Для любознательного и способного к творчеству читателя эта задача может, быть исходной в познании силы "законов управления, дей-
6 Предисловие редактора русского издания ствующих в области современной экономики, подчиненной прин- ципам обратной связи. Большой объем материала, освещаемого в книге, потребовал специальной формы его изложения, близкой к конспективной. Часто авторы ограничиваются лишь-математической формулиров- кой задач оптимизации и приведением окончательных формул или алгоритма их решения. Промежуточные пояснения в некоторых случаях отсутствуют. Поэтому требуется достаточная математиче- ская подготовка читателя в рамках современных вузовских про- грамм. Рекомендуя данную книгу как одну из первых, с которой можно начать изучение подходов к решению прикладных задач оптималь- ного управления, следует отметить, что книга не лишена недостат- ков. Авторы допускают неточность в историческом освещении предмета, в частности в отношении теоремы «принцип максимума». Досадное чувство вызывает также отсутствие четкого проведения в книге концепции Ляпунова возмущенного И невозмущенного движений. Этот факт следует расценивать как дефект методиче- ского изложения в целом очень полезной и интересной книги. А. Летов
ПРЕДИСЛОВИЕ АВТОРОВ К АМЕРИКАНСКОМУ ИЗДАНИЮ Данная книга предназначена для студентов старших курсов и аспирантов, изучающих университетские курсы анализа и про- ектирования динамических систем, а также для инженеров и мате- матиков, занимающихся прикладными вопросами. Предполага- ется, что читатель знаком с элементарными основами механики и теории обыкновенных дифференциальных уравнений. Жела- тельно также некоторое знакомство с матричной алгеброй и свой- ствами линейных систем; при отсутствии соответствующих знаний следует обратиться к двум приложениям, в которых приведены все необходимые по этим вопросам сведения. В основу книги положен курс лекций, подготовленный в соот- ветствии с программой летней школы Гарвардского университета по оптимизации динамических систем (1963). Этот материал был затем переработан и дополнен для аспирантского курса, читавше- гося в Гарвардском университете в 1963—1968 гг. и в Массачу- сетском технологическом институте в 1966 г. Книга посвящена вопросам анализа и проектирования слож- ных динамических систем. Основное внимание уделено методам получения наилучшего управления и (или) наведения для таких систем. За последние 25 лет накоплен большой объем знаний в области систем управления с обратной связью для линейных стационарных динамических систем. Эти знания играют важную роль в современной технике. Поэтому почти во всех технических учебных заведениях читаются соответствующие курсы. Однако многие динамические системы (например, воздушно-космические) являются нелинейными и (или) нестационарными. Методы анализа и проектирования линейных стационарных систем в общем случае неприменимы к этим значительно более сложным системам. Появившиеся в пятидесятых годах быстродействующие циф- ровые вычислительные машины скоро стали основным средством исследования нелинейных и нестационарных систем. Инженеры начали использовать преимущества этих замечательных вычисли- тельных устройств для проведения «на бумаге» поисковых проект- ных работ методом проб и ошибок вместо дорогостоящих иссле- дований в лаборатории. Во многих случаях, и особенно при проек- тировании систем управления и наведения, вместо метода проб и ошибок желателен более систематический подход. Поиски в этом направлении привели к возрождению интереса к старому предме- ту — классическому вариационному исчислению и к разработке
8 Предисловие авторов к американскому изданию одного из интересных его обобщений — динамического програм- мирования J). Применению этих методов к детермированным нели- нейным и нестационарным системам посвящена в основном первая часть книги (гл. 1—9). В первой части книги предполагается, что точно известны структура и параметры исследуемой динамической системы и точ- но производятся измерения текущих фазовых координат, необхо- димые для управления с обратной связью. Однако на практике точные измерения редко выполняются. Поэтому важно уметь предсказывать чувствительность управляемых систем к случай- ным флуктуациям в системе измерений, а также в окружающих условиях. Вторая часть книги (гл. 10—14) посвящена этим воп- росам. Сначала здесь дается обзор основ теории вероятностей и теории случайных процессов, а затем излагаются методы проек- тирования наилучших (в среднем) систем управления. Эти методы учитывают как наличие шумов в каналах измерений, так и слу- чайные возмущения системы под влиянием изменения окружаю- щих условий. Главная задача при написании книги заключалась в получе- нии результатов, которые можно было бы легко запрограммиро- вать для использования в вычислительных машинах. Несколько вариантов книги в форме лекционных записей было внимательно просмотрено нашими коллегами и студентами; поэтому можно надеяться, что большинство серьезных ошибок устранено. Однако авторы не снимают с себя ответственности за любые ошибки, которые могли еще остаться. Данная книга может быть (и в действительности была) исполь- зована в качестве односеместрового или двухсеместрового курса по современной теории управления. Материал книги можно изучать в любой из двух последовательностей, переходя либо от детерминированных задач к стохастическим, либо от простых задач (вводный курс) к задачам повышенной трудности (специаль- ный курс). Логическая взаимосвязь различных глав, разделение содержания книги по семестрам и последовательность изучения материала представлены на схеме и в таблице, помещенных на стр. 10. Отметим также, что приведенные в книге упражнения и приме- ры образуют единое целое с основным текстом. Они либо иллюст- рируют существо излагаемого материала, либо указывают на воз- можности его обобщения, а в некоторых случаях носят полуис- следовательский характер. Желающим серьезно изучить данный предмет рекомендуем тщательно их проработать. А. Брайсон Хо Ю-ши *) Другим обобщением классического вариационного исчисления являет- ся принцип максимума Л. С. Понтрягина.— Прим, перев.
ПРЕДИСЛОВИЕ АВТОРОВ К РУССКОМУ ИЗДАНИЮ Мы получили много писем от читателей книги, изданной на английском языке, и ряд рецензий уже появился в научно-тех- нических журналах. Нам очень понравилась рецензия проф. Я. 3. Цыпкина, которая была опубликована в журнале «Автома- тика» в 1970 г. Как мы и ожидали, многим читателям понравились примеры и задачи. Нам доставили большое удовольствие встречи и беседы с проф. А. М. Летовым, который был инициатором русского перевода, и Ю. П. Плотниковым, выполнившим часть перевода. Мы хотим поблагодарить их, а также Э. М. Макашова за этот труд. Надеемся, что издание нашей книги на русском языке послу- жит в какой-то степени дальнейшему укреплению дружбы и вза- имного уважения между нашими странами и что книга окажется интересной и полезной советским читателям. А. Брайсон „ 28 июля 1971 г. Хо Ю-ши
Схема логической взаимосвязи глав ВАРИАНТЫ РАСПРЕДЕЛЕНИЯ ЛЕКЦИОННОГО МАТЕРИАЛА ПО СЕМЕСТРАМ Семестр Курс Содержание I Детерминированные задачи опти- мального управления Главы 1—9 II Стохастические задачи оптимально- го управления Главы 10—14 I Вводный курс Глава 1, разделы 1.1—1.5 Глава 2, разделы 2.1—2.3 Главы 4,5 (без раздела 5.3) Глава 7, разделы 7.1 и 7.2 Главы 10—12 II Специальный курс (курс повышен- ной трудности) Остальная часть книги
Глава 1 Задачи минимизации функций конечного числа переменных 1.1. Задачи без дополнительных ограничений Простейший класс задач оптимизации связан с нахождением значений т координат вектора управления щ, . . ит, мини- мизирующих критерий качества L (и^, . . ит). Для удобства будем использовать более компактные векторные обозначения. Пусть г) — вектор управления. U-m Тогда критерий качества может быть записан в виде £ = £(«). (1.1.2) Если на возможные значения и не наложены какие-либо огра- ничения (связи) и если функция L (и) имеет первые и вторые част- ные производные для любого и, то необходимыми условиями мини- мума функции L по и будут ди (1.1.3) или в скалярной форме dL dui И г = 1, . . ., т, -^>0. ди2 (1.1.4) Последнее условие означает, что квадратная матрица1), состоя- щая из вторых производных IfiL d2L d2L duf dui du2 ''' dui dum &L d2L d2L _ dum дщ dum du2 du^ г PL L dut Ou.j 1. i = 1, 2, . .., m, / = 1,2, .. ., tn, ~ их * (1.1.1) См. приложение A.— Прим, nepee.
12 Глава 1 должна быть по крайней мере положительно полуопределенной J). Другими словами, собственные значения * 2) этой матрицы должны быть неотрицательными. Все значения и, удовлетворяющие усло- вию (1.1.3), называются стационарными точками функции L (и). Достаточные условия локального минимума включают условие (1.1.3) и усиленное условие (1.1.4), т. е. -Д->0. ' (1.1.5) ди2 ' Условие (1.1.5) означает, что матрица д2Ыди2 должна быть поло- жительно определенной или что ее собственные значения должны быть строго положительными. Если условие (1.1.3) выполняется в некоторой точке, но опре- делитель матрицы д2Ыди2 в зтой точке равен нулю (это означает, что одно или несколько из ее собственных значений равны нулю), то для того, чтобы установить, является ли данная точка точкой минимума, требуется дополнительная информация. Такие точки называются сингулярными (вырожденными). Отметим, что если L—линейная функция от и, то все компоненты матрицы д2Ыди2 равны нулю для любых значений и. В этом случае, вообще говоря, минимум не существует 3). Примеры. Типы стационарных точек функций двух переменных L = L (ulf и2). а) Точка минимума. Квадратичная форма А («1, «г) = 1^1, и2] 1 —11 Fui~ --1 LW2_ имеет стационарную точку и°2] = [0, 0]. Оба собственных значения матрицы d2LJdu2 положительны; стационарная точка является точкой минимума. Линии уровня Li (щ, u2) = const изображены на фиг. 1.1.1. б) Седловая точка. — 1 11 ГиГ в- 1 1 3 Квадратичная форма ^2 (Wl> Мг) = Щ.] имеет стационарную точку [uj, н“] = [0, 0]. Одно собственное значение матрицы d2L2ldu2 положительное, другое отрицательное. Необходимое условие (1.1.4) не выполнено. Стационарная точка 1) Матрица (fiL/du* вычисляется в точке и, удовлетворяющей усло- вию (1.1.3).— Прим, перее. 2) См. приложение А.— Прим, перее. 3) Минимум не существует также и в тех случаях, когда в стационарной точке матрица d2L/du2 не является положительно полуопределенной, т. е. нарушается необходимое условие (1.1.4) (см. Пример «б»).— Прим, перее.
Минимизация функций Фиг. 1.1.1. Линии уровня функции Фиг. 1.1.2. Линии уровня функции Zj (ui, и2) в окрестности точки ми- L2 («i, и2) в окрестности седловой нимума. точки. в этом случае называется седловой точкой. Линии уровня Lz (щ, иг) = const изображены на фиг. 1.1.2. в) Сингулярная точка. Нелинейная функция х) Дз (^i, ^z) ~ (^1 ' ^2) (^i-- имеет стационарную точку [uj, и2\ = [0, 0]. Одно собственное значение матрицы d2Lzldu\ вычисленной в стационарной точке, Фиг. 1.1.3. Линии уровня функ- ции L3 (и,, и2) в окрестности сингу- лярной ТОЧКИ. положительное, другое нулевое. Стационарная точка является сингулярной точкой. Линии уровня L3 (uj, u2) ~ const изобра- жены на фиг. 1.1.3. ) Пример принадлежит Пеано и интересен тем, что стационарная точка не является точкой минимума, хотя на каждой прямой, проходящей через нее, имеется локальный минимум в точке (0, 0) (см. книги: Э. Гурса, Курс математического анализа, т. 1, ч. 1, ГТТИ, 1933 и Н. Папское к, Theory of Maxima and Minima, Dover, N. Y., I960).— Прим, перее.
14 Глава 1 1.2. Задачи с ограничениями в виде равенств; необходимые условия существования стационарной точки Более общий класс задач оптимизации связан с определением т значений координат вектора управления щ, . . ит, минимизи- рующих скалярный критерий качества, который зависит от т + п переменных, Z/ (#(, . . . , Хп, Uj, . . ., причем п координат вектора состояния xlt . . ,, хп связаны с коор- динатами вектора управления с помощью соотношений /1 (^'1> • • •! *^717 ^1? • • •» ^7п) ~ ^7 /п (^*1? • • •> хп. ^17 • • •> ^m) 0. Введем опять более компактные векторные обозначения .""Пусть — вектор управления, — вектор состояния, — вектор ограничений. В этих обозначениях задача формулируется следующим образом. Найти вектор управления и, минимизирующий критерий качества L (х, и), (1.2.1) где вектор состояния х связан с вектором управления и с помощью соотношений / (х, и) = 0 (п уравнений). (1.2.2) Для каждой конкретной задачи оптимизации с ограничениями в виде равенств выбор среди переменных задачи переменных управ- ления не является единственным. Разделение на переменные управ- ления и переменные состояния проводится скорее для удобства. Однако это разделение должно быть таким, чтобы по значению и с помощью соотношений (1.2.2) можно было определить значение х. Если функции L и / линейны как по х, так и по и, то в общем случае минимума не существует. Чтобы и в этом случае задача отыскания минимума имела смысл, необходимо добавить ограни- чения в виде неравенств на значения х и (или) и. Задачи такого типа рассматриваются в разд. 1.7—1.Юл Если ограничения в виде неравенств и функция L линейны по х и по п, то такие задачи называются задачами линейного программирования. Они будут рассматриваться в разд. 1.8 этой главы.
Минимизация функций 15 В первой части этой главы будут рассмотрены задачи, в кото- рых выражения (1.2.1) и (1.2.2) содержат некоторые нелинейности. Наличие нелинейности само по себе, конечно, не обеспечивает существования минимума. Стационарной точкой в задаче оптимизации вектора управ- ления и с ограничениями в виде равенств называется такая точка, для которой dL = 0 при произвольном значении du, удовлетворя- ющем равенству df = 0 (при этом dx изменяется в зависимости от du так, чтобы не нарушалось условие df (х, и) =0). Дифференциалы функций Ли/ имеют вид dL — Lxdx 4- Ludu, (1.2.3) df = fxdx + fudu. (1.2.4) В стационарной точке должно выполняться равенство df = 0; следовательно, соотношение (1.2.4) можно разрешить относи- тельно dx, если матрица /х невырождена [а это условие должно выполняться, так как соотношение (1.2.2), по предположению, связывает х с и]. Таким образом, получаем dx = — f~^fudu. (1.2.5) Выражение (1.2.3) теперь можно представить с учетом (1.2.5) в виде dL = (Lu - Л^/J du. (1.2.6) Так как в стационарной точке dL должно быть равно нулю для любого значения, du, то необходимо, чтобы Lu — LJx^fu =0 (m уравнений). (1.2.7) Эти т уравнений вместе с п уравнениями (1.2.2) определяют т зна- чений и и п значений х в стационарной точке. Отметим, что выра- жение (1.2.7) представляет собой частную производную от L по и при постоянном значении f, тогда как Lu — частная произ- водная от L по и при постоянном значении х 1). х) Речь идет о частной производной Lx или Lu скалярной функции L (х, и) по векторному аргументу х или и, представляющей собой соответству- ющий вектор-градиент этой функции Lx = (дЫдх^ . . ., дЫдхп) или 'Щ..— (dL/dUi, . . ., dL/dUnd, или же о частной производной fx или fu вектор- ной функции f (х, и) по векторному аргументу х или и, представляющей собой матрицу ~ dfj ' dfj - ” дхп 9fi dfj ди^ дит или fu = 9fn 0fn -ди, ’ • ‘ dum _ dfn dfn L dxi 9xn vu,t „„m _j Но поводу векторно-матричных обозначений см. приложение А.— Прим. ред.
1 Глава 1 Условие (1.2.7) можно получить и другим (эквивалентным) способом. Заметим, что соотношения (1.2.3) и (1.2.4) при dL = О и dj = 0 должны образовывать в стационарной точке совмест- ную систему линейных алгебраических уравнений относительно векторов dx и du. Условие совместности этих уравнений означает, что можно определить такую систему п постоянных %i, %2, • • • . . ., *), что ^+3^ = °’ (1.2.8) г=1 где у = (жь . . ., жп, щ, . . ит)Т = (жг, ут). (1.2.9) Уравнение (1.2.8) показывает, что линейная комбинация строк матрицы fv = df/dy должна быть равна вектору Lv * 2). \ Для удобства введем векторные обозначения и V = [Хь . .., В этих обозначениях соотношение (1.2.8) [с учетом (1.2.9)] запи- сывается как LxJr'KTtx = G (п уравнений), (1.2.10) Lu + №fu = 0 (m уравнений). (1.2.11) Таким образом, линейная комбинация строк матрицы /х долж- на быть равна вектору Lx, а линейная комбинация строк матрицы fu — вектору Lu. При этом коэффициенты указанных комбинаций должны быть одинаковы. Уравнение (1.2.10) можно разрешить относительно вектора V (поскольку матрица /х должна быть невырожденной)3 (1.2.12) Если полученное выражение для V подставить в (1.2.11), то полу- чим необходимое условие (1.2.7). Постоянные Xlt Х2, • • -, Тп часто называются неопределенными мно- жителями Лагранжа. 2) Условие совместности требует, вообще говоря, чтобы ранг расширен- ной матрицы Г гх г11 I , имеющей размерность (п + 1) X (п + т), был мень- 1 Lx Lu J ше (п + 1).
Минимизация функций 17 Смысл вектора % можно выяснить из соотношений (1.2.3) и (1.2.4), если положить <7и = 0 и исключить dx-. -KT = Lx(fxr=(^-)u. (1.2.12') Таким образом, величины %г являются частными производными от от L по / при постоянном значении и и допустимом изменении х. В задачах оптимизации с нелинейными ограничениями в виде неравенств этот факт имеет важное значение (разд. 1.7). Еще один (и тоже эквивалентный) подход к рассматриваемой проблеме, неоднократно используемый на протяжении всей книги, состоит в следующем. Образуем вспомогательную функцию Н, «объединив» критерий качества L (х, и) с ограничениями (1.2.2), используя систему п «неопределенных множителей» . . ., %га: Н (х, и, %) = L (х, и) Ц- 3 (х> и) = L (х, и) -|- Хг/ (х, и). (1.2.13) г—1 Предположим, что некоторое номинальное значение и выбрано и соответствующее ему значение х определено из соотношения (1.2.2), так что Н = L. Приращение Н при изменении хай имеет вид dH = ^-dx + -^du. (1.2.14) Поскольку представляет интерес выяснить, как изменяется вели- чина Н (и, следовательно, L) при изменении вектора управления и, то удобно выбрать А, так, чтобы дН/дх = 0, т. е. дН _ dL । ут df л ~дГ—+ Х 1? = °’ откуда (-Й-Г • <Ь2Л5) что совпадает с выражением (1.2.12). Учитывая, что х определяется из соотношения / (х, и) = О, получаем dL^dH= ~du. (1.2.16) Таким образом, дН/ди есть градиент L по и при выполнении усло- вия / (х, и) = 0. В стационарной точке пространства и значение dL обращается в нуль при произвольном du; это может иметь место только в том случае, если 2—0102
18 Глава 1 Таким образом, необходимые условия стационарности функции L (х, и) могут быть представлены в виде / (х, и) — 0, (1.2.18) ^ = 0, (1.2.19) 4^=0, (1.2.20) ди где Н = L(x, и) + ‘kTf (х, и). Эти условия представляют собой систему (2п + т) уравнений с (2га + т) неизвестными величинами х, А, и и. Пример 1. Найти значение скалярной переменной и, при котором функция г / \ 1 / х2 I “2 \ L (х, и) — у ( + b2j принимает стационарное значение при наличии линейного- огра- ничения f (х, и) -- х + ти — с = 0. Здесь х — скалярный параметр, а я, Ь, т, с — постоянные вели- чины. Линиями уровня функции L являются эллипсы, причем L возрастает с увеличением размеров эллипса. Уравнение х + + ти — с = 0 задает определенную прямую линию (фиг. 1.2.1). Кривые L(x, и)- const и Фиг. 1.2.1. Пример минимизации функции при наличии • линейного ограничения в виде равенства. х+ти-с=0 (х* и') -точка минимума L(x,u) при f(x,uj‘O Направление возрастания L Очевидно, что минимальное значение L при удовлетворении ука- занного ограничения достигается на эллипсе, который касается указанной прямой линии. Получим теперь решение в аналитиче- ской форме. Функция Н имеет вид ^=1(^+-5-)+х(*+ти-с)-
Минимизация функций 19 Необходимые условия стационарности записываются в виде л ЭН х . « гч ЭН и , . р. х + ти-с = 0, — = -^ + % = 0, -^Г = -б2- + Хт = 0- Эти три уравнения с тремя неизвестными х, и, % имеют про- стое и единственное решение а2с &тс __ с Х = а2 m2fe2 > и ~ а2_(_т2Ь2 ’ Л — — а2_|_да2Ь2 ‘ Этому решению соответствует минимальное значение L: С2 J = Диин = 2(a2+m2Z>2) ’ Отметим, что здесь , dJ dJ Пример 2 J). Максимальная скорость набора высоты для само- лета в установившемся режиме полета. Равнодействующая всех сил, приложенных к самолету, который выдерживает установив- Ф и г. 1.2.2. Схема сил, действующих на самолет в установившемся режиме набора высоты. шуюся скорость набора высоты, должна равняться нулю. Если разложить действующие силы на компоненты, направленные параллельно и перпендикулярно траектории полета (фиг. 1.2.2), х) При переводе книги во всех примерах, относящихся к механике поле- та, обозначения и системы координат оригинала заменены на обозначения и системы координат, соответствующие общесоюзным стандартам (см., на- пример, книгу: С. А. Г о р б а т е н к о, Э. М. Макашов, Ю. Ф. По- лушкин, JI. В. Шефтель, Механика полета, изд-во «Машиностроение», 1969).— Прим, перее. 2*
20 Глава 1 то это условие заменяется двумя уравнениями: Л (7, 0, а) = Р cos (а + фР) — Q — mg sin 0 = 0, /2 (7, 0, а) = Р sin (а + фр) + Y — mg cos 0 = 0, где V — скорость полета, 0 — угол наклона траектории (угол между направлением вектора скорости и местным горизонтом), а — угол атаки, т — масса самолета, g — гравитационное уско- рение, фр — угол между направлением тяги и осью нулевой подъемной силы. При заданной высоте полета подъемная сила Y = Y (7, а), лобовое сопротивление Q — Q (7, а), сила тяги Р = Р (7). Ско- рость набора высоты определяется простым кинематическим соот- ношением где h — высота полета. Выберем в качестве координат вектора состояния величины 7 и 0, а в качестве функции управления величину а (поскольку, используя приведенные выше соотношения для равновесия сил, действующих на самолет, по известному значению а на заданной высоте h можно определить 7 и 0). В этом примере функция Н имеет вид Н = 7 sin 0 -|- %! [Р cos (а -|- фр) — Q — mg sin 0] + + %2 IP sin (а + фр) + 7 — mg cos 0]. Следовательно, необходимые условия, при которых установив- шаяся скорость набора высоты Vy принимает стационарное значе- ние, можно записать как fi = Р (7) cos (а + Фр) — <2 (7 а) — mg sin 0 = 0, /2 = Р (7) sin (а + фр) + Y (7, а) — mg cos 0 = 0, = sin 0 + [-^7- cos (а + фр) —|~-'J + +fw s*n (а+ч’р) + w]=0’ = 7 cos 0 — ^img cos 0 + sin 0 = 0, ^_ = %1[_р8т(а + фр)—^] + + %2 [P cos (а + фр) -p = 0.
Минимизация функций 21 Эти пять уравнений содержат пять неизвестных величин: V, 9, а, %!, %2; в общем случае для реальных зависимостей Р (V), Q (V, a), Y (V, а) эти уравнения следует решать каким-либо числен- ным методом (см. также задачу 7 из разд. 1.3). 1.3. Задачи с ограничениями в виде равенств; ' достаточные условия локального минимума Приращения функций L (х, и) и f (х, и) при малых отклоне- ниях от номинальной точки (х, и) с точностью до величин второго порядка малости имеют вид dL = (L„ L.) (*) d^ (££) (£) . (1.3.1) где Т д I dL \т т д I dL\T Ьхи~Ш ('аг) ’ Lxx~ дх ( дх ) и т’ д> Если умножить выражение (1.3.2) для df на V, определенное из соотношения (1.2.19), и результат сложить с (1.3.1), то получим “ = Я.) (£) + ^, du^ («-«») (£)-rtf, (1.3.3) поскольку при таком определении № величина Нх = 0. Здесь Н = L (х, и) + V/ (х, и). . (1.3.4) Предположим теперь, что рассматриваемая номинальная точ- ка (х, и) удовлетворяет ограничению / (х, и) = 0. Исследуем поведение функции L (х, и) с точностью до членов второго по- рядка в бесконечно малой окрестности этой точки при условии / (х, и) — 0. Из соотношения (1.3.2) при условии df = 0 получим dx——fx1fudu-]-O2(dx2, du2, dx3, du3, ...), (1.3.5) где O2 (dx2, du2, . . .) — слагаемые второго и более высоких по- рядков относительно dx, du. Если рассматриваемая номинальная точка (х, и) стационар- ная, то Ни = 0 и уравнение (1.3.3) с учетом равенства df = 0 принимает вид d£=4.d„n-/:(©-, (».з.в) где О3 — слагаемые третьего и более высоких порядков относи- тельно dx л du, а Е — единичная матрица. х) Это уравнение векторное; оно заменяет п уравнений для компонент вектора /.
22 Глава 1 Отсюда следует ( Ни?) f=o ~ ^ии Huxfxfu—iu^x) (1-3-7) Таким образом, достаточные условия локального минимума состо- ят из необходимых условий стационарности (1.2.18)—(1.2.20) и требования положительной определенности матрицы (1.3.7). Очевидно, необходимое условие локального минимума состоит в том, что матрица (1.3.7) должна быть положительно полу определенной. Заметим, что соотношение (1.3.6) может быть непосредственно получено из рассмотрения разложения вспомогательного (рас- ширенного) критерия качества Н с точностью до членов второго порядка при учете ограничения / (х, и) = 0 с точностью всего лишь до членов первого порядка. Отметим также, что условие поло- жительной полуопределенности матрицы Нии не является необ- ходимым для минимума в рассматриваемой задаче. Пример. Найти значение скалярной переменной и, минимизи- рующее функцию L (х, и) — 2 ( а2 + Ь2") при наличии квадратичного ограничения / (х, и) = с — хи = 0. Здесь х — скалярная переменная; а, Ъ, с — положительные по- стоянные величины. Линии уровня функции L (х, и) — эллипсы, причем увеличение значения L соответствует росту размеров эл- Ф и г. 1.3.1. Пример минимизации функции при наличии нелинейного ограничения в виде равенства. липса. Уравнение с — хи = 0 является уравнением гиперболы, состоящей из двух ветвей. Функция L достигает минимального
Минимиаация функций 23 значения при выполнении указанного ограничения в точках ка- сания эллипса и гиперболы (фиг. 1.3.1). Рептим задачу аналитически. Функция Н имеет вид Необходимые условия, при которых функция L принимает ста- ционарное значение при наличии ограничения / (ж, и) = 0, запи- сываются как дН х п дН и л с — XU=0, -Z—— —5 2м = 0, - — Лх = О. дх а? ои bi Решая эту систему, получаем -. / ас /~ Ъс « 1 т т с Х=±У и = ±У Для этой задачи достаточное условие (1.3.7) состоит в том, что величина должна быть строго положительной; это условие, очевидно, выпол- няется. Заметим, что здесь две точки минимума, причем значения функции L в этих точках одинаковы. Отметим далее, что множи- тель А удовлетворяет соотношению А = ^. дс Задача 1. Найти точку, ближайшую к началу координат и ле- жащую на прямой, определяемой пересечением плоскостей х + 2у + 3z — 10, х — у -|- 2z = 1, где х, у, z — прямоугольные координаты. Другими словами, необ- ходимо минимизировать функцию L = х2 у2 z2 при условии выполнения приведенных выше двух линейных огра- ничений. Задача 2. Найти прямоугольник с максимальным периметром, который может быть вписан в эллипс, т. е. максимизировать функ- цию Р = 4 (х 4- у) при ограничении
24 Глава 1 Задача 3. Найти прямоугольный параллелепипед максималь- ного объема, который можно поместить в данный эллипсоид, т. е. максимизировать функцию V = 8xyz при условии 7-2 ц2 £2 Т Ь2 “ с2 Л- Задача 4. Квадратичный критерий качества с линейными огра- ничениями. Показать, что вектор управления и, минимизирующий неотрицательную квадратичную форму L = xTQx 4- 4 uTRu при наличии линейных ограничений / (х, и) = х + Gu + с — О, определяется соотношением и = — {R + GTQG'r'GTQc. Показать также, что минимальное значение квадратичной формы L равно J = Дшн = 4 С? [Q- QG (R + GTQG)~1 GTQ] с и что % = [() - QG (R + GTQ] с =е= ((Г1 + GR~1GTT1 с, если Q"1 существует1); х = - [Е—G (R + GTQG)~1 GTQ] с. Заметим, что и в этом примере хг=-^- де Задача 5. Оптимизация углов установки паруса и курса для максимизации скорости плавания против ветра. Упрощенная модель сил, действующих на плывущую с постоянной скоростью парусную лодку, показана на фиг. 1.3.2. Скорость парусной лодки относительно воды равна V и составляет угол ф с направлением ветра. Скорость ветра относительно воды постоянна и равна W. Парус устанавливается под углом 0 к оси лодки, а создаваемая *) Соотношение [(? — QG (R + GT Qff)-lGT Q] = (Q-1 + известно как лемма об обращении матрицы (см. разд. 12.2, задача 2, где обсуждается смысл и важность этой леммы).
Минимизация функций 25 им аэродинамическая сила S предполагается направленной пер- пендикулярно плоскости паруса. Гидродинамические силы, дей- ствующие на корпус лодки, разлагаются на компоненты, направ- ленные перпендикулярно (килевая сила К) и параллельно (Сила сила паруса ь Фиг. 1.3.2. Схема равновесия сил, действующих на парусную лодку. сопротивления Q) оси лодки. Предполагается, что величина силы S пропорциональна произведению квадрата относительной скорости ветра VT на синус угла атаки паруса а: S — CiVr sin а, где Ci — постоянная величира, а величины Vr и а определены на фиг. 1.3.2. Сила лобового сопротивления Q пропорциональна квадрату скорости лодки относительно воды Q = С2У*, где С2 — коэффициент пропорциональности. Для равновесия сил, направленных параллельно оси лодки, должно выполняться ра- венство Q = S sin 0. Показать, что а) при заданном ф скорость V достигает максимума при а = 0; б) максимальное значение скорости при ф = 180° (плавание по ветру) составляет Wp/(1 + р,) и достигается при 0 = 90°, здесь р,2 = CilC2, в) максимальное значение скорости плавания против ветра (т. е. величины V cos ф) равно РКц/4 и достигается при такомвыборе углов установки паруса и курса, когда 0 »[(р + 2)2 + 4J-V2, ф « 45°. Для решения последнего вопроса следует считать, что углы а и О малы, так что sin а « a, sin 0 « 0, cos а « 1, cos 0 « 1. Задача 6.~ Оптимизация углов атаки и крена для получения максимальной боковой дальности планирования. В соответствии с теорией квазиустановивптегося приближения для планирую-
26 Глава 1 щего разворота нескоростного (дозвукового) планера, совершаю- щего полет при постоянных углах атаки и крена, боковую даль- Ф и г. 1.3.3. Траектория пространственного боко- вого разворота. ность планирования по спирали zft можно определить по формуле Zk = Г (1 — COS фй). Здесь (фиг. 1.3.3) I cos2 0 г = -=----радиус спирали; a sin у . h0 a sin v фй = —т—п—Ч;— угол курса в конечной т I sin 0 cos 0 J г точке планирования; 0 = arctg -Г f ez.i- 1 sec yl —угол планирования вдоль спи- 1 4а J J рали (угол подъема спирали), положительный наклон—вниз; а = ца; а — угол атаки 1 )—компоненты вектора управле- У - угол крена J ния; h0—высота начала планирования; , 2тх\ I —----—характеристическая длина t>SCv (для типичного планера I« _____ ж 3 ле); 1 i / С“ ^макс = -2~ у —максимальное аэродинамичес- жо кое качество (т. е. максималь- ное значение отношения подъ- емной силы к силе сопротив- ления). Для типичного планера ЛГмакс ~ 30, ц — коэффициент эффек- тивности поляры (0 < т] < 1). (Остальные обозначения приведены
Минимизация функций 27 в замечании 2.) Показать, что максимальное значение Zk при за- данном z/o = й0 достигается в том случае, когда s 2 ~ ’ Это соотношение можно рассматривать как трансцендентное урав- нение для определения 1]^ в функции от | = h0/l. Соответствующие значения а, у и 0 могут быть найдены из формул _ Д/^маке tg у == , 0 = 2а COS у. 2 Д/соз 2у г 5 ( Здесь предполагается, что величины а, 0, 1/^макс значительно меньше единицы. Замечание 1. В условиях указанного выше приближения максимальное значение продольной дальности при заданном й0 определяется соотношением %k — Йд^макс и достигается при следующих значениях компонент вектора управ- ления: а = 1/(2Кмакс), у = 0, откуда следует, что tg 0 = 1ЛКмакс- Замечание 2. Обозначения, не поясненные в тексте задачи, имеют следующий смысл: т — масса планера; V — скорость планирования; р — плотность атмосферы (в зтой задаче принимается величи- ной постоянной); С“ = dCv/da-, CXl. — коэффициент лобового сопротивления при нулевой подъем- ной силе; S — характерная площадь к которой отнесены аэродинамиче- ские коэффициенты; Y = СуО. (pV^/tyS — подъемная сила; Q = (Сх„ + S — лобовое сопротивление. Задача 7. Максимальная установившаяся скорость набора высоты, для самолета. Для задачи, сформулированной в примере 2 разд. 1.2, определить максимальную установившуюся скорость набора высоты на уровне моря, а также на высотах h = 3050, 6100, 9150 и 12 200 м для самолета весом mg = 15 000 кГ и пло- щадью крыла S = 50 №. Подъемная сила и лобовое сопротивле- ние самолета определяются соотношениями У = С“а(р^/2)5, С = (СЖо + цС“а2)(рУ2/2)5, где Су, СХо и т] являются функциями числа Маха М = Nla и за- даны графически (фиг. 1.3.4). Скорость звука а и плотность атмо- сферы р являются функциями высоты h (табл. 1.3.1). Тяга воз-
3,2 Число М Фиг. 1.3.4. Зависимость коэффициентов аэро- динамического сопротивления и подъемной силы от числа М. Фмиг. 1.3.5. Зависимость тяги Р двигателя от чи- ' ела М и высоты полета h (при полностью откры- том дросселе). Статическая тнга двигателя на уровне моря Рст 0=10 600 кГ. Удельный расход топлива ёт^1Р= =0,29-10-3 (кГ топл/сек)/кГ тяги.
Минимизация функций 29 Таблица 1.3.1 Изменение плотности воздуха и скорости звука в зависимости от высоты х) Высота Л, м Скорость звука а, м/сек Плотность воздуха р, кг-сек^/м^ 0 340,2 0,1249 1524 334,4 0,1076 3 048 328,3 0,09223 4 572 322,2 0,07862 6 096 316,1 0,06654 7 620 309,7 0,05597 9144 303,2 0,04674 11000 295,1 0,03711 12192 295,1 0,03075 13 716 295,1 0,02418 15 240 295,1 0,01901 - 16 764 295,1 0,01495 18 288 295,1 0,01176 21 336 295,1 0,007274 24384 295,1 . 0,004497 25 000 295,1 0,004080 27 432 300,0 0,002707 30 480 306,0' 0,001649 i) Здесь приведены (с четырьмя значащими цифрами) значения из таблиц Международной стандартной атмосфе- ры,—Ярил». иерее. душно-реактивного двигателя при полностью открытом дросселе является функцией числа М и высоты полета (фиг. 1.3.5). При- мите фР =3°. Кроме того, требуется определить высоту полета, на которой максимальная скорость набора высоты равна нулю. Эта высота называется «статическим потолком» самолета. Задача 8. Минимальный расход топлива для разворота само- лета на постоянной высоте. Установившийся разворот (F = О, г =0) на постоянной высоте описывается уравнениями (Cxo + ^y®2) (рУ2/2)5 = Р (сила тяги равна силе лобового сопротивле- ния), mg — Cytx (pV2/2) S cos у (вес самолета равен вертикальной ком- ' попейте подъемной силы),
30 Глава 1 »гУф = СуО. (pF2/2) S sin у (скорость разворота про- порциональна горизон- тальной компоненте подъемной силы, делен- ной на mV). Здесь ' а — угол атаки"! у — угол крена? компоненты вектора управления; значения остальных величин определены в задаче 6. Требуется найти такие значения углов а = ца и у, при которых на разворот от ф = ф0 до ф = фл расходуется минимальное коли- чество топлива пгт. Расход топлива пропорционален величине tk to 1V0 Ф * * Таким образом, требуется минимизировать величину Р (СЖо+цС“д2)таГ ф i С“а sin у ч г) Эти тождества нуждаются в некоторых пояснениях. Авторы, видимо, исходят из следующих предположений: 1. Рассматривается двигатель с постоянным удельным расходом топлива Се =. gmT/P = const > 0 (такой, например, двигатель рассматривался в задаче 7, его характеристики приве- дены на фиг. 1.3.5). В этом случае (поскольку по определению mT = CeP/g) . Г СеР dt , Се тт («/) = "»т («о) + 1 —г_="1т0+_г/ V б и о *0 и справедливо тождество Г Р <7ф i '1: Pdt = 2. Изменением массы т самолета в процессе разворота можно пренебречь (несмотря на расход топлива), т. е. т = const. Так как из условий установив- шегося разворота (г — const, V = const, h = const) и кинематического урав- нения ф = V/r следует, что ф = const, а из второго и третьего уравнений задачи легко вывести соотношение if>=g/Ftgy, то у = const. Теперь из условий т = const, у — const и второго уравнения задачи можно заклю- чить, что а = const, а из первого уравнения — что Р = const. Только при ’•’fe Г Рйф Р указанных предположениях справедливо тождество \ —- =--------------(фй — i i ” — фо).— Прим, перее.
Минимизация функций 31 при условии mg — Cfja (рИ2/2) 5 cos у. Ответ. а = -3^1 1/^макс, y = arccos (1/]/3) ==54,7°, где к _ 1 Амане- 2 V «Л ' * Л0 Заметим, что отсюда следуют соотношения V = V2glKm -^ = -^^„акс, Р = V * Лмакс где I __ 2/пт] ~~v' 1.4. Соседние оптимальные решения и интерпретация множителей Лагранжа Иногда необходимо определить, как изменяется оптимальное решение, если изменить на небольшую величину некоторые из кон- стант, входящих в уравнения ограничений. Предположим, что ограничения (1.2.2) увеличены на некото- рые достаточно малые величины, т. е. пусть вместо / (х, и) = О имеем f (х, и) = df, где df — бесконечно малый постоянный вектор. При этом можно предполагать, что значения х* и и* опти- мального решения исходной задачи с / (х, и) — 0 тоже изменились на бесконечно малые величины dx и du. Исходя из уравнений (1.2.18)—(1.2.20), получим dH^. = Hxxdx^rHxudu-^-f^d^ = 0, (1.4.1) dH? = Huxdx + Huudu + fTd'k = O, (1.4.2) df = fxdx + fudu, (1.4.3) .. где частные производные вычислены в точке (х*, и*), соответ- ствующей исходному оптимальному решению. Система 2п + т уравнений (1.4.1)—(1.4.3) определяет 2п + т переменных dx, du и dX, относящихся к соседним оптимальным ре- шениям х* + dx, и* + du, X* + d), задачи с измененными урав- нениями ограничений / (х, и) = df. Так как матрица fx должна быть невырожденной для того, чтобы по заданному du можно было определить dx, то из формул (1.4.3) и (1.4.1) имеем dx = fx1df — f^fudu, (1.4.4) dK — — (fx)1 (Нхх dx-]-Hxudu). (1.4.5)
32 Глава 1 Подставив эти значения в уравнение (1.4.2) и решая его относи- тельно du, получим du = - Cdf, (1.4.6) где ----- = ( ди2 ) /=0 №их fu(fx) Hxx]fx, (1.4.7) а величина (d2L/du2)f=0 определяется соотношением (1.3.7). Таким образом, существование соседних оптимальных решений гаран- тируется, если стационарная точка исходной задачи с / = О явля- ется точкой локального минимума, т. е. если (d2L/du2)f=0 >0. Далее, подставляя выражение для dx из (1.4.4) в (1.3.3) и считая Ни — 0, получаем выражение для dL, верное с точностью до величин второго порядка малости. Если, наконец, выражение (1.4.6) для du подставить в (1.3.3), то после некоторых упрощений получим dL = - V df + 4 dfT [(£)т Нхх£ - CTLUUC] df+..., (1.4.8) где т — ( \ \ ди2 //=0 и вычисляется по (1.3.7). Таким образом, имеем -^»=-Хг, (1.4.9) 1) = (/;У Hxxfx - CTLUUC. (1.4.10) 1.5. Численное решение задач оптимизации с ограничениями в виде равенств с помощью градиентного метода первого порядка2) Если выражения для L (х, и) и / (х, и) из разд. 1.2 не явля- ются достаточно простыми, то для определения значения и, мини- мизирующего Н 3), следует использовать численные методы. Од- г) Соотношение (1.4.9) можно рассматривать как одну из интерпретаций множителей Лагранжа, согласно которой значение множителя Хг определяет- ся частной производной от минимальной величины критерия качества £мин по величине характеризующей изменение левой части i-го уравнения ограничения (1.4.3), т. е. Xj = — — Прим, перев. 2) Авторы выражают признательность В. Денхэму за помощь при напи- сании этого раздела. 3) При условии, что х определяется из соотношения (1.2.2).— Прим, перев. ;
Минимизация функций 33 ним из прямых численных методов является широко распростра- - ненный метод наискорейшего спуска для отыскания минимума (или наискорейшего подъема в случае отыскания максимума). S Методы наискорейшего спуска или градиентные методы харак- * теризуются итерационным алгоритмом, улучшающим на каждой ' итерации оценку вектора управления и так, чтобы как можно лучше удовлетворялось условие стационарности дШди = 0. Алгоритм градиентного метода удобно представить в виде следующей последовательности шагов: 1. Задается начальное значение вектора и. 2. Из соотношения / (х, и) = 0 определяют х. 3. Из соотношения = — (дЫдх) (dfldx)~l определяют X. - 4. Определяют значение дН/ди = (дЫди) + (df/du), кото- рое, вообще говоря, не будет равно нулю. 5. Считая (дН!ди) вектором-градиентом функции Н по и, изменяют значение и, давая ему некоторое приращение в соответ- ствии с формулой Aw = — К (дН/ди)т; здесь К — положительное число-(скаляр). При этом критерий качества L должен измениться на величину AL = — К (дШди) (дН1ди)т. (Если отыскивается точка максимума, то знак «—» следует заменить на знак «+».) 6. Для каждого нового значения вектора управления и пов- торяют шаги 1—6 до тех пор, пока величина (дШди) (дН/ди)т не станет достаточно малой. Существует много вариантов градиентного метода; один из них будет рассмотрен в следующем разделе. Графически градиентный метод можно представить (в случае отыскания точки максимума) как метод восхождения на вершину холма в пространстве и. Если и — двумерный вектор, то в плоскости (ult u2) можно построить линии уровня критерия качества L (щ, и2) (фиг. 1.5.1). Исходя из начального значения вектора управления и (начального при- ближения), величине и даются последовательные приращепия Au. На каждом шаге Au направлено вдоль градиента дШди, величина которого характеризует наиболее крутой наклон в данной точке холма. Выбор числа К, определяющего величину Au, основывается на оценке степени нелинейности и должен приводить к тому, чтобы линеаризованные предсказания были достаточно точными. С дру- гой стороны, выбор величины К должен предотвращать чрезмер- ный рост числа итераций. Как правило, К должно меняться от ите- рации к итерации. Обычно это делается для того, чтобы уменьшить величину Au при приближении к минимуму (или максимуму). Как видно из фиг. 1.5.1, при движении с большим Au легко «про- скочить» точку экстремума. В задачах с большим числом перемен- ных такие геометрические представления, как гиперповерхности постоянных значений критерия качества L (и) (гиперповерхности уровня) в гиперпространстве и, оказываются весьма ценными, так как облегчают понимание. 3-0102
л. лиьа i Обычно градиентные методы первого порядка приводят к зна- чительному улучшению критерия качества на нескольких первых итерациях, но обладают плохими характеристиками сходимости при приближении к оптимальному решению. Градиентные методы Фиг. 1.5.1. Траектория по- следовательных приближений в численной процедуре мак- симизации функции с помо- щью градиентного метода первого порядка. второго порядка, учитывающие не только «наклон», но и «кри- визну» поверхности в номинальной точке, рассматриваются в сле- дующем разделе. Эти методы обладают отличными характеристи- ками сходимости в окрестности оптимального решения, однако при их применении могут возникать затруднения на начальном участке поиска, связанные с выбором «выпуклого» * 2) начального приближения. 1.6. Численное решение задач оптимизации с ограничениями в виде равенств с помощью градиентного метода второго порядка Градиентные методы второго порядка 2) используют информа- цию как о кривизне, так и о наклоне поверхности в рассматривае- мой точке пространства и. Если и — скаляр, то наглядное пред- ставление о градиентном методе второго порядка можно полу- чить из фиг. 1.6.1. В этом случае можно было бы непосредственно вычислить значения критерия качества в зависимости от вектора управления и и найти точку максимума, однако такой путь реше- ния потребует большого количества вычислений. Для применения градиентного метода второго порядка следует задать некоторое начальное приближение вектора управления и = и<°>. Из условия / (.r(u), = Or найдем соответствующее значение х(0) и вычис- лим L и^). Затем, используя формулы (1.2.6) и (1.3.7), определим первую и вторую производные L по и [при условии О Под этим подразумевается, что аппроксимирующая заданную функ- цию квадратичная поверхность, построенная в окрестности начального при- ближения, должна иметь минимум (т. е. должна быть выпуклой книзу). 2) Эти методы часто называют методами Ньютона — Рафсона.
Минимизация функций 35 у и) = 0]. Аппроксимируем теперь зависимость L (и) квад- ратичной параболой L « L (Л »<») + + 4 (1.6.1) и найдем точку максимума на этой параболе; обозначим соответ- ствующий этому максимуму вектор управления через н(1>. Возь- мем это значение w<1> за новое приближение и повторим весь опи- санный процесс. Из фиг. 1.6.1 видно, что уже две итерации дают достаточно хорошее приближение к точке максимума исходной Фиг. 1.6.1. Схема численного решения задачи максимизации функции с помощью градиентного метода второго порядка. А — действительная кривая L (и) (в процессе решения неиз- вестна); Б — аппроксимирующая парабола, проходящая че- рез точку и(1>; В — аппроксимирующая парабола, проходя- щая через точку и(0>. функции L (и). В более сложных задачах может потребоваться значительно большее количество итераций. Кроме того, если начальное приближение выбрано слишком далеко от точки максимума, то может оказаться, что (д2Ыди2У}=0 >0, т. е. кри- визна кривой имеет неправильный знак ]). В этом случае метод второго порядка не приведет к решению. Заметим, однако, что в этой ситуации метод первого порядка мог бы все же сходиться. - На фиг. 1.6.2 показано решение двумерной задачи" максимиза- ции. Нанесены линии уровня критерия качества L при условии / (.г, и) = 0 (эти лиции обычно не известны оптимизирующему). В качестве начального приближения принимается точка 0. После вычисления первых и вторых производных от L [формулы (1.2.6) и (1.3.7)] при условии / (х, и) = 0 строится (локально) поверх- ность второго порядка, соприкасающаяся с поверхностью L !) В том смысле, что в этом случае аппроксимирующая парабола не имеет Максимума.— Прим, перед. 3*
36 Глава 1 в окрестности точки 0. Если эта квадратичная поверхность ока- жется эллиптическим параболоидом с точкой максимума (для этого матрица вторых производных функции L должна быть отри- цательно определенной), то точка максимума принимается за сле- дующее приближение (точка 7) ]). Процедура поиска продол- жается до тех пор, пока не будет выполнено условие (dL!du)f=z0 = 0, Фиг. 1.6.2. Траектория последовательных приб- лижений при максимизации функции с помощью градиентного метода второго порядка (двумерная задача). А — начальное приближение; Б — линии уровня сопри- касающейся квадратичной ^поверхности; В —линии уровня функции L (иь и2) (в процессе решения неизвестны). при этом матрица (31 2L/3k2)/=0 должна быть все время отрицатель- ной.. На фиг. 1.6.2 точка максимума была достигнута после шести итераций. Во многих задачах ограничения / (х, и) = 0 часто оказыва- ются настолько сложными, что для определения значения х по за- данному и необходимо использовать численные методы. В этом случае можно применять несколько более общую схему градиент- ного метода второго порядка. Напомним, что необходимые усло- вия, при которых функция L (х, и) принимает стационарное зна- чение, имеют вид Нх = 0„ (1.6.2) Ни - 0, (1.6.3) / = о, (1.6.4) где Н (х, и, X) = L (х, w)]+ V/ (х, и). 1) Если матрица вторых производных окажется положительно опреде- ленной или неопределенной, то изложенная процедура не работает.
Минимизация функций 37 Общую схему одной итерации обобщенного градиентного метода второго порядка удобно представить следующим образом: 1. Задают начальные значения х°, и0, Х° переменных х, и, X. 2. Определяют соответствующие им значения Нх (х°, и0, Г) = Н°х, (1-6.5) Ни (х°, и0, Х°) = Н°и, (1-6.6) / (х°, и0) = /°. (1.6.7) 3. Линеаризуют соотношения (1.6.2)—(1.6.4) в окрестности точки (х°, и0, Х°): Я» + Н°хх dx + Н°хи du + (/£)о dh = 0, (1.6.8) Н°и LH°uxdx + H°uudu+(fTrdk = O, (1.6.9) f> + f°xdx + fudU = 0. (1.6.10) 4. Решают систему линейных уравнений (1.6.8)—(1.6.10) отно- сительно dx, du ъ dh я находят их выражения через Н°х, Н°и и /° ]). 5. Шаги 1—4 повторяют с улучшенными значениями х1 = хи + dx, и1 = и0 + du, h1 = Х° + dh. Эту процедуру следует повторять до тех пор, пока необходимые условия оптимальности (1.6.2)—(1.6.4) не будут удовлетворены с требуемой степенью точности. Если этот метод вообще сходится, то в итоге он может сойтись либо к точке минимума, либо к точке максимума, либо к седловой точке. Чтобы определить, какой из этих случаев имеет место, нужно дополнительно исследовать матрицу вторых производных критерия качества L, определяемую уравнением (1.3.7). Если эта матрица положительно определенная, то полученная точка — минимум, если матрица отрицательно определенная, то полученная точка — максимум, если матрица незнакоопределенная и невы- рожденная, то полученное решение — седловая точка. Если же матрица вырождена, то тип этой точки можно установить только с помощью анализа производных более высокого порядка. Задача. Разработать вычислительную схему такого варианта градиентного метода второго порядка, в котором задаются началь- ные значения только х и и, a h определяются из условия Нх = 0. 1.7. Задачи с ограничениями в виде неравенств Задачи оптимизации при наличии ограничений в виде пера-, вепств требуют обобщения методов, рассмотренных в предыдущих разделах. Один из важных классов задач такого типа состоит в ми- х) Если значения Н°х, Ни, f° оказываются такими, что полученные решения dx, du, dh слишком велики, то вместо Нх, Ни, /° следует использовать ъНх , ъНи, ef°, где 0 < е < 1.
38 Глава 1 нимизации функции Ну) (1.7.1) при условии /(у)^0, (1.7.2) где векторы / и у в общем случае имеют различную размерность 2). Рассмотрим сначала простой случай, когда f и у — скалярные величины. Если у° — оптимальное значение величины у, то это значение может приводить к одному из двух результатов: либо / (У0) < либо / (у0) = 0. В первом случае ограничение оказы- вается неэффективным (недействующим), и его можно не учитывать. Таким образом, ситуация в этом случае оказывается такой же, как и при отсутствий ограничений (разд. 1.1). Для рассмотрения второго случая допустим, что значению у° дано некоторое малое приращение dy. Если у0 — точка минимума функции L {у), то соот- ношение (Г’-З) справедливо для всех допустимых dy, которые должны удовлет- ворять условию df = ^dy^O. (1.7.4) Чтобы уравнения (1.7.3) и (1.7.4^ были совместны, очевидно, необходимо, чтобы либо dL df sgn —— = — sgn , ду йу либо dL/ду = 0 (в последнем случае безразлично, какой знак и величину имеет dfldy). Эти случаи геометрически иллюстриру- ются на фиг. 1.7.1, а и б. Оба условия могут быть выражены соот- ношением 4^- + %-^ = 0, (1.7.5) ' ду 1 ду v > где X > 0. Аналитически можно получить эти условия следующим обра- зом. Присоединим ограничение / (у) 0 с множителем % к мини- мизируемой функции L (у). В результате получим Я (у, Л) = L (у) + Л/(у). (1.7.6) *) Такие задачи, относящиеся к общим задачам нелинейного программи- рования, широко обсуждаются в технической литературе. В данном разделе дается только их краткое изложение. Здесь не будем различать переменные состояния и переменные управления, как это было сделано в разд. 1.2. Это объясняется тем, что во многих задачах нелинейного программирования раз- мерность вектора / больше размерности вектора у, так что невозможно раз- делить компоненты вектора у на переменные состояния и переменные управ- ления.
Минимизация функций 39 Необходимые условия оптимальности в этом случае имеют вид J^ = 0 (1-7.7) ду V И /(г/)^0; (1.7.8) здесь Я J>0, если/(у) =0, . „ Л I = 0, если / (у) < 0. Когда у — вектор, а / — скаляр, уравнения (1.7.3)—(1.7.5) остаются справедливыми, если понимать их как запись в вектор- Ф и г. 1.7.1. Два возможных типа расположения точек минимума функции одной переменной при наличии ограничений в виде неравенств. л — ограничение f (у) 0 неэффективно, минимум L (у) в точке dL/ду — 0; б — ограни- чение /.(у) 0 эффективно, минимум L(y) в точке /(у) = 0. ных обозначениях. Соотношение (1.7.5) означает в этом случае следующее: п dL df Векторы и направлены параллельно друг другу, но в противоположные стороны. (1.7.10) Необходимость этого условия легко доказывается от про- тивного. В самом деле, пусть условие (1.7.10) не выполняется Фиг. 1.7.2. Геометрическая иллюстрация необходимости условия (1.7.10) в двумер- ном случае. в точке (г/“, г^), как это показано для двумерного случая на фиг. 1.7.2. Тогда заштрихованная часть фиг. 1.7.2 представляла бы
40 Глава 1 сооой область допустимых значений вектора у, которым соответ- ствуют значения L, меньшие чем Л (у?, у’). Как эта, так и другая ситуации (а именно когда / (у0) <; 0) могут быть объединены об- щими необходимыми условиями (1.7.7)—(1.7.9). В более общем случае, когда / — вектор, можно использовать условия (1.7.4) и (1.7.5), заметив лишь, что на этот раз dfldy — матрица. Если эффективной (т. е. обращающейся в равенство) ока- жется только одна компонента вектора /, то получится задача, Ф и г. 1.7.3. Минимизация при на- личии двух ограничений в виде неравенств (двумерный случай). которая только что была рассмотрена. Если же эффективны две компоненты вектора f, то возникает ситуация, показанная на фиг. 1.7.3. Легко видеть, что если у0 — экстремальная точка, лежащая на линиях ~ 0 и /, - 0, то вектор dL/ду должен находиться между отрицательным направлением градиента и отрицательным направлением градиента /2 *)• Аналитически это означает, что вектор dLldy может быть представлен в виде отрицательной линейной комбинации векторов dfjdy и dfjdy. В общем случае, когда эффективны q компонент, для граничной оптимальной точки вектор dLldy удовлетворяет соотношению “+>.,№-+... + ^ = 0, (1.7.11) или где р.7'# -О, ' ду dL ду (1.7.12) (1.7.13)* 2) Таким образом, как и в разд. 1.2, можно образовать функцию Н = L + Ат/ и выразить условие (1.7.12) в виде dH/dy = 0. \) Вектор dLldy можно получить сложением отрицательных градиентов (—dfildy) и (—df^dy) по правилу параллелограмма для сложения двух век- торов. 2) Соотношения (1.7.13), разумеется, понимаются справедливыми поком- понентно.
Минимизация функций 41 Соотношения (1.7.12) и (1.7.13) являются необходимыми условия- ми минимума. Для получения необходимых условий максимума в условии (1.7.13) следует изменить знак X иа обратный. Другими словами, градиент функции L по у в точке минимума должен быть направлен таким образом, чтобы уменьшение критерия качества L могло быть достигнуто только за счет нарушения ограничений. Допустим теперь, что вектор у имеет размерность р и что среди ограничений в виде неравенств п компонент эффективны, т. е. что Л (у) =0, i = 1, 2, . . ., п. (1.7.14) «Неэффективные» ограничения (у) < 0, i = п -р 1, . . ., можно не принимать во внимание. Очевидно, что р п. Далее, п ком- понент вектора у обозначим через х, а оставшиеся р — п ком- понент — через и, т. е. yT = (xt, . . ., хп; щ, . . ., ир_п) = (хТ, ит). Это разделение компонент должно быть таким, чтобы уравнения fi (х, и) — 0, i = 1, . . ., п, (1.7.15) определяли х по заданному и х). Тогда достаточные условия локаль- ного минимума функции L (у/ при условии / (у) 0 будут состоять из условий, полученных в разд. 1.3, к которым следует добавить требование положительности всех значений . . ., Хп 1 2). Послед- нее условие легко получить из соотношений (1.4.8), (1.4.9), по- скольку —= (dLldft)u, а величина (dLldfi)u должна быть отри- цательной (т. е. dL >0 для df, < 0). Пример. Рассмотрим задачу минимизации критерия качества L (yi, у2) при условии fi (yt, у2) 0, i = 1, 2. Пусть линии уровня критерия L ведут себя так, как показано на фиг. 1.7.4, откуда видно, что условие /2 < 0 «неэффективно» и решение лежит на кривой Д = 0. В точке минимума должно выполняться условие ^£ + ^^-=0, ^>о, ду 1 ду т. е. градиент L параллелен градиенту h и направлен в противо- положную сторону. Кроме того, «кривизна» L вдоль /1=0 такова, что при удалении от точки минимума значение L на кривой /1=0 1) Более точные утверждения даны в работе: G. McCormick, Second Order Sufficient Conditions for Constrained Minimum, SIAM Journal onAppl. Math., 15, № 3 (1967). 2) Для разрешимости уравнений (1.7.15) по х необходимо и достаточно, чтобы существовала невырожденная матрица J > вычисленная в неко- торой точке (х°, и°).— Прим. ред. 1
42 Глава 1 возрастает. Получим этот разультат аналитически. Положим у^ = = х и у2 = и. Теперь по заданному и из условия /i (х, н) = О можно определить х, а из соотношения (1.3.7) можно вычислить Ф иг. 1.7.4. Пример миними- зации при наличии ограниче- ний в виде неравенств. (32£/5н2)/1=0; эта величина, как можно видеть из фиг. 1.7.4, по- ложительна. Формулы (1.7.12) и (1.7.13) выражают основное содержание известной теоремы Куна — Танкера для задач нелинейного про- граммирования *). Точная формулировка теоремы требует пред- положения о так называемой регулярности ограничений для Фиг. 1.7.5. Пример условий Куна — Таккера регулярности ограничений. системы /(у)^О(см. [1.1], стр. 483). Условие регулярности ограничений вводится для того, чтобы исключить геометри- ческие ситуации, подобные изображенной на фиг. 1.7.5. В этом примере минимум L находится в точке (у15 у2) = (1, 0), поэтому вектор дЫду не может быть представлен какой-либо конечной линейной комбинацией векторов dfjdy и df2ldy. !) См., например, книгу Дж. Хедли «Нелинейное и динамическое про- граммирование» (гл. 6), изд-во «Мир», 1967.— Прим, перев.
Минимизация функций 43 Другой подход к выводу достаточных условий в задачах не- линейного программирования дается теоремой о седловой точке. Эта теорема более изящна (хотя результаты ее применить обычно труднее), чем рассмотренные выше достаточные условия, тан как она не требует производить произвольное разбиение вектора у на вектор состояния х и вектор управления и. Теорема о седловой точке состоит в следующем. Рассмотрим функцию Н (у, X) = = L + Хт/. Предположим, что можно найти такие у° и Х°, которые образуют.седловую точку для функции Н (у, Л), т. е. точку, кото- рая удовлетворяет условиям Н (у°, X) Н (у°, Х«)< Н (у, Х°) (1.7.16) для всех X 0 и / (у) <1 0. В этом случае можно показать, что точка у0 является точкой минимума функции L (у) при наличии ограничения / (у) 0 независимо от свойств функций Ли/. Задача 1. Доказать теорему о седловой точке. Указание. Из левого неравенства (1.7.16) следует, что Х“/г (у0) = 0 для всех I. Задача 2. Крейсерский режим полета самолета с минимальным расходом топлива. Для самолета, описанного в примере 2 разд. 1.2 и задаче 7 разд. 1.3, определить условия установившегося гори- зонтального полета (0=0) с минимальным расходом топлива на единицу дальности 1). Пусть коэффициент удельного расхода топлива Се = 0,29-10-3 (кГ топл1сек)1кГ тяги, так что расход топлива на единицу дальности дается формулой г СеР V ’ где Р Рмакс (F, h), а Рмакс (У, ^) задано графически на фиг. 1.3.5 (см. задачу 7 разд. 1.3). Уравнениями ограничений в этой задаче являются условия равновесия сил, действующих на самолет в установившемся гори- зонтальном полете: Y — mg + Р sin (а + <рР) = 0, Q — Р cos (а -f- <рр) = 0, где величины Y = Y (У, h, а) и Q = Q (У, h, а) следует взять из задачи 7 разд. 1.3. Задача 3. Разработать математическое доказательство геомет- рических соображений, соответствующих фиг. 1.7.2. В частности, доказать, что % 0. х) В динамике полета такой режим называется режимом минимального километрового расхода топлива.— Прим, перев.
44 Глава 1 1.8. Задачи линейного программирования Если критерий качества и ограничения в виде неравенств линейны относительно у, то задача носит название задачи линейного программирования. Очевидно, в этом случае точка минимума, если она существует, должна находиться на границе допустимой области, поскольку кривизна L всюду равна нулю. Задача линей- ного программирования ставится следующим образом. Найти у, минимизирующий L = Ъту, (1.8.1) при условии Лгг/ + с^О. (1.8.2) Здесь у — и-мерный вектор, с — тп-мерный вектор, т > п. Если матрица А имеет ранг п, а вектор ЬТ неколлинеарен какой-либо из строк матрицы Ат или некоторой произвольнойютрицательной линейной комбинации (п + 1) строк матрицы АТ, то минимум, если он существует, находится в точке, определяемой одновре- менным выполнением п ограничений вида Ату с = 0. При на- личии некоторой геометрической интуиции этот результат не по- кажется неожиданным; более того, он составляет содержание фун- даментальной теоремы линейного программирования. Пример 1. Минимизировать функцию L = —5z/j — у2 с учетом ограничений /1 = — У1 0, /2 = — у2 0, /3 = Z/J + z/2 — 6 С 0, А = Зг/, + у2 - 12 0, /5 = У1 - 2у2 - 2 0. На фиг. 1.8.1 изображена допустимая область и нанесены линии уровня критерия качества L. Из рисунка видно, что минимум достигается в точке А, где /4 = Зу( + у2 — 12 = 0 и /5 = = У1 — 2у2—2 = 0. Эта точка имеет координаты z/i = 35/7, z/2=6/7, а критерий качества принимает в этой точке значение £мин = = —193/7. Градиент L в точке А может быть представлен отрица- тельной линейной комбинацией п [но не (и — 1)] строк матрицы Ат (а именно комбинацией векторов grad /4 и grad /5), как следует из фиг. 1.8.1. Применимость фундаментальной теоремы линейного программи- рования при численном решении задач линейного программирова- ния в принципе очевидна. Рассмотрим п ограничений, считая их равенствами. Решение этой системы равенств (если оно является допустимым) дает решение, которое может быть либо оптимальным, либо неоптимальным. В последнем случае следует заменить одно из ограничений другим и повторить процесс решения, требуя, чтобы новое решение принадлежало допустимой области и улучша-
Минимизация функций 45 ло критерий качества. Так как задано конечное число ограниче- ний, то этот процесс в конце концов приведет к оптимальной ком- бинации ограничений (если она существует). Метод, который Фиг. 1.8.1. Решение задачи линейного программирования примера 1. использует изложенную процедуру, известен под названием сим- плекс-метода . Он будет разобран более подробно в следующем разделе. Задача. Показать, что необходимое условие максимума функции L = стХ при ограничениях А'К + Ъ = О, X > О, сводится просто к соотношению (1.8.2) для основной задачи ми- нимизации, обсуждаемой в данном разделе. Эти две задачи назы- ваются двойственными по отношению друг к другу1). Пример 2. Задача на составление оптимальной смеси. (Задача о смешивании.) Существует много так называемых задач о смеши- вании, которые состоят в нахождении самой дешевой смеси не- скольких материалов, содержащей по меньшей мере определенную часть каждой из заданных компонент. Типичной задачей такого типа является определение наиболее дешевой смеси нескольких различных продуктов питания, которая содержит не менее задап- х) Отметим, что поскольку число т ограничений в задаче (1.8.1), (1.8.2) равно числу переменных ?., в двойственной ей задаче, то при решении задач линейного программирования с большим числом ограничений и малым числом переменных часто удобно перейти к решению двойственной задачи.— Прим, перев.
46 Глава 1 ного количества основных питательных веществ (белков, жиров, витаминов и т. д.) х). Предположим, что рассматривается смесь трех различных продуктов питания и имеется три неравенства, определяющие содержание питательных веществ в смеси. В табл. 1.8.1 указано содержание каждого из трех питательных Таблица 1.8.1 Характеристика продуктов питания Вид продукта питания 3 Доля питательных веществ в каждом 7-м продукте питания Стоимость 7-го продукта питания ЛГ1 TV2 Л'з 1 0,06 0,02 0,09 15 2 0,03 0,04 0,05 12 3 0,04 0,01 0,03 8 веществ в каждом из трех продуктов и указана стоимость единицы количества каждого продукта питания. Задача состоит в том, чтобы найти самую дешевую смесь этих трех продуктов, такую, чтобы доля каждой из питательных ком- понент в ней была не меньше чем 0,04; 0,02 и 0,07 (для первой, второй, третьей питательных компонент соответственно). Пусть Fj — доля у-го продукта в смеси, у = 1, 2, 3; F} явля- ются величинами, которые надлежит определить (это проектные параметры). Обозначим через Nt долю г-го питательного вещества в смеси, t = 1, 2, 3. Величины Nt и Fj связаны соотношением N t = nuFf + пцР2 + ni3F3, где пц — содержание i-ro питательного вещества в у-м продукте (пц заданы в табл. 1.8.1). По условию смесь должна быть такой, чтобы удовлетворялись условия: ^>0,04, N2 0,02, N3 0,07. Пусть С — стоимость единицы количества смеси и cj — соответ- ственно стоимость единицы количества у-го продукта. (Эта стои- мость также задана в табл. 1.8.1.) Тогда справедливо соотношение С = cj<\ + c2F2 + c3F3. Очевидно, сумма долей каждого из продуктов в смеси должна равняться единице, т. е. Fi +F2 + F3 = 1. х) Аналогичные задачи возникают, например, при составлении смесей жидких топлив или удобрений.
Минимизация функций 47 Таким образом, требуется найти две неизвестные величины Ft и F2 (третью величину можно найти из условия F:t = 1 — — — F2), минимизирующие С и удовлетворяющие неравенствам1) Nt>Ni, i = 1, 2, 3, 7 = 1, 2,3, где Ni — заданная минимальная доля г-го питательного вещества в смеси. Решим задачу графически. Пусть Ft и F2 — оси1'координат (фиг. 1.8.2). Все неравенства изображаются прямыми линиями, Фиг. 1.8.2. Решение задачи линейного программирования примера 2. перпендикуляр к каждой из которых указывает направление в сто- рону допустимой области. В данной задаче имеются следующие неравенства: a) Ni = 0,06/\ + 0,03F2 + 0,04 (1 - Ft - F2) > 0,04, или 2Fi — F2> 0; 6) N2 = 0,02Л + 0,04F2 + 0,01 (1 - Fj - F2) 0,02, или Ft -J- 3F2 1; в) N3 = 0,0924 + 0,05/4 + 0,03 (1 - FY - F2) 0,07, или 374 + F2 2; r) F3 = 1 — Ft — F2^ 0, или Ft + F2 1; д) 0 C Ft C 1; e) 0 C F2 < 1. Заметим, что неравенства F3 = 1 — Ft — F2 1, или Ft F2~^ 0, оказываются избыточными, поскольку они автоматически 4 Некоторые из этих неравенств в свою очередь могут быть избыточны- ми, т. е. их выполнение следует автоматически из выполнения других нера- венств.
48 Глава 1 следуют из неравенств Fi 0 и F2 0. Какие еще из неравенств «а»—«е» являются избыточными (т. е. являются следствием дру- гих)? Ответ на этот вопрос можно найти с помощью графика, на- фиг. 1.8.2. Та область, в которой удовлетворяются все неравенства, называется допустимой областью (она ограничена, на^фиг, 1.8.2 жирными линиями и заштрихована). Нанесем на^-фиг. 1.8.2 также линии постоянной стоимости, т. е. линии уровня функции С = 15Л + 12Л + 8 (1 — Л - F2\, или с=8 + IFi + 4О2. Из фиг. 1.8.2 видно, что минимальное по стоимости допустимое решение соответствует точке пересечения прямых N2 = +2 и N 3 = = N3. Это означает (см. неравенства «б» и «в»), что должны одно- временно выполняться условия Л + 3F2 = 1, ЗЛ + F2 = 2. Рассматривая их как систему линейных уравнений с двумя неиз- вестными, находим решение Из соотношения F3 = 1—Ft — F2 получаем Соответствующее минимальное значение стоимости единицы коли- чества смеси равно с=‘54+124+84”)2т- В данном случае количество первого питательного вещества в смеси превосходит требуемое минимальное значение Л4 = 0,06 4 + 0,03-1 + 0,04 4 = 0-05125 > 0,04. 1’884 Заметим, что для получения допустимого решения самой высокой стоимости в смеси следует использовать только первый продукт (т. е. Fi = 1). Пример 3. Задача планирования перевозок. Торговец зерном владеет 50 000 бушелей4 пшеницы в Гранд-Форкс (шт. Север- ная Дакота) и 40 000 бушелей в Чикаго. Он должен продать 20 000 бушелей в Денвере, 36 000 бушелей в Майами и остав- шиеся 34 000 бушелей в Нью-Йорке. Требуется определить 0 Бушель — англо-американская мера емкости сыпучих тел, 1 бушель в США равен 35,24 литра,— Прим, перев.
Минимизация функций 4 минимальную по стоимости схему перевозок при следующих ценах (в центах) перевозки одного бушеля зерна (табл. 1.8.2). Из этой Таблица 1.8.2 Стоимость перевозки одного бушеля зерна Пункт доставки Пункт отправления Денвер Майами Нью-Йорк Гранд-Форкс 42 55 60 Чикаго 36 47 51 таблицы видно, что различные варианты приводят к затратам, кото- рые не пропорциональны расстоянию между городами. Для удоб- ства расчетов все данные сведены в табл. 1.8.3, в которой оставлено место для результатов решения задачи. В правом верхнем углу каждого из квадратов табл. 1.8.3 помещена стоимость перевозки Таблица 1.8.3 Сводка исходных данных для задачи планирования перевозок Пункт доставки Пункт отправления Денвер Майами Нью-Йорк Наличие зер- на в пункте отправления (бушели) Гранд-Форкс 42 55 60 50 000 Чикаго 36 47 51 40 000 Количество зерна, под- лежащего доставке (бушели) 20 000 36 000 34 000 одного бушеля зерна между соответствующими двумя городами. Задача состоит в том, чтобы определить для каждого из шести квадратов табл. 1.8.3 такие неотрицательные величины, которые удовлетворяют следующим требованиям: а. Сумма величин, стоящих в первой строке таблицы, должна быть равна 50 000; сумма величин во второй строке должна быть равна 40 000. 4—0102
50 Глава 1 б. Суммы величин в первом, втором и третьем столбцах должны быть равны 20 000, 36 000 и 34 000 соответственно. в. Общая стоимость перевозок должна быть минимальной. Эта общая стоимость равна сумме попарных произведений искомых для каждого квадрата величин на соответствующую единичную стоимость перевозки (последняя записана в правом верхнем углу каждого квадрата). Задача эта несколько похожа на разгадывание кроссворда, однако она труднее, так как здесь недостаточно добиться пра- вильных сумм в строках и столбцах (т. е. найти допустимое реше- ние), а нужно, кроме того, минимизировать общую стоимость. Возможно, что методом проб и ошибок можно было бы подобрать нужное решение в данной задаче. Однако для сокращения времени решения желателен систематический метод. Для решения задач с большим количеством пунктов отправления и доставки наличие такого систематического метода (алгоритма) и вычислительной машины является весьма существенным. Обозначим через х количество зерна, перевозимое из Гранд- Форкса в Денвер (в тыс. бушелей). Тогда очевидно, что из Чикаго в Денвер следует перевезти (20 — х) тыс. бушелей (табл. 1.8.4). Таблица 1.8.4 Промежуточный этап решения задачи планирования перевозок X 42 У 55 50—а: 60 — У 50 20- 36 X 36- 47 У 51 -16 40 20' 36 34 Аналогично если у — количество зерна, перевозимого из Гранд- Форкса в Майами, то (36 — у) — количество зерна, перевозимого из Чикаго в Майами. Следовательно, из Гранд-Форкса в Нью-Йорк нужно перевезти (50 — х — у) тыс. бушелей и аналогично из Чикаго в Нью-Йорк надо перевезти 40 — (20 — х) — (36 — у) = = х 4- у — 16 тыс. бушелей. (Заметим, что требование доставки в Нью-Йорк 34 000 бушелей зерна удовлетворяется автоматиче- ски, поскольку использовано условие равенства проданного коли- чества зерна всему имевшемуся в наличии.)
Минимизация функций 51 Итак, количество неизвестных сокращено до двух (ж и у), которые должны удовлетворять шести неравенствам: ж О, у 0, 50 — х — у 0, 20 — х 0, 36 — у 0, х + у — 16 > 0. Удобно представить все эти неравенства графически в системе координат (ж, у), как показано на фиг. 1.8.3. Так же как и в пре- Фиг. 1.8.3. Решение задачи о минимальной стоимости перево- зок. У- дыдущем примере 2, здесь имеется допустимая область, в которой удовлетворяются все неравенства. Вычислим теперь общую стоимость перевозок как функцию х и у С = 1000/100 [42ж + 55у + 60 (50 - ж — у) + + 36 (20 - ж) + 47 (36 - у) + 51 (ж + у - 16)] = = 45 960 — ЗОж — Юг/ (в долларах). Линии постоянной стоимости нанесены на фиг. 1.8.3 пунктиром. Ясно, что допустимое решение, дающее минимальную стоимость, соответствует точке ж = 20, у = 30. Результаты решения задачи минимизации стоимости приведены в табл. 1.8.5. Таблица 1.8.5 Оптимальное решение задачи планировании перевозок 42 55 60 50 20 30 0 36 47 51 40 0 6 34 20 36 34 4*
52 Глава 1 Заметим, что, согласно данным этой таблицы, не следует пере- возить зерно из Чикаго в Денвер даже несмотря на то, что стои- мость доставки одного бушеля между этими городами самая низкая. Интересно отметить, что разность между наилучшим (в смысле общей стоимости) и наихудшим решениями составляет всего 740 долл, при минимальной стоимости 45 060 долл. Тем не менее эти 1,6% разницы могут быть значительной частью прибыли, полученной от продажи. 1.9. Численное решение задач оптимизации с ограничениями в виде неравенств Численные методы решения задач оптимизации при наличии ограничений в виде неравенств являются одной из главных тем специальной дисциплины — математического программирования. Им посвящено большое число работ (см., например, [1.2], [1.4]); здесь мы ограничимся только изложением наиболее важных осо- бенностей метода допустимых направлений, или метода проекции градиента. Алгоритм этого метода включает два отдельных, но тесно связанных между собой этапа. Этап 1. Поиск допустимого решения. Как указывалось в разд. 1.7, нахождение значения у, удовлетворяющего системе нелинейных неравенств / (у) 0, часто оказывается затруднитель- ным. В задачах с ограничениями в виде равенств, подобных рас- смотренным в разд. 1.5 и 1.6, допустимое решение найти в прин- ципе довольно просто, поскольку переменных (х и и) больше, чем заданных ограничений [/ (х, и) = 0]. В задачах с ограничениями в виде системы неравенств число ограничений (компонент векто- ра /) часто бывает больше, чем количество переменных (компонент вектора у). Допустимое решение в этом случае можно найти сле- дующим способом. Зададим некоторое начальное значение у и рас- смотрим достаточно малое возмущение dy, которому соответствует приращение df вида df = ^dy. (1.9.1) Если некоторые компоненты вектора / (у) в точке у являются поло- жительными, т. е. недопустимыми (так как нарушается условие / (у) 0), то выберем dy так, чтобы соответствующие компоненты df были отрицательными. Другими словами, вектор / (у + dy) должен быть «ближе» к допустимому решению, т. е. F dy 5^0, (1.9.2) где F содержит только те строки матрицы dfldy, которые соответ- ствуют недопустимым компонентам вектора ограничений /. Таким
Минимизация функций 53 образом, задача поиска допустимого решения для системы нелиней- ных неравенств сводится к последовательности задач поиска допу- стимого решения для системы линейных неравенств. Этап 2. Поиск допустимого улучшения. Если удалось найти допустимое значение у, то следующий шаг состоит в том, чтобы определить такое приращение dy, для которого решение остается Фиг. 1.9.1. Решение за- дачи квадратичного про- граммирования (к примеру из разд. 1.9). допустимым и при этом еще улучшается значение критерия каче- ства. Другими словами, для такого dy должны выполняться условия f (у + dy) < 0 и L (у + dy) < L (у). Таким образом, приращение dy должно удовлетворять системе линейных неравенств, подобных (1.9.2): - 0L- ду df _ ду dy = H dy <;0. (1.9.3) Пример. Квадратичный критерий качества с линейными огра- ничениями в виде неравенств. Пусть требуется минимизировать функцию г _ (У1 —2)2 4 Hz/2-i)2 при наличии ограничений 3z/i + 2у2 — 6^0, У1 >0, У2 >0. На фиг. 1.9.1 показана допустимая область и нанесены линии постоянных значений критерия качества L. Возьмем начальную
54 Глава 1 точку с координатами yt = уг = 1/2. В этой точке 9L _ _ 3 дЬ _ . dyt 4 ’ ду2 — Поскольку требуется минимизировать критерий качества, то наи- лучшим направлением движения из этой точки- будет направление вдоль отрицательного градиента, как показано на графике в точ- z ке А (V2, 1/2). Будем двигаться в этом направлении до тех пор, пока значение критерия качества будет уменьшаться (точка минимума может оказаться и на границе). В данном примере точ- кой минимума (по направлению отрицательного градиента из точ- ки А) является точка В, лежащая внутри допустимой области. Двигаясь далее из точки В по направлению отрицательного гра- диента из этой точки, достигнем точки С, лежащей на линии 3z/t + + 2уг — 6 = 0. В этой точке отрицательный градиент направ- лен за пределы допустимой области, поэтому будем двигаться по направлению компоненты отрицательного градиента, направ- ленной вдоль границы (в данном примере — вверх}. Двигаясь в этом направлении, достигнем точки минимума D, в которой отри- цательный градиент направлен за пределы допустимой области и перпендикулярен к границе. Как было отмечено, в разд. 1.8, в последние годы приобрели большое значение задачи линейного программирования. Поэтому имеет смысл кратко обсудить специальные процедуры, используе- мые при решении этих задач. Рассмотрим снова задачу минимиза- ции критерия качества L вида L = ЪТ у (1.9.4) при условии У + с <С 0; (1.9.5) здесь у — н-мерный вектор, АТ— матрица размерности т X п, т z>n. Как известно (разд. 1.8), минимум L должен достигаться в точке пересечения п гиперплоскостейнормали к которым имеют направления, определяемые элементами строк матрицы АТ. Исходя из этого, проведем решение по следующей схеме. Из систе- мы (1.9.5) выберем произвольно п условий, приравняем их нулю и решим как систему линейных уравнений. Если полученное реше- ние является допустимым, то исследуем п «ребер», выходящих из этой точки (каждое из ребер образовано пересечением п выбранных (п — 1)-мерных гиперплоскостей). Обозначим через ег (i = = 1,2, . . ., п) единичный и-мерный вектор, направленный от полу- ченной точки вдоль i-го ребра (в сторону допустимой области). Градиентом функции L является вектор Ьт, поэтому рассмотрим г) Встречаются аномальные задачи, в которых минимум достигается не в «точке», а на «ребре» (симплекса); см. условия, определенные в разд. 1.8, для всуществования «точечного» решения.
Минимизация функций 55 проекции ребер (т. е. ег) на вектор Ът , т. е. скалярные произведе- ния Ъг el, t = 1, 2, . . ., п. Если все скалярные произведения положительны, то движением вдоль ребер нельзя добиться улуч- шения (т. е. уменьшения значения L). В таком случае оптимальное решение уже получено. Если же некоторые из скалярных произ- ведений отрицательны, то следует выбрать из них наибольшее по абсолютной величине и далее двигаться вдоль соответствующего этому произведению ребра до тех пор, пока не встретится какое- либо другое ограничение. Пересечение этого нового ограничения и (и — 1) старых ограничений, которые образовали ребро, опре- деляет новую точку, в которой значение L непременно должно быть меньше (чем в предыдущей точке), так как движение происходило вдоль той проекции градиента, для которой Ът ег < 0. Описанный процесс следует повторять до тех пор, пока будет получена точка, для которой все Ът ег >0, т. е. когда дальнейшее улучшение L будет невозможно. Изложенная процедура лежит в основе сим- плекс-алгоритма, предложенного Данцигом [1.3], который исполь- зует в сущности метод допустимых направлений. 1.10. Метод штрафных функций Для решения задач оптимизации с ограничениями как в виде равенств, так и в виде неравенств применяется еще так называе- мый метод штрафных функций. Идея этого метода весьма проста. Пусть необходимо минимизировать функцию L (у) при условии /(г/) = о. (i.io.i) Вместо того чтобы непосредственно решать поставленную задачу, рассмотрим задачу минимизации вспомогательной функции L = L (у) + К || f (у) |р, (1.10.2) в которой на у не накладывается каких-либо ограничений. Здесь К — достаточно большое число 2). Если функция L достигает минимума в точке у*, то естественно ожидать, что ___________ f (у*) ~0 (1.10.3) 1) Добавление слагаемого К || / (у) ||2 к функции L (у) можно рассматри- вать как введение в задачу на безусловный экстремум L (у) специального «штрафа» за неточное выполнение условия / (у) = 0. Поэтому слагаемое К \\ f (у) ||2 часто называется «штрафной функцией»; отсюда и происходит название рассматриваемого метода. Метод штрафных функций, таким обра- зом, позволяет сводить задачи на условный экстремум к задачам на безуслов- ный экстремум. По-видимому, очевидно, что при конечных значениях К такое сведение будет лишь приближенным. — Прим, перее. 2) Можно, конечно, использовать вместо К || / (у) ||2 и другие функции от / (J/)- Основное требование к штрафным функциям сводится к тому, что они должны быть равны нулю при / (у) = 0 и должны быть положительными (в задачах минимизации) при / (у) ф 0.
56 Глава 1 L (у*) » L (у0), (1.10.4) где у0 — значение у, минимизирующее L при условии / (у) = .0. И действительно, в некоторых случаях оказалось возможным показать, что limy* = y°, lim L (у*) = L (у0). К->ЭО К-~+<х> (1.10.5) В вычислительной практике к методу штрафных'функций обра- щаются как в случае оптимизации параметров, так и в случае оптимизации управляющих функций (гл. 2—4). Тем не ме- нее важно отметить, что на практике метод штрафных функций не позволяет иногда подойти достаточно близко к истинному решению [т. е. к пределу, указанному в (1.10.5)]. Одна из причин этого состоит в следующем. Расширенный критерий качества с дополни- тельным слагаемым (штрафной функцией) при больших значе- ниях К имеет длинный узкий «овраг», а точка минимума у* на- ходится на его дне (фиг. 1.10.1). Фиг. 1.10.1. Линии уровня, соз- даваемые штрафной функцией, в при- мере разд. 1.10. При применении градиентного метода для поиска точки у* после- довательные приближения с одной стороны оврага «перескаки- вают» на другую (т. е. вдоль «ширины» оврага) вместо того, чтобы опускаться вниз вдоль «длины» оврага. Более того, если К очень велико, «ширина» оврага становится соизмеримой с точно- стью вычислений и метод градиента совершенно перестает рабо- тать. Другим возможным источником затруднений является появле- ние искусственных точек минимума, котбрые отсутствуют в исход- ной задаче.
Минимизация функций 57 Пример. Найти z/j и у2, минимизирующие функцию L = (yi- 2)2 + yl при условии У1 = 0. Это очень простая задача, которая имеет очевидное решение z/i = у2 = 0. Будем, однако, решать ее с по- мощью метода штрафных функций. Для этого минимизируем рас- ширенную функцию L со штрафным слагаемым Е-(9,-2)> + й + вд_й + [(!,1-т-^)7т-1т]+^. При фиксированном К линиями уровня функции L являются эллипсы с общим центром в точке z/i =2/(1 + К), у2 = 0 и отно- шением полуосей 1 : 1/|/~1 К. На фиг. 1.10.1 показаны линии уровня функции L при К = 35. Отметим появление длинного узкого «оврага», вызванного штрафной функцией. При решении задач оптимизации с ограничениями в виде нера- венств тоже может быть использован метод штрафных функций. Пусть вместо равенства (1.10.1) в задаче минимизации должно быть удовлетворено неравенство Ш^о. (1.Ю.6) В этом случае можно минимизировать расширенную функцию L вида L = L (у) + К If (у)]* 1 [f (у)], (1.10.7)- где 1 (/) — единичная ступенчатая функция, определенная сле- дующим образом: , ( 1, если />0, Ч/ = ’ ' (1-10.8) I 0, если /< 0. Использование штрафных функций оказывается часто весьма полезным на начальной стадии численного решения задач со сложными ограничениями.
Глава 2 Задачи оптимизации динамических систем 2.1. Дискретные одношаговые системы Начнем изучение дискретных многошаговых систем с рассмо- трения простейшей нетривиальной многошаговой системы — одно- шаговой системы. Начальное состояние системы описывается известным л-мерпым вектором х (0) — вектором состояния. Выбор некоторого т-мер- ного вектора управления и (0) определяет переход системы х(0)1 и (0) Фиг. 2.1.1. Блок-схема дискретной одно- шаговой системы. в состояние х (1); этот переход описывается соотношением (фиг. 2.1.1) х (1) = /° [х (0), и (0)]. (2.1.1) Пусть требуется выбрать управление J) и (0) так, чтобы миними- зировать критерий качества, заданный в виде / = ф к (1)1 + L° k(0), u (0)]. (2.1.2) Сформулированная задача является задачей минимизации функ- ции с ограничениями в виде равенств; она вполне аналогична задачам, рассмотренным в разд. 1.2. Для получения необходимых условий оптимальности и в данной задаче будем следовать идеям разд. 1.2, слегка изменив лишь способ формирования функции Н. Образуем расширенный критерий качества J, прибавив к выраже- нию (2.1.2) ограничение (2.1.1) с некоторым неопределенным множителем X (1): J = ф к (1)1 + £° к (0), и(0)] + /5 (1) {/« к (0), и (0)] - х (1)}. (2.1.3) Пусть Я0 = Л° [х (0), и (0)] + Хт (1) /° [х (0), и (0)], (2.1.4) х) Под управлением здесь понимается постоянный вектор и (0).— Прим, ред.
Задачи оптимизации динамических систем 59 тогда ./=<£ [х (1)] + Н0 [х (0), и(0), %(1)] — АЛ (1) ж (1). (2.1.5) Рассмотрим бесконечно малое изменение критерия качества J, соответствующее бесконечно малым изменениям величин и (0), х (1), х (0): 77= Г-7Г7Г7 - (1)1 dx № + ~^du (°) dx (0). (2.1.6) L dx (1) 4 7J 4 7 1 du (0) 4 7 1 dx (0) 4 7 4 7 Общий вид выражения для dj подсказывает целесообразный выбор величины X (1); чтобы избежать определения dx (1) через du (0) с помощью дифференцирования соотношения (2.1.1), выберем Хг(1)==^-. (2.1.7) 4 7 dx (1) 4 7 В результате получим ^=#7^dM(0)-|-#£-^(0). (2.1.8) du(0) 4 7 1 dx (0) 47 4 7 Таким образом, дН^ди (0) — градиент критерия качества J *) по и (0) при постоянном значении х (0), удовлетворяющем уравне- нию (2.1.1), а дН°1дх (0) — градиент J по х (0) при постоянном значении и (0), удовлетворяющем тому же уравнению. Если х (0) задано, то dx (0) = 0. Очевидно, для получения стационарного значения J и, следо- вательно, J при заданном х (0) должно выполняться условие Заметим, что уравнения (2.1.1), (2.1.7) и (2.1.9) составляют систе- му п + п + т уравнений с п + п -ф- т неизвестными величи- нами х (1), X (1), и (0). 2.2. Дискретные многошаговые системы; оптимизация при фиксированном числе шагов и отсутствии краевых условий на правом конце Задачи оптимального программирования для дискретных много- шаговых систем тоже относятся к задачам минимизации функции. Рассмотрим многошаговую систему, описываемую нелинейными разностными уравнениями х (г + 1) = /г[х (г), и (г)1, х (0) задано, i = 0, . . ., N — 1. _________ (2-2.1) !) Поскольку J = J на-решениях системы (2.1.1).— Прим, перее.
60 Глава 2 Эти уравнения представляют собой последовательность условий в виде равенств, где х (I) — последовательность значений п-мер- ного вектора состояния, определяемая в свою очередь выбором Фиг. 2.2.1. Блок-схема дискретной многошаговой системы. последовательности значений m-мерного вектора управления и (г). Схема дискретной многошаговой системы показана на фиг. 2.2.1. Пусть критерий качества задан в виде N-1 J = ф [ж (7V)] + 2 [х (0, U (0J. (2.2.2) i=0 Задача состоит в том^ чтобы найти последовательность и (I),. которая минимизирует (или максимизирует) J. Образуем расши- ренный критерий качества J, -прибавив к величине J систему урав- нений (2.2.1) с множителем X (г) 7= ф [х (TV)] + 2 (^k(0, «(0J + г=0 + %T(i + 1) {/* [х (i), U(i)]-x(i + l))). (2.2.3) Для удобства введем скалярную последовательность функций Нг Н1 = Ь*[х(1), и(0] + ХГ(г + 1)Гк(1), i = 0, ..., N— 1. (2.2.4) При этом выражение для J после изменения пределов суммиро- вания в последнем члене (2.2.3) примет вид _ N-1 J = & [х(^]-Хт (N)x(N)+ 2 [Н1-Кт (i)x(i)] + Н°. (2.2.5) Рассмотрим теперь дифференциал J, соответствующий прира- щению и (г): ДМ«пхг-хГ<Л'>]‘й:<Л')+ + S {hSr-'-’w]**+ <2-2-6>
Задачи оптимизации динамических систем 61 Чтобы избежать громоздкого определения приращений dx (i) по заданным приращениям du (г), выберем последовательность зна- чений множителя X (г) следующим образом: Хт (г)—— О, т. е. положим kT (j) = ' ' дх (г) ' ’ = + + * = 0, •••> (2.2.7) дх (i) 1 ' 1 1 дх (i) ’ ’ ’ ’ 4 * * 7 с граничным*условием <2 *-2-8’ При таком выборе Х(г) уравнение (2,2.6) примет вид N-1 i dT- 3 ^dU{t) + ^(Q)dx($). (2.2.9) i=0 Таким образом, дНЧди (i) является градиентом критерия каче- ства J 1) по и (i) при фиксированном (неварьируемом) значении х (0) и при условии удовлетворения уравнения (2.2.1), а V (0) = = дНЧдх (0) является градиентом J по х (0) при фиксированном (нёварьируемом) управлении и (г) и при условии удовлетворения того же уравнения. Если х (0) задано, то dx (0) = 0. Если J достигает экстремума, то для произвольного du (7) приращение dJ должно равняться нулю 2). Последнее будет иметь место лишь при условии -^- = 0, i = 0, ...,7V —1. (2.2.10) ди (i) ’ ’ ’ v ' Итак, для того чтобы определить последовательность значений вектора управления и (Z), которая соответствует стационарному значению критерия качества 1, необходимо решить следующую систему разностных уравнений: х (г +1) = /г [х (г), u(i)], (2.2.11) мН4)Г^+1)+[7Й)Г. <2-2-<2> !) См. примечание на стр. 59.— Прим, перее. 2) Здесь авторы неявно предполагают, что, поскольку на значения и (г) не наложены ограничения, экстремум достигается в стационарной точке кри- терия J, т. е. предполагается непрерывная дифференцируемость функций ф, Li по всем своим аргументам. Следует заметить, что условия дифференцируемости не оговариваются авторами на протяжении почти всей книги (за исключением нескольких разделов). Поэтому не все из приводимых результатов могут считаться дока- занными для самых общих случаев.— Прим, перее.
62 Глава 2 где вектор и (i) определяется путем нахождения стационарной точки функции Нг -^? = ^- + Xr(i + l)^- = 0, i = 0, ..., N-i. (2.2.13) ди (г) ди (г) 1 ' 1 ' ди (г) ’ ’ ’ ' ’ Граничные условия для уравнений (2.2.11) и (2.2.12) разделены, т. е. одни из них заданы в начальной точке (при i = 0), другие — в конечной точке (при i = N): ' х (0) задано, (2.2.14) х<Л,>=Ыж]''- <2-2Л5> Полученная задача называется двухточечной граничной задачей; решить ее иногда бывает весьма сложно даже при использовании быстродействующей вычислительной машины. Заметим, что раз- ностные уравнения (2.2.11) и (2.2.12) взаимосвязаны, так как и (i) связаны с Z (i) соотношением (2.2.13), а коэффициенты в (2.2.12) зависят, вообще говоря, от х (i) и и (i). Чтобы критерий качества J достигал локального минимума на некоторой последовательности и (i), должно не только выпол- няться условие дНг!ди (i) = 0, но дополнительно необходимо, чтобы выражение дифференциала второго порядка от J было неотрицательным при всех бесконечно малых значениях du (i) и при удовлетворении равенства (2.2.1). Таким образом, должно быть d~.I 0. Из соотношения (2.2.3) получаем N-1 d*J ± dxT (N) дх dx (7V) + 4- 2 [d^(i), dur(01X i=0 д*н1________________________д*Н1 дх (i) дх (i) дх (i) ди (i) Х д2Н1___________д*Н1 ди (i) дх (i) ди (i) ди (i) dx (i)l du (i) J (2.2.16) Значения величин dx (i) определяются через du (i) при дифферен- цировании уравнения (2.2.1): dx(i + i) = ~^^dx(i) + -^^du(i), dx(0) = 0. (2.2.17) Методы проверки выполнения этого критерия изложены в гл.6 (разд. 6.11). Пример. Линейная система уравнений с квадратичным крите- рием качества. Требуется найти последовательность значений вектора управления и (г), г — 0, . . ., N — 1, минимизирующую
Задачи оптимизации динамических систем 63 квадратичную форму J = (ту) A(N)x(N) + N-l + 2 [4 *T (О А ® х (0 + 4 (О В (0 U (i)] , (2.2.18) i=0 где A (i) и В (0 — заданные положительно определенные матрицы, при условии удовлетворения следующей системы линейных урав- нений.: х (г + 1) = Ф (0 х (i) + Г (0 и (0, х (0) задано. (2.2.19) Решение. Для этой задачи последовательность вспомогатель- ных функций Нг имеет вид Я* = 4 (0 А (0 (г) + 4 ит (0 В (0 и (0 + + Хт (i +1) [Ф (0 X (0 + Г (0 и (0], (2.2.20) где Хт (0 = (i +1) Ф (0 + хт (I) А (0, Кт (Я) = хт (Я) A (N). (2.2.21) Для стационарного значения Нг как функции и (0 должно выпол- няться условие (0 В (i) + Хг (i +1) Г (0 = 0, (2.2.22) откуда и (0 = - [В (0]Ч Гт (0 X (i +1). (2.2.23) Итак, получаем х (i +1) = Ф (0 ж(0 - Г (0 [В (0J-1 Гт (0 X (i +1), (2.2.24) Х(0 = Фг(0Х(1 + 1) + Л(0ж(0, i = 0, ..., Я-1, (2.2.25) со следующими граничными условиями: X (Я) = А (Я) х (Я), х (0) задано. Это взаимосвязанная система линейных разностных урав- нений с двухточечными краевыми условиями. Решая эту двух- точечную краевую задачу, получаем из (2.2.23) последователь- ность и (0, минимизирующую критерий качества. Задача 1. Показать, что полученная в предыдущем примере линейная двухточечная краевая задача может быть решена, если положить X (0 = S (i) х (0
64 Глава 2 и определить матрицу S (г) с помощью обратных рекуррентных соотношений S (j) = Фт (j) М (г +1) Ф (i) + A (г), М (г + 1) = [£-* (i + 1) + Г (г) ^(i) Гт(г)]-1, i = • ••, О, или M(i + i)^S(i + i)-S(i + i)r(i) [В(г) + гт(05(г + 1)Г(0Г гг(0 ^+1), где условие на правом конце для матрицы S (г) имеет вид S(N) = A(N). Определив из приведенных соотношений матрицу S (I), ,i — N — — 1, О, получим х (г + 1) = [Е — Г (j) В-1 (г) Гт (г) S (i + I)]-1 Ф(г) х (i), х(0) задано. Изложенный способ называется методом прогонки для решения линейной двухточечной краевой задачи. (Более подробно этот метод рассмотрен в разд. 6.10 и 6.11.) Задача 2. Поставленную в этом разделе задачу можно рассма- тривать как задачу оптимизации разд. 1.2, где х — вектор с ком- понентами х (1), . . ., х (ТУ), и — вектор с компонентами и (0), . . . . . ., и (N — 1), a f — вектор с компонентами х (1) — /°, х (2) — — Д . . ., х (N) — fN-1. Показать, что в этом случае общие необ- ходимые условия, полученные в разд. 1.2, сводятся к уравне- ниям (2.2.11) — (2.2.15). 2.3, Непрерывные системы; оптимизация на фиксированном интервале времени при отсутствии краевых условий на правом конце Задачи оптимального программирования управления и (£) для непрерывных систем относятся к задачам вариационного исчисле- ния. Их можно рассматривать как предельный случай задач оптимального программирования для дискретных многошаговых систем, когда интервал времени между шагами становится малым по сравнению с общим временем движения. В действительности, однако, в настоящее время чаще используется обратная процедура, когда для решения задач на ЭЦВМ непрерывные системы аппро- ксимируются дискретными многошаговыми системами. Рассмотрим систему, описываемую нелинейным векторным диф- ференциальным уравнением х = / [х (t), и (Z), Z], х (t0) задано, t0 < t Д tf. (2.3.1)
Задачи оптимизации динамических систем 65 Здесь х (t) — ге-мерпый вектор состояния, который определяется выбором zn-мерного вектора управления и (t). Введем скалярный критерий качества У = ф[ж(^), tf] + j L [х (t), u(t),t]dt. (2.3.2) «о Задача состоит в том, чтобы найти вектор-функцию и (t), миними- зирующую (или максимизирующую) J. Прибавим к выражению для J систему дифференциальных уравнений (2.3.1) с некоторым множителем X (£). В результате получим вспомогательный кри- терий качества 7= ф [*(*/), М+j[b[^(O, »(*), i]-+ to + ‘kT (t){f[x(t), u(t), t\ — x}^dt. (2.3.3) Для удобства введем вспомогательную скалярную функцию Н (гамильтониан) Н [х (t), и (t), X (0, d =L (x (t), и (t), 0 -j- № (t) f [x (t), и (t), <]. (2.3.4) Интегрируя по частям последнее слагаемое в правой части соот- ношения (2.3.3), получим J = ф [z (tf), /у] — (tf) х (tf) -I- (tQ) х (tQ) + + [ {ff[x(t), и (t), И + V(t)x(t)}dt. (2.3.5) to Рассмотрим теперь вариацию критерия качества J, соответствую- щую вариациям вектора управления и (t) (при фиксированных значениях t0 и tf): +)[(^-+Н6а;+4?-8и]Л- ' <2-3-е> io Чтобы не определять непосредственно вариации 8х (t), вызван- ные заданными вариациями 8и (t) (что было бы довольно громозд- ко), выберем множитель % (t) таким образом, чтобы коэффициенты 5—0102
66 Глава 2 при 8х (i), 8х (tf) в (2.3.6) обратились в нуль. Тогда с граничным условием <2-3-8> При таком выборе множителя Л(^) уравнение (2.3.6) примет вид Ч 8J = V (t0) 8х (t0) + j ^-8иdt. (2.3.9) Это выражение для 8J называется первой вариацией критерия качества J. Итак, V (t0) — это градиент критерия качества J г) по х (t0) при условии, что функция и (t) фиксирована [не варьи- руется, т. е. 8и (t) = 0] и удовлетворяет уравнению (2.3.1). Функция X (t) носит также название функции влия- ния на критерий J вариаций х (t) (или функции чувст- вительности критерия J к вариациям x(t)), поскольку она ука- зывает на изменение критерия при изменениях (вариациях) х (t) в произвольный момент t = t0- Компоненты вектор-функции дН/ди называются импульсными переходными (или весовыми) функциями, поскольку каждая компонента дШди} представляет собой изменение критерия J при вариации 8и} (t), равной единич- ной импульсной функции [функции Дирака 6 (т — Z)], приложен- ной в момент t. При этом величина х (t0) считается фиксированной и удовлетворяющей уравнению (2.3.1). Если J достигает экстремума, то 8J должно быть нулем для произвольных вариаций 8и (t); для этого необходимо, чтобы ^ = 0, (2.3.10) Уравнения (2.3.7), (2.3.8) и (2.3.10) известны в вариационном исчислении как уравнения Эйлера — Лагранжа. Итак, для того чтобы найти вектор управления и (t), при кото- ром критерий качества J достигает стационарного значения, нуж- но решить систему дифференциальных уравнений x = f(x, и, t), (2.3.11) где u(t) определяется из условия дН г, / \ Т л j / dL \ Т _ —— = 0, или -т— A-j-l-x—I =0. (2.3.13) ди \ ди J 1 \ ди ) ' 7 1) Поскольку J = У на решениях системы (2.3.1).— Прим, перее.
Задачи оптимизации динамических систем 67 Граничные условия для уравнений (2.3.11) и (2.3.12) разделены: одни из них заданы при t = tQ, другие — при t = tp. х (t0) задано, (2.3.14) ад=(т&Г- (2-315> Таким образом, здесь так же, как и при решении задач оптималь- ного программирования для дискретных многошаговых систем, мы сталкиваемся с двухточечной краевой задачей. Если функции L и / явно не зависят от времени t, то задача имеет первый интеграл. Действительно, H = Ht +Нх‘х + Ний+ kTf = = Hf HuuJr (Нх 4- X ) / = Нии. Если L и / (а следовательно, и Н) не являются явными функциями от t, a u(t}— оптимальное управление (т. е. условие дН/ди = 0 выполнено), то Я = 0 или Н = const (2.3.16) вдоль оптимальной траектории. Для того чтобы критерий качества J достигал локального минимума, недостаточно выполнения условия дН/ди = 0; необ- ходимо еще, чтобы слагаемое второго порядка 6V (вторая вариа- ция J) в выражении для dJ (при выполнении условия x—f (х, и, Z)== = 0) было неотрицательным для всех (бесконечно малых)1 значений 6н, т. е. бх" х7, dt>0 (2.3.17) Ч + -|- j [бхТ, бнг] дх2 дх ди д2Н д2Н при условии 8(х — /) = 0 или 4(&) = 46a:^SSw’ М«о) = О. (2.3.18) Уравнение (2.3.18) определяет 8х через 8и довольно сложным образом. Более подробно вторая вариация 82J рассмотрена в гл. 6. 5*
68 Глава 2 Пример 1 1). Принцип Гамильтона в аналитической механике. Согласно принципу Гамильтона, истинное (реально осуществляю- щееся) движение консервативной механической системы, перево- дящее ее из фиксированной в момент времени Zo точки q0 в другую заданную точку qj в течение заданного промежутка времени tf—tg, отличается от всех возможных (дозволяемых наложенными связя- ми) достаточно близких движений между указанными точками на том же интервале tf — t0 тем, что интеграл /== jZ/(w, д) dt (2.3 19) io ч имеет стационарное значение, т. е. 6 I =б}L(u, q) dt—Q. to Здесь L — T (и, q) — V (q) — лагранжиан системы, Т (и, q) — кинетическая энергия системы, V (q) — потенциальная энергия системы, (2.3.20) q — вектор обобщенных координат (вектор состояния системы), и = q — вектор обобщенной скорости. ' Выведем из принципа Гамильтона уравнения Лагранжа в об- общенных координатах. В принятых обозначениях гамильтониан задачи имеет вид H=L(u, q) +ХГи2). (2.3.21) Уравнения Эйлера — Лагранжа в этом случае таковы: Хт=~^-=---------(2.3.22) dq dq ' ' 4^- = -^ + XT = 0. (2.3.23) ди ди ' ' Отсюда (учитывая, что u=q, a Xr=—dL/ди——dL/dq) _£-4^- = 0. (2.3.24) dt dq I dq Это векторное уравнение Лагранжа, описывающее движение консервативной системы. Если L не зависит явно от времени, то система имеет первый интеграл Н — const, т. е. H — L — ^-u — T — V—w — const. (2.3.25) ди ди ' ' !) Формулировка примера 1 несколько уточнена.— Прим, перев. 2) В механике принято называть гамильтонианом выражение — L + + У.ти, а вектор 1 обычно обозначается через р, где р — вектор обобщенного импульса.
Задачи оптимизации динамических систем 69 Так как Т (и, q)— однородная квадратичная форма от и, то (по теореме Эйлера для однородных функций) справедливо соот- ношение ^и = 2Т. (2.3.26) Следовательно, —Н = Т + V = const. (2.3.27) Таким образом, сумма кинетической и потенциальной энергий в процессе движения системы остается постоянной. Пример 2. «Вариационный принцип» для неконсервативных механических системх). Действительное движение неконсерва- тивной механической системы между фиксированными состояния- ми q (t0) = q0, q (tf) = qf на фиксированном интервале времени [i0, tf] таково, что для него выполняется (при сравнении со всеми достаточно близкими возможными движениями между указанными точками) соотношение ч ч 6 j Т (и, q)dt Д- j QT (q) 8q dt = 0. (2.3.28) t) to Здесь q = u, 8q = 8u, Q (q)— вектор обобщенных сил. (2.3.29) Вектор Q (?) находится из условия, что работа, производимая этими обобщенными силами, определяется криволинейным инте- гралом (зависящим от траектории движения, вдоль которой про- изводится интегрирование) W= j QT(q)dq. (2.3.30) ?0 Второе слагаемое в выражении (2.3.28) является интегралом по времени от обобщенных сил Q на возможных перемещениях 8q (возможной работой). Заметим, что этот интеграл не равен Ч' § J Wdt2), что делает невозможным построение гамильтониана to *) См. К. Л а н ц о ш,Вариационные принципы механики, «Мир», 1966, гл. 5. (Приведенная ниже формулировка в виде условия (2.3.28) часто назы- вается принципом Гамильтона — Остроградского для неконсервативных систем. Строго говоря, эта формулировка не является вариационным прин- ципом. Однако в литературе по механике такое название встречается доволь- но часто.— Перев.) ~ 2) Для неконсервативных систем (в отличие от консервативных) указан- ный интеграл не может быть выражен через вариацию интеграла от какой- либо скалярной функции. Поэтому исходная формулировка [условие (2.3.28)]
70 Глава 2 Н для неконсервативных систем. Для вывода уравнений Лагранжа в этом случае можно, однако, поступить следующим образом. Добавим к уравнению (2.3.28) ограничение (2.3.29) с векторным множителем Лагранжа: Ч J + + Л + = (2.3.31) io Интегрируя это выражение по частям и учитывая, что 6g (t0) — = Sg (tf) = 0, получим J [(Sr + XT) ^+(^ + QT+hT)8q]dt = 0. (2.3.32) io Выберем, как обычно, вектор к (t) так, чтобы коэффициент при 6g обратился в нуль: ЬТ = (2-3.33) Поскольку вектор и произволен, то интеграл (2.3.32) может быть равен нулю только при условии Хг= (2.3.34) Исключая X из выражений (2.3.33) и (2.3.34) и учитывая соот- ношение g = и, получим векторное уравнение Лагранжа, описы- вающее движение неконсервативной механической системы: = • (2-3<35) oq 1 Пример 3. Форма носовой части сплошного тела вращения (без протока), обладающего минимальным сопротивлением в гипер- звуковом потоке * * * * * х). Сила Qp сопротивления давления, действую- щая на тело вращения в гиперзвуковом потоке при нулевом угле атаки, с достаточной точностью определяется выражением i Qp——2rtg j Cp(Q)rdr, ' (2.3.36) к=0 не сводится к обращению в нуль вариации какого-нибудь функционала и не является вариационной. В этом ее принципиальное отличие от форму- лировки принципа Гамильтона для консервативных систем (см. А. И. Лу- рье, Аналитическая механика, Физматгиз, 1961, разд. 12.2).— Прим, перев. х) Этот пример является первой решенной задачей вариационного исчис- ления; она была поставлена и решена Ньютоном в 1686 г.
Задачи оптимизации динамических систем 71 где q — рУ2/2—динамическое давление, х — расстояние от точки максимального радиуса тела вращения (от миделевого сечения), г — г(х)— радиус тела (ордината точки на верхней ветви профиля тела), =—tg0 (фиг. 2.3.1), (2.3.37) 9 — наклон образующей или местный угол атаки, J2sin29, 9>0 1 I 0, 9<0 J — местный коэффициент (2.3.38) сопротивления давле- ния (закон сопротив- ления Ньютона1), I — длина тела, г (0) = а — максимальный радиус тела. Фиг. 2.3.1. Схема и обозначения к за- даче о теле вращения с минимальным сопротивлением. Задача состоит в том, чтобы найти г (ж) (профиль тела вращения), минимизирующий Qp при заданных значениях q, I и а. Введем управляющую переменную и следующим образом: -u=-tg9 = -J (2.3.39) Чтобы учесть возможность наличия плоского затупления в но- совой части тела, перепишем выражение для Qp в виде (с уче- том (2.3.39)) j (2.3.40) о Гамильтониан системы Г*7/3 # = Т+^ + М~“)- (2-3.41) Г) Закон сопротивления (2.3.38), предложенный Ньютоном, оказался хорошим приближением для гиперзвуковых скоростей. В случае дозвуковых скоростей этот закон является слишком грубым.
72 Глава 2 и3 1--и2 ’ х=о. (2.3.42) (2.3.43) Уравнения Эйлера — Лагранжа имеют вид dX дН dx dr ОН__г и2 (3 -|- И2) ~дй ~ (1 + И2)2 В выражении (2.3.40) первое слагаемое правой части — функ- ция от г (Z). Согласно (2.3.8), оптимальное значение г (Z) должно быть таким, чтобы X (Z) = г (Z). (2.3.44) Так как значение г (0) = а задано, то X (0) не определено. Таким образом, система двух дифференциальных уравнений перво- го порядка (2.3.39) и (2.3.42) имеет два граничных условия: (2.3.44) и г (0) = а. Вместо того чтобы решать уравнение (2.3.43) для определе- ния и как функции от X, подставляя и (X) в (2.3.39) и (2.3.42) и интегрируя, можно использовать тот факт, что гамильтониан (2.3.41) не зависит явно от х, так что система имеет первый интеграл Н = const. Исключая X в выражениях (2.3.41) и (2.3.43), получим ff=-(TpS)2 = const- (2.3.45) Далее исключение X(Z) из формул (2.3.43) и (2.3.44) дает <2-3'46> Это соотношение удовлетворяется, если г (Z) = 0 или если и (Z) = +1 х). (2.3.47) Используя (2.3.47) и (2.3.45), получаем, что при х = I = (2.3.48) Теперь с помощью соотношений (2.3.45)’и^(2.3.48) можно опре- делить радиус тела как функцию коэффициента наклона и: . г . = (1 + ц2)а /О О 491 г (Z) 4иЗ • (2.3.4У) Далее из формул (2.3.37) и (2.3.39) следует, что dx 1 dr и х) Значение и (I) = —1 также удовлетворяет (2.3.46). Оно дает решение для симметричной относительно оси х нижней ветви профиля тела.— Прим, перев.
Задачи оптимизации динамических систем 7а ИЛИ 1 — х _ f 1 _d_ (1 + »а)а J r(Z) J и du 4иЗ 1 Это уравнение может быть проинтегрировано в функциях 1—х 1 / 3 . 1____7 I 1 \ г (?) 4 \4и4 'и2 4 а и ) ' (2.3.50) элементарных (2.3.51) Таким образом, уравнения (2.3.49) и (2.3.51) являются пара- метрическими уравнениями, определяющими оптимальный контур Фиг. 2.3.2. Контуры тел вращения с минимальным сопротивлением в сверх- звуковом потоке (для различных значений относительной толщины all). тела вращения. Радиус затупления г (Z) и коэффициент наклона н0 в точке х = 0 можно получить, решая трансцендентные уравнения а (1-М)2 г (?) 4и$ ’ Z 1 (JL_l J_____1—1 J_\ г (I) 4 \ 4wJ '"и2 4 П и0 ) ' (2.3.52) (2.3.53} На фиг. 2.3.2 показано несколько контуров оптимальных тел при заданном значении а и различных значениях I. Минимальное значение коэффициента сопротивления опреде- ляется выражением «о Схр - ~ (1 + Ь|)2 ( 3 + 10W0 + 17“0 + 2М0 + 4мо Ы ^) • Легко показать, что при a/Z->0 г 1'1— а:\3/4 С _____а > о (2.3.54) (2.3.55) (2.3.56)
74 Глава 2 2.4. Непрерывные системы; оптимизация при фиксированных значениях некоторых переменных состояния в заданный конечный момент времени Предположим, что в задаче оптимизации, рассмотренной в разд. 2.3, некоторые компоненты вектора состояния х (i) должны принимать заранее заданные значения при t = tf (такие краевые условия называются иногда терминальными). Тогда выводы разд. 2.3 остаются справедливыми вплоть до уравнения (2.3.7) включительно. Дальше ход рассуждений иной. Так, если xt (i-я компонента вектора х) задана при t = tf, то значение допусти- мой вариации 8xt (tf) в выражении (2.3.6) равно нулю, 8xt (tf) = 0. Таким образом, в этом случае условие [(дф/дх^ — №] t=t = 0 уже не является необходимым. По существу это краевое условие заменяется теперь другим: xt (tf) задано; следовательно, и в этом случае имеется 2п’ граничных условий для задачи (2.3.11) — (2.3.15). Аналогично если величина xh не задана в начальный момент времени t = t0, то отсюда уже не следует равенство 8xh (ta) = 0. В этом случае для xh (<0) существует оптимальное значение х* (ta), такое, что 8J = 0 для произвольных малых вариаций 8xh (ta) от значения xh (t0). Чтобы условие 8J = 0 выполнялось, выберем К («о) = 0. (2.4.1) Такой выбор Хь (t0) означает, что влияние малых изменений вели- чины xk (ta) на значение J равно нулю. И в этом случае одно гра- ничное условие — xk (ta) задано — заменяется другим, а именно условием (2.4.1). Условия типа (2.4.1) называются иногда «есте- ственными граничными условиями». Указанными различиями в формировании граничных условий и отличаются задачи разд. 2.3 от задач данного раздела. Однако для задач оптимизации с фиксированными значениями фазовых координат в конечный момент времени tf необходимость условия (2.3.13), дН/ди = 0, требует дополнительного подтверж- дения. При выводе этого условия в разд. 2.3 предполагалось, что вариации 8и (t), t0 t tf, являются произвольными. В рассма- триваемой задаче величины би(£) уже не являются полностью произвольными; допустимые значения 8и (t) подчинены ограни- чениям 8х{ (tf) = 0, i = 1, . . ., q (2.4.2) (q — число фазовых координат, заданных при t = tf). Таким образом, по определению допустимые вариации 8и (t) в общем
Задачи оптимизации динамических систем 75 случае должны удовлетворять всем условиям задачи, в том числе и ограничениям (2.4.2). В данном случае тем не менее возможно определить функции влияния для критерия качества J точно так же, как это было сде- лано в разд. 2.3; будем отмечать их в данном разделе верхним ин- дексом J. Однако поскольку xt (tf) заданы для i = 1, . . ., q, то справедливо считать член ф, не стоящий под знаком ин- теграла критерия качества, функцией лишь остальных (tf), i = q 4- 1, . . ., n, т. e. ф = ф [Xq+f, . . ., (2.4.3) Тогда с помощью формул (2.3.7) и (2.3.9) получаем [для 8х (t0) = = 0] 67 = J [ё+О6u(f) dt' (2А4) to где <2.4.5) г 0, 7 = 1, .. ., q, ы = IШ , /=’+*.............» <2-4-6) Предположим, что вместо J — ф [х (7))] + L (х, и, t) dt кри- to терий качества задан в виде J = xt (tf) , т. е. равен i-й компоненте вектора состояния в конечный момент времени tf. Функции влия- ния для xt (tf) можно определить с помощью приведенных выше соотношений, если положить ф = xt (tf) и L (х, и, t) — 0. Будем отмечать такие функции влияния верхним индексом i. Аналогич- но уравнениям (2.4.4), (2.4.5) и (2.4.6) получим tf 8x{(tf)=^ (kw)T^L8u(t)dt, (2.4.7) to где k(i) = -(-g-)7^), (2.4.8) ГО, г #= j, M (M= 4 , (2.4.9) ‘ (1, г — J, / = 1, ..., п. v ’ Разумеется, в действительности следует определить q различных систем таких функций влияния для всех i — 1, . . ., q (см. при- ложение АЗ).
76 Глава 2 Предположим теперь, что вектор управления и (t), при котором система удовлетворяет заданным граничным условиям, каким-либо образом определен. Тогда можно построить такие функции вре- мени 8и (t), которые уменьшают J (т. е. соответствующие им зна- чения 8J < 0) и удовлетворяют q ограничениям (2.4.2), заданным в конечный момент времени tf. Для этого умножим каждое из q уравнений (2.4.7) на некоторую константу Vj и прибавим полу- ченные соотношения к выражению для 8J; в результате получим ч *f ? 6J+2 + (2.4.10) i=l to i=l Выберем теперь '’-И+О1'}- <2ЛЛ1> i=l где к — положительная скалярная величина. Подставим это вы- ражение в (2.4.10), тогда ч 8J + 2 = г=1 =-4 in (^)г (awi+з+от *< °- <2лл2> to ;=1 Это выражение строго отрицательно, если подынтегральное выра-' жение не обращается тождественно в нуль на всем интервале интегрирования. Определим теперь значения так, чтобы удовлетворялись краевые условия (2.4.2) при t = tf. Подставляя (2.4.11) в соот- ношения (2.4.7) для каждого г, г = 1, 2, . . ., q, получим 9 q (У - - Ч (I) V" + 3 ’А'») + (» ей = 0, *о J=1 ИЛИ
Задачи оптимизации динамических систем 77 •Полученные соотношения являются системой линейных алгебраи- ческих уравнений относительно V; 2 Qnvi + Si = Or j=i или в векторной форме Qv + g = 0. Целесообразно теперь выбрать vj следующим образом: v ~ —Q~xg- (2.4.13) Здесь Q — квадратная матрица размерности (q X q)', g — ^-мерный вектор. Их элементы определяются соотношениями Ч Qti=^(^)TfufTu^dt, i, j—1,.... q, (2.4.14) to /-1, (2.4.15) to Существование обратной матрицы Q~z является условием управляе- мости системы (см. приложения Б1, Б2 и разд. 5.3). Если Q~l не существует, то невозможно найти вариацию би (Z), с помощью которой можно было бы перевести систему в состояние, удовлетво- ряющее всем q заданным краевым условиям при t = tf одновре- менно (т. е. найдется по крайней мере одно, а может быть, и нес- колько из q краевых условий, которые удовлетворить в данной задаче невозможно). Итак, построена функция времени 6u (Z), уменьшающая зна- чение критерия качества и удовлетворяющая терминальным огра- ничениям (2.4.2); другими словами, вариация би (t) является допу- стимой и улучшающей (в смысле изменения критерия качества). Из соотношения (2.4.12) вытекает, что единственное условие, при удовлетворении которого дальнейшее уменьшение критерия каче- ства уже невозможно, состоит в следующем: ч + g. = 0, (2.4.16) J=1 Если это условие выполняется, то полученное решение стацио- нарное и удовлетворяет заданным ограничениям в конечный момент временй tf. Так как уравнения для функций влияния (2.4.5), (2.4.6), (2.4.8) и (2.4.9) линейны, то необходимое условие (2.4.16)
78 Глава 2 может быть записано в виде ^ = 0, (2.4.17) ди ’ ' ' где H — L(x, и, t) + (Z) f (х, и, t) (2.4.18) и fVy, у = V = -Hx = < дФ\ . ,, (2.4.19), / = « + !. •.» Метод получения необходимых условий оптимальности, изложен- ный в данном разделе, составляет основу современного подхода к вариационным задачам. В зтом подходе можно указать два клю- чевых момента. Сначала находится выражение для вариации кри- терия качества 8J = J Ни (t) 8и (t) dt, где Ни = (2.4.20) to а гамильтониан Н определяется с помощью функций Л (t) и мно- жителей Vj. Затем доказывается, что если Ни (t) не равно тож- дественно нулю, то всегда можно (в предположении выполнимости условий управляемости, т. е. существования (У1) выбрать такие значения Vj, при которых вариация управления 8и (Z), определен- ная формулой (2.4.11), оказывается допустимой и улучшающей критерий качества J х). Вектор-функцию Ни можно интерпретировать как градиент (в функциональном пространстве) критерия качества J по отно- шению к переменной управления и (t) при условии, что конечные значения величин х,, i = 1, . . ., q, остаются фиксированными и удовлетворяется система дифференциальных уравнений. Пример. Максимизация скорости в конце участка выведения на прямолинейную траекторию. Рассмотрим материальную точку с массой т, находящуюся под действием силы тяги Р = та. Будем считать движение плоским, введем инерциальную систему координат Оху, компоненты скорости материальной точки обо- значим через и, V. Угол направления тяги'б’(г) (фиг. 2.4.1) с осью х для данной системы является управляющей функцией. Движение х) Это доказательство необходимости условия (2.4.17), основанное на рас- смотрении лишь членов первого порядка (первой вариации J), соответствует целям данного раздела. Более строгое доказательство, рассматривающее члены второго порядка (вторую вариацию), дано в разд. 6.3, где показано, что в действительности необходимо удовлетворение требованию «нормально- сти», а не «управляемости».
Задачи оптимизации динамических систем 79 точки описывается следующими уравнениями: и — a cos О, v = a sin О, х = и У = v. Здесь реактивное ускорение а по предположению является извест- ной функцией времени. Уравнения для функций влияния Л в этом Фиг. 2.4.1. Схема плоского движения под действием реактивного ускорения а. примере особенно просты: х„ = —хж, х„ =» —ху, хж = о, Ху = о. Эти уравнения легко интегрируются: Хц c^t + Cg, Ху c2t —|- с4, Хж с4, Ху с21 здесь с4, с2, с3, с4 — постоянные величины. Если нужно оптими- зировать функцию, зависящую только от конечных условий, то- L = 0 и гамильтониан Н системы имеет вид Н = Хца cos О + Х„а sin О + Хжн + ХуР. Гамильтониан оказывается постоянной величиной на оптималь- ной траектории, если а постоянно. Условие оптимальности в этом примере имеет вид = — Хц sin О’ + Хо cos 0 = 0. Таким образом, оптимальное управление направлением силы тяги^определяется соотношением tgO = b- = —-2;фС1, которое часто называется законом дробнолинейного тангенса. Пусть за заданное время Т необходимо переместить точку на траекторию, параллельную оси х и отстоящую от нее на рас- стояние h, так, чтобы достигалось максимальное значение и (Т). При этом предполагается, что конечное значение координаты аг не представляет интереса (т. е. х (Т) свободно и, следовательног
80 Глава 2 8х (Г) =Р 0) (фиг. 2.4.2). Таким образом, граничные условия для этой задачи имеют вид и (0) = 0, k(D = i, г>(0) = 0, v (Г) = 0, К (Г) = Vv, * (0) = 0,. (Л = о, у(0) = 0, У (Л = h, (Л = vy Здесь vD и vy — постоянные величины, определяемые из условий v (Т) = 0, у (Т) = h. Так как = 0, то = 1 вдоль всей траектории, и поэтому оптимальная программа управления становится законом линей- ного тангенса tg О’ = tg О-о — ct, где tg О0 = v„ + vvT, с = vv. В случае постоянного реактивного ускорения {а = const) диффе- ренциальные уравнения движения можно легко проинтегрировать Ф п г. 2.4.2. Схема перелета на заданную прямолинейную траекторию. при управлении по закону линейного тангенса, если вместо неза- висимой переменной t использовать угол О’. Тогда получим _ а_ , tg fro 4-sec fr0 u c tg fr -j- sec fr ’ v = -2- (sec O'o — sec O’), a I n n . n, tgfro4-sec fr0\ = 7Г (sec a0-sec a-tg a In , у ~ [ (tg O’o — tg O') sec O0 — (sec O0 — sec O’) tg O’ — i tgfro-|~secfro~i tg fr + sec fr J * Величины O0 и 'С (и, следовательно, vy и vB) определяются из двух граничных условий v (Т) = 0, у (Г) — h Эти неявные
Задачи оптимизации динамических систем 81 соотношения можно представить в виде 1 ln sec »o + tg^o/9^2 д аТ2 sin ©о sec ©о — tg «•<,/ g °’ 2 tg f)'o . a, . л / Л 2t \ с = —откуда tgO=-tgOo^l-------------—j. Очевидно, безразмерная величина hlaT2 определяет Фр, по которой можно затем определить с. Максимальная величина скорости Фиг. 2.4.3. Программы управ- ления углом тяги ft (t/T) для перелета на прямолинейную траекторию с максимальным значением горизонтальной ско- рости и (Г) в конце полета. и (^)макс __%xt __ j аТ ~~ аТ2 Фиг. 2.4.4. Зависимость максималь- ной конечной скорости wMaKC от на- чального угла тяги f>o и зависи- мость от безразмерной высоты выведения ihJaT2. х(Т) находятся из уравнения secflp-1-tg ftp, sec ftp —tg Фр/ * Эти соотношения графически представлены на фиг. 2.4.3 и 2.4.4. Отметим Ьще, что 2t « v0=— tg^0, = 6-0102
82 Глава 2 Задача 1. Рассмотрим следующую аппроксимацию программы оптимального управления направлением тяги (для предыдущего примера): -On т 0<z<4-, — <Zt<T 2 ’ здесь ft! = const. Заметим, что такая программа дает v (Т) — 0. Требуется найти такое чтобы у (Т) — h, и определить u (Г) и х (Т). Сравните полученное значение и (Т) с нмакс в предыдущем примере для заданного hlaT2. Ответ. sinfl1 = ^, и (Г) = аТ cos^On х (Т) = 1 аТ* cos Задача 2. Определение траектории полета самолета, ограни- чивающей максимальную площадь, при наличии ветра1). Самолет имеет постоянную скорость V относительно воздуха, скорость У Фиг. 2.4.5. Траектория полета само- лета, охватывающая за заданное время максимальную площадь при наличии ветра. ветра и тоже постоянна. Найти замкнутую кривую — проекцию траектории полета на земную поверхность, чтобы заключенная внутри кривой площадь была максимальной. Время полета Т задано. Движение самолета в горизонтальной плоскости Оху описы- вается уравнениями х = V cos ф 4- и, у = V sin ф, если ось х выбирается так, чтобы ее направление совпадало с на- правлением скорости ветра и (фиг. 2.4.5). Здесь ф — угол курса 1) Задача С. А. Чаплыгина. —Прим, перев.
Задачи оптимизации динамических систем 83 (управляющая переменная). При полете самолета по замкнутой кривой площадь, ограниченная этой кривой, определяется соот- ношением ух dt. Ответ. Искомая замкнутая кривая является эллипсом с экс- центриситетом e = u/V, малая ось эллипса параллельна скорости ветра и, величина максимальной площади при этом А 72^2 / „2 ч 3/2 4л (1 “ 72 / Задача 3. Определение минимальной поверхности вращения, связывающей два соосных круговых контура. Даны два соосных кру- говых контура одинакового радиуса а на расстоянии 21 друг от дру- га. Найти поверхность вращения, связывающую эти два контура Фиг. 2.4.6. Поверхность вращения минималь- ной площади, связывающая два соосных круго- вых контура. и имеющую минимальную площадь (эту форму примет поверх- ность мыльной пленки, натянутой между двумя кольцами). Указание. Следует рассмотреть цилиндрические координаты г, х, как показано на фиг. 2.4.6. Площадь элемента кольцевой по- верхности равна dA = 2лг У (dr)2 (dx)2. Таким образом, задача состоит в определении функции и(х), минимизирующей интеграл i А=2п § rj/l-j-iz2 dx-, -i здесь dr ~^ = и, краевые условия r(l) = a, r( — l) — a. 6*
Глава 2 Ответ. Для 0 <Z/a< 0,528 минимизирующая кривая задается уравнением r = #ch-^-, fi где величина НИ определяется из решения трансцендентного урав- нения (a/Z) (Z/Я) = ch НН (фиг. 2.4.7). Это уравнение имеет два решения при 0 < Па < 0,663 и пе имеет решений при На > 0,663. Для На >0,528 минимизирующая кривая описывается урав- нением г = 0, т. е. поверхность распадается на два диска, каждый Фиг. 2.4.7. Решение задачи о поверхности вращения минимальной площади. из которых имеет площадь ла2. Минимальная площадь в зависи- мости от величины На определяется следующим соотношением: Г 2ла2 -|--Х- sh2 , р < 1/а <. 0,528, д \ н н и / ЛМИН — } I 2ла2, На >0,528. Задача 4. Найти минимальную поверхность вращения, свя- зывающую два соосных круговых контура, находящихся на рас- стоянии I друг от друга, радиус одного из них равен а, а другого Ь < а. Показать, что для каждой заданной величины отношения bla существует предельное значение (Z/a)MHH> такое, что при На > >(Z/a)MIIH минимальная поверхность описывается уравнением г — 0, т. е. решением являются два плоских диска, ограниченных круго- выми контурами. 2.5. Непрерывные системы; оптимизация при заданных в фиксированный конечный момент времени значениях функций от фазовых координат В некоторых задачах представляет интерес сохранение заданных значений некоторых функций от конечного (терминального) со- стояния системы в заданный конечный момент времени, т. е. долж-
Задачи оптимизации динамических"'систем ' .85 но быть ф 1ж (0, ^t=ty = Ф I# (tf), tf] = 0 (q уравнений). (2.5.1) Здесь ф — (/-мерный вектор, причем q п — 1, если L = О, и q п, если Z =/= 0. Как и в предыдущих разделах, присоединим систему (2.5.1) к критерию качества, предварительно умножив ее на (/-мерный вектор v; кроме того, с помощью приема, описанного в разд. 2.3, присоединим к критерию и систему уравнений х = / (х, и, t). В результате получим J = 4>(x(tf), tf] + vT^[x{tf), J {L.[x(t), u(t), t] + Kr (j — x)}dt. to (2.5.2) Если определить функцию Ф как Ф = ф -j-угф, (2.5.3) то дальнейшие рассуждения и выкладки разд. 2.3 применимы без изменений и в данном случае. Однако окончательные выражения для необходимых условий стационарности функционала J при удовлетворении (2.5.1) должны быть истолкованы подобно тому, как это сделано в разд. 2.4; т. е. в данном случае имеется набор параметров vf, i = 1, . . ., q, которые следует выбрать так, чтобы удовлетворялись q уравнений (2.5.1)1). Необходимые условия стационарности J имеют вид x = f(x, и, t) (п дифференциальных уравнений), (2.5.4) Л =— \~d-z:/ Л—\"7Г/ (и Дифференциальных уравнении), (2.5.5) I дН \ т / df \ т < dL к т / = 1-^-1 (т алгеораических уравнении), (2.5.6) (tn) задано или Xfe(£o) = O, k = l, . .., п (п начальных условий), - (2.5.7) (-|7 + ,'’Г4г)<=( (« граничных условий), (2.5.8) ф [х (tf), tf] = 0 (q дополнительных условий). (2.5.9) Условия стационарности (2.5.6) определяют m-мерный вектор и (t). Система 2п дифференциальных уравнений (2.5.4) и (2.5.5) с 2п граничными условиями (2.5.7) и (2.5.8) описывает двухто- г) Аналогично тому, как это сделано в разд. 2.4, относительно вариаций ои (4) должны быть рассмотрены условия управляемости, необходимые для Удовлетворения (2.5.6). [См. текст после формулы (2.4.15).— Перев.]
86 Глава 2 чечную краевую задачу с q параметрами v, которые должны быть найдены из (2.5.8) так, чтобы были удовлетворены q дополнитель- ных условий (2.5.9). Пример. Оптимальная траектория перелета на круговую орбиту максимального радиуса за заданное время. Найти программу управ- ления направлением •О' (£) вектора тяги ракеты для перелета Фиг. 2.5.1. Перелет на орбиту максимального радиуса за заданное время (или перелет на орбиту заданного, радиуса за минимальное время). с заданной начальной круговой орбиты на круговую орбиту макси- мально возможного радиуса. Ракетный двигатель развивает по- стоянную тягу Р, величина которой известна; время работы дви- гателя tf задано. Схема перелета показана на фиг. 2.5.1, где вве дены следующие обозначения: г — радиальное расстояние космического корабля от центра притяжения, и — радиальная компонента скорости, v — тангенциальная компонента скорости, т — масса космического корабля, т = const — массовый расход топлива (величина постоянная), •О' — угол направления тяги, п — гравитационная постоянная притягивающего центра. Используя приведенные обозначения, можно сформулировать задачу следующим образом: найти функцию О (t). максимизирую- щую г (tf) при удовлетворении связей г— и, • ц2 и, р sin & и—г----------------г- 7П0—| т | t • uv , Р cos & р=--------------— , niQ — | m[t (2,5.10) (2.5.11) (2.5.12)
Задачи оптимизации динамических систем 87 и граничных условиях г(О) = го, (2.5.13) и(0) = 0, (2.5.14) ”(°) = /^. (2.5.15) ip1 = u(Z/) = O, (2.5.16) ^ = 1,^) —= (2.5.17) Запишем выражения для гамильтониана Н ТТ л , « / г2 р . Р sin О' \ . « I UV . Р cos О \ я=м+^и —--------------=—+Н —г~1--------~ \ т0—I т 11/ к то — | т | t! и функции Ф O = r(^) + V!U (^)+v2[v (tf)-)/ Общие необходимые условия (2.5.5), (2.5.6) и (2.5.9) для этого примера имеют следующий вид: кг=-Ц—' (2.5.18) Xu=-Xr + XDy, (2.5.19) kD=(2.5.20) то — I т | t ° Xr(Zy) = lH---V2 ...., (2.5.22) Xu(Z/) = v1, (2.5.23) ^o(M=v2' (2.5.24) Шесть дифференциальных уравнений (2.5.10), (2.5.11), (2.5.12), (2.5.18), (2.5.19) и (2.5.20) должны решаться с учетом шести крае- вых условий (2.5.13), (2.5.14), (2.5.15), (2.5.22), (2.5.23) и (2.5.24); при этом Vt и v2 выбираются так, чтобы удовлетворялись два до- полнительных граничных условия (2.5.16) и (2.5.17). Управляю- щая функция О (t) определяется через Ки и из выражения (2.5.21). Численное решение этой задачи для Р/тр рМ 0,1405, 1^1 о 5зз _ tf— = з 32 р - Угзщ
88 Глава 2 получено Коппом и Макгиллом (см. [6.8]). Если вес космического корабля, покидающего земную орбиту, составляет 4,5 т, то тяга должна быть ~0,4 кГ, расход топлива ~5,85 кПсутки, время Фиг. 2.5.2. Одна из минимальных по времени траекторий межорбитального перелета космического корабля с двигателем малой тяги. Постоянная тяга Р = 0,385 кГ = const, начальный вес космического корабля 4,5 т, расход топлива] 5,85 кГ/сутки,^ время перелета 1у = 193 суток, направление тяги показано через каждые 19,3 суток. перелета -—-'193 суток. Оптимальное направление тяги и результи- рующая траектория показаны на фиг. 2.5.2. Интересно заметить, что приблизительно первую половину пути тяга направлена от • Солнца, а вторую половину пути — к Солнцу. 2.6» Дискретные многошаговые системы; оптимизация при заданных значениях функции от фазовых координат на терминальном шаге Дискретные многошаговые системы, помимо их самостоятель- ного значения, особенно важны вследствие использования цифро- вых вычислительных машин для решения непрерывных задач. Для численного решения на цифровой вычислительной машине задач непрерывной оптимизации, сформулированных в разд. 2.3— 2.5, необходимо их свести к задачам многошаговой оптимизации. Правильная постановка таких задач оказывает существенное влияние на скорость сходимости итерационных процедур числен- ного решения. Сформулируем теперь рассмотренную в разд. 2.5 задачу как многошаговую. Она отличается от задачи разд. 2.2 только добав- лением ограничений на фазовые координаты в конечный момент времени. Требуется найти последовательность и (0), . . ., и (N — — 1), минимизирующую критерий качества N-1 J = $[Z(1V)]+ % u(i)] (2.6.1) i=0
Задачи оптимизации динамических систем 89 при наличии ограничений х (г + 1) = /* [х (ъ)Ги (t)I, (2.6.2) ф [ж(ЛГ)1 = 0;' (2.6.3) здесь а: — и-мерный вектор, и — m-мерный вектор, ф — вектор- функция размерности q, q п. Так же как и в разд. 2.2, прибавим к выражению для J урав- нения (2.6.2) с множителем X (i) и дополнительно уравнения (2.6.3) с множителями (vj, . . ., vg) Avr: J — ф [x (N)] [x (TV)] + S {£*[*(0. “(01 + ^TG + 1)[f k(0, “(01 -*(* + !)]}• (2.6.4) i=0 Для удобства введем скалярную последовательность Нг и ска- лярную функцию Ф Н1 = L1 [х (j), и (i)l + V (i + 1) /г [х (i), и (i)l (i = 0, 1, . . ., N - 1), (2.6.5) Ф = ф [х (N)] + угф [х (N)]. (2.6.6) Изменив теперь индексы суммирования в последнем слагаемом выражения (2.6.4), получим _ N-1 / = Фк(ЛГ)]-Хт(Л0ж(ЛГ)4- 3 (i)x(i)]+H°. (2.6.7) i=l Рассмотрим дифференциальное приращение величины J, соот- ветствующее дифференциальным приращениям последовательности значений координат вектора управления и (i) + 3 {[^j-и}+ i=l <2-68) Коэффициенты при dx(i) (i = 0, .. ., n) обратятся в нуль, если выбрать векторную последовательность множителей X (i) из условий ^)-£дГ0’ (2-6-9) или lT<i> = EV) + V'<i + 1)sV). i~°......«-Г <2-S.9a)
90 Глава 2 при граничных условиях = (2-6Л°) или VGV) = ——Uvr-..-^ . (2.6.10а) V ' дх(Щ' dx(N) ' 7 При таком выборе множителя X(Z) уравнение (2.6.8) примет вид 7V-1 dJ=%T (0)^(0)+ 2 Sdw(0- (2.6.И) i=0 Таким образом, дН1!ди (i) — градиент критерия качества J по и (г) при условии х (0) = const и выполнении ограничений (2.6.2), а (0) — градиент J по х (0) при условии и (i) = const (не варьируется) и выполнении тех же ограничений. Если х (0) зада- но, то dx (0) = 0. Чтобы значение J было стационарным, необходимо, чтобы для всех допустимых du (i) соответствующее приращение dJ равня; лось нулю. Пусть управление и (i) неограничено, функция Н1 дифференцируема по и (г) и задача «нормальна»1). В этом случае для того, чтобы величина J принимала стационарное значение, необходимо выполнение условия = 0 (2.6.12) ди (г) ' ' ИЛИ (i +1)Дг = 0, i = 0, ..., АГ-1. (2.6.12а) ди (г) 1 ' 1 ' ди (г) ’ ’ ’ х ' Итак, для того чтобы определить последовательность векто- ров управления и (i), которая приводит к стационарному значе- нию критерия качества J, нужно решить двухточечную краевую задачу, описываемую уравнениями (2.6.2), (2.6.3), (2.6.9), (2.6.10), (2.6.12). Эта система содержит (2га -}- m) N + га + q уравнений с (2га + 4- m) N + га -}- q неизвестными: х (0), . . ., х (N) (где х — га- мерный вектор); и (0), . . ., и (N — 1) (где га — raz-мерный вектор); X (0), . . ., A, (N) (где X — га-мерный вектор) и v (где v — (/-мер- ный вектор). Чтобы решить уравнения (2.6.2) и (2.6.9а) последовательно слева направо, используя (2.6.12а) для определения и (i), необ- ходимо выразить К (i + 1) из (2.6.9а) через К (i) и х (j): + (2.8.13) х) Условие «нормальности» связано с существованием соседних оптималь- ных траекторий; см. по этому поводу разд. 5.3 и 6.3.
Задачи оптимизации динамических систем 91 Обратная матрица для др'дх (i) существует, поскольку она по су- ществу является линеаризованной переходной матрицей 1); однако вычисление такой обратной матрицы занимает значительное вре- мя 2). С другой стороны, последовательное решение задачи справа налево не окажется более простым, так как уравнения (2.6.2), (2.6.9а) и (2.6.12а) следовало бы в этом случае рассматривать как систему неявных уравнений для определения х (i), А (0 и и (i) по известным значениям х (I + 1), А (I -}- 1), и (i + !)• 2.7 Непрерывные системы; оптимизация при заданных значениях некоторых фазовых координат в неопределенный момент окончания процесса. Задачи оптимального быстродействия Задачи, рассматриваемые в этом разделе, почти совпадают с за- дачами разд. 2.4; однако важное их отличие состоит в том, что время tf окончания процесса движения не задано. Целесообразно считать в этом случае tf некоторым параметром, который должен быть выбран в дополнение к управляющей функции и (Z) таким образом, чтобы минимизировать критерий качества и удовлетво- рить ограничениям. Покажем, что здесь имеют место те же необ- ходимые условия, что и в разд. 2.4; но, кроме этого, путем опти- мального выбора tf должно быть удовлетворено дополнительное условие (^.+ Лт/+М =0 \ dt 1 1 1 )t=tf Так же как в разд. 2.3, прибавим к исходному критерию качества систему дифференциальных уравнений (2.3.1), умноженную на вектор A (t): tf J = </> [х (tf), ZJ-}- J [L(x, u, t)-\-KT (t) f (x, u, t)-kTx] dt. (2.7.1) to Приращение J, возникающее при вариации управления и (t) и при- ращении значения конечного времени tf, имеет вид dd~ (~^~dtt + -^rdx)t=l/+(L)t=ttdti + + [ (-Й- + Л. (2.7.2) to *) См. приложение A3. 2) Имеются алгоритмы численного решения рассматриваемой задачи, не связанные с вычислением указанной обратной матрицы. Один из таких алгоритмов изложен в разд. 7.7.
92 Глава 2 Интегрируя это выражение по частям и группируя нужные члены, получаем +L) dtf+dx]t=tf - + +У с (^+1Г<+н&+(^+«) s“]<2-7:з> <0 Здесь величина 6ж — вариация вектора х при фиксированном Фиг. 2.7.1. Соотношение между dx (tf), &х (tf) и dtf. значении времени t. Тогда полное приращение вектора х в конеч- ный момент времени tf имеет вид (фиг. 2.7.1) * *) dx (tf) = 6ж (tf) + х (tf) dtf. (2.7A) *) Строго говоря, для вывода соотношения (2.7.4) одной только ссылки на фиг. 2.7.1 недостаточно. Если обозначить через х (t) номинальную, а через хс (t) соседнюю траектории, то из рисунка лишь следует, что dx (tf) = хс (tf + dtf) — х (tf) = бх (tf) + xc (tf) dtf + 0 (dtj), где по определению бх (tf) = xc (tf) — x (tf), aO (dtj) — члены порядка выше • • • первого. Поскольку бх (t) = хс (t) — х (t), то dx (tf) = Ъх (tf) + х (tf) dtf + бх (tf) dtf -j- 0 (dtj). В данном разделе авторы рассматривают (нигде, впрочем, не оговаривая) лишь слабые вариации (разд. 6.9) бх (t). Поэтому величина бх (tf) является малой и произведением бх dtf можно пренебречь как величиной второго порядка малости. Таким образом, получаем в итоге соотношение (2.7.4) dx (tf) = бх (tf) -|- х (tf) dtf, где x (tf) вычисляется на номинальной траектории [что и необходимо для использования (2.7.4) в выражении (2.7.3)].— Прим, перев.
Задачи оптимизации динамических систем 93 Отсюда’бж (tf) — dx (tf) — х (tf) dtf, подставив это выражение для бх (tf) в (2.7.3), получим <U=[(-^- + L + Xri) <U,+ (^— V) +? [(т+^+П to+O+iT^)«“] Л- <2-7-5) *0 Так же как в разд. 2.4, будем считать, что Xf (tf) заданы (i = 1, . . ., q). (2.7.6) Тогда функцию ф можно считать зависящей только от незаданных фазовых координат, т. е. ф = ф [xf (tf), tf], j = q + 1, . . ., n. (2.7.7) Выберем теперь функции X (t) ss X<J>(£) так, чтобы коэффициенты при бх (t) и при dx (tf) в (2.7.5) обратились в нуль; (2.7.8) ( 0, 7 = 4....S, Выражение (2.7.5) для dJ (и, следовательно, для dJ1)) при таком выборе X(t) упрощается: 7/ <^5 J 3J = и = ( «2 + L + )1=</й, + J { > + (l< V £} Su it, (2.7.10) где величина бх (t0) считается равной нулю, так как х (t0) задано. Теперь, как и в разд. 2.4, рассмотрим приращение координаты х, (tf), i = 1, . . ., q, соответствующее произвольной вариации би (t). Используя метод функций влияния (функций чувствитель- ности, сопряженных функций) (см. приложение АЗ), получим tf dxi (tf) = [/г](=(/ dtf + j [X<{> (t)f-^ Su dt, (2.7.11) to J) Если x удовлетворяет системе (2.3.1).— Прим, перев.
94 Глава 2 где Х<‘> = — \ дх ) ’ ^(^{о, ijj. (2.7.12) (2.7.13) Заметим, что уравнение (2.7.11) можно считать частным случаем уравнения (2.7.10), если положить ф д Tt (tf) и L== 0. Построим теперь функцию времени 8и (t) и выберем значении dtf так, чтобы приращение dJ было отрицательным и удовлетворя- лись условия dxt (tf) =0, t = 1, . . ., q. Умножим каждое из q уравнений (2.7.11) на неопределенный постоянный множитель Vj и прибавим полученные выражения к (2.7.10); тогда dJ+ 2vi^(^)={^- + L + (X(V/+Svi/<}(=( dtf + i=l i=l f 4 9 +1 [>+ K’ + 2 ’A“’)T (2-7-14> to i=l Величины dtf и 8u выберем следующим образом: dtf^-k^+L^^f , (2.7.15) i=l f q а»"-Ч(#)г+ШГГ’+2^')]; (2.7.Ю здесь kt и k2— положительные числа. Подставляя теперь эти величины в (2.7.14), получим dJ + 2 dxt (tf) = - kf || + L + (k{J})T f + 2 vtfi ||2 - i=l i=l -fe J ||^+ (1<л + 2 T|)2 Л<°- <2-7Л7> to i==1 Это выражение отрицательно, если квадратичные формы не равны тождественно нулю. Выберем теперь так, чтобы терминальные условия (2.7.11) удовлетворялись при dxt (tf) =0, i = 1, . . ., q. Для этого под-
Задачи оптимизации динамических систем 95 ставим (2.7.15) и (2.7.16) в (2.7.11). Тогда получим <? 3=1 7 fW-g-f (»r+«)r(XW’+ 2’ЛД>)]Л = О, (2.7.18) io j=l ИЛИ io <1 Ч -3 + 4aJ(W<-(^)Tl','*}vi = 0. 3=1 to Отсюда ясно, что значение вектора v следует выбирать из условия ’--|е+£5]“и+-&г)- <2'7Л9> где i, <?«= J (».л)’'< (<)г ^’dt, s,,=(ШЫ/. to to Из (2.7.17) видно, что критерий качества не может быть уменьшен лишь в единственном случае, а именно когда выпол- няются условия H+L+^(J))T/+ <2-7-20* 4=1 <2 >+(«.W,+ 3vA<‘>)r^. = 0, <„<<<(,. (2.7.21) i=1 Если эти два условия выполняются, то получено стационарное решение, удовлетворяющее терминальным условиям (2.7.6).
96 Глава 2 Из уравнений (2.7.20) и (2.7.18) следует, что для стационарного решения величины не зависят от kjk2 и определяются соотно- шением v = -Q^g. (2.7.22) Здесь, так же как в случае задач с фиксированным конечным вре- менем, требуется существование обратной матрицы Q-1 {условие управляемости). Так как уравнения для функций чувствитель- ности линейны, то необходимые условия (2.7.20), (2.7.21) могут быть представлены в виде (^+я),.,,“0' (2.7.23) 4^-0, «»<<<<,; (2.7.24) здесь Я = Л + Г7, (2.7.25) V = = (2.7.26) дх дхдх ' 7 f Уд 7 = 1, ..., q, = | PM 7 = 7+1, ..., n. (2-7-27) V \ dxj I t=tf J Величины vi можно считать параметрами, которые должны выбираться так, чтобы в конечный момент времени tf фазовые координаты Xi, 1 = 1, . . ., q, имели на допустимой траектории заданные значения. Аналогично tf тоже параметр, который обес- печивает равенство нулю выражения {дф/dt) + Н для стационар- ного решения. Согласно другой точке зрения, задача с неопределенным вре- менем окончания процесса может быть заменена последователь- ностью задач с фиксированным конечным временем. Другими сло- вами, можно рассматривать конечное время tf как дополнительный параметр и решать серию одинаковых задач оптимизации из разд. 2.4 для различных значений tf. То значение tf из этой серии, при котором критерий качества достигает минимума, и будет реше- нием задачи с незаданным конечным временем. При этом следует, очевидно, ожидать, что все необходимые условия, полученные в разд. 2.4, будут выполнены. Но, кроме них, должно быть еще одно дополнительное условие для определения оптимального зна- чения tf, этим условием и является (2.7.23). Задача 1. Задан критерий качества _ Ч J = ф [% {tf), tf\ + j L {x, и, t) dt, to
Задачи оптимизации динамических систем 97 где tf — некоторый параметр. Требуется определить, какая вариация J соответствует вариации tf, если удовлетворяются все условия оптимальности, полученные в разд. 2.4. Из полученного соотношения нужно вывести также условие [Указание. дф dtf -H(tf). dJ = -J®(^L\ dtf + ^-dtf + Ldtf.] dx (tf) \ dt / tf T dtf 1 1 7 J Задачи оптимального быстродействия. Во многих задачах кри- терием качества является время, за которое система переходит из начального состояния в заданное конечное состояние. В этом случае можно считать ф = О, L = 1, (2.7.28) т. е. J = tf — t0. (2.7.29) Для того чтобы определить программу управления, миними- зирующую время перехода, нужно решить следующую двухточеч- ную краевую задачу: х = / (х, и, t), х (t0) задано (п начальных условий) Д, (2.7.30) Ж/(М задано, / = 1, ..., q 1 (п условий %д^) = о, 7 = 74-1, . .., П J на правом конце), (^-) ^ = 0 (т условий оптимальности), (2.7.32) Я(^) = (Хг/)<=</=-1. (2.7.33) Заметим, что для определения 2п граничных условий имеется 2п дифференциальных уравнений (2.7.30) и (2.7.31), для опреде- ления т управляющих переменных и имеется т условий опти- мальности (2.7.32). Условие трансверсальности (2.7.33) служит для определения конечного значения времени tf. Неизвестные значения Л; (tf), 7 = 1, . . ., q, которые ранее были обозначены через Vj, также определяются в процессе решения. ; Заметим еще, что по крайней мере одна из фазовых координат должна быть задана при t = t0 и при t = tf, в противном случае задача минимизации времени не имеет смысла. Пример 1. Траектории минимального времени прохождения, области, в которой вектор скорости зависит от фазовых коор- 4 * 4 Если Xj (t0) не задано, то 7;- (i0) = 0. 7—0102
98 Глава 2 динат (задача Цермело) г). Корабль должен пройти через область сильных течений. Величина и направление скорости течения задаются как функции фазовых переменных и = и (х, у), v = v (х, у); здесь (х, у) — прямоугольные координаты, а и, v — компоненты вектора скорости течения в направлении осей хну соответст- венно. Величина скорости корабля относительно воды постоянна и равна V. Задача состоит в отыскании такого управления, при котором корабль за минимальное время пройдет путь от точки А до точки В. Уравнения движения корабля имеют вид х =-V cos ф + и (х, у), (2.7.34) у = V sin ф + v (х, у); (2.7.35) здесь ф — угол курса, т. е. угол между осью корабля и фикси- рованной координатной осью (в данном случае осью х), х, у — координаты корабля. Для этой системы гамильтониан Н = (У cos ф -|- и) -|- (У sin ф + р) +1- (2.7.36) Уравнения Эйлера — Лагранжа имеют вид « дП я ди - ди rj оп\ Лх- — — Кх дх Ку—, (2.7.37) Ку= -Кх^—Ку^-, (2.7.38) у ду ду у ду х ' -|^ = 0 = У(--Хж8тф4-Хг/со8ф), откуда 1§ф = -^-. (2.7.39) i/ (О Так как гамильтониан Н не зависит явно от времени, то Н = = const — Ci — первый интеграл системы. Поскольку миними- зируется время, постоянная (Д должна быть нулем * 2). Уравнения (2.7.36) и (2.7.39) могут быть разрешены относительно Кх и Ку Кх = к, , (2- 7.40) 7+ и cos ф + р sin ф ' ' 1 —эшф (2 7 41) Теперь, подставив эти выражения в (2.7.37) или в (2.7.38) (или, что то же самое, потребовав непротиворечивости условий Нф = 0, = 0), получим Ф = 81П2ф^-4-8тфс°8ф — cos2ф^-. (2.7.42) 4 Несколько иной" способ получения оптимального решения (использую- щий классические векторные обозначения) приведен в примере разд. 3.2, где рассмотрена задача оптимизации пространственного движения самолета при полете через область сильных ветров. 2) Ибо tf не фиксировано.— Прим. ред.
Задачи оптимизации динамических систем 99 (2.7.43) (2.7.44) Решение этого уравнения совместно с уравнениями (2.7.34) и (2.7.35) дает требуемую траекторию минимального времени перехода. Чтобы достигнуть заданной точки В, двигаясь из на- чальной точки А, нужно задать точное значение угла курса фА в точке А. Заметим, что в случае, когда и и v — постоянные величины, из уравнения (2.7.42) следует условие ф = const, т. е. траекторией движения с минимальным временем является просто прямая линия. Аналог закона Снеллиуса. Если и = и (у), v = v (у), то урав- нение (2.7.37) принимает вид = 0, т. е. Хх = const. Теперь из уравнения (2.7.40) следует COS lb . ---7“\--гх—7~~- 7 — C on S t. V-j-U (у) COS1P4-P (у) sin ф Полученное соотношение является аналогом закона Снеллиуса в оптике, так как оно дает в неявном виде зависимость угла курса ф от компонент вектора локальной скорости течения и (г/), v(y). Частный случай: линейное изменение скорости течения. Пусть и = —V (y/h), v = 0 и нужно найти траекторию минимального времени перехода из заданной точки (х0, у0) в начало координат (0, 0). Можно использовать уравнение (2.7.44) для того, чтобы выразить оптимальный угол направления движения (курса) ф как функцию конечного значения ф/ и текущей координаты у COS ф COS 1Ь/ „ . 17-17/ /Л---7 =* - 17 - = const, V—V (y/h) cos i|> V t COS lb f cos ib = njJ——. Y 1 + (y/h) cos ф/ Удобно использовать в качестве независимой переменной вместо t величину ф. Из предыдущего соотношения получаем -|- = 8есф —sec ф/. Теперь уравнение (2.7.42) преобразуется следующим di h —о , _ _ _ V (tf — t) — h — = tg ф — tg фу, (2.7.45) (2.7.46) образомз (2.7.47) из задан- ___ 8есгф, откуда здесь tf — t — время, оставшееся до завершения перехода ной точки в начало координат. Наконец, подставив (2.7.46) и (2.7.47) в (2.7.34), получим лГ =------Ч^)соз8ф------- = - /г (sec ф 4- sec ф/ sec2 ф - sec3 ф). (2.7.48) 7*
WO Глава 2 Это уравнение можно проинтегрировать: Т = Т [sec Ф/—tg Ф) - tg ф (sec ф,—sec ф) ф- In • (2.7.49) Пусть мы хотим найти траекторию минимального времени пере- хода из точки x0/h — 3,66, y0!h = —1,86 в начало координат. Фиг. 2.7.2. Траектория минимального времени передвижения через область с линейно изменяющейся скоростью течения. Уравнения (2.7.46), (2.7.49) — неявные уравнения относительно фо и Ф/ (фо — начальное значение угла ф): —1,86 = sec фо — sec фу, (2.7.50) 3,66 = у [sec фу (tg фу — tg фо) — tg фо (sec фу — sec ф0) ф- 4- Arsh (tg фу) — Arsh (tgфо)]. (2.7.51) Решая эти уравнения, получим фо = 105°, фу = 240°. Из уравнения (2.7.47) можно определить время перехода из на- чальной точки в начало координат F(f/~f°) = 5,46. h ’ На фиг. 2.7.2 изображена оптимальная траектория, на которой стрелками указаны направления оси корабля, т. е. угол курса ф, который является в данной задаче управляющей функцией. Задача 2. Траектории минимального времени прохождения области, в которой величина скорости зависит от фазовых коор- динат. Материальная точка должна пересечь область, в которой ее мгновенная скорость V задана как функция фазовых координат
Задачи оптимизации динамических систем 101 у _ у (я, у), х, у — прямоугольные координаты. Требуется опре- делить минимальный по времени путь из некоторой точки в пло- скости (ж, у) в начало координат. Уравнения движения здесь имеют вид х = V (ж, у) cos -ф, у = V (х, у) sin ф, где ф — угол между осью ж и направлением движения (угол кур- са); ф является управляющей переменной. Показать, что вдоль оптимальной по времени траектории угол ф (£) должен удовлетворять дифференциальному уравнению ‘ dV . , dV lb = ~ Sin ф-z— cos ф. r дх т ду г Заметим, что ф (0) и конечное значение времени tf определяются условием ж (tf) = у (tf) = 0. Если V = const, то траекториями, минимальными по времени движения, оказываются прямые линии ф — 0. Задача 3. Принцип Ферма в оптике состоит в том, что дейст- вительные траектории лучей света являются экстремальными по времени траекториями. Это обычно траектории минимального времени движения, но иногда они соответствуют локальному ми- нимуму (а в некоторых случаях даже просто стационарному зна- чению) длительности перехода. Показатель преломления п в оптике определяется как отноше- ние скорости света с в вакууме к локальной скорости света V (ж, у): с Jb - Т7 / \ * Е (х, у) Считая независимой переменной вместо времени t длину дуги траектории s(ds = Vdt), показать, что d I dx \ дп d / dy \ дп -з—га-^—=-г—, -з— га-г- l=-z—• ds \ ds J дх ds \ ds } ду Эти соотношения эквивалентны системе уравнений задачи 2. Задача 4. Рассмотрим частный случай задачи 2, в котором скорость является функцией только одной координаты, т. е. F = V (у). Показать, что в этом случае на оптимальной траекто- рии существует первый интеграл cos ф . Т7УГ- = COnSt. V GO Это соотношение — известный в оптике закон Снеллиуса. Задача 5. Рассмотрим частный случай задачи 4, в котором V—линейная функция от у: V = Vf (1 , V/, h — константы.
102 Глава 2 Показать, что траекториями минимального времени движения, направленными в начало координат, являются дуги окружностей, центры которых лежат на прямой у = —h. Задача 6. Классическая задача о брахистохронех). Бусинка скользит без трения по проволочке между точками А и В в по- стоянном гравитационном поле (фиг. 2.7.3). Начальная скорость Ф и г. 2.7.3. Задача о брахистохроне. бусинки в точке А равна Vo- Какую форму должна иметь прово- лочка, чтобы бусинка проходила путь между этими двумя точ- ками за минимальное время? Две заданные точки и вектор гравитационного ускорения опре- деляют вертикальную плоскость. Пусть ось у направлена вниз, а начало координат совпадает с точкой Л, как показано на фиг. 2.7.3. Так как сила реакции проволоки на бусинку направлена строго под прямым углом к ее скорости, то.система консервативна, т. е. полная энергия системы постоянна -у- — gy = ^~, или V=(V* 20 + 2gy)1/2 = V(y). Компоненты скорости удовлетворяют следующим уравнениям; х = V (у) cos 0, у = V (у) sin 0. Задача состоит в том, чтобы найти 0 (i), при котором время пере- хода из точки А в точку В минимально. Заметим, что задача о бра- хистохроне является частным случаем задачи 2 (или задачи 4), т. е. проблемы Ферма о траектории минимального времени прохож- дения через область, в которой скорость зависит от фазовых координат. Показать, что решением этой задачи являются циклоиды, т. е. траектории, образованные точкой на окружности колеса, катящегося без проскальзывания по горизонтальной плоскости, и что 0 — const. Задача 72). Определить минимальную по времени траекторию, связывающую две точки на поверхности Земли через туннель х) Брахистохрона — кривая наибыстрейшего спуска. Название и саму задачу предложил Иоганн Бернулли в 1696 г. 2) Задача предложена Т. Эдельбаумом.
Задачи оптимизации динамических систем 103 в Земле. Предполагается, что воздуха в туннеле нет, материальная точка движется под действием гравитационной силы, а силой тре- ния можно пренебречь. Заметим, что гравитационное ускорение внутри Земли направлено по радиусу к центру Земли, а его ве- личина прямо пропорциональна расстоянию от материальной точки до центра Земли. Ответ. Оптимальные траектории — гипоциклоиды, т. е. кри- вые, образованные точкой, находящейся на небольшом круге, который катится без проскальзывания по внутренней стороне поверхности Земли. Задача 8. Оптимальное программирование направления век- тора тяги при пренебрежимо малых внешних силах. Рассматривае- мая задача является одной из простейших задач ойтимального программирования, имеющих некоторый практический интерес. Поэтому она полезна для закрепления идей вариационных мето- дов х). Пусть частица массы т находится под воздействием силы тяги Р = та. Будем рассматривать плоское движение в инер- циальной сис 'еме координат (х, у)', компоненты скорости частицы обозначим через и, v. Угол направления тягий (/) считается управ- ляющей переменной (фиг. 2.4.1). Уравнения движения имеют вид и = асоцй, y = asin#, х = и, y = v. Реактивное ускорение а по предположению является известной функцией времени. Показать, что для оптимизации функции, зави- сящей только от конечных условий, или для минимизации вре- мени оптимальный закон изменения угла О должен быть таким: tgft = -~C2*+C4, где с4, с2, с3, с4 — постоянные величины. Этот закон часто назы- вается законом дробнолинейного тангенса. Задача 9. Выведение на орбиту за минимальное время (g — 0). Пусть выполнены условия, сформулированные в задаче 8. Требует- ся перевести частицу на прямолинейную траекторию, параллель- ную оси х и находящуюся от нее на расстоянии h. Время перехода должно быть минимальным, скорость частицы в конце выведения должна равняться заданной величине U и быть параллельной оси х. Значение дальности х в конце выведения интереса не представ- ляет- (фиг. 2.4.2). Запишем краевые условия и (0) = 0, и (Т) = U, v (0) =0, v (Т) = 0, х (0) = 0, 2) См. пример разд. 2.4.
134 Глава 2 К (Г) = 0, у (0) = 0, у (Т) = h, Скиа cos О + kva sin tyt^T — —1- Поскольку х (Т) не задано, то = с4 = 0 и оптимальным законом управления становится закон линейного тангенса Фиг. 2.7.4. Зависимости начального угла установки тяги (О0) и минималь- ного времени (Гмин) от безразмерной высоты 4аЛ/£72 для задачи минимизации времени перелета на прямолинейную траекторию. Для случая, когда ускорение силы тяги а постоянно, требуется доказать справедливость следующих соотношений (используя вместо t в качестве независимой переменной угол й): -V^^o-зесй), х = ± ( sec й0 - sec й - tg й In , # = ^2 [ (tg t)’o — tg й) sec й0 — (sec й0 — sec й) tg й — In J , z созйо z хя = о, а а \ 11 . 2 sin й0 аТ ’ Постоянные величины й0, с и конечное (минимальное) время Т определяются тремя граничными условиями на правом конце:
Задачи оптимизации динамических систем 105 р(Т) = 0, u(T) — U, y(T) = h. Показать, что эти соотношения могут быть представлены в виде 4afe _ tg Op secO0—In tg [(л/4)+1/20q] [72 {lntg[(n/4) + i/2O0]}2 aT________tg Op____ . U ~ IntgKn^ + ^Op] ’ (2t \ 1 — -у-) tg'fl’p. Очевидно, что одна безразмерная величина ^ahlU2 определяет й0 и, следовательно, аТ/U. Эта зависимость показана на фиг. 2.7.4. Программы изменения направления тяги б1 (tlТ) для различных значений й0 представлены на фиг. 2.4.3. Задача 10. Минимальное время перехвата неманеврирующей цели (g = 0). Рассматривая те же уравнения движения, что и в за- даче 8, определите, какой должна быть программа изменения направления тяги О (Z), чтобы, двигаясь из начальной точки х0, у0 с начальной скоростью и0, v0, достигнуть начала координат за ми- нимальное время. Предполагается, что реактивное ускорение а — постоянная величина. Заметим, что величина конечной ско- рости не задана, так что поставленные краевые условия соответ- ствуют задаче перехвата цели. Задача 11. Минимальное время встречи с неманеврирующей целью (g = 0). Эта задача подобна предыдущей; отличие состоит в том, что конечная скорость должна равняться нулю, т. е. uf = = Vf = 0. Эти краевые условия соответствуют задаче о встрече с неманеврирующей целью. Заметим, что закон дробнолинейного тангенса может быть представлен в форме закона линейного тан- генса : tg (0 — а) = tg (0у — а) + с (Т — [), где 0/, а, с — некоторые параметры. Задача 12. Программирование направления тяги в постоянном гравитационном поле. Если принять, что ось у направлена проти- воположно силе притяжения, то эта задача отличается от задачи 8 (в которой g = 0) лишь уравнением для вертикальной составляю- щей ускорения v — a sin & — g, где g — гравитационное ускорение. Показать, что в этом случае уравнения для функций влияния (функций чувствительности) не изменяются, так что закон дробнолинейного тангенса остается оптимальным. Задача 13. Выведение на орбиту за минимальное время (g = = const). Показать, что единственное отличие от задачи 9, в кото-
106 Глава 2 рой предполагалось g = 0, состоит в добавлении слагаемого —gt к вертикальной скорости v и слагаемого —х/2^2 к вертикаль- ной координате (высоте) у. В случае если ускорение силы тяги а постоянно, требуется определить три величины: начальный угол направления тяги б0, конечный угол направления тяги мини- мальное время Т. Показать, что для определения этих величин могут быть получены следующие три уравнения: Vf = 0 = (sec б0 — sec бу) — gT, sec бу) tg бу — . Vf = [ (tg б° — tg бу) sec б0 — (sec б0 - _ j tg60+ sec ф0-1 _ J_ tg6y-|-sec фу J 2 ® ’ ny=t/^±lnt*g4°.tSeC^% J c tg 'O’y-psec где c = 1аФ0—tg Фу, tg 6 = tg 60 — ct. Исключая из этих уравнений с и Т, получим два уравнения „ с двумя неизвестными б0 и бу: а _ tgflp —tgfly g sec Фо— sec фу ’ -^=(tg6osec6y-tg6ysec6o-lnjj^±|^) X Л tg Фр-l-sec Фо\-2 \ tg фуsec фу) ’ при этом аГ а _ to- АД / In ^^o + sec Фр С7 tg фу + sec фу’ Очевидно, величины ah!Ui и a/g определяют б0, бу, aTlU, сТ. Численный пример. На фиг. 2.7.5 показаны два примера траек- торий взлета с Луны в предположении a/g^ = const = 3, g„ = = const. Гравитационное ускорение на поверхности Луны gn ъ х 1,615 м!сек\ радиус Луны 7?д « 1737 км. Оптимальные по времени траектории соответствуют выведению на высоты = = 185 км и h2 = 15,25 км; скорость в конце выведения равна круговой скорости спутника Луны в первом случае и несколько превышает эту скорость во втором случае. Необходимая харак- теристическая скорость ДУС для а = const равна аТ. Для срав- нения заметим, что импульсное выведение на круговую орбиту высотой 7гк.о. =185 км (двухимпульсный хомановский переход)
Задачи оптимизации динамических систем 107 требует суммарной характеристической скорости AVCs = AVC1 + + AVC = 1767 м!сек (AVC = 1725 м!сек на поверхности Луны и AVC =42 м!сек в аполунии). Скорость в конце выведения на высоту h w 15 км такова, что летательный аппарат будет про- Ф и г. 2.7.5. Минимальные по времени траектории взлета с Луны (или по садки на нее) при постоянном реактивном ускорении а = 4,85 м/сек2 (направ- ление тяги показано через каждые 0,1 Г, где Т — полное время полета) должать свободный полет и достигнет высоты 185 км над противо- положной стороной Луны; в этой точке достаточно импульса ~142 м/сек для выведения на круговую орбиту высотой 185 км\ таким образом, суммарная характеристическая скорость состав- ляет AVCs = 2008 м/сек. Заметим, что поверхность Луны была аппроксимирована параболой, что значительно расширяет область применимости предположения о постоянстве гравитационного ускорения. Очевидно, что минимальная по времени траектория мягкой посадки с круговой орбиты при а = const (если продольная даль- ность до точки посадки не задана) та же, что и минимальная по вре- мени траектория выведения на орбиту, однако проходится она в обратном направлении. Задача 14. а) На плоскости (х, t) найти экстремальную кривую стацио- нарной длины, которая соединяет окружность х2 + t2 — 1 = 0 и прямую t = Т = 2.
108 Глава 2 б) Решить ту же задачу при условии, что искомая кривая имеет конечную точку на прямой —х + t = 2 ]Л2. Замечание. Сформулированные задачи не должны решаться методом проверки. 2.8. Непрерывные системы; оптимизация при заданных значениях функции от фазовых координат в неопределенный момент окончания процесса. Задачи оптимального быстродействия Рассмотрим опять критерий качества вида Ч J= ф [х (tf), tf} J L [x (t), u(t),t]dt. (2.8.1) to Прибавим к этому выражению ограничения на терминальное состояние х (tf) ф [х (tf), £/] =0 (ф — (/-мерная вектор-функция) (2.8.2) и систему дифференциальных уравнений х = / [х (t), и (t), 2], t0 задано, (2.8.3) с множителями Лагранжа v и A (t) соответственно. Тогда получим вспомогательный (расширенный) критерий качества _ tf /=[ф ф тгф]/=г/4- j {L (х, и, t) + hT [f(x, и, t) — z]} dt. (2.8.4) to Гамильтониан H для этой задачи записывается в виде Н = L (х, и, f) + Ат (t) / (х, и, t). (2.8.5) Приращение критерия качества J, возникающее при вариации би (t) и приращении конечного времени dtf, имеет вид dJ — [ dt4-^-dx\ + f 8x 4--^-6u — I \ dt 1 / 1 dx J(=i. 1 J \ dx 'du f t0 -V6i) dt-L\l==todto, (2.8.6) где Ф = ф + угф. (2.8.7)
Задачи оптимизации динамических систем 109 Интегрируя по частям и принимая во внимание равенство 8х (tf) = = dx (tf) — х (tf) dtf [см. (2.7.4) и фиг. 2.7.1], получим Ч.<;+ tf + (^x)t=to^L^todta+ j [(^ + XT) 8x+-^8u]dt. (2.8.8) <0 Выберем теперь функции X (t) так, чтобы коэффициенты при 8x(t), dx(tf) и dtf обратились в нуль (если tf не задано), т. е. положим (2.8.9) дх дхдх ' =(^ + v^y , (2.8.10) ' \ дх / t=if \ дх дх / t=tf х ' (^4-£ + Хтй =(^.+ М- =0, (2.8.11) \ dt 1 1 / t=tf \ dt ‘ ) t=tf ' ' где 1Ф_оФ . аФ • dt dt дх X' В результате такого выбора X (t) выражение (2.8.8) упрощается: - ап dJ = \ 8и dt 4-V (t0) dx (t0)—H(t0)dt0. (2.8.12) to Очевидно, как и в предыдущих задачах, Хг (t0) — вектор функций влияния на критерий J изменений начальных условий 8х (t0), тогда как дШди — совокупность импульсных переходных функций, указывающая, как будет изменяться J в результате воздействия единичных импульсных функций (6-функций Дирака), возникающих в вариации управления в некоторый произвольный момент времени t на интервале t0 t tf. Чтобы величина J принимала стационарное значение, очевидно, должны выполняться соотношения х) ^ = Хт^- + -^- = 0, (2.8.13) ди ди 1 ди ’ 1 ' ' Если xh (t0) не задано, то Xft (t0) = 0. х) Отметим, что возможность фактического удовлетворения усло- вия (2.8.13) зависит от существования допустимого управления, т. е. управ- ления, переводящего систему в заданные граничные условия. В локальном смысле понимаемая таким образом допустимость управления связана с нали- чием у системы свойства полной управляемости. Обоснование полной управ- ляемости проводится с помощью рассуждений, аналогичных приведенным в разд. 2.7 [см. условие (2.7.18) и далее].— Прим, перев.
110 Глава 2 В случае когда минимизируется время tf — t0, можно считать, что ф [ж (tf), tf) = 0 и L = 1. Таким образом, условие (2.8.11) принимает вид (2.8.14) ^-4-1) =0. \ dt ) t—tf Так же как в разд. 2.6, q постоянных величин Vi, . . ., vq должны быть определены так, чтобы удовлетворялись ограничения (2.8.2) на терминальное состояние объекта управления. Соотношение (2.8.14) — дополнительное условие, необходимое для определе- ния времени tf окончания процесса. В итоге, для того чтобы критерий качества J принимал стацио- нарное значение, должна выполняться следующая система необ- ходимых условий: х—j (х, и, t) (п дифференциальных уравнений), (2.8.15) (га дифференциальных уравнений), (2.8.16) /дН_хт_ _j_ / 3L n \ ди ) \ ди ) 1 \ ди ) (гаг алгебраических уравнений), (2^8.17) xh(t0) задано или Xft(Zo)=O (и граничных условий), (2.8.18) М«/) = + граничных условий), (2.8.19) Q=r^ + vr-^+(4*+vT44/ + L] =0 L dt 1 dt 1 \ дх ' дх/ At=if (одно граничное условие), (2.8.20) ф[я:(^), £/] = 0 (д' граничных условий). (2.8.21) Условие оптимальности (2.8.17) определяет гаг-мерный вектор управления и (t). Далее, 2га + 1 + q граничных условий (2.8.18) — (2.8.21) определяют решение 2га дифференциальных уравнений (2.8.15) и (2.8.16) и q + 1 параметров (vj, . . ., v?) и tf. Нужно заметить, что такую краевую задачу решить обычно не очень просто. Отметим еще, что если бы были заданы величины v вместо ф и tf вместо О, то условия (2.8.18) и (2.8.19) представляли бы собой 2га граничных условий для двухточечной краевой задачи порядка 2га с фиксированным конечным временем. Подбором значений v и tf можно было бы обратить в нуль функции ф и й в момент t = tf (гл. 7, разд. 3).
Глава 3 Задачи оптимизации динамических систем при наличии ограничений на траекторию Введение В гл. 2 рассмотрены задачи оптимизации нелинейных динами- ческих систем при наличии ограничений в конечной точке траек- тории. В этих задачах в конечный момент времени задавались значения функций от фазовых координат, а в начальный момент — значения всех фазовых координат. В данной главе будут рассмот- рены задачи с ограничениями на траекторию; в таких задачах ограничения накладываются на всю траекторию в целом, т. е. при tQ t tf, а не только в конечной точке t = tf. Сначала будут рассмотрены задачи с ограничениями в виде равенств, а затем — в виде неравенств. 3.1. Интегральные ограничения1) Вернемся к задачам оптимального программирования, рас- смотренным в разд. 2.5 и 2.8; добавим к ним еще одно ограничение: потребуем, чтобы некоторый интеграл вдоль оптимальной траек- тории принимал заранее заданное значение. Таким образом, пусть xa+i (if) — N (х, м, t) dt,] (3.1.1) где N — заданная скалярная функция, хп+1 (tf) — заданное число. Естественный подход к решению такой задачи состоит в при- соединении к исходной системе уравнений уравнения состояния хп+1 = N (х, и, t) (3.1.2) с граничными условиями Xn+1 (to) =0 и xn+l (tf) задано. (3.1.3) Пусть ц — функция влияния (множитель Лагранжа, функ- ция чувствительности), соответствующая координате хп+1. Гамильтониан расширенной системы имеет вид H^L + Wf + pN. (3.1.4) Такие ограничения в вариационном исчислении называются «изопе- риметрическими». Смысл этого названия становится ясным из примера 1, в котором рассматривается одна из первых решенных задач такого типа,
112 Глава 3 Уравнения Эйлера — Лагранжа таковы: _ _дН___ dL.г df dN_ дх дх дх дх ’ дН dL . т df . dN р ди ди ‘ ди ' ди ' дН п U, откуда ц = const. LT (3.1.5) (3.1.6) d^nei р, — коэффициент чувствительности (3.1.7) Таким образом, качества J к изменению zn+1, т- е- dJ ц = критерия dxn+i* ц = Уравнения (3.1.6) и (3.1.1) можно рассматривать как систему (тп + + 1) уравнений для определения т компонент вектора управле- ния u(Z) и постоянной величины ц. Таким образом, в задачах с огра- ничениями типа (3.1.1) величина У (х, и, I) присоединяется к га- мильтониану исходной системы с постоянным множителем Лагран- жа ц. Пример 1. Плоская фигура максимальной площади при задан- ном периметре. Пусть трос длиной Р привязан к концам прямо- Определить форму троса, линейного стержня длиной 2а < Р. Фиг. 3.1.1. Максимальная площадь плоской фигуры при заданном периметре. при которой площадь, заключенная между стержнем и тросом, максимальна. В системе координат, показанной на фиг. 3.1.1, задача состоит в определении такой зависимости 0 (х), при которой интеграл (3.1.8) достигает максимума, а периметр Р кривой у (х) (длина троса) остается постоянным1): а Р= J secBdx; (3.1.9) — О Плоские фигуры с одинаковым периметром называются, как известно, изопериметрическими.— Прим, перев.
Задачи оптимизации при наличии ограничений на траекторию 113 здесь -2- = tg9i). (3.1.10) Гамильтониан системы Н = у + A tg 0 + р sec 0. (3.1.11) Уравнения Эйлера — Лагранжа имеют вид — ~~= — 1, откуда А =—z + c, с = const, (3.1.12) = р tg0 sec 0 Д-A sec2 0 = 0, откуда sin 0 =—(3.1.13) Исключая К из уравнений (3.1.12) и (3.1.13), получаем х = р sin 0 + с- (3.1.14) Так как Н не зависит от х явным образом, то на оптимальном реше- нии Н = const — первый интеграл. Исключение А из уравнений (3.1.11) и (3.1.13) дает у = —р cos 0 + Н, Н = const. (3.1.15) Периметр Р кривой у (х) определяется путем подстановки выра- жения (3.1.14) в (3.4.9) в в Р= § sec0-^|-d0 = p j d0 = p(0B — 0Л). (3.1.16) А А Для вычисления пяти неизвестных величин с, Н, р, 0А и 0В используем условие (3.1.16) и четыре граничных условия: х (0а) = —х (вв) = а, у (0Л) =0, у (0В) = 0. (3.1.17) Получим следующее решение: с = 0, р=-^, 0д-а, 9в=-а, (3.1.18) где а определяется из трансцендентного уравнения s-4 = 4- (3.1.19) Таким образом, имеем Р Р х =—x-^sinO, у = —~ (cos0 — cosa), 2а ’ у 2а ' х) Такая формулировка предполагает, что —л/2 < О < л/2; это условие справедливо лишь при Р < ла. 8—0102
114 Глава 3 откуда х2+ (у РcosaX 2__ Р2 2а ) 4а2 (3.1.20) Оптимальным решением является дуга окружности радиуса Р/2а с центром в точке х = 0, у = —Р cos а/2а. Пример 2. Форма капли жидкости, лежащей на горизонталь- ной плоскости. Капля жидкости на горизонтальной плоскости принимает по предположению осесимметричную форму (относи- тельно оси z; фиг. 3.1.2); при этом ее действительная форма z (г) Фиг. 3.1.2. Форма капли жидкости, лежащей на гори- зонтальной поверхности. отличается от всех возможных форм тем, что она минимизирует сумму потенциальной энергии жидкости в гравитационном поле Земли и энергии поверхностного натяжения 0 а Е = j ynr2z^dr + j <y2nr~dr. (3.1.21) T—a r=0 Здесь — сила притяжения на единицу объема, z = z (г) — уравнение поверхности (фиг. 3.1.2), о — поверхностная энергия на единицу площа- ди (поверхностное натяженце), ds = ]/(c/z)2 (df)2 — дифференциальный элемент длины дуги. Заданы: 1) Объем капли жидкости о 7= J nr2^df. (3.1.22) т—а 2) Угол а в точке соприкосновения (фиг. 3.1.2) /dz\ (-=-) = — tga. \dr)z=0 & (3.1.23) Найти форму капли z (г).
Задачи оптимизации при наличии ограничений на траекторию 115 Гамильтониан для этой задачи Н = 2лиг]/г 1 4-и2 — л yr2zu Ц- Xu 4- p,nr2u, (3.1.24) где u = g. (3.1.25) Уравнения Эйлера — Лагранжа имеют вид %=-™=nV*u> (3.1.26) — 2лог —— nyr2z Ц- X + цлг2 = 0. (3.1.27) OU 1 и2 Исключая X из этих двух уравнений и используя (3.1.25), получим дифференциальное уравнение 2-го порядка для определения фор- мы капли которое должно решаться совместно с граничными условиями z' (0) = 0, z' (а) = —tg a, z (а) = 0. (3.1.29) Множитель р, определяется так, чтобы объем капли был равен заданному значению. Заметим, что условия (3.1.29) использу- ются для определения неизвестного радиуса а. Если а < 1, то уравнение (3.1.28) может быть линеаризовано z"+|z'-|z—у- (3.1.30) В таком виде оно имеет решение z = i + ^0(/jr)+^0(/Ir). (3.1.31) Здесь 10 и К о — функции Бесселя нулевого порядка с мнимым аргументом, а ц, А, В — постоянные величины, которые должны 8*
116 Глава 3 быть выбраны так, чтобы удовлетворялись условия (3.1.29) и огра- ничение на объем (3.1.22). Задача 1. Максимальный объем при заданной площади поверх- ности. Дан кусок холста площадью А для постройки тента над круглой площадкой радиусом а (ла2 < А); нужно определить форму тента, при которой объем под тентом имеет максимальное значе- ние. Предполагается, что форма тента осесимметрична (фиг. 3.1.3). Ответ. Оптимальной формой тента является сферический сег- мент. 3.2. Ограничения в виде равенств на управляющие переменные Рассмотрим снова общую задачу оптимального программиро- вания (разд. 2.5 и 2.8), но с дополнительным ограничением на управляющие переменные в виде равенства С (и, t) = 0, (3.2.1) где и (t) — m-мерный управляющий вектор, m 2, а С (и, t) — скалярная функция. Условие m 2, очевидно, необходимо для того, чтобы задача оптимизации представляла интерес [при m = 1 ограничение (3.2.1) полностью определяет функцию и (t) и ника- кой проблемы оптимизации не возникает]. В тех случаях, когда m ^>2, влияние ограничения (3.2.1) сводится к уменьшению сво- боды выбора управляющих переменных и. Один из возможных подходов к решению этой задачи состоит в исключении с помощью (3.2.1) одной из управляющих переменных и последующем решении задачи минимизации по отношению к оставшимся управляющим переменным, которые уже не связаны никакими ограничениями. При таком подходе необходимые условия минимизации, выве- денные для задач без ограничений, остаются справедливыми и в этом случае. Другой способ состоит в том, что выражение (3.2.1) с множителем Лагранжа ц(£) прибавляется к гамильтониану вариа- ционной задачи без связи. При этом получается расширенный гамильтониан Н = L + + (3.2.2) Такая форма гамильтониана вносит изменение только в условие оптимальности l^ = lL + XT-^ + g-^ = O. (3.2.3) ди ди ди * ди ' ' Это условие вместе с (3.2.1) определяет m компонент вектора управления и (Z) и скалярную функцию р, (t).
Задачи оптимизации при наличии ограничений на траекторию 117 Пример. Траектории минимального времени, проходящие через область трехмерного пространства, в которой вектор скорости зависит от фазовых координат *). Самолет должен пересечь область сильных ветров. Величина и направление скорости ветра — известные функции координат, w = w (г), а величина скорости самолета относительно воздуха постоянна и равна V. Задача Фиг. 3.2.1. Векторное сложение скорости самолета относительно воздуха (воздушной скорости) и скорости ветра. состоит в таком программировании направления полета самолета, при котором время перелета из точки А в точку В минимально. Скорость самолета относительно Земли удовлетворяет уравне- нию (фиг. 3.2.1) r = Fu + w(r)* 2). (3.2.4) Здесь г — радиус-вектор точки, w (г) — вектор скорости ветра, и — единичный вектор направления оси самолета (вектор управ- ления): и-и = 1. (3.2.5) Гамильтониан этой системы Н = X-(Fu-|-w) [Л (1 — и-и) -j-1, (3.2.6) 1 — вектор влияния (сопряженный вектор) вектора положения г. Уравнения Эйлера — Лагранжа имеют вид ~V(X-w), (3.2.7) -^5- = VX —2цн = 0. (3.2.8) ди х) Подобная задача для случая плоского движения рассмотрена в при- мере 1 разд. 2.7 (задача Цермело, или задача о выборе маршрута корабля). 2) В этом примере и нижеследующих задачах использованы обозначения классического векторного исчисления: точка означает скалярное произве- дение векторов, V — оператор Гамильтона (в декартовых координатах V = Sr ' 5z/c) ’ |х |-модуль вектора x, X — знак векторного произведения, V X w = rot w — ротор вектора w — Прим, перее.
118 Глава 3 Для удовлетворения условия (3.2.5) множитель р, (t) следует вы- брать так, чтобы 2ц = + Р|Х[, откуда u=±-j-^-r. (3.2.9) I л I Для данной задачи на минимум времени должно удовлетворять- ся условие Н(tf) = 0 (разд. 2.7); подставляя (3.2.9) в (3.2.6), полу- чим, что справедливым в выражении (3.2.9) оказывается знак минус, отсюда х) й=-Х, % = -7^1- (3.2.10) I I Другими словами, при оптимальном управлении вектор скорости (Vu) должен быть направлен противоположно вектору влияния X.- Если подставить (3.2.10) в (3.2.4), то получим следующие диф- ференциальные уравнения для определения искомой траектории минимального времени перелета: г = W - EX, (3.2.11) X = — V (X-w) = — (X-V) W — X X (v X w). (3.2.12) Направление вектора X в точке А должно быть выбрано так, чтобы траектория проходила через точку В. Модуль вектора X должен быть таким, чтобы гамильтониан Н обращался в нуль. Тогда X будет вектором влияния на конечный момент времени tf, как указано в (3.2.10). Так как гамильтониан явно не зависит от t, то он сохраняет постоянное значение Н = 0 вдоль оптималь- ной траектории, поэтому из (3.2.6) и (3.2.10) получаем |Х|=------. (3.2.13) 1 7-X-w Это соотношение может служить для проверки решения, полу- ченного из (3.2.11) и (3.2.12). Если поле скоростей ветра безвихревое, т. е. если rot w — = V X w = 0, то, как известно из векторного анализа, суще- ствует такая функция ф (г, t) (потенциал поля скоростей ветра),’ что w = V^- В этом случае уравнения возмущенного движе- ния для г совпадают, за исключением знака минус, с уравне- ниями для сопряженного вектора X. Уравнения возмущенного движения такого типа называются самосопряженными* 2); они !) Согласно принципу минимума (см. разд. 4.2, 3.8), оптимальное по вре- мени управление и должно минимизировать Н (и). В данном случае минимум Н достигается при знаке минус в (3.2.9).— Прим, перев. 2) Отметим, что определение самосопряженной системы для систем диф- ференциальных уравнений вида х = Fx, х = (xt, . . ., zrt)T, не эквивалент- но определению самосопряженного уравнения для одного дифференциаль- ного уравнения n-го порядка ж<п> + alxtn~1i + . . . -|- an_tx + апх — 0, хотя понятия сопряженной системы и сопряженного уравнения эквивалентны.
Задачи оптимизации при наличии ограничений на траекторию 119 имеют вид (6г) = (6г.V) \7ф (Г, t), (3.2.14) ^-(Х)=-(X-V)V^(r, i). (3-2.15) Задача 1. Траектории минимального времени прохождения трехмерной области, в которой модуль вектора скорости зависит от фазовых координат х). Материальная точка пересекает область, в которой величина мгновенной скорости V движения является заданной функцией положения; т. е. V = V (г), где г — радиус* вектор точки. Требуется определить траекторию минимального времени движения от точки А до точки В в трехмерном простран- стве. Траектория материальной точки описывается уравнением г = V (г) и, где и — единичный вектор, и-и-—Л. Показать, что для траекто- рии минимального времени справедливы соотношения и=—Ар, IX (S)| = y4p X = |X|VV (r(4), г(В) заданы), из которых следует £(J_ = _ dt \ 72 dt ) 7 'J Задача 2. Траектории минимального времени прохождения трехмерной области, в которой действующие силы зависят от фа- зовых координат* 2). Рассмотрим пространственное движение материальной точки под действием сил, зависящих от вектора положения г и не зависящих от скорости v. Уравнения движения точки имеют вид v = a (t) и + F (г, t), Г = V, где и — единичный вектор управления, и-и = 1; a (t) — реак- тивное ускорение (предполагается заданным); F (г, t) — ускоре- ние, возникающее под действием внешних сил, зависящих от по- ложения тела (функция F может явно зависеть от времени t из-за перемещения притягивающихся тел). *) Соответствующая задача для плоского случая рассмотрена в разд. 2.7 (задача 2). 2) Этот пример является частным случаем задачи, рассмотренной Фрай- дом и Бертоном в книге «Космическая техника» под общей редакцией Г. Сей- ферта, перев. с англ., изд-во «Наука», 1964 (гл. 4).
120 Глава 3 Показать, что где X = —(P-V) F — р X (V X F), Р = —Ъ, (—а | р | + p F + X-v + l)t={/ = 0. Таким образом, в этих соотношениях X — вектор влияния (сопря- женный вектор) положения точки г, а р — вектор влияния (со- пряженный вектор) скорости точки v. Заметим, что в консервативном поле сил у? X Е = 0, откуда следует существование функции ф (г, t), такой, что F = V<p, где <р = <р (г, £) — потенциал поля сил. Б этом случае уравнения возмущенного движения для 6v и бг совпадают с уравнениями для X и р с точностью до знака в правой части: ^(6v) = (6r.V)V<^>, ^(X)=-(p-V)V<f>, ^(6r) = 6v, ^(р)=-Х. Уравнения возмущенного движения такого типа называются само- сопряженными. Интересно отметить, что уравнения второго порядка относительно бг и р, полученные исключением 6v и X, оказываются совершенно одинаковыми: (бг) = (бг-V) Аф, ^(р) = (р-У)Уф- Отсюда следует, что если найдена переходная матрица для бг и 6v, то тем самым найдена и переходная матрица для р и X. Это обстоятельство полезно при расчете пассивных участков траек- торий космических аппаратов. Задача 3. Рассмотрим самосопряженную линейную динамиче- скую систему1) x~Fx-\-u, F = —FT. Требуется определить такое управление и (t), удовлетворяющее ограничению || u||2— 1, которое переводит произвольное начальное состояние х0 = х (£0) в начало координат х (Т) = 0 за минималь- ное время. Найти решение с обратной связью, т. е. выразить управ- ление и в виде явной функции от текущих значений х и t. Указание. См. книгу М. А т а н с, П. Ф а л б, Оптимальное управление, изд-во «Машиностроение», 1968, гл. 10. 0 В задаче рассматривается частный случай так называемой системы с инвариантной нормой [2.6].— Прим. ред.
Задачи оптимизации при наличии ограничений на траекторию 121' 3.3. Ограничения в виде равенств на функции управления и фазовых координат Рассмотрим опять общую задачу оптимизации,' сформулиро- ванную в разд. 2.5 и 2.7, но пусть теперь оптимальное реше- ние х (t), и (t) должно удовлетворять ограничению С (х, и, t) = 0, (3.3.1) причем дС/ди = Си^= О для любого и. Следуя методам разд. 3.2, добавим к гамильтониану вариационной задачи без связи (3.3.1) это ограничение с множителем р (Z). В результате получим рас- ширенный гамильтониан Н = № / + L + рС. (3.3.2) Условие оптимальности в этом случае совпадает с приведенным в разд. 3.2 ^ = V/u + Lu + pCu = 0, (3.3.3). а уравнения Эйлера — Лагранжа (в векторной форме) должны быть модифицированы Хг= — Нх = — KTfx — Lx — l^Cx. (3.3.4) Все остальные уравнения необходимых условий разд. 2.5, 2.7 оста- ются без изменений. Необходимое условие (3.3.3) и ограничение (3.3.1) составляют систему m + 1 уравнений с m + 1 неизвест- ными величинами р и и. Характерным отличием этой задачи от пре- дыдущих является появление в уравнении (3.3.4) слагаемого- р(бС/Зх). Если С (х, и, t) = 0 является вектор-функцией, число ком- понент которой меньше числа компонент вектора управления и, то уравнения (3.3.2) — (3.3.4) остаются справедливыми, если заме- нить в них рС,- рСц, рСж соответственно на ртС, ртСц, р,тСх. Здесь р — вектор множителей Лагранжа, размерность которого- совпадает с размерностью вектора С(х, и, 2). 3.4. Ограничения в виде равенств на функции фазовых координат Если функция, задающая ограничение, явно не зависит от управляющих переменных, то в этом случае при решении задачи возникают дополнительные осложнения. Пусть задано ограниче- ние в виде следующего равенства: S (х, t) = 0. (3.4.1).
-122 Глава 3 Если оно справедливо для любого значения t, t0 t tf, то про- изводная по времени от функции S вдоль оптимальной траектории должна обращаться в нуль: dS dS dS “ dS dS , . a П /о z лГ = -я7- + -л-ж = -нг4--т-/(ж, u, Z) = 0. (3.4.2) dt dt 1 dx dt 1 dx 1 ' ’ ' Выражение (3.4.2) может в свою очередь оказаться либо явно зави- сящим от и, либо снова не зависящим от и. Если это выражение зависит от и явно, то оно играет роль совместного ограничения на управляющие и фазовые переменные, аналогичного равенству (3.3.1). Однако в отличие от задач разд. 3.3 следует либо исклю- чить.одпу из компонент вектора х, выразив ее с помощью (3.4.1) через остальные (п — 1) компонент, либо присоединить (3.4.1) в качестве граничного условия в точках t = t0 или t = tf1). Если же выражение (3.4.2) не содержит явно и, то его можно еще раз продифференцировать и подставить х = f (х, и, £);. эта процедура может быть, очевидно, повторена до тех пор, пока полу- ченное выражение не будет явно зависеть от и. Если явная зави- симость от и получится после (/-кратного дифференцирования S по t, то соотношение (3.4.1) будем называть ограничением q-го по- рядка типа равенства, наложенным на фазовые переменные. В этом случае q-я полная производная по времени от S играет роль огра- ничения на управляющие и фазовые переменные, аналогичного условию вида (3.3.1): S(9> (х, и, t) = 0, где £(г)А . (3.4.3) Кроме того, в этой задаче необходимо либо исключить q компо- нент вектора х, выразив их через остальные (п — q) компонент -этого вектора с помощью системы q уравнений S (х, t) Sw> (х, t) S(q~l)'(x, t) (3.4.4) либо рассматривать систему (3.4.4) как дополнительные гранич- ные условия в точке t = t0 (или t = tf). При численном решении задачи можно использовать и иной - подход, основанный на применении интегральной функции штрафа для приближенного удовлетворения ограничению (3.4.1) (разд. 1.9). *) Ограничение (3.4.1) можно было бы непосредственно прибавить к га- мильтониану системы; полученные при этом необходимые условия окажутся «отличными от выведенных ниже, но эквивалентными им (см. [3.11, 4.3]).
Задачи оптимизации при наличии ограничений на траекторию 123 В этом случае следует ввести расширенный критерий качества _ tf J = J + К J [б1 (х, /)]2 dt, о где К — достаточно большое число. Эта процедура, однако, может приводить к затруднениям вычислительного характера, на что указывалось в разд. 1.9. Напомним также, что для точного удов- летворения (3.4.1) требуется, чтобы К-+со. 3.5. Ограничения, заданные во внутренних точках траектории Рассмотрим снова общую задачу оптимального программирова- ния (разд. 2.8) и предположим, что в нее введено дополнительное требование в виде граничного условия во внутренних точках N [х (tx), Zj = 0, (3.5.1) где tx — некоторый промежуточный момент времени, t0 <Z tx <Z tf, N — вектор-функция размерности q. Таким образом, вместо двух- точечной граничной задачи разд. 2.7 в данном случае имеем дело с трехточечной граничной задачей. Соотношение (3.5.1) представляет собой граничное условие для части траектории от t = t0 до t = tt. Если t~x — момент времени непосредственно перед (слева от /4), a tx — момент времени сразу же после tx (справа от tx), то функцию влияния А. и гамильтониан Н в точке t = t\ можно интерпретировать следующим образом: ^) = —<3-5-2) Я(ф=-^. (3.5.3) Из соотношений (2.8.10), (2.8.11) и уравнений (3.5.2), (3.5.3) следует, что = + (3.5.4) Я(^) = Я(^)-«Г4^; (3.5.5) здесь л — ^-мерный вектор постоянных множителей Лагранжа, определенный так, чтобы удовлетворялись q условий (3.5.1). Уравнение (3.5.5) определяет момент времени tx- Заметим, что из соотношений (3.5.4) и (3.5.5) вытекает разрывность функций влияния X и гамильтониана Я в точке t = tx- При этом переменные состояния остаются непрерывными в этой точке, т. е. х (tf) = х (tf).
124 Глава 3 Все сказанное непосредственно переносится на более общий случай, когда заданы условия в нескольких внутренних точках; однако решить такую многоточечную краевую задачу, вообще говоря, весьма сложно. Для численного решения такой задачи можно использовать метод скорейшего спуска. Другой довольно поучительный подход к решению подобных задач предложен В. Денхэмом [3.7] *). Ограничения (3,5.1), задан- ные во внутренних точках, с множителями Лагранжа зт при- бавляются к критерию качества подобно тому, как это делалось Фиг. 3.5.1. Соотношение между dx и дх и dt. для терминальных ограничений ф [х (fy), tf\ (с множителями v) в разд. 2.5. Первая вариация расширенного критерия качества в таком случае имеет вид 8J = 6 (Ф лгЯ) + 6 j (Я— гтх) dt. to (3.5.6) Заменим интеграл в этом выражении суммой двух интегралов j + j и проинтегрируем (Я— Wx) по частям, принимая во to tf внимание возможную разрывность X в точке t = иЦ+"г <<'> - v 1) См. также работы В. А. Троицкого, опубликованные в журнале ПММ, 26, вып. 3, 6 (1962).— Прим. ред.
Задачи оптимизации при наличии ограничений на траекторию 125 — V&r ti <о dti — (II — /Л) t=z? dtt + t=t± (‘гу дН \ дН -I + J [ + dx ) du $u] dt. to Теперь можно использовать соотношения f Sx^ + x^dtt, dx (Zf) = ( I 8x (Ц) -J- x (tf) dt^ (3.5.7) (3.5.8) геометрический смысл которых (для скалярного х} пояснен на фиг. 3.5.1 *). Исключим с помощью (3.5.8) 8х и 8х (if) из (3.5.7); после группировки членов получим "=«- И61Ц+1хг v «)+"r ттгу] (')+ + г Н (ti)-H(tt) + ^-f-1 dti + V 8х I + . L ас1 J |i=to + ?Г(;г+^-)&+^-6“]Л- <3-5-9> to Выберем теперь значения л(^) и л (Т) так, чтобы коэффициенты при dx (ti) и dti обратились в нуль; это приводит к соотношениям (3.5.4) и (3.5.5). Множитель л выбирается так, чтобы удовлетво- рялось условие (3.5.1). Здесь, так же как в разд. 2.7, при рассмотрении допустимых вариаций следует сделать оговорку относительно предполагаемой управляемости системы. Этим будет оправдана возможность пола- гать коэффициент при 8и (t) в (3.5.9) равным нулю, поскольку вариация 8и (7) в данном случае не произвольна, а должна при- водить к вариациям dx (Zt) и dti, совместимым с вариацией урав- нения связей во внутренних точках dN = ^-dti+ dx(ti) = O. (3.5.10) dti 1 1 dx \ti) ' v x f Задача 1. Квадратичные функции штрафа, зависящие от зна- чений фазовых координат во внутренних точках. В задачах управ- ления при наличии шумов точное удовлетворение ограничениям, заданном как во внутренних точках, так и при t = tf, обычно не- возможно. В этом случае полезно использовать (в качестве альтер- 1) В этом случае справедливы замечания, аналогичные тем, которые сделаны по поводу соотношения (2.7.4) (см. примечание на стр. 92).— Прим, перев.
126 Глава 3 нативы) другой подход, основанный на наложений квадратичного штрафа на отклонения от заданных ограничений во внутренних точках J = ф [x(tf), tf] + v (JV’Vfl + (Я -№х) dt; to здесь Si — положительно определенная матрица размерности q X q, выбираемая проектировщиком с учетом специфики задачи. Показать, что при таком методе решения величины X и Н должны иметь следующие скачки в точке t = ip. (^) = (if) + , Н (;Г) = Н (ф - NTSi , Задача 2. Перехват двух целей одним перехватчиком с мини- мальными усилиями -1). Определить ускорение а = a (t), минимизирующее критерий качества вида t, J = a2 dt о с учетом связей х = и, v =--а и условий х (0) = 0, v (0) = 0, a:(i1) = ^1, ж(^) = 0. Здесь ti и tf заданы, 0 < < tf. Задача 3. Минимальное время перехвата при условии прохож- дения через фиксированную промежуточную точку. Определить программу направления тяги ft (i), которая минимизирует время перехода из точки х = 0, у = 0 в точку х = xf, у = (Гпри нали- чии ограничений (уравнений движения) w=acos'&, х=и, K=asini9’, y = v и граничных условий z(0) = 0, у (0) = 0, и (0) — 0, v (0) = 0, х (t^ = Xi, У (ti) = У1, х (tf) = xf, у (tf) = 0. Величины а, х± и xf заданы, 0 < ti <Z tf. х) Интеграл от квадрата ускорения, сообщаемого управлением, часто называется обобщенным усилием (обобщенной нагрузкой) управления.— Прим, перев.
Задачи оптимизации при наличии ограничений на траекторию 127 3.6.. Системы уравнений движения с разрывными правыми частями во внутренних точках траектории Пусть движение системы описывается векторным уравнением! х = /<п (#> t) (3.6.1)' при t < где определяется условием ф(1> [х /J = 0, (3.6.2)? и векторным уравнением #== /(2> (х, и, t) (3.6.3)> при t >> ti х). Уравнение (3.6.2) представляет собой, как и в разд. 3.5, гра- ничное условие во внутренних точках. Необходимые условия Фиг. 3.6.1. Оптимизация траек- тории корабля при разрывном профиле течения. (3.5.4), (3.5.5) остаются справедливыми с некоторым очевидным' обобщением Жх)(ф = Я<2) (3.6.4). где #(i) = Z4-Vy(i). Я<2> = £, + ЛЛ/<2>. Если /<и=/(2’ и ф(1> —скалярная функция, то единственным решением является v(X> = 0 и, таким образом, точка t = ti является обычной точкой непрерывности. Пример. Выбор оптимального маршрута корабля при плавании в разрывном течении. Рассмотрим пример 1 разд. 2.7 при допол- Х) Примером может служить движение самолета до и после взлета или go и после посадки.
128 Глава 3 нительном предположении, что v=0 и {eF, y>h, О, у <h, где V — скорость корабля относительно воды. Требуется найти минимальную по времени траекторию плавания *от точки х--0, у = 0 до точки х = ah, у = (1 + Ъ) h (фиг. 3.6.1). В данном случае Хх и Ху постоянны в каждой из областей у <Zh и !/>/», но в точке у — А = ф(1’ = 0 они разрывны. Из соотношения (3.5.4) следует (tX) = Ъх (tX) + о, хи (tx = Ху (tX) + v(1>. Принимая во внимание (3.6.4), получаем 1 + Хх (ti) V cos ф (tX) + Ху (tX) V sin ф (tX) = = 1 + Хж (4) [V cos ф (4) + еИ] 4- Ху (Ф V sin ф (tX) = 0. Из условия оптимальности определяем Ху (if) Ху (it) tgW)=xhfr = » Так как путь корабля непрерывен, то х (£,) = х (tX) = xY'&.y (tX = = г/(ф=й. Следовательно, путь состоит из двух прямолиней- ных отрезков; отсюда х , h sin ф. Ыг . , 1ТГ tg ф_ = —,------— = —--------A tg тп, ® r .z'l созф+-(-е ah — .zj — ® u где ф(ф = ф+, ф(^) = ф_1). Эти уравнения с 8 неизвестными легко решаются. Исключая четыре значения Хх, Ху, v(1> и х^ получаем два уравнения с двумя неизвестными ф_ и ф+: sec ф+ = sec ф_ + е, ctg ф_ = а — Ъ (ctg ф+ + е cosec ф+). 3.7. Задачи с фазовыми координатами, разрывными во внутренних точках В некоторых задачах наряду с нарушением непрерывности правых частей системы уравнений возможна разрывность значе- ний фазовых координат во внутренних точках траектории. Кроме того, критерий качества и ограничения могут быть функциями состояния и (или) времени не в одной, а в нескольких точках. 4 В данном примере ф — угол курса (управляющая переменная), а '1ГП — угол пути.
Задачи оптимизации при наличии ограничений на траекторию 129 Общая задача такого типа заключается в выборе управления и (f), которое минимизирует критерий качества j= ф [X О . ., х(Ъ), xffi); to, . . ., ДД + n (Г + 2 j LM[x(t), u(t), t] dt (3.7.1) i=i <1- . 1г—1 при наличии ограничений в виде уравнений движения х — /(1) (х, и, t), tt~i <Z t <Z tt, i = 1, . . N, (3.7.2) и многоточечных краевых условий ф<’> k(£“), x(tf), • • .,x(ty), x(tti); t0, ...,tN] = 0, / = 0, ...,2V. (3.7.3) Здесь x (tt) — значение вектора состояния перед t = tt (слева от tt), а х (tt) — значение вектора состояния сразу же после t = tt (справа от tj). Для получения необходимых условий минимума критерия J сформируем расширенный критерий качества J. Для этого при- бавим выражения (3.7.2) и (3.7.3) к (3.7.1) соответственно с вектор- функциями множителей Лагранжа X (i) и постоянными множите- лями v(5> Д’ N Ч + 2 [v0)]r^> + 2 J [£<*> +Vy(i)_XTz] dt. (3.7.4) з=о - i=i <г+_1 Как и в предыдущих разделах, для удобства введем функции Ф И ЖО; Ф-=ф + 2 (3.7.5) з=о Я(О = ZW + хт/(9, i = l,..., У. (3.7.6) Первая вариация выражения (3.7.4) имеет вид (после обыч- ного интегрирования по частям) dJ=3 [“йг dti + “мдГ dx + дх (Д)dx + г~0 N + 2 [(Н^ - Wx)^t-dti - (НМ - ^^dti-d + 9—0102
130 Глава 3 +3{(-v»<,+ j i=1 H , 4 — 1 (3.7.7) Используя соотношение dx (if) = Sx (tf) 4-x (if) dtt, (3.7.8) исключим 8x (tf) из выражения (3.7.7). После перегруппировки членов получим = 2 [4^-+Я0) (^)-Я(Н1) (it) ] dti + i—О 1 + S h^i- 1Гй)Н+2[4*г+ i=i 1=1 i=1 4-i (3.7.9) Здесь следует заметить, что 77(0) = Выберем теперь X (i) так, чтобы удовлетворялись следующие уравнения: iL1<i<it, i = l,...,W, (3.7.10) i = (3.7.11) V(<t)=—5^-. i = 0, ...,W-1; (3.7.12) tf определим из условия 2® +Я(0(^)_ЯО+1)(^) = о, i = 0, (3.7.13) ОТ j Заметим снова, что Я(0) = #(N+1)a.O. Если ti задано, то соответ- ствующее условие (3.7.13) не является необходимым, поскольку в этом случае dt-, = 0 в (3.7.9). Точно так же, если х (if) задано, то dx (if) — 0 в (3.7.9) и уравнение (3.7.12) при i = 0 не является необходимым. Неопределенные пока множители v(1> выбираются таким обра- зом, чтобы удовлетворить ограничениям tJj'3’ = 0.
Задачи оптимизации при наличии ограничений на траекторию 131 Опять следует сделать оговорку об управляемости системы, чтобы оправдать условие в (3.7.9), так как вариация бп (t) не является произвольной, а должна приводить к вариациям dx (ti), dx (tt), dtt, совмести- мым с =2 [Г «> ] “ °- j-О, (3.7.15) Уравнения (3.7.10) — (3.7.12) и (3.7.14) представляют собой необходимые условия Эйлера — Лагранжа, а (3.7.13) — необ- ходимые условия трансверсальности т). 3.8. Ограничения в виде неравенств на управляющие переменные Пусть вместо ограничения типа (3.2.1) в виде равенства задано подобное ограничение в виде неравенства С (и, jf)<0. (3.8.1) Если определить Н* = 7„rf + L, то, согласно уравнению (2.3.9), получим У А У 8J = j H*8udt = j 8Н*(х, X, и, t) dt, (3.8.2) to to где № = - Lx - 7.Tfx, № (tf) = фх (3.8.3) предполагается, что конечное время tf фиксировано, а терминаль- ные ограничения отсутствуют. Если управление и (t) минимизи- рует критерий качества, то для всех допустимых значений 8и (t) должно быть 6J 0. Отсюда следует, что 8Н* 0 для всех t и всех допустимых 8и (t). Таким образом, в каждой точке, удовле- творяющей условию С (и, t)-^0, оптимальное управление и обла- дает следующими свойствами: 6Я* = Н*8и > 0, 6С = Си8и < 0. (3.8.4) Другими словами, это означает, что величина 6Я* не должна улучшаться при любой допустимой вариации 8и. В действитель- •1) Равенства (3.7.11) —(3.7.13) вытекают из условия трансверсаль- ности.— Прим. ред. 9*
132 Глава 3 ности справедливо более сильное утверждение, что функция Н* должна быть минимизирована на множестве всех возможных значений м; эта компактная формулировка связана с именами Е. Макшайна1) (1939) и Л. С. Понтрягина (1962) и известна как '«принцип минимума»2). Строгое доказательство справедливости приведенного утверждения для задач с сильными вариациями и наличием терминальных ограничений дано Л. С. Понтрягиным (1962). В этом разделе обсуждается лишь частный случай задачи, когда отсутствуют терминальные ограничения и вариации являются слабыми. Условия (3.8.4) уже были получены в разд. 1.7, но другим спо- собом. Если определить гамильтониан системы следующим образом: Н = Хг/ + L + (3.8.5) то необходимое условие экстремума Н будет иметь вид Ни = Lu + Jir/„ + у?Си = 0. (3.8.6) х) Принцип максимума, о котором идет речь, открыт Л. С. Понтрягиным в 1956 г. В работе, опубликованной в журнале ДАН СССР [110, № 1, стр. 7—10 (1956)1, впервые задача оптимального управления была сформули- рована как неклассическая задача вариационного исчисления. Формулировка этой задачи, а также доказательство основной теоремы (принцип максимума) оказали огромное стимулирующее влияние на ученых и инженеров, занимающихся теорией управления и ее приложением к прак- тическим задачам. После этой публикации, а также выступления Л. С. Пон- трягина с докладом на сессии АН СССР по проблемам автоматизации произ- водства 15—20 октября 1956 г. теория оптимального управления получила быстрое развитие. (Основные проблемы автоматического регулирования и управления, Изд-во АН СССР, М, 1957). Упоминая о Макшайне, Брайсон и Хо, вероятно, имеют в виду его рабо- ту: McShane Е., On Multipliers for Lagrange Problem, American Journal of Mathematics, 61, pp. 809—819 (1939), в которой доказана справедливость правила множителей Лагранжа для задачи Лагранжа. Эта работа приведена в списке литературы в книге Л. С. Понтрягина, В. Г. Болтянского, Р. В. Гам- крелидзе и Е. Ф. Мищенко «Математическая теория оптимальных процес- сов», Физматгиз, 1961. Правило множителей, если его формулировать в терминах современной теории управления, сводится к утверждению, что для разрешения вариа- ционной задачи Лагранжа необходимо выполнение условия дН {и)/ди = 0. При этом предполагается, что область изменения переменной и есть открытое множество. Принцип максимума утверждает другое: функция Н (u'j должна достигать максимума по и на оптимальной траектории. При этом область изменения и произвольна и, в частности, может быть замкнутой. Последнее различие существенно, ибо в случае замкнутой области правило множителей может пе выполняться, тогда как принцип максимума справедлив всегда.— Прим. ред. 2) В русской литературе принято приписывать гамильтониану Н* про- тивоположный знак, поэтому соответствующее условие носит название «прин- цип максимума».
Задачи оптимизации при наличии ограничений на траекторию 133 Последнее уравнение совпадает с уравнением (3.2.3), причем в данном случае дополнительно требуется, чтобы Положительный знак множителя р, при С = 0 может быть интер- претирован как требование, чтобы градиент Н* = Хг/И 4* Lu был таким, при котором улучшения Н* можно достигнуть только за счет нарушения ограничений. При решении рассматриваемого класса Задач можно исполь- зовать как гамильтониан Н*, так и гамильтониан Н. Переход от одной функции к другой не вызывает затруднений. Если оптимальная траектория состоит из участков, одни из которых лежат на границе допустимой области (С = 0), а дру- гие — внутри допустимой области (С < 0), то эти участки должны быть состыкованы так, чтобы были удовлетворены все необходи- мые условия. В точках стыковки управление и может быть как непрерывным, так и разрывным. Если управление разрывно, то точка стыковки называется угловой. (Такое название возникло из-за разрывности производных по времени нескольких или всех фазовых координат.) Угловой точкой может оказаться любая точка, но более вероятно, что это будет точка соединения участков траектории, а не промежуточная точка, лежащая внутри допусти- мой области (разд. 3.12). Вообще говоря, не существует метода, с помощью которого можно было бы априори установить существо- вание угловых точек. Если управление и (t) непрерывно в точке соединения участков траектории, то из непрерывности %, дШди и Н следует, что множитель ц (f) также непрерывен в этой точке. Пример. Минимизация терминальной нормы (нормы конеч- ного состояния) при наличии мягкого и жесткого ограничений х). Пусть нужно минимизировать критерий качества г J=4l^(Z)||2 + 4 (3.8.8) о при условиях х — S (t) и [здесь g (t) — заданная функция времени], (3.8.9) I “ (0 1^1 (т. е. —1 и (t) 1, или —1 — и 0, и — 1^0). (3.8.10) х) D. W. Tufts, D. A. Schnidman, Optimum Waveform Subject to both Energy and Scalar Value Constraints, Proc. IEEE, 52 (Sept. 1964). Юграничение | и (t) | 1 иногда называют «жестким» в отличие от «мягкого» ограничения вида J || и dt < С.-~ Прим, перев.]
134 Глава 3 Гамильтонианы системы имеют вид Я = 4М|2 + ^gu + p^u — 1) + р2( — и — 1), (3.8.11) + gu- необходимые условия: ЛТ = -Нх =0, K(t) =К (Г) = а2х (7); (3.8.12) Н* = и + a2g (t) х (Г). (3.8.13) Обращаясь к условию (3.8.4), видим, что если Я£>0, то необ- ходимо выбрать нопт =—1 [для того чтобы было HZ8u^0 для Фиг. 3.8.1. Типичная программа оптимального управления при наличии ограничения типа насыщения и ограничения на расход энергии. всех допустимых 8и, удовлетворяющих (3.8.10)]; если Ни = 0, то —1<иОпт<1; если HZ<zO, то иопт = +1. Так как Я* = = u-h a?gx (Т), то из приведенных условий вытекает, что (" —1 при —1 + a2gx (Г) > 0 (т. е. при a2gx (Т) > 1), Копт = { +1 при 1 + a2gx (Г) < 0 (т. е. при a2gx (Т) < — 1), — a2gx(T) при Я£ = 0 и — 1 < a2gx (Г) ^1. Фиг. 3.8.2. Типичное изменение множителя it (t) для задачи с ограниче- нием типа насыщения и ограничением на расход энергии. Эта интерпретация Н* дает следующее окончательное выражение для оптимального управления: нопт = -Sat [a2g (0 х (T)J, (3.8.14) где {а, . sign а | а | < 1,
Задачи оптимизации при наличии ограничений на траекторию 135 а х (Г) вычисляется из неявного уравнения х(Т) — х0 — g (t) Sat [a2g (t) x (T)] dt. (3.8.15) (0 Если решение этого уравнения приводит к н011т вида, показан- ного на фиг. 3.8.1, то получим ( -ll + a2g(t)x(T)], П1 (t) = < л [ 0 для остальных моментов времени, ( [ — l-\-a2g(t)x (Т)], М-2 (О = S [О для остальных моментов времени и 1 4- a2g (t) х(Т) = 0 при t = ii, и t = i2, —1 + d2g (<) x (T) = 0 при t = t3 и t = (фиг. 3.8.2). 3.9. Линейные задачи оптимизации; релейное управление Одной из интересных частных задач оптимального управления является задача, в которой критерий качества, уравнения движения и ограничения являются линейными функциями от фазовых коор- динат и управляющих переменных. В общем случае минимума для подобных задач не существует, если не заданы ограничения типа неравенств на фазовые переменные и/или управляющие переменные. Когда ограничения типа неравенств наложены толь- ко на управляющие переменные и эти ограничения линейны, есте- ственно ожидать, что минимизирующее решение, если оно суще- ствует, соответствует такому управлению, которое находится в той или иной точке границы области допустимых управлений (см. для сравнения разд. 1.8 о линейном программировании в зада- чах минимизации функций нескольких переменных). В общем случае на оптимальной траектории происходит одно или несколь- ко переключений управления. Такое управление- называется релейным, поскольку оно мгновенно «перескакивает» из одной точки границы области допустимых управлений в другую точку этой же границы. В этом разделе будет рассматриваться только задача миними- зации времени 1) в самом простом варианте, когда вектор управ- ления имеет только одну компоненту, т. е. и — скаляр. х) Задача па минимум времени перехода из х (t0) в х (tf) часто называется задачей оптимального быстродействия.— Прим, перев.
136 Глава 3 Пусть система описывается уравнениями х = F (t) х + g (t) и, (3.9.1) х (0) = х0, х — n-мерный вектор, где величина (скалярного) управления ограничена: -1 < и (0 < 1. (3.9.2) Необходимо найти управление и (£), которое переводит систему в состояние х (tf) = 0 (3.9.3) за минимальное время. Таким образом, в данной задаче миними- зируется величина tf. Поскольку задача линейна, то усло- вие (3.9.3) не представляет собой какого-либо специального слу- чая. Задача перехода системы из произвольного начального состояния в произвольное конечное состояние х (tf) = xf 0 может быть представлена в рассматриваемой форме, если начало координат перенести в желаемую конечную точку xf г). Используем введенную в разд. 3.8 функцию Я*; для рассма- триваемой задачи она имеет вид И* = 7Т (Fx + gu) + 1. (3.9.4) Для минимизации Н* по и при условии (3.9.2) необходимо, чтобы ( 1 при kTg <0, „ „ _ “W= г (3-9.5) ( —1 при XTg>0. Величина 7.Tg называется (по очевидным причинам) функцией переключения. Условие трансверсальности упрощается: (Fx + gu) + = 0. (3.9.6) Векторное уравнение для функций чувствительности имеет вид Хт==— 7.TF. (3.9.7) Для получения решения следует интегрировать совместно урав- нения (3.9.1) и (3.9.7), при этом и (t) определяется соотноше- нием (3.9.5); граничные условия: х (0) = х0, х (tf) = 0. Значе- ние tf определяется из условия трансверсальности (3.9.6). Пример. Простейшая система второго порядка (двойной инте- гратор). Рассмотрим систему, для которой Xi = x2, х2 — и, —l^u(t)^l. 2) Если же конечное состояние системы принадлежит некоторой поверх- ности, а не точке, то для решения задачи применимы методы разд. 3.8, дополненные методами разд. 2.8.
Задачи оптимизации при наличии ограничений на траекторию 137 Ввиду простоты этой системы уравнения для функций чувстви- тельности легко решаются: Х4 = 0, Х4 = const, ^2= — Х2 = Xj + Xt (tf — t), Xj = const. Определим функцию переключения X g = X2 (t) = Xj + Xj (tf — t), следовательно, j 4-1» x2<0, u=\ -1, X2>0. Из условия трансверсальности (3.9.6) с учетом равенства xt (tf) = = х2 (tf) = 0 следует Х2 (tf) и (tf) = 1. Это соотношение при релейном законе управления и дает Х2 (tf) — 1» и (tf) = —1, или Х2 (tf) = —1> и (tf) ~ 4*1. Так как функция переключения линейна относительно времени (tf — t), то она может изменить знак не более одного раза. Двигаясь Фиг. 3.9.1. Фазовые траектории и кривые переключения для оптимальной релейной системы второго порядка (типа двойного интегратора). от tf при и = 4-1 или и = —1, можно получить кривую переклю- чения в пространстве фазовых переменных. Кривая переключения состоит из двух парабол в пространстве (xlt х2) (фиг. 3.9.1):
138 Глава 3 и = Ц- 1 х2 (О’ удовлетворяющее условию М4)=° х1(0’ удовлетворяющее условию xi (t/) = 0 Фазовая траектория, проходящая через начало координат (линия переключения) X2 = tf—t Xi=-(tf-t^l2 xi = ~хЦ2 X2=t—tf x{ = xl/2 Если случайно окажется, что начальная точка лежит на кри- вой переключения, то и = ± 1, причем знаку «+» соответствует Xi >0, знаку «—» соответствует xt < 0. Однако в большинстве случаев начальное состояние системы не находится на кривой переключения. В таких случаях значение и = ± 1 нужно выбрать так, чтобы движение системы происходило по направлению к этой кривой. Проверка показывает, что выше кривой переключения и = —1, а ниже этой кривой и = +1; типичные траектории (тоже параболы) изображены на фиг. 3.9.1. Закон управления может быть записан в следующем виде: {4-1. если sgn х2 < — 2xi или ^2Sgna;2 =—2жь ^>0, - — 1, если xlsgnx2> — 2а?! или ^sgn^2 =—2жь ^<0. Кривые постоянных значений tf (изохроны) описываются урав- нениями (х2 — tf)2 = 4 [xi 4- (lf/2)J, если Xf + 1l2x2 | x2 |< 0, (ж2 + t^]2 = 4 [—Xf 4- (tf/2)], если Xf -J- | x2 | > 0. Одна из таких кривых также приведена па фиг. 3.9.1. Отметим, что наклон этой кривой имеет разрыв в точке пересечения с кри- вой переключения управления. Так как 1 _ 1 _ dtf 1 dXi ’ 2 дх.2 ’ то вектор K = (%i, Л2)т направлен по нормали к линии = const всюду, кроме точки пересечения с кривой переключения, где направление нормали является неопределенным. Рассмотрим теперь общий случай задачи оптимального быстро- действия. Пусть X (*о) = тогда Л (I) = Фт (t0, t) t], (3.9.8)
Задачи оптимизации при наличии ограничений, на траекторию 139 где Ф (t, т) — фундаментальная матрица решений системы (3.9.1)- Подставив это выражение для А (/0) в (3.9.5) и (3.9.1), получим 'г X (tf) = 0 = Ф (tf, t0) Хо — j Ф (tf, т) g (г) sgn [дт (т) ФГ (t0, т) Ц] dx to или tf %о = j ф (t0, т) g (т) sgn [дт (г) Фт (t0, т) т|] dr. (3.9.9) to Двухточечная краевая задача по существу состоит в определе- нии ц, удовлетворяющего уравнению (3.9.9) для заданного Яо- Если значение tf фиксировано, а ц изменяется, то интеграл (3.9.9) дает такие значения х0, двигаясь из которых можно достичь нача- ла координат за время tf — t0 с помощью управления, удовлетво- ряющего всем необходимым условиям оптимальности. Таким образом можно получить кривые постоянных значений tf — t0 в пространстве х (изохроны), аналогичные показанным на фиг. 3.9.1 Численное решение уравнения (3.9.9) проводится следующим образом: а) Задается некоторое значение ц и вычисляется т)гю А X V X j Ф(^о, т) g sgn (t0, т) Tjl dx, при этом интегрирование про- to водится до такого значения tf, при котором интеграл дости- гает величины г]т2:0. Это значение tf, вообще говоря, должно быть меньше, чем оптимальное значение в противном случае оказа- лось бы, что существуют такие и0 (t), t°f и ц°, что для t° < tf t<3f Л3" j Ф (*о, т) g (х) sgn (т) ф' (t0, х) т]°] dx = to * if = t]T ^(to,x)g(x)sgn[gT(x)4>T(t0,x)i]]dx, (3.9.10) to но это равенство не может быть справедливым, поскольку выраже- ние в правой части возрастает с максимальной скоростью. б) Значение т] изменяется так, чтобы ы приблизилось к х0; напри- мер, можно взять бг] == Е (х0 — ft)), Е >0. в) Интегрирование повторяется, как описано в п. «а», до тех пар, пока tf, увеличиваясь, не достигнет ty.
140 Глава 3 В изложенной схеме реализуется метод последовательных при- ближений по т], разработанный Нейштадтом [2.8]. Успех при реше- нии зависит от непрерывности р по х0. Таким образом, следует - ожидать трудностей вычислительного характера, если х0 находит- ся на кривой переключения или вблизи этой кривой (фиг. 3.9.1). Если система (3.9.1) неустойчива при и = 0, то, очевидно, существует область начальных значений х (0), для которой огра- ниченное управляющее усилие §(<)«, —1 ^н^1, недостаточно ве- лико, чтобы превзойти член F(f)x. Это означает, что система не мо- жет быть переведена в точку х = 0 из указанной области началь- ных значений. Аналогично, если система п. «а» не является полностью управляе- мой, то в общем случае невозможно перевести эту систему в точку х = 0. Задача 1. Сформулировать дискретный вариант линейной зада- чи на быстродействие (считая для простоты управляющую переменную скаляром) и показать, что предположения об устой- чивости и управляемости системы непосредственно связаны с раз- решимостью линейного уравнения Аи = Ъ для некоторых задан- ных А и Ъ [см. формулу (3.9.9)]. Задача 2. Для дискретной системы #1(^ + 1) ^2 (^ +1) 0 + = .... V 1J L^2 v? J L 1 определить на плоскости (х^, х2) области начальных состояний (xt (0), х2 (0)1, которые могут быть переведены в начало коорди- нат соответственно за один, два, три и четыре шага (см. задачу 3), Задача 3. Для непрерывной системы Х1 -Ж2- '0 Г о о а?2 год и, |н(<)|^1, <о = О, определить при tf = 1, 2, 3, 4 области в пространстве начальных состояний х0, из которых возможен переход в начало координат. Полученный результат сравнить с решением задачи 2. Задача 4. Пусть требуется минимизировать критерий качества / = I!2 для системы, описываемой уравнением х = Fx 4- Gu, х (0) = х0, tf задано, с учетом ограничения и (t) | С 1.
Задачи оптимизации при наличии ограничений на траекторию 141 Показать, что критерий качества достигает минимального значе- ния /Мин >0 при релейном управлении. Изобразить решение графически [аналогично фиг. (3.9.1)]. Задача 5. Недемпфированный осциллятор с ограниченным управлением [2.9]. Система описывается уравнениями Xi = х2, х2 — —Xi 4- и, —1 и (t) 1. Уравнения для функций чувствительности в этом случае легко решаются: = %2, ^-2 — —М» отсюда А,! = cos (Т — t) + bi sin (Т — t), А2 = ai sin (T — t) — bi cos (T — t). Функция переключения определяется соотношением XTg- = А2 (<)• Условие трансверсальности (3.9.6) в этой задаче имеет вид Кг(Т)и(Т) + 1 = 0. Поскольку на управление и (t) наложено ограничение, то А2 (П = + 1, откуда следует = ± 1. Построить в пространстве фазовых переменных (яц, х2) кривые переключения управления и кривые постоянных значений (tf—t0). Задача 6. Система второго порядка описывается уравнениями х = v, v = и, где х, v — скалярные фазовые переменные, и — скалярная огра- ниченная управляющая переменная: -1 С и С 1. Заданы величины х (0) = х0, и (0) = v0 и tf, найти управле- ние и (<), минимизирующее критерий качества Ч J = f | и (t) | dt о при заданных терминальных ограничениях х (tf) = 0, и (tf) = 0. Рассмотрите лишь случай, когда v0 0, х0 —V2P®, пред- полагая, что >(</)МИн, где (</)Мип — минимальное время, за которое система может перейти из состояния (х0, v0) в состоя- ние (о, о) при —1 и 1.
142 Глава 3 Покажите, что в этом случае управление должно быть релей- ным с зоной нечувствительности, т. е. С — 1, 0<4<^ и — [ 0, t < t2, I +1, где моменты переключения и t2 определяются соотношением ) = у I*/ + vo + V(ff — ро)а — (4х0 + 2^)] ^2 J И tf > VO + / 4ж0 + 2v2 = (^)мин. 3.10. Ограничения в виде неравенств на функции управления и фазовых координат Пусть вместо ограничения типа равенства (3.3.1) задано соот- ветствующее ограничение в виде неравенства С (х, и, t) 0. (3.10.1) Эта задача решается таким же способом, как задача в разд. 3.8. Определим гамильтониан системы где Н — L 7. f рС, >0, с=о, = 0, С<0. Уравнения Эйлера — Лагранжа имеют вид ( -Lx-~KTfx-y£x, (7 = 0, t -Lx-KTfx, (7<0. (3.10.2) (3.10.3) (3.10.4) Заметим, что здесь появился член рС^, которого не было в задаче, рассмотренной в разд. 3.8. Управление и (t) опреде- ляется из необходимого условия экстремума , Ни = Lu 4- V/u + рС„ = 0. (3.10.5) Если С < 0, то р = 0 и условие (3.10.5) определяет и (/). Если же С = 0, то уравнения (3.10.1) и (3.10.5) решаются совместно для получения и (/) и р (#); р (Z) содержится в выражении (3.10.4).
Задачи оптимизации при наличии ограничений на траекторию 143 При решении конкретной задачи оптимальная траектория может состоять из участков, одни из которых лежат на границе допустимой области, а другие — внутри допустимой области. Эти участки долж- ны быть состыкованы так, чтобы были удовлетворены все необхо- димые условия оптимальности. Как и в разд. 3.8, точки соедине- ния участков траектории могут оказаться угловыми, т. е. в этих точках может нарушаться непрерывность вектора управления. 3.11. Ограничения в виде неравенств на функции фазовых координат Пусть вместо ограничения типа равенства (3.4.1) задано соот- ветствующее ограничение типа неравенства S (х, (3.11.1) Будем считать для простоты, что 5 и и — скалярные величины. Так же как в разд. 3.4, возьмем полную производную по вре- мени от выражения (3.11.1) и подставим / (х, и, t) вместо х. Если полученное выражение для S не содержит явно управления и (t), то будем повторять дифференцирование до тех пор, пока получим q-ю производную от S (х, t), которая будет зависеть от и явным образом. В этом случае выражение (3.11.1) называется ограниче- нием q-го порядка типа неравенства на переменные состояния. Функция S^} (х, и, t) — q-я производная от S — играет здесь ту же роль, что и функция С (х, и, t) в разд. 3.10. Гамильтониан системы Н = L + kTf + р5<«>, (3.11.2) где 5<?> = о на границе допустимой области, т. е. при 5 = 0, (3.11.3) р = 0 внутри допустимой области, т. е. при S < 0. (3.11.4) Уравнения Эйлера — Лагранжа для этой задачи легко получить из уравнений (3.10.4), (3.10.5) заменой С на 5<<г>. Необходимое условие для функции чувствительности р (/), как и в разд. 3.10, определяется неравенством р {£) 0 на 5 = 0 в случае минимизации J. (3.11.5) Поскольку воздействие на функцию 5 (х, t) может быть полу- чено лишь за счет изменения ее ry-й производной по времени, то не существует конечного управления, которое могло бы удержать систему на границе допустимой области, если траектория при
144 Глава 3 входе на эту границу не удовлетворяет следующей системе тан- генциальных (касательных) ограничений: S^'fx. t) Очевидно, эти тангенциальные ограничения должны удовлетво- ряться и при сходе с границы допустимой области. Уравнения (3.11.6) образуют систему граничных условий во внутренних точках; подобные условия уже рассматривались в разд. 3.5. Следовательно, функции чувствительности % (t) в общем случае разрывны в точках соединения участков траектории, одни из которых лежат на границе допустимой области, а другие — внутри этой области. Из соображений удобства в качестве точки, удовлетворяющей внутренним граничным условиям, можно выбирать точку входа на границу допустимой области1). Таким образом, множители X (/) и Н разрывны в точке входа на границу допустимой области (при t = и непрерывны в точке схода с границы. Если q величин в (3.11.6) назвать вектором N (х, t), то «условия скачка» в точке входа определяются непосредственно из (3.5.4) и (3.5.5). Как и в разд. 3.8, точки входа на границу допустимой области и схода с нее могут оказаться угловыми, т. е. точками, в которых вектор управления терпит разрыв. Отметим, что ограничение типа неравенства на управляющие переменные можно рассматривать как частный случай ограни- чения типа неравенства на фазовые переменные, если q = 0. Поскольку при этом вектора N не существует, то множители X (£), а также гамильтониан Н в точке t = непрерывны. Другие способы решения поставленной в данном разделе зада- чи состоят в том, что: а) число параметров состояния сокращается до п — q на участках оптимальной траектории, лежащих на гра- нице допустимой области, или б) само ограничение S (х, I), а не (х, и, t) прибавляется к гамильтониану 2). Пример 1. Задача о брахистохроне с ограничением первого по- рядка типа неравенства на фазовые координаты. Пусть система описывается уравнениями x = (2gy)1/2cos0, у = (2gy)1/2 sinQ, х (0) = у (0) = 0, х) Неединственность выбора % (t) на границе допустимой области 5=0 рассматривалась Брайсоном, Денхэмом и Дрейфусом [2.10]. 2) См. Дж. С и е й е р, А. Б р i й с о н, Задачи оптимального програм- мирования в случае ограниченного фазового пространства, Ракетная техника и космонавтика, т. 6, № 8, стр. 59—64 (1968).
Задачи оптимизации при наличии ограничений на траекторию 145 где х — горизонтальная дальность, у — высота (положительное направление—вниз), g — гравитационное ускорение, 0 — угол наклона траектории к горизонту (фиг. 3.11.1). Фиг. 3.11.1. Задача о брахистохроне при нали- чии ограничения в виде неравенства на фазовые ко- ординаты. Нужно определить 0 (t), при котором прямая х = I до- стигается за минимальное время, с учетом ограничения tg0 + 7г, 0 и 7г — постоянные величины. Это ограничение является ограничением первого порядка типа неравенства, так как выражение S = у — a; tg 0 — h О не содержит управляющей переменной 0 (/), a S = (2gy)1^ х X sec 0sin(0 — 0) уже содержит управляющую переменную. Ясно, что на прямой S = 0 выполняется равенство 0 = 0 (это следует из условия 5 = 0). Решение, не содержащее граничных участков (оно имеет мес- то, если h/l > 2/л [1 — (л/2— 0)tg0]), имеет вид п я . / Л g \ 1/2 0(7) =-2—“7, где ; х 2 1. sin 2coi \ у 2 . , , -Г = — И7-----=— ) , 4- = — sm2 ей; I л \ 2 / I -я ’ (л Z \ ^/2 — 1 —минимальное значение конечного времени; Xx=-—(D/g, Л„= — у ctgco/, где dtf = %Ж6Ж + Xv6y; Н = Кхх + Куу 4-1 = 0. Решение, содержащее. граничный участок (т. е. при hjl <2/лх X [1 — (л/2 —0)tg0]) имеет следующий вид: 0 (7) = Ля 0, < и2(^ —/), hi 10—0102
146 Глава 3 с ограничениями в виде неравенств 1/2 и различных значениях h/l. Фиг. 3.11.2. Брахистохроны в задаче на фазовые координаты при tg 0 = где zg 9—л/2+ctge \1/2 0)1 = —---------7----- \2 h ctg 0 ) л/2— 0 ----------. (01 Zg 9 +ctg 9 \1/2 (j) — --------— \ 2 14- h ctg 9 J t -/ / 2 C02 ’ Z/ = [| (Z + Л ctg 9) (9 + ctg9)]V2 - ctg 9 (9- n/2 + ctg 9)]1/2 - минимальное значение конечного времени; (Zj) -- Хж (Z*) = — fx0 tg 9, %й (Z— %й (Z?) = fx0, где fx0 = (ctg 9/g) (и2 — coi). Заметим, что u0 0 и -> t2, если h/l —> 2/л [1 — (n/2 — 9) tg 9]. В этом случае H = ЪхХ + hvy + 1=0 на 0 + t + tf. На фиг. 3.11.2 представлены решения при tg 9=1/2 для несколь- ких значений h/l. Пример 2. Минимизация энергии при наличии ограничения второго порядка типа неравенства на фазовые координатых). Пусть система описывается уравнениями v = а, х - v, !) Этот пример предложен Дж. В. Бреквэллом.
Задачи оптимизации при наличии ограничений на траекторию 147 V (0) = — V (1) = 1, х (0) = х (1) = 0. Требуется определить управление а (Z), минимизирующее крите- рий качества 1 (• J = у J a2 dt, с учетом ограничения х (t) I. Поскольку S = х — I и S = v не содержат явно а (Z), a S = a (t) — явная функция управляю- щей переменной, то заданное ограничение х (t) I является ограничением второго порядка типа неравенства на фазовые коор- динаты. Решим сначала задачу при отсутствии граничного участка, т. е. при I 1/4. Введем Е = 1/2а2, Е (0) = 0 и будем миними- зировать Е (1). Уравнения Эйлера — Лагранжа имеют вид = —%ж, %ж = 0, = 0, = — kxt + const, %ж = const, = const = 1, а = — Далее задача решается просто: а = —2, v = 1 — 2t, х = t (1 — t), откуда а:макс = 1/4, = —я — 2, %ж = 0, J = 2, Н = -р Kvv -р t\,EE ——2. При значениях параметра I, лежащих в диапазоне —1/6 </Z ^1/4, решение касается границы х = I и имеет следующий вид х): | — 8 (1 — 3Z) 4-24 (1 —4Z) Z, | -8(1-3Z)-р 24 (1 —4Z)(1 — t), I 1 — 8 (1 — 3Z) Z~P 12 (1 — 4Z) Z2, i — 1 -p 8 (1 — 3Z) (1 — Z) — 12 (1 — 4Z) (1 — Z)2, ( Z-4(l—3Z)Z2 + 4(1 —4Z)Z3, 0<Z<i/2, 1/2<Z<1; 0<Z<1/2, 72<z<1; o<z<i/2, I 1 —Z —4 (1 — 3Z) (1 —Z)2-p4 (1 —4Z) (1 — Z)3, 1/2<Z< 1; К = —а, откуда (V2 — 0) — (V2 + 0) = 0 (s здесь не используется); 24(1 —4Z), OCZC1^, — 24(1—4Z), 1/2<Z<1. !) В силу симметрии данную задачу с ограничением можно рассматри- вать как две одинаковые задачи без ограничений, но с заданными терминаль- ными условиями. 10*
148 Глава 3 Отметим еще, что Ах С/2 - 0) - %я (V2 + 0) = 48 (1 - 4Z), J = 2 + 6 (1 - 4Z)2, Н = -8 (1 - 6Z)2. При значениях Z в диапазоне 0 < Z <; 1/6 решение имеет вид 0<£<3Z, 3Z<Z<1 —3Z, 1 - 3Z<Z <1; 0<Z<3Z, 3Z<7<1—3Z, 1 —3Z<Z<1; 0</<3Z, 3Z<Z<1-3Z, 1—3Z<Z<1; 0<7<3Z, Заметим, что Z„(3Z — 0) — (3Z0) = (4/3Z2) (Ve — Z), ( 2/9l2, 0<^<3Z, I -2/9Z2, 3Z<£<1. Заметим еще, что (3Z — 0) — (3Z -J- 0) = 4/9Z2, J = 4/9Z, H = 0. На фиг. 3.11.3 представлены решения для различных значений Z. Наиболее интересной особенностью этих решений является то, что оптимальная траектория касается границы допустимой области только в одной точке для целого диапазона значений параметра Z (1/6 Z 1/4) и что только одна из функ- ций чувствительности, а именно %х, претерпевает при этом разрыв. При 0 < Z < 1/6 траектория находится на границе допустимой области некоторое конечное время, и уже оба множителя %х и в этом случае разрывны. Такая картина типична для задач
Задачи оптимизации при наличии ограничений на траекторию 149 с ограничениями второго порядка типа неравенств на фазовые координаты. Фиг. 3.11.3. Оптимальные траектории в задаче о минимуме энергии при наличии ограничений в виде неравенств на фазовые координаты (при раз- личных значениях I). А — параболы, не выходящие на границу допустимой области (I 1/4); Б — кубические параболы, касающиеся границы допустимой области лишь в одной точке (1/6 I 1/4); В — части кубических парабол, разделенных отрезком прямой х= I — const в точках бифуркации t — 3Z и t = 1 — 31 (0 I 1/6). Задача *). Пусть система описывается уравнениями х^ = х2, ^i(0)>0] а:1(//)=0, \ заданы, х2 — и; х2 (0) J х2 (tf) = 0, | и (t) |^1, —^2 «С V >0. Определить управление и (t), минимизирующее tf, ъ пред- положении, что для заданных начальных условий решение задачи существует. !) Предложена В. Денхэмом.
150 Глава 3 3.12. Раздельное определение участков траектории в задачах с ограничениями в виде неравенств на фазовые координаты Пусть в задаче оптимизации заданы ограничения типа нера- венств на фазовые координаты, и пусть оптимальная траектория содержит в средней части только один участок, лежащий на гра- нице допустимой области. Если «вклад» этого участка в критерий качества зависит только от значений одной из переменных в точ- ках входа и выхода на границу допустимой области (это может быть либо время /, либо одна из фазовых координат Xj), то оказы- вается возможным раздельное (независимое) вычисление участков траектории, не лежащих на границе допустимой области. По опре- делению «вклад» в критерий качества участка траектории, лежа- щего на границе допустимой области, определяется выражением *2 Д/ (tt, t2)= § L (х, и, t) dt. (3.12.1) fi Если этот интеграл можно представить в виде функции, завися- щей только от его конечных точек, т. е. в виде х) Д/ (ti, t2) = g [х (/г)! — g [х (^)1 (3.12.2) или Д/ (ti,t2) = g(t2) - g(ti), (3.12.3) то два остальных участка траектории, не лежащих на границе допустимой области и соответствующих интервалам времени to :С t :С ti и t2 sC t gC tf, могут быть определены независимо друг от друга. В самом деле, представим критерий качества J в виде к J= ф [£(//), tf] + f L(x, и, t) dt = Л + /2, (3.12.4) to где ti Л= j L(x, u, t) dt — g[x(ti)], (3.12.5) to ‘f J2^[x(t}), //]+ j L(x, u, t) dt + g [X (i2)]. (3.12.6) ti Или в несколько более общем виде: Л./ = g2 [t2, х (г2)] — gi , х (tj)] [сепарабельная (разделимая) функция концов интегрирования].— Прим, перев.
Задачи оптимизации при наличии ограничений на траекторию 151 Критерии качества J J2 и ограничения во внутренних точках типа (3.11.6) в моменты времени tt и t2 не зависят друг от друга, поэтому соответствующие участки траектории, не лежащие на границе допустимой области, могут определяться раздельно. Пример 1. Задача о брахистохроне при наличии ограничений на фазовые координаты (см. пример 1, разд. 3.11). В рассматривае- мой выше задаче о брахистохроне требовалось минимизировать tt. Эту величину можно представить в виде I ' x(ti) i,= Um+ О х к(/1) х На участке траектории, лежащем на границе допустимой области, выполняются равенства 9 = 0 и у = a; tg 0 + 7г; следовательно, я((2) Я((2) Г dx Г _________dx_________ e°s 0 cos eKsgCrtgO + A) = у — cosec 0 fj/"x (Z2) tg0 + 7г — x(ti) tg- 0 — Ta] n Ji = ti — Vе2y (tt)/g cosec 0, Jz = tf — tz + V2y (tz)/g cosec 0. Полученное решение, конечно, следует проверить, чтобы убедить- ся, что у (tz) < у (tt). Пример 2. Минимизация энергии (см. пример 2, разд. 3.11). В этом примере возможность раздельного вычисления участков траектории совершенно очевидна, поскольку а — 0 на границе допустимой области. Таким образом, ti Ч Jt = ~ f a2dt, J2 = ~ ( a2 dt. ^2 “J о <2 Полученное решение следует проверить, чтобы убедиться в спра- ведливости неравенства tz- Более глубокое рассмотрение поставленных в данном разделе вопросов и соответствующий численный пример можно найти в работе [2.21*]. 3.13. Условия в угловых точках * В задачах оптимального управления, особенно в тех, в которых заданы ограничения типа неравенств на управляющие переменные и/или фазовые координаты, управление и (t) может претерпевать
152 Глава 3 разрывы. Другими словами, угол наклона фазовых траекторий может изменяться скачком. По этой причине точки разрыва управления и (t) называются угловыми точками. В данном разделе будут сформулированы условия, которые должны выполняться в угловых точках для различных типов задач оптимального управления. Будем обозначать через t~ момент времени слева от угловой точки, а через С — момент времени справа от угловой точки. Справедливы следующие соотношения: 1. Для задач без ограничений на фазовые координаты и для задач с ограничениями типа неравенств на управляющие пере- менные k(t~) = X(t+), (3.13.1) H(t~) = H(t+), (3.13.2) Ни (Г) = Ни (^). (3.13.3) 2. Для задач с ограничениями типа неравенств на фазовые координаты: । а) в точке входа на границу допустимой области V (Г) = V (/+) + aTNx, (3.13.4) Н (Г) = Н (/+) — nTNt, (3.13.5) Ни (Г) = Ни (/+), (3.13.6) где условие N (х, t) = 0 заменяет q ограничений S (х, t) = О, S (х, t) = = 0. . . ., (х, t) = 0; б) в точке выхода с границы допустимой области должны выполняться условия (3.13.1) — (3.13.3). Пример. Рассмотрим пример задачи без ограничений типа неравенств, точки. Пусть оптимальное решение которой содержит угловые lf J = \ { — [и(1) — а (£)]2 и4 (/)} dt, t» (3.13.7) X = и, X (to) = хо, X (tf) = Xf, (3.13.8) здесь a (t) — известная функция времени. Для этой системы % = 0, откуда % = const, (3.13.9) Н (и, к, t) — Ги — [и — a (/)]а + и4, (3.13.10) Ни = 0 = 4и3 — 2и + [А, + 2а (<)]. (3.13.11)
Задачи оптимизации при наличии ограничений на траекторию 153 Последнее уравнение имеет в общем случае три решения для и. Всегда возможно выбрать функцию a (t) так, чтобы зависимость Н от и перед некоторым фиксированным моментом точно в этот Фиг. 3.13.1. Возможные виды зависимости Н от угловой точкой, в угловой точке и после и непосредственно перед угловой точки. момент и сразу же после момента была такой, как показано на фиг. 3.13.1. В этом случае в момент значение управляющей переменной и изменяется скачком с ut на и2 х). Таким образом, ti — угловая точка. Задача 1. Показать, что для задачи минимизации критерия качества вида т J — f F (х, х, t) dt о (т. е. для простейшего функционала вариационного исчисления) условия в угловых точках (3.13.1) — (3.13.3) сводятся к условиям Вейерштрасса — Эрдмана для угловых точек в классических вариационных задачах ^•Гг = ^-1г+, (3.13.12) (F-xF^^^F-xF.J^. (3.13.13) Задача 2. Описать ситуацию, когда оптимальная траектория покидает границу допустимой области при непрерывном управ- лении и (t). !) Это заключение непосредственно следует из принципа минимума (разд. 3.8), в соответствии с которым из трех возможных решений уравне- ния (3.13.11) должно выбираться то, при котором функция Н (и) имеет абсо- лютный минимум. Поскольку Нии = 12и2 — 2, то Нии < 0 при — 1/ф/б'< <и<;1/"|/б и Нии > 0 при 1/“|/§<и<—1/"|/б. Таким образом, И (и) может иметь локальные минимумы на полуинтервалах 1/“|/б и < с» и — оо < и .< —1/~|/б, разделенных отрезком — 1/"|/б и .< 1/“|/б. Если функция a (t) выбрана так, что в момент t = — 0 = «у абсолютный минимум Н (и) достигается в точке щ £ [1/“|/б, <») (фиг. 3.13.1,a),jB момент t = Ц — в двух точках щ £ [1/“|/б, оо) и и2 € (— <», —1/“|/б] (фиг. 3.13.1,6), а в момент t = Ц -|- 0 = if — в точке и2 £ [— оо, —1/1/6) (фиг. 3.13.!,<?),. то в момент происходит переключение с щ на и2.— Прим, перее.
Глава 4 Оптимальное управление с обратной связью Ч 4.1. Понятие о поле экстремалей В предыдущих разделах исследовались задачи программиро- вания оптимальных траекторий, которые в соответствии с терми- нологией теории автоматического регулирования следует отнести к задачам оптимального управления по разомкнутому контуру * 2). В этих задачах требовалось отыскать оптимальную управляющую функцию 3) и (t), которая переводит систему из заданного в момент tQ начального состояния х (i0) на некоторую заданную терминаль- ную гиперповерхность (гиперповерхность конечных состояний), •определяемую общими краевыми условиями (терминальными огра- ничениями) вида ф [ж (tf), i/] = 0. Обратим теперь внимание на то, что любая точка, лежащая непосредственно на оптимальной траектории между исходной начальной точкой [ж (i0), i0] и заданной терминальной гиперпо- верхностью, является возможной начальной точкой для одинако- вых оптимальных управляющих функций4); таким образом, каждой точке [ж (t), t\, расположенной на этой оптимальной х) Задачу отыскания оптимального управления с обратной связью в оте- чественной литературе называют задачей синтеза или же задачей аналити- ческого конструирования оптимальных регуляторов.— Прим, перев. 2) Такое название по существу оправдывается тем, что при управлении по заданной программе и (t) сигналы о фактическом, реальном движении не используются, и эти сигналы никак не влияют на формирование управляю- щего воздействия.— Прим, перев. 3) С целью уточнения следует заметить, что ранее были рассмотрены лишь некоторые из необходимых условий первого порядка, с помощью которых можно определить оптимальное и (t); в гл. 6 будут рассматриваться достаточные условия оптимальности и (t). 4) Авторы, видимо, имеют в виду следующее. Пусть и (i), tQ t tf,— оптимальное управление, соответствующее траектории, начинающейся в точ- ке х (t0) = х0 и заканчивающейся в момент tf на заданной гиперповерхности конечных состояний. Выделим на этой оптимальной траектории некоторую промежуточную точку х (t') = х', соответствующую моменту времени t', <о -С -С tf- Тогда оптимальным управлением и' (t) для траектории, начи- нающейся в точке (х', t') и заканчивающейся на той же самой гиперповерх- ности, будет та часть оптимальной управляющей функции и (t), которая соот- ветствует отрезку времени t' t tf. Другими словами, функций и (t) и и' (£) совпадают па отрезке i' i if- Справедливость этого утверждения легко доказывается от противного; оно является одним из фундаментальных свойств оптимальных управлений.— Прим. ред.
Оптимальное управление с обратной связью 155 траектории, соответствует значение оптимального управляющего вектора и (i) в этой точке. Если, однако, необходимо найти опти- мальную управляющую функцию, которая переводит систему на заданную терминальную гиперповерхность, но уже из точки, не лежащей непосредственно на оптимальной траектории из точки [ж (i0), U, то следует решить другую задачу оптимального про- граммирования, в которой в качестве начальной выбрана эта новая точка. В задачах автоматического управления часто возни- кает необходимость определения оптимальных управляющих функ- ций и (/), которые переводят большое количество различных начальных точек на заданную терминальную гиперповерхность, поскольку начальные состояния системы или моменты начала движения могут быть заранее неизвестными. Чтобы охватить эту ситуацию, приходится вычислять семейство оптимальных траекторий так, чтобы любая из возможных начальных точек либо находилась на одной из вычисленных оптимальных траек- торий, либо лежала в непосредственной близости от нее. В вариа- ционном исчислении такое семейство называется полем экстре- малей *). Вообще говоря, через каждую фиксированную точку [ж (/), i] проходит только одна оптимальная траектория, ведущая на заданную терминальную гиперповерхность, и каждой точке в этом смысле соответствует единственное оптимальное управление и0 (Z)2) Следовательно, можно записать и0 = и° (х, t). (4.1.1) Это закон оптимального управления с обратной связью, так как вектор управления теперь задается как функция текущего состоя- ния х (/) и текущего момента времени t 3) 4). На фиг. 4.1.1 для г) В рамках данной вариационной задачи поле экстремалей представ- ляет собой некоторое семейство программ, характеризуемое заданными гра- ничными условиями.— Прим. ред. 2) В гл. 6 будет показано, что происходит в тех необычных ситуациях, когда через заданную точку проходит более одной экстремали (см. разд. 6.3, примеры 1-=-3 и задачи 1, 2). 3) Такая схема управления с обратной связью часто называется явной схемой управления (наведения). 4) Это определение не является общепринятым в классической теории регулирования. Закон управления с обратной связью, рассматриваемый в этой теории, относится к методам управления по замкнутому контуру и существенно опирается на информацию как о реальном (х, t), так и о запро- граммированном движении жпр (t), unp (t). Поэтому форма оптимального зако- на управления с обратной связью, общепринятая в классической теории регулирования, будет такова: “° = “пр (О + “1 (У> О = “° (У< (*) где у = х — жпр (t). Эта разница существенна, ибо задача определения зако- на (*) требует первоначально применения к исходной вариационной задаче программирования концепции Ляпунова возмущенного-невозмущенного дви-
156 Глава 4 системы с одной фазовой координатой х изображены оптимальные траектории и несколько линий уровня и0 = const. Заметим, что Фиг. 4.1.1. Семейство оптимальных траекторий и линии уровня и0 = const. А — терминальное ограничение г|> (х, t) — 0; Б — оптимальные траектории; В — линии уровня и°= const. в этом случае терминальная гиперповерхность ф (х, t) — 0 пред- ставляет собой просто кривую в плоскости (х, t). Фиг. 4.1.2. Семейство оптимальных траекторий и линии уровня оптималь- ного значения критерия качества J0. А — терминальное ограничение г|> (х, () = 0; Б — оптимальные траектории; В — линии уровня J°=const. жения и составления дифференциального уравнения возмущенного движения относительно переменной у. Это существенно не только математически, но и физически, поскольку информация о реальном движении х, и, t должна доставляться измерительными приборами, в которых шкала отсчета имеет нулевое деление, отвечающее запрограммированному движению жпр, ипр. Закон обратной связи (*) определенно совпадает с (4.1.1) лишь тогда, когда жпр = ипр = 0, и правая часть уравнений движения обращается тож- дейстенно в нуль при жпр = ипр = 0.— Прим. ред.
Оптимальное управление с обратной связью 157 Если фиксирована некоторая начальная точка (х, t) и опреде- лена оптимальная траектория, ведущая из этой точки на терми- нальную гиперповерхность, то имеется единственное значение критерия качества J°, соответствующее этой траектории. Таким образом, можно рассматривать оптимальное значение J° критерия качества J как функцию одной только начальной точки (я, t), т. е. J° = J0 (х, t). (4.1.2) Функция J° (х, t) называется иногда функцией оптимального качества. В одномерном случае кривые постоянных значений J0 могут быть нанесены на плоскости (х, t), как показано на фиг. 4.1.2. Такие кривые постоянных значений J0 подобны «вол- новым фронтам», а оптимальные траектории —«лучам». Однако в общем случае эти лучи не ортогональны волновым фронтам; в этом состоит, в частности, отличие от задач оптики, где лучи ортогональны волновым фронтам, поскольку вектор г пропор- ционален вектору X (см. задачу 2 разд. 2.7 и задачу 1 разд. 3.2). Один из аспектов классической теории Гамильтона — Якоби связан с нахождением дифференциального уравнения в частных производных, которому удовлетворяет функция оптимального качества J°. Имеется также (векторное) дифференциальное урав- нение в частных производных, которому удовлетворяет закон опти- мального управления и0 (х, t). Веллман обобщил теорию Гамиль- тона — Якоби на дискретные многошаговые системы и-комбина- торные задачи и назвал эту обобщенную теорию динамическим программированием. Подход к решению поставленной задачи с позиций этой теории будет обсуждаться в следующем разделе данной главы. Стационарные системы. Если уравнения, описывающие движе- ние системы, а также ограничения и критерий качества не являют- ся явными функциями времени и если конечное значение време- ни tf не задано, то закон оптимального управления, оптимальное значение критерия качества и время перехода не зависят в свою очередь явно от времени, т. е. и0 = и0 (х), (4.1.3) J° = J0 (х), (4.1.4) Т° = Т° (ж). (4.1.5) Такие системы будем называть стационарными системами 1). Пример. В примере 1 разд. 2.7 рассматривалась простая ста- ционарная система и была найдена траектория минимального *) В задачах оптимального быстродействия, в которых минимизируется время перехода, функция оптимального качества совпадает со временем перехода, т. е. J° (х) == Т° (х).
Фиг. 4.1.3. Оптимальные по быстродействию траектории корабля, плывущего через область с линей- но изменяющейся скоростью течения, и линии постоянных значений угла курса хр. Фиг. 4.1.4. Оптимальные по быстродействию траектории корабля, плывущего через область с линейно изменяющейся скоростью течения, и линии постоянных значений времени, оставшегося до прибытия (изо- хроны).
160 Глава 4 времени перехода материальной точки из заданной начальной точки в начало координат в области с линейным изменением ско- рости течения. Для этой задачи можно довольно просто построить поле экстремалей, используя полученные выше параметрические уравнения ^- = sec гр — sec гр/, (4.1.6) Д = Д [sec гр/ (tg гр/ — tg гр) — tg гр (sec гр/ — sec гр) Ц- + 1п.МЛ±зесгр/-] 1 tg гр sec гр J v ' —(4.1.8) Строя графики зависимости у (х), полученной на основе уравне- ний (4.1.6) и (4.1.7) (в которых х и у рассматриваются как функ- ции гр), при различных значениях гр/ получают оптимальные траектории. После этого кривые постоянных значений критерия качества V (tf — t)/h и кривые постоянных значений управляю- щего угла гр могут быть легко получены, если на оптимальные траектории нанести точки одинаковых значений V (tf — t)/h и гр и затем соединить их кривыми (фиг. 4.1.4 и 4.1.3 соответственно). Задача. Построить графики, подобные приведенным на фиг. 4.1.3 и 4.1.4, для задачи 5 из разд. 2.7 на оптимальное быстро- действие. 4.2. Динамическое программирование; дифференциальное уравнение в частных производных для оптимального значения критерия качества Рассмотрим общую задачу оптимального управления разд. 2.7 для произвольной начальной точки (х, t). Критерий качества имеет вид J = ф [х (tf), tf] + j L [x (т), u (t), t] dx, (4.2.1) t движение системы описывается векторным дифференциальным уравнением х = f (х, и, t) (4.2.2) с терминальным граничным условием гр [х (tf), //] = 0. (4.2.3)
Оптимальное управление с обратной связью 101 Оптимальное значение критерия качества, определенное соот- ношением (4.1.2), для данной задачи имеет вид / * J°(x, t) = min | ф [x (tf), tfj + C L (x, и, -r) dt 1 , (4-2.4) u(t) I J J причем на гиперповерхности ty(x, t) = 0 должно выполняться граничное условие (®> 0 |ф(эс, ()=о= ф (•£, t). (4.2.5) Предположим, что функция J° (х, t) существует, непрерывна и имеет непрерывные частные производные первого и второго порядка во всех представляющих интерес точках пространства (a;, t). Пусть система движется из точки (х, t) в течение короткого отрезка времени AZ и при этом управление и (t) не является опти- мальным. Тогда, согласно уравнению (4.2.2), система достигнет новой точки [х + / (х, и, t) \t, t + AZ]. (4.2.6) Предположим, что при дальнейшем движении из этой точки используется оптимальное управление; тогда функция оптималь- ного качества с точностью до членов первого порядка может быть представлена в форме J° (х + / (х, и, t) &t, t + AZ) 4- L (x, u, t) \t = J1 (x, t). (4.2.7) Поскольку в интервале от t до t + использовалось неоптималь- ное управление, то имеет место неравенство J° (x,t) ^J1 (х, t). (4.2.8) Знак равенства в (4.2.8) будет справедлив только в том случае, если в интервале от t до t + AZ управление и (Z) выбирается так, что оно минимизирует правую часть соотношения (4.2.8) J0 (х, Z) = min {J° [х + / (х, и, Z) AZ, Z + AZ] -J- L (x, и, Z) AZ). u (4.2.9) Так как по предположению функция J° (х, Z) непрерывна и диф- ференцируема, то можно' разложить правую часть последнего равенства в ряд Тэйлора *) по х и Z 'J° (х, Z) = min { J° (х, Z) + / (х, и, Z) AZ + AZ + L (х, и, Z) AzJ-. (4.2.10) i) Для получения функционального уравнения метода динамического программирования достаточно, чтобы функция J° была дифференцируема по х, t.— Прим. ред. 11—0102
Поскольку J° и, следовательно, dJ°ldt не зависят явным образом от и, то, переходя к пределу при 0 в выражении (4.2.10), получим '-) — -^- = пнп[Л(;г, и, и, /)]. (4.2.11) В разд. 2.3 было показано, что множители Лагранжа A, (Z) являются функциями чувствительности, т. е. бесконечно малые изменения начальных условий dx и бесконечно малое изменение начального момента времени dt вызывают малые изменения кри- терия качества dJ° в соответствии с равенством dJ° = V (£) dx — Н (t) dt, (4.2.12) где Н (х, А,, и, f) = L (х, и, Z) + A,1f (х, и, t). (4.2.13) Из равенства (4.2.12) следует, что на оптимальной траектории %г__^ Я = (4.2.14) дх dt \ г Учитывая соотношение (4.2.13), уравнение (4.2.11) можно пере- писать в виде (4.2.15) где Я0 (х, t'j = штЯ (х, и, t^ . (4.2.16) Уравнение (4.2.15) [или (4.2.11)] называется уравнением Гамиль- тона — Якоби — Веллмана. Это нелинейное дифференциальное уравнение в частных производных первого порядка, которое сле- дует решать с граничным условием (4.2.5) 2). Уравнение (4.2.16) показывает, что и° является таким значе- нием управления и, которое доставляет глобальный минимум гамильтониану Н (х, dJ°/dx, и, t) при постоянных значениях х, х) По поводу возможности перестановки порядка операций минимиза- ции и взятия предела см. работу [4.2]. 2) Уравнение (4.2.11) является основным функциональным уравнением метода динамического программирования. Оно превращается в уравнение в частных производных типа Гамильтона — Якоби лишь после проведения операции минимизации по переменной и в его правой части и замены и выра- жением / 9J° \ ио^ио (х, t, —), доставляющим этот минимум.— Прим. ред.
Оптимальное управление с обратной связью dJ°ldx и V, это другая формулировка принципа минимума 4). Если на х и и не наложено никаких ограничений, то, как следует из принятых выше предположений о дифференцируемости и урав- нения (4.2.16), управление и должно удовлетворять соотношениям = + = (4.2.17) ди ди 1 дх ди ~>0 (4-2.18) ди2 для всех t <1 tf, другими словами, каждая компонента вектора дН1ди должна обращаться в нуль, а матрица д2Н1ди2 должна быть положительно полуопределенной. Уравнение (4.2.18) яв- ляется известным в вариационном исчислении условием Лежанд- ра — Клебша 2). Одним из самых эффективных способов решения нелинейных дифференциальных уравнений в частных производных типа (4.2.15) считается «метод характеристик» 3), который эквивалентен нахож- дению «поля экстремалей» с помощью вариационного исчисления. Существенным недостатком динамического программирования являются трудности вычислительного характера, которые Велл- ман назвал «проклятием размерности». Запись решения даже умеренно сложной задачи требует очень большого объема памяти. Если нужно определить только одну оптимальную траекторию, начинающуюся из известной начальной точки, то бессмысленно да и утомительно искать все поле экстремалей 4); если же необ- 4) В СССР и в большей части классических работ гамильтониан Н опре- деляется выражением с противоположным знаком, так что для минимизации. J необходимо максимизировать Н (принцип максимума Понтрягина). [Эта характеристика принципа максимума довольно поверхностна. Относительно- различия между принципом максимума Л. С. Понтрягина и методом динами- ческого программирования см. [2.16, 4.6].— Ред.} В качестве уточнения сле- дует указать, что выведенное выше условие минимума является частью доста- точного условия [т. е. если удается решить (4.2.15) и (4.2.16), то управление и, определенное из (4.2.16), будет оптимальным], тогда как принцип максимума непосредственно получается как необходимое условие с помощью рассужде- ний, аналогичных приведенным в гл. 2 и 3. Более подробные сведения о свя- зи динамического программирования и вариационного исчисления можно найти в разд. 6.3 и в книге Дрейфуса [4.3]. 2) Заметим, что соотношения (4.2.17), (4.2.18) являются локальным вариантом глобального в пространстве управлений условия (4.2.16) (см. в разд. 6.9 другой подход к получению условия (4.2.16) через необходимое условие Вейерштрасса). 3) См. Р. Курант, Д. Гильберт, Методы математической физики, ГТТИ, т. 2, гл. 2, 1951 (или Р. Курант, Дифференциальные уравнения в частных производных, изд-во «Мир», 1968).— Прим, перев. *) Как было показано в замечании относительно формулы (4.1.1), синтез оптимальных законов обратной связи вида и° = и° (у, t), у = х — хпр (1) не требует определения всего поля экстремалей в вариационной задаче про- граммирования. Поэтому содержащаяся здесь критика метода Веллмана не относится к случаю решения задачи синтеза законов обратной связи, типич- ных для классической теории регулирования.— Прим. ред. 11*
164 Глава 4 ходим закон оптимального управления с обратной связью, то можно использовать схемы управления с обратной связью для возмущенного движения, которые оказываются часто удовлетво- рительными х) (гл. 6). Вывод уравнений Эйлера — Лагранжа с помощью уравнения, Гамильтона — Якоби. Рассмотрим некоторую оптимальную траекторию и соответствующую ей оптимальную управляющую функцию. Справедливо соотношение [см. (4.2.14)] dt d dt djo \ _ d»JQ • d* 2 *J° dx ) dx2 X ' dx dt (4.2.19) Дифференцирование уравнения (4.2.15) по x при u° = u°(x, t) дает d2J° . dL dL du° dx dt ' dx ' du dx d2/° . dj° dx2 ' dx df du° du dx — I &L I jt i dJ0 df i ( dL dJ° \ ди° _ o /Z 9 9f)\ dx dt ' dx ' ‘ dx2 ‘ dx dx ^~ \ du dx du / dx ' f Согласно (4.2.17), коэффициент при ди°!дх в полученном выраже- нии на оптимальной траектории обращается в нуль 2). Исполь- зуя (4.2.20), преобразуем (4.2.19) к виду = (4.2.21) Это векторное уравнение совместно с (4.2.17) образует систему уравнений Эйлера — Лагранжа. Кроме того, из условия, что J0 равно ф на гиперповерхности ф = 0, следует существование вектора v, удовлетворяющего соотношению Т-И “ (-57 +’Т5)<4 *'2'22> Таким образом, изменение критерия качества, соответствую- щее допустимому изменению фазовых координат (<7ф = 0), опре- деляется линейной комбинацией градиента ф по фазовым коорди- натам и градиентов ф (ограничений) по фазовым координатам (разд. 1.2). г) Крупный вклад в разработку проблем оптимального управления воз- мущенным движением (связанных особенно с задачей аналитического кон- струирования оптимальных регуляторов, впервые сформулированной в [5.6]) внесли советские ученые. Обзор их работ содержится в докладе А. М. Летова на II конгрессе ИФАК (см. [4.8], а также [4.7 и 5.7]).— Прим, перее. 2) Если на управляющие переменные наложены ограничения типа нера- венств, то можно показать (например, путем введения модифицированного гамильтониана, как в гл. 3, см. также [4.3 и 4.4]), что выражение (Lu + + Jxfu>ux и в этом случае обращается в нуль.
Оптимальное управление с обратной связью 165 Комбинаторные задачи. Методы динамического программиро- вания особенно полезны при решении дискретных многошаговых задач оптимизации, в которых на каждом шаге имеется лишь Фиг. 4.2.1. Комбинаторная задача на минимум времени перехода (числами указано время движения вдоль отрез- ков сети). Фиг. 4.2.2. Решение задачи на минимум времени перехо- да (фиг. 4.2.1) методом дина- мического программирования. ограниченный выбор управлений и отсутствует информация о про- изводных. Рассмотрим самый простой пример, когда на каждом шаге возможен выбор только среди двух управлений. Пусть тре- буется определить траекторию из точки А в точку В (фиг. 4.2.1) так, чтобы сумма чисел, соответствующих отрезкам этой траекто- рии, была минимальной (при этом разрешается двигаться только Фиг. 4.2.3. Первый шаг решения задачи на минимум перехода (фиг. 4.2.1) методом динамического програм- мирования. направо из каждого узла, т. е. или направо вниз или направо вверх). Если считать, что каждое из этих чисел представляет собой время движения вдоль соответствующего отрезка, то задача состоит в поиске пути, минимального по времени. Существует 20 различных путей из точки А в точку В, если Двигаться только направо. Исследовать все возможные пути довольно утомительно. Вместо того чтобы выходить из точки А и сравнивать различные пути, ведущие в точку В, будем отправ- ляться из точки В и определим для каждого из 15 узлов сетки минимальный по времени путь до точки В (фиг. 4.2.2).
166 Глава 4 Первый шаг назад в точку В может быть сделан либо сверху, либо снизу. Как следует из фиг. 4.2.3, этим шагам соответствуют отрезки времени 10 и 11; числа поставлены около двух ближайших к В узлов; возможное направление движения показано стрелками, ведущими в точку В. Определим теперь минимальное время движения из узла х (фиг. 4.2.3) в конечную точку В. Возможны два пути: один — через узел 10, который в сумме занимает 16 единиц времени (6 + 10). другой — через узел 11, который занимает 18 единиц времени (7 + 11). Очевидно, более быстрым является путь через узел 10; таким образом, узлу х поставим в соответствие число 16 и стрелку из этой точки направим вверх (к узлу 10). Эта процедура повторяется для следующих узлов, лежащих слева от тех, для которых уже определен быстрейший путь в точ- ку В. Таким способом для каждого узла (фиг. 4.2.2) определяется минимальное значение времени и оптимальное направление движения. Траектория наименьшего времени из точки А в точку В может быть теперь получена, если двигаться из А все время в направ- лении, указанном стрелками; этот оптимальный путь отмечен на фиг. 4.2.2 пунктирной линией, он занимает 40 единиц времени. Заметим, что предложенный алгоритм потребовал определения только 15 чисел вместо вычисления времени движения по каждому из 20 возможных путей. Сокращение вычислений становится более заметным при увеличении количества отрезков пути на каждой из сторон квадрата: Количество отрезков на стороне 3 4 5 6 7 п Число возможных путей 20 70 252 724 2632 (2п)!/п!п! Количество вычислений 15 24 35 48 63 (п + 1)2_ 1 Использование этого алгоритма дает полезную дополнитель- ную информацию, а именно минимальные по времени пути в точ- ку В из любого узла сетки. Задача 1. Решить задачу о минимальном расстоянии на пло- скости методом динамического программирования и указать соответствующую функцию оптимального качества и закон опти- мального управления с обратной связью. Задача 2. Для сети размером 5x5, изображенной на фиг. 4.2.4, найти минимальный по времени путь из точки А в точ-
Оптимальное управление с обратной связью 167 ку В, причем допускается движение только направо. Здесь имеет- ся 70 возможных путей, однако для получения решения достаточ- но определить только 24 числа. Фиг. 4.2.4. Сеть для задачи 2 (чи- слами указано время движения вдоль отрезков сети). Задача 3. Определить максимальный по времени путь из точ- ки Л в точку В для сети, изображенной на фиг. 4.2.4; по-прежнему разрешается двигаться только направо. Задача 4. Некоторые авиакомпании для определения мини- мальных по времени траекторий полета реактивных самолетов над Северной Атлантикой используют вычислительные машины. Фиг. 4.2.5. Сеть для задачи 4 (числами указано время движения вдоль отрезков сети). При этом принимаются во внимание сильные ветры, обычно дую- щие на высотах крейсерского полета таких самолетов, и ограни- чения на расположение возможных траекторий, вытекающие из условий управления воздушным движением. Таким путем удается получить экономию порядка 15 мин на каждый номи- нальный семичасовой рейс. Для расчета выбирается некоторая Сеть контрольных пунктов, а каждая траектория разбивается
168 Глава 4 на ряд отрезков, соединяющих эти пункты и направленных с востока на запад. Упрощенный пример такой сети изображен на фиг. 4.2.5. Пусть точка А — это Нью-Йорк, а точка М — Лондон. Контрольные пункты от В до L находятся над океаном и определены известными координатами — широтой и долготой. Используя сведения о ветре, собранные «кораблями погоды», диспетчер летной службы вычисляет время полета вдоль каждого из отрезков пути. На практике обычно число пунктов контроля значительно больше, чем изображено на фиг. 4.2.5, поэтому расчет времени полета необходимо осуществлять с помощью ЦВМ. Используя алгоритм динамического программирования, опре- делить минимальную по времени траекторию, считая, что числа, указанные на фиг. 4.2.5, означают время (в минутах) полета на участках между двумя контрольными пунктами. Задача 5. Алгоритм динамического программирования для ком- бинаторных задач, изложенный в этом разделе, можно приме- нить и к нерегулярным сетям, в каждом узле которых имеется Фиг. 4.2.6. Сеть для за- дачи 5 (числами указано время движения вдоль от- резков сети). более чем два выбора пути (фиг. 4.2.6). Определить минимальный по времени путь из узла 12 в узел 1; при этом двигаться можно только направо. Задача 6. Рассмотрим следующую задачу выбора маршрута (фиг. 4.2.7). Пусть требуется перейти последовательными шагами из некоторой точки, расположенной на уровне 0, в точку, рас- положенную на уровне 4. Затраты на каждом участке пути обо- значены цифрами около соответствующего участка, а общие затра- ты определяются суммой затрат на участках пути с учетом конеч- ных затрат, установленных для каждой из возможных позиций на уровне 4 (см. цифры в кружках на фиг. 4.2.7). 1. Определить минимальный по стоимости путь от точки А до уровня 4. - 2. Определить минимальный по стоимости путь из точки А в точку В.
Оптимальное управление с обратной связью 169 3. Определить минимальный по стоимости путь от уровня О до уровня 4. 4. Определить минимальный по стоимости путь от точки А до поверхности S (фиг. 4.2.7), считая, что конечные затраты на S .равны нулю. 5 х). Решить первую задачу при следующем дополнительном условии: каждый раз, когда изменяется направление движения Фиг. 4.2.7. Сеть для зада- чи 6 (числами указана сто- имость перехода вдоль от- резков сети). при переходе через данный уровень, к стоимости, соответствую- щей следующему участку пути, добавляется единица. В чем состоит отличие этой задачи от предыдущих? 6. Какие величины в рассматриваемой задаче являются ана- логами величин J°(x, t), и° = к(х, t), х, и, t, f(x, и, f), ф [х (tf), tf], L (х, u,t) и ф [х (tf), fyl? Задача 7. Определить минимальный по времени путь из точ- ки Л в точку В для сети, показанной на фиг. 4.2.8, и найти мини- Ф и г. 4.2.8. Сеть для задачи 7 (числами указано время движения вдоль отрезков сети). 1) Задача предложена С. Дрейфусом.
170 Глава 4 мальное время перехода. Движение вдоль отрезков пути разре- шается только направо, время перехода между промежуточными точками на фиг. 4.2.8 указано цифрами. 4.3. Уменьшение размерности фазового пространства путем использования безразмерных переменных Одна из трудностей использования поля экстремалей для полу- чения закона оптимального управленияю обратной связью состоит в том, что даже при рассмотрении систем умеренной сложности требуется запоминающее устройство большой емкости. В некото- рых задачах объем запоминаемого материала можно уменьшить, если удастся установить, что управление зависит только от неко- торых безразмерных группировок фазовых координат. Проиллю- стрируем этот прием на примерах. Пример 1. Задача о брахистохроне. Определить закон опти- мального управления с обратной связью 0 = 0 (V, х, у), соответ- Ф и г. 4.3.1. Схема и обозначе- ния к задаче о брахистохроне. ствующий минимальной по времени траектории из произвольного состояния (У, х, у) до прямой х = 0. Уравнения движения име- ют вид V = g sin 0, (4.3.1) ж'= — У cos 0, (4.3.2) у = V sin 0, (4.3.3) где V — скорость, g — гравитационное ускорение (фиг. 4.3.1) Заметим, что конечное значение координаты у не задано и у не входит в уравнения для V и х. Следовательно, искомый закон управления не зависит от у: 0 = 0 (У, х). (4.3.4) Далее, поскольку величина 0 (угол) является безразмерной, то для правой части уравнения (4.3.4) можно найти безразмерную группировку переменных V, х и параметра g. Существует только
Оптимальное управление с обратной связью 171 одна такая безразмерная группировка, а именно gx/V2; следо- вательно, 9 = /1(», (4.3.5) гДе /1 (2) — некоторая функция одной независимой переменной 2 = gx/V2. Подобным образом получаем общие функциональные соот- ношения для минимального значения времени перехода (if — t) и для изменения координаты у, т. е. у — yj (где yf — конечное значение у): 6-3.6) ($•). (4.3.7) гДе /г (2)> /з (2) — некоторые функции аргумента z = gx/V2. Задача 1 х). Используя результаты задачи 6 разд. 2.7, пока- жите, что функции (4.3.5), (4.3.6) и (4.3.7) примера 1 можно представить неявно в следующей форме: О = arccos , где Vf — значение конечной скорости; g (tf—t) (п/2)— arcsin (V/Vf) V V/Vf Vf — У V2 (Vl_ x 2gx \V2 Здесь отношение Vf/V является решением трансцендентного уравнения >4+ (-(А)’ 2-) . Построить графики зависимости 0, [g (tf — t)/V] и (у — У/)/х от 2gx/V2. Пример 2. Оптимальное программирование направления тяги в задаче встречи двух космических кораблей (g = О, а = const). Космическому кораблю (К К), имеющему постоянное реактивное ускорение а, необходимо за минимальное время встретиться с дру- гим (неманеврирующим) космическим кораблем; управляющей пере- менной является направление вектора тяги ц. Рассмотрим движе- ние в системе координат, начало которой совпадает с целью (т. е. с неманеврирующим кораблем, совершающим полет с постоян- ной скоростью относительно инерциальной системы отсчета, 1) См. J. L. Speyer, Teclin. Rep. 492, Div. Engineering and Appl. Physics, Harvard Univ., Dec. 1965.
172 Глава 4 фиг. 4.3.2). Задача состоит в нахождении закона управления с обратной связью ц = ц (V, ф, D, q), при котором преследую- щий корабль достигает выполнения условий встречи D (tf) = = V (tf) = 0 за минимальное время tf. Движение преследующего Фиг. 4.3.2. Схема и обозначения к задаче о встрече за минимальное время. корабля в относительной полярной системе координат описы- вается уравнениями V = a cos (ф + ц), 70 = V (ф — q) = —a sin (ф + ц), D = —V cos ф, Dq = V sin ф, (4.3.8) (4.3.9) (4.3.10) (4.3.11) где V — модуль вектора относительной скорости, 0 — угол между вектором относительной скорости и неподвижной линией отсчета (линией горизонта). Отметим, что конечное значение q не задано, и эта величина не входит в уравнения движения для V, ф и D, поэтому закон управления должен быть независимым от q. Далее, поскольку т] (угол) — безразмерная величина, то, следовательно, можно подобрать безразмерную группировку переменных V, D и пара- метра а (заметим, что угол ф тоже-безразмерная величина). В этом примере, как и в предыдущем, имеется только одна такая безраз- мерная группировка, а именно aD/V\ Таким образом, П = Л «,<₽)• (4.3.12) Подобным образом получаем общие функциональные соотношения для минимального значения времени до встречи tf — t и для изме-
-юг/гЛ е
Фиг. 4.3.4. Оптимальные по быстродействию траектории!встречи и линии постоянных значений времени (Г — /), оставшегося до встречи.
Оптимальное управление с обратной связью 175 нения величины q, т. е. qf — q (где qf — конечное значение q): a (tf — t) / aD ф), (4.3.13) (4.3.14) где Л и /2 — некоторые функции двух безразмерных аргументов. Эта задача была решена Брайсоном1), результаты графически Фиг. 4.3.5. Схема и обозна- чения к задаче выведения на орбиту за минимальное время. (X, у) vx представлены на фиг. 4.3.3 и 4.3.4. Решение не представляет труд- ностей, однако оказывается довольно утомительным. Задача 2. Возвращаясь к примеру 1, рассмотрим задачу о бра- хистохроне с терминальными условиями х = у = 0. (Направле- ние оси у следует изменить па противоположное.) Показать, что закон управления с обратной связью имеет вид и найти неявные уравнения, решение которых определит эту функцию и безразмерную величину — время до конца перехода . g (tf _ t)/V. Задача 3. Возвращаясь к примеру 2, показать, что закон управления с обратной связью, обеспечивающий перехват цели за минимальное время в точке г = 0 при g = 0, а = const, может быть представлен в форме / аО \ п = ф) . Найти неявные уравнения, необходймые для вычисления этой функции, а также безразмерного времени, оставшегося до дости- жения цели la (tf — t)IV] 2). l) А. Е. Bryson, Nonlinear Feedback Solution for Minimum Time Rendezvous with Constant Thrust Acceleration, 16th Int. Astro. Congress, Athens, Greece, Sept. 1965. (См. также Report 478, Div. Engineering and Appl. Physics, Harvard Univ., July 15, 1965.1 2) Cm. G. Smuck, M. Sc. Thesis, M. I. T., June 1966.
176 Глава 4 Задача 4 г). Показать, что закон управления с обратной связью для оптимального по быстродействию выведения на орбиту (фиг. 4.3.5) при незакрепленной конечной дальности и yf = О, Vyf = 0 можно представить в форме Здесь Vxf — конечная (орбитальная) скорость, yf — конечная (орбитальная) высота, V&? — конечная вертикальная скорость. Предполагается, что а = const, g = const. 1) См. D. Winfield, Techn. Report 507, Div. Engineering and Appl. Physics, Harvard Univ., July 1966.
> Глава 5 Линейные системы с квадратичным критерием качества; линейная обратная связь 5.1. Терминальные1} управляющие устройства и регуляторы; введение Для нелинейных управляемых систем, представляющих прак- тический интерес, дифференциальное уравнение в частных про- изводных первого порядка Гамильтона — Якоби — Веллмана может быть решено аналитически лишь в редких случаях. Поэтому разработка точных явных схем наведения 2) и управления с обрат- ной связью для этих систем в общем случае невозможна. Однако, как уже указывалось в гл. 4, во многих случаях могут быть осу- ществлены схемы управления возмущенным движением (иногда называемые пертурбационными или возмущенными схемами наве- дения). В этих схемах используются лишь экстремальные траек- тории, которые лежат вблизи номинальной экстремальной траек- тории. В гл. 6 будет показано, что схемы управления возмущен- ным движением приводят к рассмотрению нестационарных линейных систем с квадратичным критерием качества. Многие объекты управления достаточно точно описываются линейными динамическими моделями. Путем разумного выбора квадратичных критериев качества и квадратичных ограничений в этом случае удается синтезировать весьма удовлетворительные управляющие устройства с линейной обратной связью. При дальнейшем изложении будет делаться различие между терминальными управляющими устройствами (устройствами, управляющими конечным состоянием системы) и регуляторами. Терминальное управляющее устройство предназначено для при- ведения системы в условия, близкие к желаемым, в момент окон- чания процесса управления (который может быть либо задан, либо может оставаться свободным). При этом одновременно должно быть достигнуто приемлемое поведение системы в течение всего процесса управления. Регулятор предназначен для удерживания отклонений стационарной системы от заданных условий в допу- стимых пределах путем использования приемлемых значений управляющих воздействий. ') Терминальное управление — управление конечным состоянием систе- мы, т. е. состоянием, соответствующим моменту tf (при этом сам момент окон- чания не обязательно должен быть задан явно).— Прим, перев. 2) См. примечание па стр. 155. 12—0102
178 Глава 5 5.2. Терминальные управляющие устройства; квадратичная функция гитрафа на величину терминальной ошибки Пусть система описывается векторным линейным дифферен- циальным уравнением с переменными коэффициентами х = F (t) х + G (t) и; (5.2.1) здесь х — n-мерный вектор; и — m-мерный вектор; F (t), G (t) — матрицы размерности и X и и п X т соответственно. Необхо- димо перевести систему из некоторого начального состояния х (Zo) в заданное конечное состояние х (tf) 0 (5.2.2) (tf — заданный момент окончания процесса управления), исполь- зуя допустимые функции управления и (t) и не выходя за допу- стимые пределы по фазовым переменным в процессе движения. Один из методов решения этой задачи состоит в минимизации критерия качества, представляющего собой сумму квадратичной формы от вектора конечного состояния и интеграла от суммы квадратичных форм вектора состояния и вектора управления *): > *f J = i (xTSfX)t=t. + 4 ( (хТАх + urBu) dt. (5.2.3) to Здесь Sf и A (t) — положительно полуопределенные матрицы, В (t) — положительно определенная матрица. Для получения допустимых уровней величин х (tf), х (t) и и (t) должен быть произведен подбор соответствующих матриц Sf, А, В. Они могут быть выбраны, например, диагональными со следующими элементами: l/(Sf)n = Максимально допустимое значение [х, (tf)l2, 1/Ац = (tf — Zo) X Максимально допустимое значение [х; (Z)]2, 1/Вц — (tf — t0) X Максимально допустимое значение lu (Z)]2. Используя методы гл. 2 (или методы гл. 4, которые здесь также применимы; см. по этому поводу конец данного раздела), можно найти управление и (Z), минимизирующее (5.2.3), путем совме- стного решения системы (5.2.1) и уравнений Эйлера — Лагранжа Х(г,) = 5,»((,), (5.2.4). ' > = °- <5-2-5’ х) Более общее выражение для J привэдено в задаче 4 данного раздела.
Линейные системы с квадратичным критерием 179 где Н = 4- хТАх + 4- итВи + Кт (Fx + Gu). л £1 (5.2.6) Произведя операции дифференцирования в (5.2.4) и (5.2.5), получим откуда £ = -Ах - FTK, (5.2.4') Ви + Grk = 0, (5.2.5') и = -B-'GTk. (5.2.5") Подстановка (5.2.5") в (5.2.1) и присоединение к полученной системе уравнения (5.2.4') приводят к линейной двухточечной краевой задаче я] [F, — GS-1Gr] р xJ“L —~ВТ JU (5.2.7) (5.2.8) где х (i0) задано, (5.2.7') Л, (tf) = SfX (tf). (5.2.8') Поскольку задача является линейной, а дифференциальные урав- нения и терминальные граничные условия однородные, то, оче- видно, х (t) и A, (t) пропорциональны величине х (i0). Перейдем теперь к обсуждению двух способов решения изло- женной краевой задачи. Решение с помощью переходной матрицы. Один из путей реше- ния системы (5.2.7), (5.2.8) состоит в использовании линейной суперпозиции решений. Для этого определяется система п линейно, независимых решений указанной системы 2п дифференциальных уравнений, т. е. хВ> (t) и (t), i — 1, 2, . . ., п. При этом каждое решение удовлетворяет терминальным’гранич- ным условиям, т. е. (tf) = SfxV (tf). Удобный способ нахождения такого решения состоит в построе- нии так называемого единичного или фундаментального решения Системы (5.2.7), (5.2.8), т. е. решения, удовлетворяющего условиям {о при i~j, при £#=/’, А(О(^) = (5/)7,.. 12*
180 Глава 5 Полученные таким путем для 1 = 1, 2, . . ., п решения могут быть записаны в виде столбцов, образующих две переходные матрицы, X (/) *) иЛ (£), размерности п X п каждая с элементами = Лц (0 = ^(0- (5-2.9) Эти матрицы в силу способа их построения удовлетворяют усло- виям X(tf)=E, A(tf) = Sf, (5.2.10) где Е — единичная матрица размерности п X п. Теперь в силу справедливости для линейных систем прин- ципа суперпозиции решений можно записать общее решение системы при известном х (tf) в виде х (t) = X (t) х (tf), (5.2.11) Л. (t) = Л (t) х (tf). (5.2.12) Поскольку, однако, задано х (t0) при t = t0, а не ж (tf), необходимо из уравнения (5.2.11) при t = t0 получить зависимость х (tf) от х (t0): х (tf) = [X (Z0)l X^(U- (5.2.13) Подставив (5.2.13). в (5.2.11) и (5.2.12), получим х (t) = X (t) [X (Zo)l’1 х (t0), (5.2.14) k(t) = A (t) [X (Z0)l-1 x (t0). (5.2.15) Подстановка (5.2.15) в (5.2.5") приводит к выражению и (t) = —С (t, t0) х (t0), (5.2.16) где матрица коэффициентов усиления С (t, t0) определяется выра- жением С (t, t0) = [В (f)]-1 GT (t) A (t) [X (to)l-1. (5.2.17) В таком случае с учетом (5.2.17) уравнение (5.2.16) может рассма- триваться как дискретный закон управления с обратной связью, в котором время t0 является значением предыдущего момента дис- кретизации. Если производится непрерывное измерение состояния х систе- мы, то значением предыдущего момента дискретизации является текущее время t, т. е. t0 = t, и (5.2.16) превращается в непрерыв- ный закон управления с обратной связью и (t) = —С (t) х (t), (5.2.18) 1) Переходная матрица X (£) — матрица фундаментальных решений или фундаментальная матрица.— Прим. ред.
Линейные системы с квадратичным критерием 1©1 где переменная по времени матрица коэффициентов усиления С (t) имеет вид С (0 = (Д1-1 GT (t) Л (0 [X (Z)]-1. (5.2.19) Решение для Л. (£) в этом случае с помощью (5.2.15) может быть записано следующим образом: X (0 = 5 (0 х (t), (5.2.20) где 8 (t) = Л (t) [X (i)]-1. (5.2.21) Решение с помощью метода прогонки. В некоторых задачах, особенно в тех, которые связаны с процессами рассеивания, 'численное определение матриц X (J) и Л (t) фундаментальных решений, входящих в формулы (5.2.11), (5.2.12), может быть затруднительным вследствие различных скоростей роста состав- ляющих фундаментальных решений. Другими словами, вычисле- ния могут сопровождаться значительной потерей точности из-за того, что величины элементов матриц X (/) и Л (/) изменяются на интервале времени [Zo, tf\ на разные порядки. В этом случае, как, впрочем, и в некоторых других, может оказаться полезным использование для решения метода прогонки Д (см. также гл. 7 и работу [7.9]). Идея метода прогонки содержится в соотношениях (5.2.20) и (5.2.21). Вместо того чтобы определять матрицы фундаменталь- ных решений X (z), A(z), непосредственно находится матрица S (t) = = Л (t) [X (if)]-1. Этот процесс можно рассматривать как форми- рование для системы (5.2.7), (5.2.8) граничного условия, эквива- лентного терминальному условию Л. (tf) = SfX (tf), но для более ранних моментов времени; в действительности коэффициенты терминального условия «прогоняются» (переносятся) назад к начальному времени. Затем, поскольку х (t0) известно, Л. (t0) может быть вычислено из уравнения k (t0) = 8 (t0) х (t0) и систе- ма (5.2.7) — (5.2.8) может быть проинтегрирована вперед с уже известными начальными условиями (задача Коши). Подстановка (5.2.20) в (5.2.8) дает Sx-]-Sx~—Ах — FTSx. (5.2.22) Далее, подставляя х из (5.2.7) в (5.2.22) и снова исполь- зуя (5.2.20), получим (S SF FTS — SGB~1GTSA) x = Q. (5.2.23) О См. И. М. Г е л ь ф а н д, С. В. Ф о м и н, Вариационное исчисление, Физматгиз, гл. VI, 1961.
1 JbUtiU <J Поскольку a:(i)=0:O, то из уравнения (5.2.23) следует, что 8 = -SF-FTS + SGB~1GTS-A, (5.2.24) а из терминального граничного условия (5.2.8') очевидно, что ' граничное условие для 8 (t) имеет вид S (tf) = Sf. (5.2.25) Уравнение (5.2.24) квадратично относительно матрицы S и назы- вается матричным уравнением Риккати. Поскольку Sf является симметричной матрицей, а уравне- ние (5.2.24) также симметрично, то ясно, что S (t) — симметричная матрица при всех значениях t. Уравнение (5.2.24) можно проинтегрировать («прогнать») назад от терминального момента времени t = tf к начальному моменту t = £0. После этого с помощью уравнения (5.2.20) можно полу- чить X (i0) X (t0) = 8 (t0) х (t0). (5.2.26) Вектор X (t0) можно рассматривать как эквивалент терминального граничного условия (5.2.8'), перенесенного, однако, на более ран- ние моменты времени. Теперь решения для системы (5.2.7) и (5.2.8) могут быть получены путем интегрирования в «прямом» времени (т. е. от t0 к tf), поскольку начальные условия х (t0) и X, (t0) уже известны. Часто, однако, основной интерес представляет сам непрерыв- ный закон управления с обратной связью для задачи терминаль- ного управления. Его можно найти из уравнений (5.2.5") и (5.2.20), так как матрица 8 (t) теперь известна: и (t) = —С (t) х (t), C\t) = [В (t)]-1 GT (t) 8 (t). (5.2.27) Интерпретация с точки зрения динамического программиро- вания. Существует еще и третий подход к решению задач оптими- зации для линейных систем с квадратичным критерием качества. Он состоит в рассмотрении дифференциального уравнения в част- ных производных Гамильтона — Якоби — Веллмана. Примени- тельно к задаче, описываемой формулами (5.2.1), (5.2.3), это урав- нение имеет вид - ~ = min (Fx + Gu) + ±- (хТАх + итВи)} (5.2.28) с терминальным граничным условием J0 (х, tf) = у xTSfx. (5.2.29)
Линейные системы с квадратичным критерием 183 Минимизация правой части уравнения (5.2.28) по вектору и совпадает с минимизацией гамильтониана Н (5.2.6) и ведет к урав- нению (5.2.5) с заменой вектора на вектор dJ°ldx в соответствии с тождеством ОТ которое справедливо на оптимальной траектории. Подставляя в уравнение (5.2.28) вместо и его выражение через dJ°/dx \ дх ) получаем f5-2-3») Итак, найдено нелинейное дифференциальное уравнение в частных производных первого порядка относительно неизвестной функции J° (х). Оно имеет решение вида J°=--~xTS(t)x. (5.2.31) Подставив (5.2.31) в (5.2.30), получим соотношение 1 хТ [5 + SF + FTS- SGB~1GTS + A] х = 0, (5.2.32) Ci которое должно быть справедливым при всех значениях х. Отсюда получаем уравнение (5.2.24), а из (5.2.29) легко находим гранич- ное условие для 5 (£,): S (tf) = Sf. Таким образом, метод «прогонки» и метод динамического про- граммирования ведут к одинаковым результатам для случая линейных систем с квадратичным критерием качества. Выраже- ние (5.2.31) при этом дает еще одну интерпретацию матрицы S (t): величина 1/2ж1\<? (t) х есть оптимальное значение критерия каче- ства (т. е. минимальное значение J° = min J (п) при начале дви- и жения в момент t из состояния х). Пример 1. Простейшая линейная система первого порядка с квадратичным критерием качества. Дано х = и, х (i0), i0, tf заданы, х, и — скалярные переменные, tf 1 1г J = ~^-c [ж(^)]2 + -2 \ u2dt, с>0 — скалярная постоянная. to Найти и (i, t0), которое минимизирует J.
184 Глава 5 Решение Н = -^-и2Д'ки, X — скаляр, ; эн п . Л =----з— =0, Л = const, дх дН и-}-X = О, w =— X (необходимое условие оптимальности), X (tf) = ex (tf) (граничное условие, вытекающее из условий трансверсальности). Оптимальная траектория X (t) = — [ex (tf)] (t — t0) + х (t0), w(i, t0)=. x(tf) x (tp) 14-c (tf—10) ’ Цс + tf-to (дискретный закон управления с обратной связью). Если положить t0 = t, то и рывный закон управления с х (fy) 0 при с ->• оо. (t) = —х (t)/(l/c + tf — t) (непре- обратной связью). Отметим, что Пример Дано 2. Простейшая задача перехвата (или встречи) ]). v = a (t), У—и, Z io ct, с2> if — заданные постоянные. Найти a (v, у, t), которое минимизирует J. Решение а (и, у, t) = —Л„ (t) v (t) — Ау (t) у (t), д _ (i/C2) + (i/Ci)(tf-t^ + ^3(tf-t)3 D(tf-t) Д _ (1/Cj) (</ —O + V2 (1/—Q3 y D(tf-t) В данном примере рассматривается случай неманеврирующей цели. Обсуждение задачи перехвата с позиций теории дифференциальных игр пре- следования содержится в разд. 9.3 (пример) и 9.4 (пример). Случайный маневр цели и неточные измерения рассмотрены в примере 2 разд. 14.6.— Прим, перее.
Линейные системы с квадратичным критерием 185 где ° [тг+г'-Т Частные случаи 1. Если с2->0, то у (tf) — неуправляемая величина и Лв = (1/С1) + г/-г’ Л^ = 0- Отсюда _ v (г) а~ [(1/ч) + */-*1 ' Это простейшая форма закона управления, пропорционального скорости (управления по скорости). 2. Если Ci -> О, то v (tf) — неуправляемая величина и Л = (*/—0а v (1/с2) + 1/з(*/—О3 ’ д —______tf~t______ у + В этом случае а = v U (t} 3. Если Cj—>0, с2—>оо, то y(tf)-^-0 и ат- чГ г (0 , y(t) л Этот закон управления допускает следующую кинематическую интерпретацию (фиг. 5.2.1). Пусть о — угол между линией визи- рования «снаряд — цель» и линией отсчета, А — цель, у — угол Фиг. 5.2.1. Кинематическая схема к задаче перехвата и встречи. между скоростью снаряда Vm и линией отсчета, Vc — скорость сближения снаряда и цели вдоль линии визирования. Если угол ст мал, то, как следует из фиг. 5.2.1, р = _—.
186 Глава 5 Отсюда ' = 1 Г У (О , ^(0 1 vc L(«y—«)2 tf—t J ' Кроме того, из фиг. 5.2.1 при малых у имеем v = Vmy, откуда v = а =. Vmy. Таким образом, оптимальный закон a (i) может быть представлен в виде а = — 3VC о =/Кту; это известный закон так называемой пропорциональной нави- гации (в плоском случае). Этот закон наведения приводит к «совершенному» перехвату, т. е. к у (tf) = 0. 4. Если —>• оо, с2 —>• оо, то v (tf) 0 и у (tf) -► 0. В этом случае получаем или «=1л4=-М4»+-^т)- Полученный закон соответствует модифицированной форме про- порциональной навигации, ведущей к «совершенной» (одномерной) встрече снаряда и цели, т. е. к выполнению условия p (tf) = v (tf) = 0. Заметим, что если и (tf) и у (tf) в выражении для J заменить на (v (tf) — vd] и (у (tf) — yd], где vd, yd — заданные значения, то оптимальный закон управления с обратной связью будет иметь вид a (t) = — А„ (t) [и (t) — vd] — Ау (t) (у (t) — yd]. Отметим также, что v, у и а могут быть заменены трехмерными векторами v, г, а и по приведенной схеме может быть получено решение пространственных задач перехвата или встреч. В этом случае надо лишь ввести для двух компонент ускорения, перпен- дикулярных линии визирования, соответствующие угловые пере- менные (аналогичные углу о в плоском случае). Задача 1. Рассмотрим еще один подход к решению общей задачи оптимизации для линейных систем с квадратичным крите- рием качества. Пусть и = Кх, где К (I) — матрица передаточных
Линейные системы с квадратичным критерием 187 коэффициентов кц (t), которые в данном случае играют роль управляющих переменных, подлежащих определению. Исполь- зуя вариационные методы гл. 2, получить результаты данного раздела. При этом полезно иметь в виду следующие тождества: Тг (АВС) = Тг (САВ) = Тг (ВС А), д Аг (АВС) дС ’ здесь А, В, С — матрицы, Тг (М) —след матрицы М. Задача 2. Система первого порядка. Дано-. х = —ах + Ъи с начальным условием х (t0) = х0; квадратичный критерий 9 J = ±c[x(tf)]* + ± j [u(t)]2dt. to Здесь x, и — скалярные переменные; а, Ъ, с — скалярные по- стоянные. Показать, что дискретный и непрерывный законы оптималь- ного управления с обратной связью в случае минимизации J имеют следующий вид: ,, // t 1 = — h eiLp[-a(tf-t0)-a(tf-t)] °' (1/с) + Ь2/2а {1 —exp [ —2а («у—i0)]} '°'’ м _ h___________exp[ —2g (tf—t)\x(t) ' ' (l/c)-p2/2a{l— exp [ — 2a (tf — £)]} Найти также выражения для х (t) и X (t) в дискретном случае и для S (t) — в непрерывном. Показать, что х (tf) -+ 0 при с -> оо. Задача 3. Система второго порядка. Дано: х2 = — со2^ Ди, = х2 с начальными условиями *1 (to) = Ж1О, %2 (to) = Х201 J = у с [а?! (iy)]2 -j- i J и2 dt. to
1ОО Глава 5 Показать, что дискретный и непрерывный законы управле- ния с обратной связью, минимизирующие J, имеют вид ,, [4<o2cosco(«y — г0)] («0)+[4<» sin <о («у —«о)] х2 (i0) п ,,/у м U to) - - t0) - Sin 2<о (tf - t0)- Ш [ i ~ о) ’ , . _ [4а>2 cos со (iy — t)J ж! (t) + [4co sin a (ty — t)J х2 (t) . . _ . 4шЗ/с + 2ш(«/ —t) — sin2a(iy — t) Sin СО [Гу t) и что значение х, на правом конце определяется соотношением /, •. = *1 (<о) cosco (ty — t0)4-x2 (t0) [sin co (ty — t0)/co] l-|-c/4a3 [2a (tf t0) -sin 2co (tf—10)] Заметим, что при с —>- оо х{ (tf) —> 0 и коэффициенты усиления неограниченно возрастают при t -> tf. Отметим также, что коэф- фициенты усиления непрерывного закона управления с обратной связью, будучи отрицательными вблизи t = /у, изменяют знак при возрастании величины со (fy — t). Задача 4. Квадратичный критерий качества более общего вида. Линейная система описывается уравнением х = F (Z) х -ф G (£) и. Критерий качества имеет вид г 1 ( TV \ I 1 С г- Т Т1 [Л АЧО 1 М / = т(^зд1.,/ +yJ If „Г, в(;)| и Л. to Показать, что непрерывный закон управления с обратной связью, минимизирующий J, имеет вид и (/) = —B~l (NT + GTS) X (/), где S = —S (F - GB-tNT) - (F - GB-'N^S + + SGB-KfS - (A - NB-4VT), или S = -SF - FTS + (SG + N) B'1 (NT + GTS) - A, S (tf) = Sf и, следовательно, предложенная задача эквивалентна задаче оптимизации для системы X = (F - GB-'N1) x + Gu по критерию 1 1 J = -2-(xTSfX)t=tf + ^- j [хт, to UT] "A — NB^N7 О' О В dt. х и
Линейные системы с квадратичным критерием 189 Задача 5. Симплектический характер переходной матрицы для оптимальных линейных систем с квадратичным критерием качества. Для задачи, описываемой уравнениями (5.2.7) и (5.2.8), рассмотрим разбитую на блоки переходную матрицу Ф (Л /о): фхх(^, t0), Фхь(£, Ml (Ml _ФххМ М, М- MJ LMMr '*(0 .МО Показать, что матрица Ф (Z, t0) является симплектической, т. е. обладает свойством Фг (t, t0) 1Ф (J, t0) = I, где о — Е Показать далее, что Ф-1 (/, /0) = Е' о] ’ из симплектичности Ф (£, t0) следует ' Фи(Мо), -ФхММо)! - Ф^х М to), Фхх {t, t0). Е — единичная матрица. 7 = Заметим, что последнее равенство полезно при проведении чис- ленного решения. Задача 6. Простейшая система первого порядка описывается уравнением х = и, о м t М tf, где х, и — скалярные переменные. На интервале [0, tf] произ- водятся непрерывные, но не очень точные измерения величины х (/). Обозначим эти измерения как z (/). Имеется предположение, что начальное условие х (0) было равно нулю и что и (/) также рав- но нулю, но полной уверенности в этом нет. Для получения оценки состояния х (t) на отрезке времени О t tf можно произвести обработку результатов измерений методом наименьших квадратов; при этом в качестве оценок истинного состояния выбираются те х (/), которые минимизи- руют следующий квадратичный функционал: о где р, q, г — скалярные постоянные величины, выбираемые с уче- том относительной значимости соответственно оценок х (0), и (t) и измерений z (i). Необходимо разработать процедуру определения значения ж (/), которое минимизирует J при заданных z (t), р, q, г vt tf >(гл. 13).
190 Глава 5 5.3. Терминальные управляющие устройства; нулевая терминальная ошибка и управляемость системы Предположим, что необходимо спроектировать такое терми- нальное управляющее устройство, которое переводило бы неко- торые компоненты вектора х (tf) точно в нуль (в предыдущем раз- деле требовалось лишь приближенное равенство нулю) х). Таким образом, надо удовлетворить условиям xt (if) = 0’ i = 1, 2, . . ., q п. (5.3.1) Для этого можно пользоваться методами разд. 5.2, положив 0, i=£j, Sfj (0 = < °°> . 0, г=7> i < Ъ i = 7, i > O'- Тем самым предполагается, что оо при х^О, 0 при х = 0. Такой прием приводит, однако, к трудностям при интегрировании уравнения (5.2.24), которые связаны с бесконечными значениями в граничных условиях. Эти трудности можно обойти (см. зада- чу 1); однако есть и другой способ. Сформулируем задачу разд. 5.2 следующим образом: найти управление и (7), миними- зирующее критерий J = — j (хТАхиТВи) dt (5.3.2) to при терминальных условиях (5.3.1) и ограничениях х — F (t) х -f- G (t) и, (5.3.3) х (t0) — х0, х0 задано. (5.3.4) Эта задача является частным случаем задачи, рассмотренной в разд. 2.4 и 2.5. Условия (5.3.1) могут быть присоединены к критерию (5.3.2) с помощью правила множителей для задач на условный экстре- мум. Введя множители vT = (v1; . . ., vq), критерий (5.3.2) х) Более общие терминальные граничные условия рассмотрены в зада- че 1 этого раздела.
Линейные системы с квадратичным критерием 191 (5.3.5) можно записать в виде J = 2 ViXi (М +~2 J (хТ^Х + uTBu) dt. i—-1 to Уравнения Эйлера — Лагранжа для рассматриваемой задачи с критерием J имеют вид % = —Ах — Л, — I 0, у = g4*l, u = -B-^GX\. (5.3.6) (5.3.6') (5.3.7) Подставляя (5.3.7) в (5.3.3), получаем двухточечную краевую задачу 'F, -GB-W] Гх- _-А, — FT J Ь. х (tQ) = х0, х0 задано, %i (if) = 0, 1 = 1, X, (tf) = 0, i = q + 1, • • ., n. (5.3.8) (5.3.9) (5.3.10) (5.3.11) Решение с помощью переходной матрицы/ Двухточечная крае- вая задача (5.3.8) — (5.3.11) может быть решена путем нахожде- ния системы п единичных решений уравнений (5.3.8) и (5.3.9), где все единичные решения удовлетворяют (5.3.11) и, кроме того, 7-е единичное решение (7), Х<г> (7)] удовлетворяет условиям (1 при 7=7, X}(7y)=L ' 7=1, ...,<?, (5.3.12) 3 11 (0 при у, * v . (1 при 7 = 7, xi(if)={c\ i = q+i,---,n. (5.3.13) v “ (0 при г =#7, Общее решение теперь может быть записано в виде ]) х (7) = X (7) ц, (5.3.14) X (7) = Л (7) р, (5.3.15) где X)t = x(»(t), (5.3.16) Лл = (7), 7, j = 1, 2, . .., п, (5.3.17) Цт = [Vi, • • •, vQ, xq+l (tf), ...,хп (7У)]. (5.3.18) г) Отметим, что входящие в (5.3.14) и (5.3.15) единичные решения X (г), Л (7) не совпадают с единичными решениями разд. 5.2.
192 Глава 5 Очевидно, что при t = t0, если матрица X (t0) невырождена, уравнение (5.3.14) можно разрешить относительно ц, выразив р через х (i0): ц = IX (/о)]-1 х (t0). (5.3.19) Подставив теперь (5.3.19) в (5.3.15), получим выражение для Z (/) через X (Zo) и а?(/0); подстановка этого выражения для %(/) в (5.3.7) дает закон управления и (t) и (t) = —С (t, t0) х (t0), (5.3.20) где С (t, t0) = B~lGT A (t) [X (io)]-1. (5.3.21) Соотношения (5.3.20) и (5.3.21) получены таким же образом, как (5.2.16) и (5.2.17), с той лишь разницей, что граничные условия для единичных решений X (i), Л (i) отличаются от тех, которые использовались в разд. 5.2. Если теперь перейти к пределу i0 —> i для получения непрерыв- ного варианта закона оптимального управления с обратной связью, то возникнут практические затруднения, связанные с тем, что матрица X (i) является вырожденной при t = tf. Последнее означает, что матрица С (t) коэффициентов усиления обратной связи становится неограниченной, т. е. С (i) —> оо при t tf. Это и понятно, поскольку условие задачи требует, чтобы ошибка конечного состояния была нулевой [см. формулу (5.3.1)]. Как будет показано в последующих главах, при наличии шумов (неопределенностей) в измерительном устройстве или объекте управления неограниченные коэффициенты усиления [С (t) —>• оо при t -> tj\ являются недопустимыми, так как, вообще говоря, требуют неограниченных значений величин управляющих воз- действий: u (i) —>• оо при t —> tf. Решение с помощью метода прогонки. Двухточечная крае- вая задача, описываемая уравнениями (5.3.8) — (5.3.11), может быть также решена с помощью метода прогонки, который, как указывалось в разд. 5.2, при численном решении задачи обычно имеет преимущества перед методом, основанным на использова- нии переходной матрицы. Однако в данном случае метод прогонки по сравнению с изложенным в разд. 5.2 должен быть обобщен для учета линейных терминальных условий типа (5.3.11). Для этого удобно заменить п исходных граничных условий (5.3.11) следующими п граничными условиями: fv£ = 10 Для Для i = 1, 2, . . q, i — q 1, q + 2, . . ., n (5.3.22) и, кроме того, постулировать, что заданные граничные условия [xir . . ., xgJl=f являются линейными функциями начальных
Л инейные системы с квадратичным критерием 193 условий х (t0) и множителей (v,, . . yq): ф = U (t0) х (t0) + Q (t0) v, (5.3.23) где фт = [ж1, .. ., xq]t=tf, (5.3.24) v^=[X1T .(5.3.25) Исходя из линейности уравнений (5.3.8) — (5.3.11), можно сде- лать вывод, что X (t0) является линейной функцией от х (t0) и ф, или, что эквивалентно, от х (t0) и v: (to) — $ (to) х (to) 4" R (to) v- (5.3.26) Поскольку любой момент времени t tf может быть принят за начальный, уравнения (5.3.23) и (5.3.26) могут быть записа- ны ’) в виде X (t) = X (t) x(t) + R (t) v, (5.3.27) ф (t) = U (t) x (t) 4- Q (t) v. (5.3.28) Так как эти соотношения должны быть справедливыми при t = tf, очевидно, должны иметь место соотношения S (tf) = 0, (5.3.29) ил({/) = И^) = (^\ = У / 1 = 1 {1 при i = 1, i = 1, 2, . .., п, о • .о (5.3.30) О при i =£], ] = 1, 2, ..., q, v ' Q (tf) = 0. ' (5.3.31) Теперь, как и в разд. 5.2, подставим X (t) из выражения (5.3.27) в уравнение (5.3.9) (с учетом постоянства вектора у). В резуль- тате найдем Sx + si + Rv=—Ax — FT(Sx + Rv). (5.3.32) Подставив х из (5.3.8) и (5.3.32) и используя снова (5.3.27) для исключения X, получим Sx 4-X [Fx - GB~1GT (Sx 4- Ry)] + Ry = - (A FTS) x - FTRy. (5.3.33) Это уравнение должно оставаться справедливым при любых значениях х и v; поэтому коэффициенты при х и у должны тожде- Изложенный метод не всегда удовлетворителен, поскольку S и R могут не существовать, тогда как решение задачи существует. См. по этому поводу разд. 6.3 и пример 2. 13—0102
194 Глава 5 ственно обращаться в нуль: <8 + SF + FTS + А - SGB~‘GTS = О, S (tf) = О, (5.3.34) R + (FT — SGB ~1GT) R = О, <5-3'35’ Наконец, дифференцируя (5.3.28) по времени- и считая ф и v постоянными векторами, получим Ux-}-Ux-)-Qv — 0. (5.3.36) Подставляя х из (5.3.8) в (5.3.36) и используя (5.3.27) для исклю- чения X, найдем Ux + U [Fx — GB-Hf (Sx + Ry)] + Qv = 0. (5.3.37) Поскольку уравнение (5.3.37) также должно удовлетворяться при любых значениях х и v, то коэффициенты при х и v должны тождественно обращаться в нуль: U + U (F - GB^GTS) = 0, (5.3.38) Qa— UGB-1GT R — 0. (5.3.39) Исследование уравнений (5.3.35) и (5.3.38) и граничных усло- вий (5.3.30) показывает, что U (t) = RT (t). (Ъ.ЗАО) Поэтому уравнение (5.3.39) может быть представлено в виде Q = RTGR-1GTR, Q (tf) = 0. (5.3.41) Уравнение (5.3.34) представляет собой то же самое уравнение Риккати, что и уравнение, полученное в разд. 5.2, однако в данном случае граничные условия другие. Уравнение (5.3.35) — линейное матричное дифференциальное уравнение, коэффициенты которого зависят от S. Уравнение (5.3.41) является простой квадратурой. Все три матричных уравнения (5.3.34), (5.3.35) и (5.3.41) могут быть проинтегрированы в «обратном» времени (от tf к t0), что даст зависимости S (t), R (t) и Q (t). Отметим, что Q 0, поскольку Q >0 и Q (tf) = 0. При некотором значении начального момента времени t = i0 матрица Q (t0) оказывается невырожденной, и тогда уравне-
Линейные системы с квадратичным критерием 195 пир (5.3.28) может быть разрешено относительно v v = ](? (io)]’1 - R1 (t0) х (i0)]. (5.3.42) Если же матрица Q (i0) является вырожденной, то задача оптими- зации (5.3.1) — (5.3.4) называется анормальной г), что, в частно- сти, означает, что в этом случае не существует соседних (см. гл. 6) минимальных решений. Если задача не является анормальной, то значения v из (5.3.42) могут быть подставлены в (5.3.27). В результате получается выражение для X (i0) 1 (i0) - (S - RQ^R7)^ x (i0) + ^RQ-^t^. {Ъ.ЪАЪ} Зная X (i0), можно интегрировать уравнения (5.3.8) и (5.3.9) в прямом времени как задачу с начальными условиями (как задачу Коши). Если же при интегрировании уравнений (5.3.34) и (5.3.35) решения S (t) и R (t) запоминаются, то необходимо интегриро- вать в прямом времени лишь уравнение (5.3.8), используя (5.3.27) для вычисления X (t) и (5.3.42) — для вычисления v. Зная зависи- мость X (i), с помощью (5.3.7) можно определить управление и (i). Обычно, однако, на практике больший интерес представляет оптимальный закон управления с обратной связью вида (5.3.20), а не программное управление и (i). Такой закон можно получить, либо вычисляя v с помощью (5.3.42) в некоторые промежуточные моменты времени (дискретный закон управления с обратной связью); либо вычисляя v непрерывно (непрерывный закон управ- ления с обратной связью). Из соотношений (5.2.5') и (5.3.43) при t0 = t имеем и (t) = -С (0 х (t) - D (i) (5.3.44) где . С = B^G7 (S - ЯТ), (5.3.45) D = B~lGT RQ~\ (5.3.46) В противоположность закону управления (5.3.20) закон управ- ления (5.3.44) явно зависит от заданных терминальных значений вектора состояний [xt (tf), . . xq (tf)] = i|/. Если ip = 0, то получаем закон управления, эквивалентный непрерывному варианту закона управления (5.3.20) [т. е. закону управления (5.3.20), в котором t0 заменено на £]. Обращаясь к (5.3.22), видим, что случай v = 0 соответствует задаче, в которой не заданы Ь Подробнее смысл анормальности в вариационных задачах изложен в книге: Г. Блисс, Лекции по вариационному исчислению, ИЛ, 1952,— tUpuM. перев. 13*
196 Глава 5 какие-либо терминальные условия. Из (5.3.23) и (5.3.40) находим, что значение ip при v = 0 дается выражением ф = RT (?0) х (?0); (5.3.23а) таким образом, величина RT (t0) х (t0) является предсказанным значением ip в том случае, когда J минимизируется без учета каких-либо терминальных условий. Используя эту интерпрета- цию, закон оптимального управления (5.3.44) можно записать в виде u(t) = — B~1GTSx(t)—B-1GTRQ~1(ty — ty'). (5.3.44а) Минимизация интеграла от квадратичной формы управляю- щих переменных. Особый интерес представляет частный случай интегрального квадратичного критерия качества (5.3.2) при Л = 0. В этом случае минимизируется интеграл от квадратичной формы только управляющих переменных, т. е. критерий качества при- нимает вид 1 J = A (uTBu)dt. (5.3.47) <0 Условия (5.3.1), (5.3.3) и (5.3.4) при этом также должны быть удовлетворены. Уравнение Риккати (5.3.34) при А = 0 имеет тривиальное решение ' S (t) = 0. (5.3.48) Отсюда следует, что и (?) 0 является решением задачи в том случае, когда не наложены терминальные граничные условия. При этом J = 0. Уравнения (5.3.35) и (5.3.41) упрощаются: R + F?R = 0, #г(М=(4у) i=i/‘ (5-3.49) Q (?) = - j (RTQB-'GTR) dt. (5.3.50) t Непрерывный закон оптимального управления с обратной связью может быть записан в виде и (?) = —D (?) [ф - RT (?) х (?)], (5.3.51) ч где D (?) = B-HfRQ-'. (5.3.52) Заметим, что предсказанное значение ф в том случае, когда не используется управление на всем интервале (?, ?/), дается
Линейные системы с квадратичным критерием 197 выражением i = RT(t)x(t). (5.3.53) Поэтому соотношение (5.3.51) может быть представлено также в следующем виде: и (t) = —D (t) [ip — ip (£)]. (5.3.54) Управляемость (см. также приложение Б). Можно показать, что минимальное значение критерия качества (5.3.47) удовлетво- ряет равенству Ашн = 4 ГФ (*) — Ф1т [ — <? (ОН ГФ (0 - Ф] (5-3.55) где ф (4) дается выражением (5.3.53). Из (5.3.55) следует, что в случае, когда матрица Q (t0) вырождена, величина неогра- ничена («Тмин = оо); кроме того, из (5.3.51) вытекает, что в этом случае и (t0) = оо. Динамическая система называется частично неуправляемой, если матрица Q (t) вырождена для любого значения t в интерва- ле (4g, 4Д. Динамическая-система, которая управляема при q = п, назы- вается полностью управляемой, так как в этом случае все компо- ненты конечного (терминального) состояния, какими бы они зара- нее ни выбирались, могут быть достигнуты с помощью соответ- ствующего управления. В случае стационарных динамических систем, когда F и G — постоянные матрицы, критерий полной управляемости может быть представлен в виде Ранг (G, FG, F2G, . . ., Fn~lG) = п. (5.3.56) Если матрица F имеет различные собственные значения (дей- ствительные или комплексные) и линейное преобразование у = Тх таково, что D = TFT~l — диагональная матрица, то матричное уравнение (5.3.3) преобразуется к виду у = Dy 4- TGu. (5.3.57) Теперь ясно, что если матрица TG имеет одну или несколько нулевых строк, то соответствующие компоненты нового фазового вектора у не испытывают воздействия какой-либо управляющей компоненты и поэтому система не является полностью управляе- мой. Другая причина неуправляемости системы может заключаться в том, что матрица D в (5.3.57) имеет одинаковые диагональные элементы. Рассмотрим для примера систему, описываемую урав- *) Понятие управляемости с более формальных алгебраических позиций рассмотрено в приложении Б.— Прим, перее.
198 Глава 5 нениями У\ = + и, Уг = ^Уг 2и. Линейная комбинация 2у{ — у2 ле испытывает воздействия управ- ления и, и, следовательно, система не будет полностью управляе- мой. На эти заключения об управляемости не влияет выбор матри- цы В, если только она является положительно определенной (можно было бы выбрать в качестве В единичную матрицу). Таким образом, управляемость есть свойство, присущее самой динамической системе, тогда как нормальность (или анормаль- ность) является свойством, присущим задаче оптимизации. Оче- видно, что неуправляемая система приводит к анормальной задаче оптимизации, но обратное не обязательно верно. Пример. Два математических маятника длиной I соединены пружиной на расстоянии а от точек подвеса (фиг. 5.3.1). Маят- ники управляются двумя равными и противоположно направ- ленными силами и, которые приложены к маятниковым грузам Фиг. 5.3.1. Пример неуправляе- мой системы. массы т каждый. Уравнения движения системы связанных маят- ников имеют вид mZ20j = —ka2 (0! — 02) — mglQt — и, ml2Q2 — —ka2 (02 — 0i) — mglB2 Д- и. Приведение этой системы к диагональному (каноническому) виду может быть осуществлено непосредственно с помощью алгебраи- ческих преобразований. Для этого надо просто сложить эти два уравнения, а затем вычесть их друг из друга. В результате полу- чается 2/1= — у У1, тГ2у2 = — (2ка2 Д- mgl) у2 — 2и, ГДе у{ = 0J Д- 02, 1/2 = 0! — 02.
Линейные системы с квадратичным критерием 199 Очевидно, что в данном случае нет возможности управлять симметричными колебаниями yt 0; поэтому система не является полностью управляемой. Отметим, что если одну из сил исключить (или сделать ее не равной другой), то система будет полностью управляемой. Задача 1. Квадратичный критерий качества и терминальные условия общего вида. Найти управление и (t), которое минимизирует критерий f их] io N(t) ' NT (t), B(t). x u_ dt при условиях x = F (t) x + G (£) u, x (t0) задано, где гр — заданный размерности q X п, Ответ. Мх (tf) = гр, O'-мерный вектор, q п. М — заданная матрица и = — В-1 [NT + GT (S — RQ~1RT)] x-R'1GTRQ-1ip, или u= — S'1 (tVT-}-GTS)x — B~1GTR^1 (ip~(p), где S = —SF —FTS —A + (SG + N) B'1 (NT -j- GTS), S (tf) = 0, R = —[FT - (SG + TV) B^GT] R, R (tf) = MT, Q = RT GBMMR, Q (tf) = 0. При этом Лгин = 4 №TSx + (Ф — Ф) Т ( — С'1) Й — ^)]fc=io, где гр = RT (t0) х (t0) — предсказанное значение гр в случае мини- мизации J без учета терминальных условий. Задача 2. Показать, что уравнение Риккати (5.2.24) при А = 0 может быть записано как линейное дифференциальное уравнение для матрицы S~l: Л- (S'1) = FS~i + 8~МТ- GB~iGT.
00 Глава 5 Даже при S~r (tf) = 0 (т. е. при Sf -+ оо) это матричное уравне- ние можно интегрировать в обратном времени. Показать далее, что при q = п решение может быть записано с помогЦью матрицы R (/), определяемой уравнением (5.3.49), в виде *) [5 (£)]-! = [Дг (<)]-! + j RTGB'lGTR dt^ [R (0Г1- i Задача 3. Пусть F и G — постоянные матрицы. Показать, что условие s-1 (t) > 0 эквивалентно условию Ранг(С, FG, F2G, . . Fn~1G) = п. Указание. Продифференцируйте нужное количество раз пере- ходную матрицу Ф (£, т) и примените теорему Кэли — Гамиль- тона. Задача 4. Показать, что предсказанное терминальное состоя- ние ф, определяемое уравнением (5.3.53), изменяется при исполь- зовании управления согласно уравнению ф = RTGu, где R определяется из (5.3.49), а ф (/0) = RT (М х («о). Задача 5. Для простейшей системы второго порядка ж-|-ж = м, где х и и — скалярные переменные, найти управление и (t), которое переводит систему из состояния х (0) = х0, х (0) = и0 в состояние х (iy) = х (fy) = 0 и минимизирует критерий J = у j и- dt.. о Указание. Используйте тот факт, что частное решение урав- нения х + х = A sin t + В cos t имеет вид 1 1 ^част = т Bt sin t — At cos t. z z См. приложение Б.2 и работу Калмана, Хо, Нарендры, указанную в списке литературы к приложению Б.
Линейные системы с квадратичным критерием 201 Ответ. п = 2 — sin2 tf [sin (tf — t) sin tf — tf sin t, — cos (tf — t) sintf-^-tfCost] x° 5.4. Регуляторы и устойчивость Регулятор, согласно принятому в данной главе определению, является управляющим устройством с обратной связью; это устройство предназначено для поддержания в допустимых пре- делах отклонения состояния стационарной системы от заданного состояния с использованием лишь допустимых величин управ- ляющих воздействий. Возмущения, действующие на систему, часто оказываются случайными, и поэтому их предсказание невозможно. В последующих главах будет исследовано статисти- ческое поведение регулируемых систем при наличии случайных вынуждающих функций. В данном разделе рассматриваются только детерминированные возмущения в начальный момент [т. е. х (t0) #= 0] при отсутствии постоянно действующих воз- мущающих сил ]). В случае стационарных систем матрицы F и G постоянны. Будем, кроме того, предполагать, что матрицы А и В в критерии качества (5.2.3) также постоянны, а интервал времени регулирова- ния неограничен (т. е. tf — £0->-оо). Рассматривая уравнение Риккати (5.2.24) для матрицы 5 (t), видим, что возможно существо- вание установившегося конечного решения, если из условия 5 = 0 = -SF - FTS + SGB-H^S - А (5.4.1) следует, что 5 (0 -> 5° при tf — t0 -> оо. Здесь S° — установившееся конечное решение уравнения (5.4.1). В этом случае матрица коэффициентов усиления (5.2.27) также становится постоянной: С (t) ->С° = B-^S0. (5.4.2) Более того, из (5.2.31) следует, что оптимальное значение крите- рия качества при tf — t0 -> о° определяется равенством = (5.4.3) *) Поскольку «о произвольно, метод, разумеется, применим в случае- любых возмущений в переменных х (t) состояния системы, которые возникают на интервале регулирования, независимо от вызывающей их причины.
202 Глава 5 и не зависит от времени. Таким образом, в рассматриваемом слу- чае оказывается, что если существует установившееся конечное решение S° уравнения (5.4.1) и если оно является, положительно определенным, то х (t) и и (t) ограничены (т. е. никогда не обра- щаются в бесконечность) и закон управления и (t) = —С°х (t) . |(5.4.4) приводит к асимптотически устойчивому регулятору (см. задачу 1). Следует заметить, что, вообще говоря, квадратичное матрич- ное уравнение (5.4.1) допускает более одного установившегося решения для матрицы 5°. Лишние корни могут быть обычно исклю- чены введением дополнительного требования положительной опре- деленности матрицы 5°, S° >0. Другой подход состоит в инте- грировании уравнения (5.4.1) в обратном времени (t = —т) с граничным условием Sf = 0 до тех пор, пока не будет выпол- нено условие S » 0. Калман [5.2] показал, что в этом случае S (т) —>• S°. Такой метод является ценным практическим приемом синтеза регуляторов *). Пример 1. Регулятор для системы первого порядка. Система описывается уравнением 1 х =----х-\-и. т Необходимо синтезировать регулятор, который поддерживает состояние х в окрестности нуля. Решение. Если необходимо поддерживать х2 ниже заданного значения а?т = const при использовании управления и2, не пре- восходящего значения и2т = const, то для достижения этой цели можно попытаться использовать критерий качества Ч J = У (ах^ + Ъи2, dt, где а = ±- Ь = -^- to Соответствующее уравнение Риккати имеет вид S — х S -а+ ь В установившемся состоянии (5 = 0) имеем S^lLs-ab =0. т !) В нашей стране такой метод решения уравнений Риккати был разра- ботан Ю. М. Репиным и В. Е. Третьяковым [5.10 *].— Прим. ред.
Линейные системы с квадратичным критерием 203 Отсюда с ь /~ ьг , , 6 = Ч2- + а&- Поскольку S должно быть положительным, приемлемым является лишь знак « + » перед корнем. Таким образом, Пример 2. Регулятор для системы третьего порядка (регулятор канала стабилизации крена для управляемого снаряда *). Необ- ходимо спроектировать управляющее устройство с обратной связью для управляемого снаряда с гидравлическим приводом Фиг. 5.4.1. Схема и обозначения к задаче о регуляторе крена управляе- мого снаряда. для элеронов. Регулятор должен стабилизировать значение угла крена у 0; при этом должны выполняться физические ограниче- ния на угол отклонения элерона б3 и на скорость его отклоне- ния 63. Схема снаряда представлена на фиг. 5.4.1. Уравнения движения имеют вид 63 = м, 1 , Na s — т С>х1 ~|- т О3, 1 V 'т У = ®Х1- Здесь Ту — постоянная времени снаряда при движении по крену, N3 — эффективность элеронов, и — сигнал управления при- водом элерона, иЖ1 — угловая скорость крена. Используя теорию х) Присутствие случайных возмущений рассмотрено в примере разд. 14.2 (см. также задачу 1 разд. 14.5).— Прим, перее.
204 Глава 5 синтеза регуляторов для линейных систем с квадратичным крите- рием качества, будем минимизировать функционал где у0 — желаемое максимальное значение у, бэо — максималь- ное допустимое значение 6Э, и0 — максимальное допустимое зна- чение и. Установившееся матричное уравнение Риккати ~SF - FTS -I- SGB-1GTS -4=0, где 0 N3 о Закон управления имеет вид ^11 0 0 1 То - и — —С°х — —В xGTSx = —и?0 [511; Sl2, 513] 12 ^13 в22 ^23 $32 $33- ’ бэ " .. У - Подстановка матриц F, S, G, В, А в уравнение Риккати при- водит к шести скалярным алгебраическим уравнениям второй степени относительно Stj -2S12 + U*S* -о, 4^--513 —S2i + А2 = 0, Ч ©эо Ч Ч - 2523 + ~ 0, - S23 = 0, 1 V 1 v $зз + и1$12$1з = 0, — -5- 4- u3S2l3 = 0. 1 V To С помощью непосредственных преобразований эти уравнения могут быть сведены к одному уравнению четвертой степени Д относительно переменной о — н.оля ।\ q2______________/ 2Л’Э uFv ' 2б!о / u0Tt \ То“о , 1 4 8/У3 ; бэО 6эо“о^7 To“Fv 4
Линейные системы с квадратичным критерием ZUO При этом элементы Зц выражаются через о и другие перемен- ные следующим образом: <?__<? _ (nz 1 \ с ______ 1 <? _ Тув 311- ио , Л12- 27уэ 62о ) , Л13- Wg , &23- , Из решений уравнений четвертой степени представляют интерес только действительные положительные значения о. Численный пример. Пусть Ту = 1 сек, N3 = 10 сек-1, ий = = л рад-сек-1, бэ0 = л/12 рад, у0 = л/180 рад. Соответствующее этим данным уравнение четвертой степени о1 + 1,272о3 — 28,Зо2— —482о + 59,4 = 0 имеет лишь два положительных действитель- ных корня: о, = 8,55, о2 = 0,12. Использование наименьшего корня о2 приводит к условию 533 < 0, поэтому остается лишь корень Hi 1). В результате С? = и0о = 26,9 сек-1-, С“ = ^-(о2--М=28,9; С°3 = -^- = 180 сек-1- -(26,96э + 28,9саЖ1 + 180у). Задача 1. Рассмотрим общую задачу даннцго раздела при допол- нительном предположении, что пара (F, G) образует управляемую систему. Покажите, что в этом случае при А >0 можно указать верхнюю границу для интеграла min [ (|+ u(i) J ' 1 и что существует предел J при (tf — t0) —оо. Покажите далее, что оптимальное значение критерия J — 1/2 I! % (to) lls0 является функцией Ляпунова (см. приложение Б.4), что влечет за собой в свою очередь асимптотическую устойчивость управляемой систе- мы, описываемой уравнением х — (F — GB~1GTS0) х. Следует отметить, что оптимальность управления в общем случае не обязательно влечет за собой устойчивость системы. Так, некоторые критерии качества могут привести к тому, что управление будет дестабилизировать систему. Одной из важных проблем качественной теории оптимального управления является выяснение соотношения между критерием качества и свойствами г) Условие У33 <0 не удовлетворяет критерию Сильвестра положи- тельной определенности матрицы У.— Прим, перев.
206 Глава 5 управляемой системы *). В таком направлении можно вести даль- нейшую разработку материалов данного раздела [5.1—5.3]. задача 2. Рассмотрим управляемую и устойчивую стационар- ную линейную систему, описываемую уравнением х = Fx + Gu. Пусть ее управление и (t) подчинено условию || и ||2 1, а V = = х/г II х Ils является функцией Ляпунова для приведенной выше системы при и = 0. Выберем теперь закон управления таким образом, чтобы он минимизировал производную функции Ляпу- нова. Показать, что этот закон управления является также опти- мальным и для некоторого квадратичного критерия качества типа приведенного в задаче 1. Задача 3. Автопилот продольного канала самолета для стаби- лизации малых вертикальных ускорений. Продольное возмущен- Ф и г. 5.4.2. Схема и обозначения к задаче управления продольным движе- нием самолета. ное движение самолета относительно горизонтального крейсер- ского режима полета достаточно точно описывается следующей системой уравнений второго порядка: а =----+ cozl = — (a — 7VA), где (фиг. 5.4.2) а — возмущение угла атаки относительно угла атаки акр крейсерского режима полета, 0)21 = Й, й— возмущение угла тангажа относительно угла тангажа -&кр = акр на крейсерском режиме полета (отсчитывается от нулевой подъемной силы Ох?, г) Впервые на связь свойств оптимальности и устойчивости по Ляпунову указали Н. Н. Красовский и А. М. Летов [5.6 *]. Дальнейшее обсуждение этой связи содержится в [5.7 *, 5.9 *].— Прим, перее.
Линейные системы с квадратичным критерием 207 I \V2 coo (----~ j — недемпфированная собственная частота коле- баний по тангажу, , MZ1— аэродинамический момент относительно оси zi (момент тангажа), Л1 — момент инерции самолета, Л/6в ~~М^---эФФективность руля высоты, mV = —^---постоянная времени самолета при изменении угла наклона траектории (подъемной силы), 6В— угол отклонения руля высоты. = -^1 1 да Л^В = Требуется: а) определить установившиеся значения коэффициентов уси- ления Ci и С2 регулятора с законом управления С С 2coZf, который минимизирует критерий качества V , Л2 Г/2 \ J = lim [ /-4-+-Г+-Л) dt. t.-t^ J \ diiO “» “НО ' J to б) Нанести для данной управляемой системы семейство линий постоянных значений коэффициента демпфирования £ на график N в6в0/ССВ. Отметим, что синтезированный по такому критерию авто- пилот не поддерживает горизонтальный режим полета [т. е. нуле- вую вертикальную скорость (0 = 0)]. Задача 4. Автопилот продольного канала самолета для стаби- лизации малых вертикальных скоростей. Для учета изменения вер- тикальной скорости к уравнениям продольного возмущенного движения из задачи 3 следует добавить уравнение Й = что приводит к динамической системе третьего порядка. Найти уравнения для определения установившихся значений коэффициентов усиления С15 С2, С3 регулятора с законом управ^ ления — (J |СС ^2^21 Cgfl, минимизирующим критерий качества г V С / йв I (0—а)2 \ J — 11Ш 1 I 2 -|- д2 1 1 t.— to->oo •} ' UbO °0 ' J to
2 Глава 5 Заметим, что такой автопилот поддерживает почти горизонталь- ный полет, однако высота при этом не остается постоянной. Задача 5. Автопилот продольного канала самолета для под- держивания постоянной высоты полета. Для учета изменения высоты полета к уравнениям продольного возмущенного движе- ния из задачи 4 следует добавить уравнение h = V (О — а), где h — возмущение высоты относительно заданной. Получен- ная при этом динамическая система имеет четвертый порядок. Найти уравнения для определения коэффициентов усиления Ct, С2, С3, Ci стационарного регулятора с законом управления бв = —Cjcc — C2cozl — Сдф — CJi, минимизирующим функционал Ч г г т Г / бв , № \ - •/ lim I I-;— tf- to~*oo J \ бвО A'O ' J to Задача 6. Автопилот канала управления боковым движением самолета, предназначенный для стабилизации направления поле- та {курса) и угла крена ’). Движения самолета по крену, рыска- нию и скольжению взаимосвязаны и образуют в совокупности так называемое боковое движение. Это движение почти совсем не связано с изменениями угла тангажа и вертикальными переме- щениями самолета, т. е. с его «продольным» движением. Возмущен- ное боковое движение самолета относительно установившегося горизонтального полета описывается системой уравнений пятого порядка • z$ ₽=й>у1+^0+ Si V = ®xi, ф=соУ1, где (фиг. 5.4.3) возмущенные переменные имеют следующий смысл: р — угол скольжения, ф — угол рыскания (курса), соу1 — г) См. [14.4] и задачу 1 разд. 14.2, где учтены случайные ветровые воз- мущения.— Прим, перев. / дМХ1 / ™yi dMyi ,, 1 3(0х1 1 3% “«''SV6") ’
Линейные системы с квадратичным критерием 209 угловая скорость рыскания, у — угол крена, <оЖ1 — угловая ско- рость крена, 6Н — угол отклонения руля направления, 6Э — угол отклонения элеронов. Фиг. 5.4.3. Схема и обозначения к задаче управления боковым движением самолета. Вывести уравнения для определения десяти коэффициентов усиления (СН1, . • Сна), (Qi, • • •> Сэз) стационарного регу- лятора с законом управления 6н' А. Сн1> Сн2? • • •! Gia АэЬ Сэ2> •••, Сэ5_ минимизирующим функционал lim -5- I (tj!— tO)-*00 f J to 0>ж1 V L Ф J (Р - Ф)2 ₽2 Для самолета, имеющего вес Go = 45OOO кГ, летящего на высоте h0 = 9000 м со скоростью Vo = 800 км!час, типичны следующие значения коэффициентов системы: то^о = -0,0297 сек1, -т~ VI -=Л= 0,379 сек-2, -=^- = 1,580 сек1 Збн ’ 1Х1 XI Ан = —1,17 сек"2, = 7Х1 мау1 = —ОДЭОсек-1, —^- = 0,129 сек1, 1 XI VI I = 0,379 сек-2, = —0,0125 сек 1, —Л - = —0,0096 сек 1 VI 7У1 g ^0 = 0,0438 сек1, 1У1 = -0,0423, -^= -0,106. 14—0102
210 Глава 5 Определить величины коэффициентов усиления Сц в цепи обратной связи, используя приведенные выше числовые значения коэффициентов системы и принимая следующие значения весовых множителей в критерии качества $но = бз0 = Во — у о — Решение можно получить с помощью вычислительной программы для ЦВМ [5.4]. Найти далее также собственные значения и соб- ственные векторы (т. е. формы собственных колебаний) для слу- чаев управляемой и неуправляемой систем (см. также гл. 14, разд. 14.2, задача 1). Ответ. Числовые результаты для матрицы Сгу, полученные Р. К. Мехра, таковы: 0 ' '6Н1 ГО,317; 0,069; 1,01; 0,076; 0,551 Т б3 = ~ 0,177; 0,737; 0,388; 1,03; 0,834j “yl ‘ ф J Задача 7. Линейная обратная связь для оптимального отслежи- вания заданного выходного сигнала. Выходной сигнал нестационар- ной линейной системы, описываемой уравнением х = F (t) х + G (t) и, является линейной комбинацией компонент вектора состояния У = М (t) х, где х — n-мерный вектор состояния, и — m-мерный вектор управ- ления, у — р-мерный вектор выходного сигнала. Используя интегральный квадратичный критерий качества (функцию штрафа), найти соотношения, определяющие матрицу С \t) и вектор w (t) в законе управления вида и = —С (t) х + w (t), который заставит систему с достаточной точностью отслеживать желаемый выходной сигнал у (t) на интервале t0 t tf, при этом величина сигнала управления и должна находиться в разум- ных пределах. Ответ. Возьмите критерий качества вида t. J = ~ \ [(у (t) — Мх)т А (у (t) — Мх) 4- иТВи] dt. to
Линейные системы с квадратичным критерием 211 Тогда C = B~1GTS, w=—B~lGTg‘, S=—SF— FTS + SGB-rGTS — MTAM, S(tf) = O, g= — (FT — SGB~lGT)gA~MTAy, Задача 8. Оптимизация неоднородной линейной системы по квадратичному критерию качества (В. Гарбер). Найти управле- ние и (t), которое минимизирует критерий качества Л J = у (хТ SfX)t=-_tf +~2 j (хТАх Ц- ит Ви) dt to при условиях х = F (t) X + G (t) и + С (t), х (t0) = х0 (х0 — заданный вектор). Ответ. Оптимальный закон управления имеет вид и (t) = —В-^ (Sx + к), где S и к определяются как решения уравнений S = _ SF - FTS + SGB~1GTS - А, S(tf) = Sf, к = (SGB~iGT- FT) к - SC, к (tf) = 0. Задача 9. Решение линейной двухточечной краевой задачи общего вида (Г. Рибицкий и П. Ушер). Рассмотрим линейную двухточечную краевую задачу х = F (t) х + w (t)\ Ах (t0) = а, Вх (tf) — Ъ, где. ж — n-мерный вектор, а — (п — Л)-мерный вектор, Ъ — fc-мер- ный вектор, F (t), w(t), а, Ъ, А, В — заданные величины. а) Показать, что решение может быть получено с помощью метода прямой прогонки, если положить Ах (t) = S (t) Вх (t) + т (t)-, S = CiS - SCi - sc3s + c2, 5 (to) = 0, 14»
212 Глава 5 т = (Ci — 5CS) т + (А — SB) w, т (t0) — а, Отметим, что 5 является (и — к) X fc-мерной матрицей, ат — (п — /с)-мерпым вектором. Интегрирование дифференциальных уравнений для S и т вперед, т. е. от t0 до tf, дает семейство решений, удовлетворяю- щих начальным условиям. При t — tf имеем условия Ах (tf) = S (tf) b + т (tf), Вх (tf) = b, которые образуют систему п уравнений для определения х (tf). Определив из этой системы х (tf), можно проинтегрировать исход- ную систему уравнений назад (т. е. от tf до t0) для получения искомого решения краевой задачи. б) Очевидно, что аналогичная процедура может быть исполь- зована и для нахождения решения краевой задачи методом обрат- ной прогонки: для этого нужно лишь положить Вх (t) = QAx (t) + п (t).
Глава 6 Соседние экстремали и вторая вариация 6.1. Соседние экстремальные траектории при заданном времени окончания процесса Пусть найдена некоторая вектор-функция управления и(£), которая удовлетворяет всем необходимым условиям первого порядка для оптимальности управления в задаче Больца ’) (см. разд. 2.5). Другими словами, пусть имеются следующая система уравнений и условия: х = f(x, U, t), (6.1.1) кТч= _ дН дх ’ (6.1.2) дН ди = о, (6.1.3) где x(t0), t0, tf заданы, (6.1.4) 1 дх 1 t=t f (6.1.5) ф [х («у)] = 0; (6.1.6) критерий качества имеет вид ч J = ф [х (£у)| J L [ж (/), u(t),t]dt, (6.1.7) <0 H = L-\-'kTf. (6.1.8) Напомним, что расширенный (вспомогательный) критерий каче- ства для данной системы определяется выражением _ tf J = ф [х (tД] 4- утф [х (tf)] 4- J [H (x, u, X, t) — Хтж] dt. (6.1.9) ___________ to Ч Управление u (f), удовлетворяющее соотношениям (6.1.1)-—(6.1.6), называется экстремальным управлением, а соответствующая ему траектория называется экстремальной траекторией (экстремалью). Экстремальное управление не обязательно минимизирует (максимизирует) выбранный крите- рий качества, поскольку оно удовлетворяет лишь необходимым условиям оптимальности. Экстремальные управления важно рассмотреть потому, что оптимальное управление находится среди экстремальных.—Прим, перев.
214 Глава 6 Рассмотрим теперь малые отклонения от экстремальной траектории, возникающие вследствие малых возмущений в началь- ном состоянии 8х (£0) и в конечных условиях бф. Естественно ожидать, что малые возмущения в начальных и конечных усло- виях приведут к появлению возмущений (вариаций) 8х (t), б% (t), dv, удовлетворяющих линеаризованным - в окрестности экстре- мальной траектории уравнениям (6.1.1) — (6.1.6), т. е. бж = fx^x + tu^U, (6.1.10) 6Л = -Hx£x-fr8K-Hxu8u, Hxu~J-(Hxf, (6.1.11) HUxSx+fl8% + Huu8u = 0, (6.1.12) 8x (t0) задано, (6.1.13) 6ВД = [(фхх + (v4)x) 8x + ^Txdv]t=tf, (6.1.14) бф = задано. (6.1.15) С другой стороны, можно рассмотреть разложение в ряд исходного критерия качества и ограничений с точностью до членов второго порядка малости по 8х, 8и [поскольку члены первого порядка малости обращаются в нуль, если траектория удовлетво- ряет уравнениям (6.1.1) — (6.1.9)]. Как было указано в разд. 1.3, к такому же результату можно прийти, если разложить в ряд расширенный критерий качества с точностью до членов второго порядка, а все ограничения — с точностью до членов первого порядка малости относительно 8х, 8и. Таким образом, 8‘2‘J = -^\8x (^>xx-b(v 115х)х)&r]t=^ . lf г IJ н л ГбтП +± ie^Vj °* dt (6.1.16) j L0W. io при выполнении условий бж = fx8x + /„бн, (6.1.17) 8х (t0) задано, (6.1.18) бф = (^>x8x)t=tf, бф задано. (6.1.19) Поскольку нас интересуют соседние экстремальные траектории, то нужно определить 8и (t) так, чтобы величина б2/ достигала минимума при одновременном удовлетворении условий (6.1.17) — (6.1.19). Такая задача относится к задачам оптимизации линей- но-квадратичного типа (подробно она рассматривалась в гл. 5). Введя множители б% и dv (такое обозначение для множителей выби- рается с очевидной преднамеренностью), получим присоединенную
Соседние экстремали и вторая вариация 215 двухточечную краевую задачу, которая описывается уравнения- ми (6.1.10) - (6.1.15). Уравнения (6.1.10) — (6.1.15) определяют линейную двух- точечную краевую задачу, поскольку коэффициенты при 8х, 8и вычисляются на экстремальной траектории. Предполагая, что матрица Нии (t) невырождена для t0 t tf, можно разрешить (6.1.12) относительно величины 8и (t) и выразить ее через 6% (Z) и 8х (t): 8и (t) = - (Них8х + т. (6.1.20) Подстановка полученного выражения для 8и (t) в (6.1.10) и (6.1.11) дает 8х = A (t) 8х - В (t) 6Л, (6.1.21) 6Х = -С (t) 8х - АТ (0 6Л, (6.1.22) где A(t) = fx-fuH~iHux, (6.1.23) B(t) = fuH^f£, (6.1.24) C(t) = Hxx-HxuH^Hux. (6.1.25) Б этой задаче можно также считать, что отклонения от экстре- мальной траектории вызваны возмущениями 8х (£0) и dv (вместо 8х (to) и бф); при таком подходе необходимо определить значение dv, которое соответствует желаемому значению бф. 6.2. Определение соседних экстремальных траекторий при заданном времени окончания процесса методом обратной прогонки Метод прогонки .для решения линейно-квадратичных задач был изложен в разд. 5.2. В том же разделе (см. задачу 4) этот метод был применен к задачам, содержащим под знаком интеграла в критерии качества члены с произведением х на и. Далее в разд. 5.3 метод прогонки был распространен на задачи с линейными терми- нальными ограничениями вида (5.3.11). Ниже сделано дальнейшее обобщение — указанный метод применен для решения задачи с линейными терминальными ограничениями в форме (6.1.15) *). Как и в разд. 5.3, будем искать решения уравнений (6.1.22) и (6.1.19) в виде 6% (t) = S (t) 8х (t) -}- R (t) dv, (6.2.1) 6ф = RT (i) 8x (t) + Q (1) dv, (6.2.2) x) См. также задачу 1 разд. 5.3,
216 Глава 6 здесь dv и бф — векторы с постоянными бесконечно малыми компонентами, S (t), R (t) и Q (t) — матричные функции. Оче- видно, эти матрицы должны быть такими, чтобы удовлетворялись соотношения (6.1.14) и (6.1.15), т. е. 5 (tf) = [фхх + (уад<=4/, (6.2.3) R (tf) = (6.2.4) Q (tf) = 0. (6.2.5) Продифференцируем теперь выражения (6.2.1) и (6.2.2) по времени, считая dv и бф постоянными величинами: 6Х = S8x S8x R dv, (6.2.6) RT8x + RT8x + Qdv = 0. (6.2.7) Подставляя выражение для б% (t) из (6.2.1) в (6.1.21), получим 8х = (А - BS) 8х — BR dv.' (6.2.8) Приравняем теперь правые части уравнений (6.2.6) и (6.1.22), исключив из них предварительно 8х и б% с помощью соотноше- ний (6.2.1) и (6.2.8): (-С - ATS - SA + SBS - S) 8x - [(Лт - SR) R + A] dv-0. (6.2.9) Подобным образом, подставив 8x из (6.2.8) в (6.2.7), получим [RT + RT (A-BS)]8x + (~RTBR + Q) dv==0. (6.2.10) Если рассматривать уравнения (6.2.9) и (6.2.10) как тождества, справедливые при произвольных значениях 8х и dv, то очевидно, что коэффициенты при 8х и dv должны обращаться в нуль: S= — SA — ATS + SBS — С, или S=-Sfx—flS-HxxA- + (Sfu + HTx)H-ul(Hux + flS), (6.2.11) R=—(AT — SB)R, (6.2.12) Q = RTBR. (6.2.13) Соотношения (6.2.3) — (6.2.5) являются граничными условиями для этих матричных дифференциальных уравнений. Если инте- грировать эти дифференциальные уравнения от t — tf до t = t0, то выражения (6.2.1) и (6.2.2) будут представлять собой граничные условия, эквивалентные терминальным граничным условиям
Соседние экстремали и вторая вариация 21 < (6.1.14), (6.1.15), но заданным в более ранние моменты времени; таким образом, терминальные граничные условия «переносятся» назад, на более раннее время. Проинтегрировав уравнения (6.2.11) — (6.2.13) от tf до t = t0, можно разрешить уравнение (6.2.2) в точке t = t0 и получить таким образом необходимое значение dv для обеспечения нужного отклонения бф: dv = Q-1 (f0) [&ф - RT Go) (Ш (6.2.14} Заметим, что существование dv для всех значений 6-ф связано с невырожденностью матрицы Q (t0) (см. разд. 5.3, условие нор- мальности). Если величину dv из (6.2.14) подставить в (6.2.1) при t = tar то получим б% Go) = [5 Go) - R (to) Q-1 (to) RT Go)] (to) + + R (to) Q-1 (to) бф. (6.2.15} Далее можно найти 8х (t) и 6Х (t) путем интегрирования уравне- ний (6.1.21) и (6.1.22) «вперед» (т. е. от t0 к tf), как при решении задачи с заданными начальными условиями, с использованием в качестве начальных значений 8х (t0) и б% (t0) из (6.2.15). С другой стороны, если при интегрировании «назад» запомнить матрицы S (t) и R (t), то можно просто проинтегрировать урав- нение (6.2.8) «вперед», используя dv из (6.2.14). Полученное зна- чение 8х (t) затем можно подставить в (6.2.1) и определить б% (t). Еще один способ состоит в следующем. Если запомнить матри- цы S (t) и R (t) при интегрировании в обратном времени, то можно считать соотношение (6.1.20) линейным законом управления с обратной связью. Подстановка б% (t) из (6.2.1) в (6.1.20) дает 8u(t)= -Н^и [(Них + №) 8x + flRdv\. (6.2.16} Это соотношение совместно с уравнением (6.1.10) и выраже- нием (6.2.14) можно использовать для определения 8х (t). Величина dv в выражении (6.2.14) вычислена при t = t0. Рассматривая выражение (6.2.16) как закон управления с обрат- ной связью, видим, что величину dv необходимо вычислять либо в нескольких промежуточных точках по времени (подобно тому как это делается в случае дискретного закона управления с обрат- ной связью), либо непрерывно (как в случае непрерывного закона управления с обратной связью). Если dv вычисляется непрерывно с помощью соотношения (6.2.14), в котором t0 заменено на t, то выражение (6.2.16) примет вид 8и (t) = - {(Них + ft(S-RQ^R7)] 8х + ftRQ-Щ} = -A1(t)8x-A2(t)8^. (6.2.17}
218 Глава 6 Это непрерывный линейный закон управления с обратной связью, при котором терминальные условия имеют требуемые малые отклонения а критерий качества J (6.1.7) достигает минимума. Поэтому полученный закон управления целесообразно назвать оптимальным законом управления в окрестности номинальной траектории (или оптимальным законом управления по соседним траекториям). Задача 1. Рассмотрим динамическую систему х = (F + GK) х, х (0) = х0, тде х — скалярная переменная, К — скалярное управление. Пусть критерий качества имеет вид т / = 4^(7’) St + 4 j x*(t)(Q + KRK)dt, о тде F, G, ST, R, Q — известные скалярные величины. Записать необходимые условия обращения в нуль первой вариации J и решить полученную двухточечную краевую задачу. Заметим, что эта задача может быть получена из обычной линей- но-квадратичной задачи, если предположить, что закон управле- ния имеет вид и — Кх. 6.3. Достаточные условия локального минимума при заданном времени окончания процесса В этом разделе будет показано, что для существования сосед- них стационарных *) экстремальных траекторий (экстремальных в слабом смысле, т. е. при малых 8х и 8и) достаточно выполнения •следующих условий: Нии (t) >0 (т. е- матрица Нии положительно определена) при t0 t tf, (6.3.1) <2 (t) <Z 0 (т. е. матрица Q отрицательно определена) при t0 < t < tf, (6.3.2) Матрица [S' (i) — R (t) Q~r (t) RT (£)] ограничена при t0 t <Z tf. (6.3.3) В вариационном исчислении каждое из этих трех условий имеет -специальное название: (6.3.1) — условие выпуклости (или уси- г) Имеются в виду соседние траектории, удовлетворяющие условию стационарности (6.1.12).— Прим, перее.
Соседние экстремали и вторая вариация 219 ленное условие Лежандра — Клебша), (6.3.2) — условие нормаль- ности, (6.3.3) — условие отсутствия сопряженных точек на траек- тории (условие Якоби). Условия (6.3.1) — (6.3.3) совместно с необходимыми усло- виями (6.1.1) — (6.1.9) разд. 6.1 образуют систему достаточных условий локального минимума критерия качества J на рассма- триваемой траектории. Для доказательства рассмотрим снова выражение (6.1.16) для второй вариации б* 2/: б2/ = -^[6жт(фа:ж + (^т'фх)х6ж](=(/ + 9 + 4“ J [&ЕТбнТ] *0 Нхх Нхи §х Них Нии _ _ би (6.3.4) Если будет показано, что 82J >0 для всех 8и (t) 0, то тем самым будет установлено, что исходная траектория1) миними- зирует критерий J. Прибавим к выражению (6.3.4) следующее тождественно рав- ное нулю выражение2): [(бж^х — 6i|;T) dv]t=tf + + ^ { dvTRT (fx8x + fu8u — 8х) + to у 8xTS (Jx8x + fu8u — 8x) | dt == 0, в котором величины dv== const, R = R(f), S = S(t) должны быть определены. Интегрируя dvTRT8x и 8xTS8x по частям, получим 82J = | [бжт (фхх + (v^- 5) бх]t=tf + + dvT [Сфх — RT) 8x — 6i|)]t=t/ + + у [бжт5 бх] t=to + [бжтй dv]t=t0 + + J ^2dvT (RT + RTfx~) 8x + 2dvTRTfu8u + to i) В классической литературе эта задача называется присоединенной задачей на минимум. См., например, Г. А. Б л и с с, Лекции по вариацион- ному исчислению, ИЛ, 1950. 2) Метод доказательства принадлежит С. Макрейнольдсу и изложен в его докторской диссертации (S. R. McReynolds, Ph. D. Thesis, Har- vard Univ., 1966).
220 Глава 6 + 8xTS 8x^2 (8xTfx + 8uTfu) S8x = [HVV H'VTL Г бД/1 1 „ и L И (6-3-5> "их -#uuj [OUJ J Распишем подынтегральное выражение более подробно: 1 7 • -i- j [6ят (5 + Sfx + f$S + Hxx) 8x + 8uTHuu8u + to + 8xT (R + fxR) dv + dvT (RT + RTfx) 8x + + 8xT (Hxu + Sfu) 8u + 8uT (Hux + flS) 8x + dvTRTfu 8u + 8uTf£R dv] dt. Выберем теперь матрицы S, R так, чтобы выполнялись соотно- шения «S' -]- Sfx Ц- fxS -р Нхх = (Нха -]- Sfu) Дии (Hux 4~ fu^)i S (tf) [<£хх + (vT4x)x]i=(/, (6.3.6) R+fxR-(Hxu + SfT)H^fuR = O, R(tf) = ^f (6.3.7) а матрицу Q определим следующим образом: Q = RThH-^R, Q(tf) = V. (6.3.8) Следовательно, указанные матрицы удовлетворяют уравнениям (6.2.11) — (6.2.13) разд. 6.2. Интеграл в выражении (6.3.4) можно теперь представить в виде полного квадрата *) 8U = ±(8xTS. 8x)t=t0 + (8xTRdv)t=t0- (Wdv) + ± dvTQ(t0)dv + + 4 J II l(Hux + f^S) 8x + fuR dv] + 8u \\^uu dt. (6.3.9) Наконец, выберем dv так, чтобы удовлетворялись уравнения (6.2.14) или (6.2.2). Тогда получим ' 84= [у 8х? (S - RQ-4lT) 8х + 8^Т0~^ 8х — !) Напомним, что || г ||А обозначает квадратичную форму zTAz (см. при- ложение А.З).— Прим, перев.
Соседние экстремали и вторая вариация 221 + 4" J II (Я™)’Х №их + RQ^R?)] 8х + to + + 8и ||huu dt. (6.3.10) Если сравнить две траектории с одинаковыми начальными и тер- минальными условиями, т. е. при 8х (t0) — 6ф = 0, то 6V >0 для всех 8и (t), за исключением тех, при которых подынтеграль- ное выражение в (6.3.10) обращается в нуль, т. е. за исключе- нием 8и (t), определяемых выражением (для всех t) 8u(t)^-H-lu[Hux + fl(S-RQ-lRT)]8x. (6.3.11) При 8х (t0) =0 и = 0 из (6.3.11) следует, что 8и (t) = 0, если выполняются условия (6.3.1) — (6.3.3). Последнее означает, что 6V >0 для всех ненулевых 8и (t) при 8х (t0) = 6ф = 0; таким образом, исходное управление и (t) доставляет локальный минимум критерию качества J. Далее, если используется закон управления с обратной связью (6.2.17) при 8х (ta) =5^=0 и 6ф 0, то в соответствии с (6.3.10) изменение критерия качества с точностью до членов второго порядка определяется выражением 8J = Лт (t0) 8х (t0) — vT бф 4- у [6жт (t0), бфт] х -S-RQ^RT, ХI Q~rR, Отсюда получаются следующие водных от J°(x(to), ф]: dJa --УТ dJ0 dz ’ -f^- = RTQ-\ дх дф х RTQ * 8х (t0) ’ — Q1. бтр выражения для частных произ- -vT, ^- = S-RQ^RT, йф2 Можно показать также, что необходимым условием второго порядка для минимума J является ослабленное условие (6.3.1) (см. также гл. 4, разд. 2), т. е. Нии (t) > 0 для to < tf. (6.3.12) х) Смысл условия выпуклости легко понять, основываясь на материале гл. 4, где показано, что и (t) определяется минимиза- цией гамильтониана Н по и при фиксированных значениях х, х) В классическом вариационном исчислении это условие называется необходимым условием первого порядка; см. [6.21].
222 Глава 6 X и t. Если Н — гладкая функция и ограничения на управление отсутствуют, то должны выполняться условия Ни = 0, Нии > 0. Что касается условия нормальности, то уравнение (6.2.14) позволяет интерпретировать его следующим образом. Малые изменения 6ф могут быть получены при малых изменениях dv только в случае невырожденности матрицы Q (t) на t0 t < < tf. Если Нии >0, то из (6.3.8) следует, что Q 0. Поскольку Q (tf) = 0, то, следовательно, Q (t) 0. Если S — RQ^R7 -> оо в точке t = t', где t0 t' < tf, то необходимо, чтобы некоторая линейная комбинация 8х (t') была равна нулю; это означает, что система допустимых возмущений Фиг. 6.3.1. Кратчайший путь между точкой и большим кругом на сфере. 0 — географическая широта; ф — географическая долгота. имеет размерность меньше, чем п, где п — число переменных состояния. Следовательно, поверхность постоянных значений J° в окрестности точки t = t’ имеет излом (разрыв в частных произ- водных), поскольку d2J°ldx2 —> оо при t = t’. Если траектории продолжить от t = t' в сторону t < t', то они уже не будут мини- мизирующими х) (см. примеры 1 и 2 и задачи 1 и 2 этого раздела). Заметим, что если S —> оо, то это еще не обязательно означает, что S — RQ-1RTоо (см. пример 2). Пример 1. Кратчайшая траектория на сфере между точкой и большим кругом. Чтобы найти кратчайшую траекторию между точкой О и большим кругом, выберем систему координат с нача- лом в этой точке; пусть большой круг соответствует меридиану ф = фр Обозначим через 0 широту точки, а через ф — ее долготу (фиг. 6.3.1). г) Точнее: участки траекторий и управлений на отрезке времени [i, «у], где t < t', a tf фиксировано, не будут минимизирующими, если S — RQ~XRT оо при <= Проверку условия ограниченности матрицы 8 — RQ-XRT удобно проводить (при фиксированном tf) начиная с правого конца траекто- рии, поскольку граничные условия для 8, R, Q заданы при t = tf.— Прим, перев.
Соседние экстремали и вторая вариация 223- Элемент расстояния ds на поверхности сферы определяется равенством ds = [г2 (Й9)2 + г2 cos2 9 (cty)2]1/2, где г— радиус сферы. Задача состоит в отыскании и (<£), мини- мизирующего критерий качества Ф1 /= j (u,2 + cos2 9)х/2 d$, о где d$ld$ = u, 9(0) = 0. Легко показать, что траектория и = 0, 9 = 0 удовлетворяет необходимым условиям первого порядка, при этом J = ф^ Рас- смотрим теперь траектории, лежащие в окрестности найденной экстремали (т. е. соседние траектории). Разложение критерия качества с точностью до членов второго порядка дает х) Ф1 6J = J— ф^^- j (u2 —92)d<£. о Для полученной присоединенной задачи на минимум гамильто- ниан Н имеет вид Н = (и2 — 92) + Хн; уравнения Эйлера — Лагранжа Исключая X и и с помощью соотношения d&!d& = и, получаем — + 9 = 0, 9(0) = 0, =0. аф2 ’ \ / \ аф / ф=ф1 При 9 = A sin ф удовлетворяется дифференциальное уравнение и начальное условие 9(0) = 0, но еще необходимо, чтобы (-4?-) =ЛсозА1 = 0. Последнее равенство справедливо только при А = 0, если ф1 < л/2, и при любом А, если ф1 = п,12. Заметим, что в том случае, когда ф1 = л/2, л/2 67 = -|- ( (А2С082 ф — A2 sin2 ф) dф = 0. о г) Ниже в присоединенной задаче вместо би, 60, 6ф использованы обозна- чения и, 0, ф соответственно.— Прим, перев.
224 Глава 6 Точка О называется фокальной, или сопряженной, точкой для точки ф! = л/2 в данной задаче. Другой способ решения задачи основан на использовании уравнения Риккати. Принимая во внимание, что в рассматривае- мом примере F = О, G = 1, Нее — —1» Неи — 0, Нии = 1, полу- чим уравнение Риккати ^- = ^ + 1, 1§'(ф1) = 0. Оно легко решается: 5 = —tg (ф4 — ф). Видно, что S —> оо при ф1 — ф —>л/2. Таким образом, сопря- женная точка существует, когда ф! — ф — л/2. Оптимальный закон управления с обратной связью для соседних траекторий имеет вид би (t) = [tg (ф1 — ф)[ 69. Заметим, что коэффициент усиления tg (ф! — ф) закона управ- ления би положителен для 0 ф1 — ф л/2. Пример 2. Кратчайшая траектория между двумя точками на сфере. Эта задача отличается от предыдущей только терми- нальными граничными условиями. Пусть вторая точка имеет координаты 0 = 0, ф = фр, тогда 9 (ф1) = 0, [вместо X (ф^ = 0]. Так же как и в примере 1, решение 9 = A sin ф удовлетворяет уравнениям Эйлера — Лагранжа для присоединенной задачи на минимум; начальное условие 9 (0) = 0 также удовлетворяется. Требуется еще, чтобы 0 (ф1) = A sin ф1 = 0. Это равенство справедливо только при А = 0 для ф1 < л и при любом А, если ф1 = л. Точка О — сопряженная точка для точки 9 = 0, ф = л. Заметим, что для точки 9 = 0, ф = л б J = j (A2 cos2 ф —A2 sin2 ф) йф =0. о Полученное соотношение показывает, что между двумя такими точками на сфере существует бесконечно большое число траек- торий (полуокружности больших кругов), которым соответ- ствуют одинаковые значения критерия качества. Если ф1 >л, то на траектории и = 0, 9 = 0 не достигается даже локальный минимум, хотя необходимые условия первого порядка удовлетворяются. Отсутствие локального минимума легко
сосеоние экстремали и вторая вариация 225 установить, вычислив значение 6J на соседней траектории вида 9 = A этл-^-, Ф1 тогда *1 с г 1 Г / 42л2 „ лф „ . „ яф \ j , А2 . ,2 о/ = -у- (-2- cos2—-----Л2ЗШ2—7-) с/ф = —7—(А2 — л2). 2 J \ ф1 Ф1 ) г 4:ф1 1Т1 / Эта величина при увеличении А может быть сделана сколь угодно меньшей нуля. При решении задачи с помощью уравнения Риккати исполь- зуются вспомогательные величины R и Q, поскольку заданы терминальные граничные условия ^• = 5> + 1, S(« = 0, i.SS, Я(М = 1. Для 0 — ф < л/2 эти уравнения легко решаются: S = —tg (ф1 — ф), R = sec (ф1 — ф), Q = —tg (ф1 — ф), при этом S — RQ-1RT = ctg (ф± — ф) и RTQ~1 — cosec — ф). Оптимальный закон управления с обратной связью для соседних траекторий имеет вид би (f) = — [ctg (^>i — ф)1 60 + [cosec (ф4 — ф)] 60/. Хотя S, R и Q даже не существуют при ф1 — ф л/2, тем не менее 5 — RQ~TRT существует при 0 ф1 — ф <z л. Оче- видно, что S — RQ-1RT -> 00, если ф! — ф -> л; таким образом, сопряженная точка имеет место при ф1 — ф = л. Заметим, что S -> оо при ф1 — ф = л/2, но S — RQ^R1 не стремится к оо при ф4 — ф = л/2. Этот же результат можно было бы получить и без введения вспомогательных величин R и Q, если бы при решении уравнения Риккати использовать условие S (ф4) = оо вместо условия S (ф^ = 0. Пример 3. Минимальные по времени траектории, проходящие в среде, где скорость движения определяется зависимостью V (у) = Vo + у21№. В задачах 2—5 разд. 2.7 показано, что для данной задачи минимальные по времени траектории, выходя- щие из начала координат, описываются уравнениями х = Vo У1 + y2/h2 cos 0, х (0) = 0, у = у0 У1 -J- y2!h2 sin 0, у (0) — 0, 0= ---cos0, 0(0) = 0О. h2 Vl + y2!h2 ’ 15—0102
226 Глава 6 Первый интеграл этой системы получается из закона Снеллиуса (геометрическая оптика) cos 0 cos 0л ---- r= Т7 = const. V0Vl + № Fo Из первого интеграла можно найти зависимость y/h от 9 у ____~|/cos2 0 — COS2 0Q h cos 0O Подставив полученное выражение в уравнения для х и 9, полу- чим dx___ h cos2 0 sec 0O d9 ~ 1/cos2 0 — cos2 0O ’ dt __ __________h__________ ^9 Vo ~]/cos2 0 — cos2 0o Решения этих уравнений можно выразить через стандартные эллиптические интегралы: (90, Л_)_£(9о, ф)]зес90, (9о, -f)-F(90, Ф); здесь , sin 0 Sin Ф = —; д- , r sin 90 F (90, Ф ,. (* da ф) = 1 — . —неполный эллиптический о Д/4 — sin2 60 sin2 ос. интеграл первого рода, Я(9«, ф)= 1 1—sin2 90 sin2 a da—неполный эллиптический ин- J теграл второго рода. Имеются таблицы этих интегралов1). Можно далее выразить y/h через ф -|- = tg90 соэф. На фиг. 6.3.2 изображено несколько минимальных по времени траекторий («лучей») и несколько кривых постоянных значений Vot/h («волновых фронтов»). Заметим, что сопряженная точка здесь x/h = л, у = 0; прямая у = 0 является минимальной по времени траекторией для 0 < xf/h < л (но не для xflh г) См., например, Е. Янке, Ф. Эмде, Ф. Леш, Специальные функ- ции (формулы, графики, таблицы), изд-во «Наука», 1964,— Прим, перев.
Соседние экстремали и вторая вариация 227 Заметим, что кривые постоянных значений- VotJh (см. фиг. 6.3.2) имеют бесконечную кривизну в сопряженной точке Фиг. 6.3.2. Минимальные по времени траектории, проходящие в среде, где величина скорости движения определяется соотношением V (у) = = Vo VI + (гА)2. (т. е. д2Лду2 -> оо). Помимо этого, на прямой у = 0 за сопря- женной точкой (т. е. при x/h > л) линии уровня Vot!h = const имеют разрывы в наклоне касательных при переходе от у < О к У >0- (См. также задачу 3.) Задача 1. Пусть Q-1 (t) существует для t0 t <Z tf, но S — RQ^R1 -> оо в точке t = ti (т. е. t = ti — сопряженная точка). Показать, что: 1. Можно найти некоторую соседнюю траекторию, идущую от ti к tf, которая удовлетворяет уравнениям = фж6а: = 0, 8х = fx8x + fu$u, бк= —/жбХ — Нхх$х — Нхи$и, Н-l [Них + fl(S- RQ~1RT)] 8х 15*
228 Глава 6 и условию 8х (tt) = 0. Такую траекторию назовем сопряженной (фиг. 6.3.3). Фиг. 6.3.3. Сопряженная точка и сопряженная траектория. 2. На сопряженной траектории справедливо равенство 4- j |SzW| [£] dt + ±^TSta),.,/=s0. tl Следовательно, «стоимость» пути х) АВС (фиг. 6.3.3) равна «стои- мости» пути ABD. 3. Из полученного в п. 2 соотношения вытекает, что «стои- мость» пути от А до D, не проходящего через В, меньше «стоимо- сти» пути ABD. Таким образом, отсутствие сопряженной точки Фиг. 6.3.4. Сопряженная траектория и неоптимальность. на интервале t0 < t < tf является необходимым условием опти- мальности траектории (в данном случае — в смысле минимума критерия качества). [Указание. Рассмотреть траекторию AEBFD (фиг. 6.3.4), где Е —>- В, F-+B.] Задача 2. Какая часть положений, использованных при выводе основного уравнения метода динамического программирования (разд. 4.2), теряет силу, если при t = имеется сопряженная точка. Почему нельзя в этом случае применить для решения задачи метод переходной матрицы разд. 5.3? х) В смысле значения принятого критерия качества.— Прим, перев.
Соседние экстремали и вторая вариация 229 Задача 3. Пример 3 данного раздела можно сформулировать как задачу минимизации критерия качества 7_j_ 7 г i+«2 -1V2 Vo J Ll + yw J dx о при условиях = и, У (0) = о, у (xf) = 0. Если у <^ h и и<^1, то этот критерий качества можно аппро- ксимировать следующим образом: Показать, что для такой аппроксимации сопряженной точкой является точка х = nh, у = 0. Задача 4. В условиях примера 2 разд. 6.3 показать, что крат- чайшие пути (большие круги), проходящие через точку д=ф = О, описываются однопараметрическим семейством вида tg 9 = tg 9m sin <Ь, где 9m — максимальное значение 9 на большом круге. Задача 5. Найти минимальные по времени траектории, про- ходящие в среде, где величина скорости движения определяется зависимостью V (х, у) = 1 + х2 + у2. Начальная точка х = 1, у = 0. В частности, требуется показать, что точка х — —1, у .= 0 является сопряженной по отношению к точке х = 1, у = 0. (Указание. Следует использовать полярные, координаты х = — г cos 9, у = г sin 9.] Задача 6. Продольный изгиб балки. При отклонении от состоя- ния равновесия под действием нагрузки балка принимает такую форму, что интеграл i J = { [? u2 ~ Р (1 ~ C0S 0) ] ds о достигает минимума. Здесь dQ/ds = и — кривизна, Р — нагрузка на балку, Е — модуль упругости, I — момент инерции поперечного сечения бал-
230 Глава 6 ки относительно нейтральной оси, tg 0 — наклон нейтральной оси, I — длина балки, s — расстояние вдоль нейтральной оси балки. Как видно из фиг. 6.3.5, концы балки закреплены так, что 9 (0) = 9 (Z) = 0. Требуется определить форму прогиба балки, если известно, что EI и Р — постоянные величины, а длина I — возрастающий Фиг. 6.3.5. Схема и обозначения к за- даче об изгибе балки. параметр. Отметим, что если у — отклонение нейтральной оси от прямой линии (ненагруженного состояния), то -^-=sin9. ds Показать, в частности, что и = 9 = у = 0 является един- ственным решением до тех пор, пока I не достигнет определенной критической величины ZKp; при больших значениях Z (Z > ZKp) минимальному значению интеграла J соответствует 0^0. Задача 7. Пусть внутри сферы радиусом R величина скорости определяется зависимостью V = Vol ]/*2 —г2//?2. Показать, что плоская волна, движущаяся в свободном про- странстве со скоростью Уо, при падении на сферу преломляется Фиг. 6.3.6. Линза Люнеберга. и фокусируется в некоторой точке, расположенной на противо- положной стороне поверхности сферы (фиг. 6.3.6). Такая сфера называется линзой Люнеберга, она используется в оптике и радиолокации.
Соседние экстремали и вторая вариация 231 Задача 8. а) Показать, что задача Штурма — Лиувилля 4[г(<)4] + »(«)* = 0, *(0) = 0, ах (tf) + г (tf) х (tf) = О (все величины — скаляры) может быть интерпретирована как задача отыскания минимума интеграла вида J а [х (tf)]2 + J \r(t)u2-q (t) х2] dt, о где х = и, х (0) = 0. б) Для случая, когда г и q — положительные постоянные величины и а = О, показать, что, и = 0 — единственное решение, если tf < л/2 []Лr/q], и что существует бесчисленное множество решений, если tf = л/2 [J^r/ql (всем этим решениям соответ- ствует J = 0). Задача 9. Проверить выражение для б/ исходя непосред- ственно из уравнения (6.3.11). 6.4. Оптимальное управление с обратной связью для возмущенного движения при заданном времени окончания процесса Если состояние системы описывается тремя или более пере- менными, то объем вычислительной работы, а также объем памяти, необходимые для определения нелинейного оптимального закона । управления с обратной связью г) методами гл. 4, катастрофиче- ски возрастают из-за большого количества числового материала, с которым приходится иметь дело. Для практических целей приходится рассматривать управление с обратной связью для возмущенного движения, т. е. управление в окрестности номи- нальной траектории. Если номинальная траектория оптимальна, то использование коэффициентов усиления, определенных в разд. 6.2, приводит к соседним оптимальным траекториям. В разд. 6.1 показано, что этот тип управления совпадает с линейным законом управления с обратной связью (гл. 5). При этом весовыми коэффициентами !) Этот закон также называется явным законом управления, законом - управления по замкнутому контуру или решением, полученным методом дина- мического программирования.
232 Глава 6 в квадратичном критерии качества являются частные производ- ные второго порядка от гамильтониана исходной вариационной задачи [формула (6.1.16)], а линейными уравнениями объекта явля- ются линейные уравнения возмущенного движения относительно измененные Фиг. 6.4.1. Блок-схема системы оптимального управления с обратной свя- зью для возмущенного движения [управление по соседним оптимальным траекториям, би =—Л4 (t) бж— Л2 (t) бтр, см. (6.2.17)]. номинальной оптимальной траектории [уравнение (6.1.17)] х). На фиг. 6.4.1 представлена блок-схема системы оптимального управления для соседних траекторий, основанного на уравне- нии (6.2.17). Пример. Управление возмущенным движением для выведения ракеты на орбиту с максимальной горизонтальной скоростью в конце выведения. Считая, что гравитационные силы, действующие на единицу массы, постоянны, рассмотрим задачу оптимального программирования направления тяги для выведения ракеты- носителя на заданную высоту в заданное время с нулевой верти- кальной и максимальной горизонтальной скоростью. (Обозначе- ния см. на фиг. 6.4.2.) Эта задача оказывается «взаимной» по 1) Эта интерпретация в какой-то степени отвечает критике квадратичных критериев, отмечающей их произвольность и искусственность. [Эти квадра- тичные критерии не более искусственны, чем критерии типа (6.1.16).— Ред.}
Соседние экстремали и вторая вариация 233 отношению к задаче 13 разд. 2.7, где требовалось минимизировать время при заданной конечной горизонтальной скорости. Номи- нальное управление определяется из решения первых двух урав- нений указанной задачи относительно й0 и й/ в предположении, Фиг. 6.4.2. Схема выведения на орбиту. что конечное время Т известно и а — постоянная величина. Таким образом, получается следующая зависимость для й (t)z. tg Й = tg Йо-J-(tg йу —tg й0)-^-. Траектория описывается уравнениями р = азшй — g, р(0) = 0, y = v, у(0) — 0; критерий качества т J — а cos й dt. о Соседние экстремали описываются уравнениями (6.2.11) — (6.2.13)* с граничными условиями (6.2.3) — (6.2.5). В рассматриваемом случае имеем
234 Глава 6 Отсюда 7?ц — — Rzit T?12 = 7?22, Ли = 0, ^22 = О, Т?12(Г) = 0 । 7?21(Л = 0 Я22(Т) = 1 J Qu = — a cos3 fl', 212 = —а(Т — t) cos3 fl1, следовательно, 4 7?22 — Т — ti Я21 = 0, ч R%i = 1, 2u (T) = Q, <?12(Г) = 0, Qzt = —а(Т—£)2 cos3 fl, Далее, поскольку й = —V2cos2,fl ведливы соотношения ^2н = ^-cos A d'fl, dQ12 = (tg 'fl — Vi) cos fl dfl, dQ?2. = -~3 (tg fl — Vj)2 cos fl d'fl, V2 2гг (Л = 0- и (tgA— Vi)/v2 = T — t, то спра- 2n = -^-(sin fl —sin fly), _ a 1—cos (fl —fly) — vf cosfl} ’ n — — Г —sin fly . ^*22 v| L cos2 fly ' 11 tgfl + secfl -1 . ' tgfly+sec fly J ’ Q^ = 2г2, — 212 212, 211 D RQ~r = где 77 = 211222 — 212, 2гг, —21гП — 212, 211J__ D .0, 1 -222-(Г-0212, (T-t)Qu-Qi2' — 212, 211 1 D • Итак, получаем следующее выражение для оптимального закона управления (с обратной связью) по соседним траекториям: 6fl = ^[222-(r-0<?12, (r-/)2n-2dx ’ бру — бп х [(Г-t)8v + 8y]_ • На фиг. 6.4.3 изображена траектория, максимизирующая гори- зонтальную скорость в конце выведения при следующих числовых значениях параметров: alg = 3 и 2h!aT2 = 0,258; на фиг. 6.4.4
Соседние экстремали и вторая вариация 235 показаны коэффициенты усиления в цепи обратной связи для оптимального закона управления, соответствующие соседней траектории при 6р/ = бу/ = 0. Для реализации такого управле- Ф и г. 6.4.3. Траектория выведения на орбиту с максимальной горизонталь- ной скоростью в конце полета при а/g = 3, 2h!aT2 = 0,258. ния необходимы также зависимости v* (f), у* (t), й* (t) для номи- нальной траектории. Фиг. 6.4.4. Изменение во време- ни коэффициентов усиления об- ратной связи при a/g=3, 2h/aT‘i= = 0,258.
236 Глава 6 Задача. Минимизация интеграла от квадрата управления (конечное время задано). Номинальная траектория удовлетворяет условиям на конце -ф [я (fy)] = 0 в заданный конечный момент времени tf. Найти закон управления для возмущенного движения, при котором удовлетворяются измененные на малую величину условия на правом конце -ф [х (fy)] = dip и минимизируется кри- терий £ = 4 J (8и)ТВ8и dt, t где В (f) — положительно определенная матрица. Ответ. 8и (f) = -B-'fiBQ-1 (dip - RT8x), где R=-f%R, R (tf)= Q = RTfuB~^R, Q(tf) = O. 6.5. Соседние экстремальные траектории при незаданном времени окончания процесса В задачах оптимизации время окончания процесса tf чаще определяется неявно из терминальных ограничений, как в разд. 2.7. Методы, изложенные в разд. 6.1—6.4, необходимо распространить на зтот случай. Номинальное оптимальное реше- ние должно удовлетворять дополнительному необходимому усло- вию (2.7.23) Й(х, u,v, t)\^tf^(^- + L)t=tf = O, ' (6.5.1) где Ф = Ф(Х, t) + v ty(x, t), — = —+ — Скалярное уравнение (6.5.1) определяет дополнительную неиз- вестную величину tf. Линеаризация необходимых условий (6.1.5), (6.1.6) и (6.5.1) должна учитывать наличие вариации (возмущения) dtf во времени окончания процесса tf. a1*'],.,,' <6-5-3> Г-Р d^ + dvT-§ + ^- dtf] =(Р). (6.5.4) L дх ‘ dt 1 dt J v ' x) Заметим, что (dfi/du) = (дШди) = 0.
Соседние экстремали и вторая вариация 237 Далее, для вычислений потребуются величины 6А (tf) и 8х [а не d7. (tf) и dx]; поэтому подставим выражения dh (tf) = бА (tf) A. (tf) dtf, (6.5.5) dx (tf) = 8x (tf) + x (tf) dtf (6.5.6) в (6.5.2), в результате получим ад- (5)ГМ4 (^)г-4dl>- С помощью (6.1.2) и (6.1.5) можно установить, что <6-5-8) dt \ дх / к дх / ' ' Наконец, подстановка (6.5.8) в (6.5.7) и (6.5.6) в (6.5.3) и (6.5.4) дает следующее матричное уравнение: 8%(tf) -д*Ф дх% ’ / dip \ Т \ дх ) ’ f dQ\T \ d*J 8x(tf) (6.5.9) dip == dip дх ’ 0 dip dt dv , (6.5.10) 0 dQ - дх ’ / dip \ Т \ dt ) ’ dQ dt t=tf dtf (6.5.11) где dQ ___ dQ . dQ , dip ___ dip dip dt dt dx I’ dt dt ‘ dx Уравнения (6.1.10) — (6.1.13) и (6.5.9) — (6.5.11) описывают линейную двухточечную краевую задачу для соседних экстре- малей при малых изменениях начальных условий 8х (t0) и/или малых изменениях терминальных условий dtp. Эти изменения [6z (t0), dip] вызовут, вообще говоря, малые приращения 8x(tf), dv и dtf. Такая задача в принципе может быть решена методом линейной суперпозиции (разд. 5.3). Однако применение обобщен- ного метода прогонки, рассмотренного в следующем разделе, обес- печивает большую устойчивость при численном решении. Возможен и другой вывод граничных условий (6.5.9) — (6.5.11), основанный на рассмотрении соответствующего разложе- ния расширенного критерия качества [аналогично' тому, как зто описано в разд. 6.1 после уравнения (6.1.15) для случая фикси- рованного конечного времени tf] [6.3]. Значительного улучшения эффективности управления возму- щенным движением можно достигнуть, если коэффициенты усиле- ния обратной связи считать зависящими от времени, оставшегося .до окончания процесса, а не от текущего момента времени. При .этом требуется, чтобы оценка времени, оставшегося до окончания
238 Глава 6 процесса, производилась на протяжении всего процесса работы системы. Такая непрерывная оценка может быть осуществлена с помощью уравнения (6.6.15) следующего раздела. Дальнейшее обсуждение этих вопросов и численные примеры можно найти в работе [6.17*]. 6.6. Определение соседних экстремальных траектории методом обратном прогонки при не заданном времени окончания процесса Обобщение изложенного в разд. 6.2 метода прогонки на случай незаданного времени окончания процесса начнем с замечания о симметричности матрицы коэффициентов уравнений (6.5.9) — (6.5.11), относящихся к моменту tf. Эта симметричность делает разумным предположение о следующей форме указанных уравне- ний для произвольного момента t: ~6Х (Г) (6.6.1) (6.6.2) (6.6.3) Продифференцируем (6.6.1) — (6.6.3) по времени, считая, что с/ф, dv и dtf — постоянные величины, a dQ = O. Тогда (6.6.4) (6.6.5) (6.6.6) Линеаризованные уравнения (6.1.21) — (6.1.25) остаются спра- ведливыми и в данном случае, поэтому можно подставить выраже- ния для 8х и 6Х из (6.1.21) и (6.1.22) в (6.6.4) — (6.6.6), используя при этом (6.6.1) для исключения 6Х. В результате получим ГО ’ О = О S + SA + ATS — SBS + C, R + (AT — SB)R, m+(AT-SB)m RT + RT (A- BS), Q — RTBR, n-RTBm тт-}-тт(А — В8), nT — mTBR, a,"mTBm ~8x (t) ~ dv _dtf (6.6.7)
Соседние вкстремали и вторая вариация 2391 Если матричное уравнение (6.6.7) должно быть тождеством [т. е. если оно должно быть справедливым для любых 8х (t), dv, dtf] и если уравнения (6.5.9) — (6.5.11) выполняются в точ- ке t = tf, то должны удовлетворяться следующие соотношения: S=-SA-ATS + SBS-C, S(tf)=(^)t=4, (6.6.8) R——(AT—SB)R, R(tf)=(^)Tt=tf, (6.6.9) Q = RTBR, Q(tf) — O, (6.6.10) m=-(Ar-SB)m, Tn(tf)=(^)^tf, (6.6.11) n = RTBm, ^/)=(4r)t=</» (6-6.12) a = mTBm, a(tf)=^-^-^ (6.6.13) Уравнение (6.6.8) является матричным уравнением Риккати, уравнения (6.6.9) и (6.6.11) — линейными матричными уравне- ниями, а (6.6.10), (6.6.12) и (6.6.13) — просто квадратурами. Заметим, что уравнения (6.6.8) — (6.6.10) идентичны уравне- ниям (6.2.11) — (6.2.13). Если эти уравнения интегрировать от tf к /0, то следует исполь- зовать уравнения (6.6.2) и (6.6.3) при t0 для определения dv и dtf через 8х (t0) и dip: dv = [ё-i (dip- RT8x)]t=to, (6.6.14) dt>-+ (6.6.15) здесь Q = Q-^, (6.6.16) R = R-!^. (6.6.17) Теперь можно определить 6X(£0) из уравнения (6.6.1) [с уче- том (6.6.14) и (6.6.15)]: ^(^[(S-l^R^te + RQ-1 dip]t=t0; (6.6.18) здесь S = S — (6.6.19)
240 Глава 6 Зная начальные значения Sx (t0) и 6А. (t0), можно проинтегри- ровать один раз линеаризованные уравнения (6.1.21), (6.1.22) в прямом времени для определения соседнего оптимального решения. Если то с помощью (6.5.11) можно выразить dtf через &c(fy) и dvl di>-{(fГ[-“-£«*-(т)'*]},.,,- <б-6-20> Подставив теперь этот результат в (6.5.9), (6.5.10), получим 6Х(^) dip - Э2Ф / dQ\T dQ дх% \ дх ) \ dt ) дх ’ dip dip / dQ X”1 dQ _ dx dt \ dt J dx ' Теперь возможна простая обратная прогонка W)l[ Я(01ГМ)' dip _ |_/?г(£), Q(t) - dv (6.6.21) (6.6.22) (6.6.23) (6.6.24) Легко проверить, что S, R, Q удовлетворяют тем же дифферен- циальным уравнениям, что и S, R, Q, а. именно уравнени- ям (6.6.8) — (6.6.10), но имеют иные терминальные граничные условия. Эти граничные условия могут быть найдены с помощью матрицы, входящей в уравнения (6.6.21) и (6.6.22). 6.7. Достаточные условия локального минимума при незаданном времени окончания процесса Существование соседних оптимальных (в смысле минимума критерия качества) траекторий при незаданном времени оконча- ния процесса зависит от выполнения трех условий, аналогичных указанным в раэд. 6.3 для задач с фиксированным временем окончания процесса: Яии (Z) 0 для tQ t tf. (6.7.1) Q {t) <0, a (t) >0 для t0 t < tf, (6.7.2) Матрица S (t) — R (t) [(? (£)]-12?r (t) ограничена при t0 < t < tf. (6.7.3)
Соседние экстремали и вторая вариация 241 Входящие в эти условия величины Q, R, S определяются соот- ношениями (6.6.16), (6.6.17), (6.6.19). Условия (6.7.1) — (6.7.3), как и в разд. 6.3, носят следующие названия: (6.7.1) — условие выпуклости, (6.7.2) — условие нормальности, (6.7.3) — условие отсутствия сопряженных точек. Достаточным условием слабого х) локального минимума функ- ционала J является выполнение необходимых условий первого порядка (6.1.1) — (6.1.6), (6.5.1) и условий второго порядка (6.7.1) — (6.7.3). Необходимыми условиями второго порядка для минимума являются ослабленные условия (6.7.1) и (6.7.3): нии (Г) >0, to < t < tf, (6.1 А) * 2) Матрица 5 — RQ~XRT ограничена при t0<.t <itf, (6.7.5) Q (t) <0, a (t) < 0- (6.7.6) 6.8. Оптимальное управление с обратной связью для возмущенного движения при незаданном времени окончания процесса Если подставить выражение для 6Х (t0) из (6.6.18) в (6.1.20), то получится закон управления с обратной связью для соседней оптимальной траектории 8u(f) = ~H^{[Hux + f^(S-RQ^RT)]6x+f^RQ^d^}, (6.8,1) причем это выражение совпадает с (6.2.17). Часто оказывается желательным предсказать дополнительно изменение времени окон- чания процесса. Такое предсказание можно осуществить с помощью соотношения (6.6.15) (6.8.2) \ 1Л> (Л> / (л> Если задача не зависит от времени t явным образом3 * * *), то важна лишь величина tf — t, т. е. время, оставшееся до окончания процесса. Поэтому при реализации закона управления (6.8.1) коэффициенты усиления обратной связи целесообразно представлять в виде зависимостей от tf — t, а не от t. При незаданном времени оконча- ния процесса, однако, требуется непрерывная текущая коррекция х) То есть справедливого при малых вариациях &х, &и, &tf.~ Прим, перее. 7 2) См. замечание к уравнению (6.3.12). 3) То есть правые части системы уравнений (6.1.1) и функция L в крите- рии качества (6.1.7) от времени явно не зависят. В этом случае в силу автоном- ности системы управление и (!) допускает сдвиг по времени [2.16, стр. 21].— Прим, перее. 16—0102
242 Глава 6 величины tf. Эта коррекция в первом приближении может быть осуществлена с помощью (6.8.2), при этом в большинстве случаев она будет, видимо, достаточной для изменения времени, при котором вычисляются коэффициенты усиления в (6.8.1). Исполь- зование коррекции tj устраняет трудности, связанные с выходом из временного интервала определения коэффициентов, усиления, в тех случаях, когда действительное время tf на возмущенной траектории превосходит номинальное значение tf. Пример. Управление возмущенным движением центра масс летательного аппарата (ЛА) при входе в атмосферу г). На фиг. 6.8.1 показан пример задачи управления возмущен- ным движением. Задача заключается в разработке структуры Фиг. 6.8.1. Управление планирующим космическим аппаратом для пере- хода в горизонтальный полет на заданной высоте с использованием оптималь- ной системы управления возмущенным движением. а = %ом — С, (У — Уном) — С2 (О — еном) — С3 (Л — Лном); запоминается по 7 чисел для 24 моментов времени (через 10 сек), ~1700 бит *); номинальное время полета Т = 240 сек. I) Расчет количества бит запоминаемой информации произведен, видимо, исходя из десятиразрядной ячейки ЦВМ (в такую ячейку можно записывать трехзначные десятичные числа). — Прим, перев. закона управления движением центра масс планирующего лета- тельного аппарата, совершающего вход в атмосферу. Необходимо перевести планирующий аппарат в режим горизонтального полета (0к = 0), при котором заданная высота (~76 км в данном примере) достигается при минимальных потерях энергии на аэродинамиче- ское сопротивление (т. е. при максимальной конечной скорости). Для решения задачи прежде всего была вычислена оптимальная номинальная траектория, соответствующая номинальным усло- виям входа (Vo « Ю 980 м!сек, 0О = —7,5°, h0 ~ 122 км)-, значе- ния параметров этой номинальной траектории (VH0M (t), 0НОМ (t), AII0M (t)) вместе с соответствующими значениями номинального управления аном (t) запоминались через каждые 10 сек (при общем 2) Расчеты для этого примера провел Д. Спейер, они основаны на резуль- татах, приведенных в [6.2].
Соседние экстремали и вторая вариация 243 времени полета 240 сек). Далее вычислялись и запоминались коэф- фициенты усиления Ci (t), Сг (t), С3 (t) оптимального закона управления с обратной связью для возмущенного движения. Затем с помощью моделирования на ЦВМ было проверено, как Фиг. 6.8.2. Оптимальный режим спуска при возмущениях угла входа в атмосферу. Критерий качества: минимальная потеря энергии (т. е. максимальная конечная скорость). Конечные условия: высота Лк = 76 км, угол наклона траектории 0К ~ 0°. Фиг. 6.8.3. Оптимальный режим спуска при возмущениях в скорости входа в атмосферу. Критерий качества: минимальная потеря энергии (т. е. максимальная конечная скорость), конечные условия: высота hR = 76 км, угол наклона траектории 0К = 0°. 16»
244 Глава 6 ведет себя схема управления при наличии отклонений в началь- ных условиях. На фиг. 6.8.2 и 6.8.3 изображены графики зависи- мости скорости от высоты полета для траекторий, соответствующих управлению по замкнутому контуру, при отклонениях начального значения угла входа ±0,6° и начальной скорости ±300 м/сек. Полученная схема управления оказалась приемлемой и фак- тически очень близкой к управлению ЛА вдоль соответствующей соседней оптимальной траектории. Задача 1. Минимальная нагрузка на управление {время окон- чания процесса не задано). Пусть управлению и {t) соответствует номинальная траектория x{t), удовлетворяющая условиям на конце ф [х {tf), tf] = 0 в номинальный конечный момент времени tf. Требуется определить закон управления возмущенным движе- нием, при котором удовлетворяются несколько измененные конеч- ные условия вида ф [х {tf), tf] = <7ф (<7ф мало) при минимальной нагрузке на управление возмущенным движением. Таким обра- зом, требуется минимизировать критерий качества, представ- ляющий собой оценку затрат энергии на управление if E = Y ( {8u)TB8udt, "t где В {t) — положительно определенная матрица. Ответ. 8и {t) = - B^flB Q-1 [йф - RT8x] -B-^fu 8х, где R=-flR, Q = RrfuB-ifiR, <2(^ = 0; т= —flm, x I dQ\ n = RTfuB~1flm, а = тТfuB'1 f и т, И Q = R:-R_ at T T mn nn a ’ v v a Задача 2. Управление возмущенным движением в случае мини- мального по времени выведения на орбиту. Найти закон оптималь- ного по быстродействию управления с обратной связью для соседних траекторий в задаче выведения на орбиту (см. задачу 13 разд. 2.7). [Указание. Воспользуйтесь примером, рассмотренным в разд. 6.4.]
Соседние экстремали и вторая вариация•245 6.9. Достаточные условия сильного ~ локального минимумат) До сих пор рассматривался следующий вид вариации критерия качества: Ч 6J= j Hu8udt + O(\\8u\\\ ||6ж||2), (6.9.1) to причем в этом выражении вариация управления 8и является «слабой» вариацией, т. е. такой достаточно малой величиной, что членами || 8х ||2, || 8и ||2 более высокого порядка по сравнению с 8и можно пренебречь. Однако в тех случаях, когда рассматри- ваются произвольные по величине вариации управления и (t), но приводящие к пренебрежимо малым значениям || 8х ||2, такой вид вариации 8J может оказаться неверным. Вариации управ- ления, при которых можно пренебречь величиной || 8х ||2 (но не || 8и ||2), называются «сильными»2) вариациями. Целесообразно получить точную формулу для 8J, непосред- ственно сравнивая два значения функционала на управлениях и1 (t) и и0 (t). Введем следующие обозначения: J1 (х, t) — значение критерия качества в том случае, когда систе- ма начинает движение из состояния х в момент вре- мени t при произвольном управлении и\ (х, t); J° (х, t) — значение критерия качества в том случае, когда систе- ма начинает движение из состояния х в момент вре- мени t при управлении и° (х, t), которое является оптимальным. Будем предполагать, что оба рассматриваемых управления, и1 и и°, являются допустимыми. Метод динамического програм- мирования 3) [4.2] 4) позволяет получить дифференциальные урав- нения в частных производных для величин J1 и 7°: Jt + J^cf (%, и1, t) + L (х, и1, t) = 0, 71 [х (tf) tf] — ф [х (tf), if], (6.9.2) 7? + Jxf (х, и0, t) -f-L (х, и0, t) = 0, 7° [х (tf) tf] = ф[х (tf), tf]. __________ (6.9.3) х) Речь идет о локальном минимуме, достигаемом во внутренней точке области определения вариационной задачи.— Прим. ред. ) Более точно, сильная вариация ограничивает только величину дх, тогда как слабая вариация ограничивает как дх, так и производную от дх (т. е. дх). 3) Существование решений уравнений (6.9.2) и (6.9.3) равносильно пред- положению о существовании поля экстремалей для рассматриваемой задачи оптимизации, а также предположению об отсутствии сопряженных точек на интервале (t0, у (см. также задачу 2 разд. 6.3). ж ПРИВОДИМЫИ ниже вариант вывода достаточных условий справедлив, если функции J1 (х, t) и J° (х, t) обладают непрерывными частными производ- ными по х и t.~ Прим, перев. Г «
246 Глава 6 В уравнениях (6.9.2), (6.9.3) для удобства предполагается, что выражение для ф [ж (tf), tf] включает функцию штрафа, с помощью которой учитывается, если это необходимо, наличие терминаль- ных ограничений вида ф ]х (tf), fy] = 0. Положим 8J = J1 — и вычтем выражение (6.9.3) из (6.9.2): Л-Л + ЛУ^ЛУ^Я-Я^О. После прибавления к обеим частям этого равенства величины J°xf1 — Af1 = о получим J} - J°t + (Л— Л) У1 + Л (У1 - У0) + (Л - £°) = о, или !/>)] = — 8Н(х, л, и1, и°, t), (6.9.4) где У1 = У(я;/ u1, t), f — f(x, и°, t), а производная по времени (d/dt) бJ вычисляется на траектории Л (t), соответствующей управ- лению и1 (t). Интегрируя обе части равенства (6.9.4) и учитывая, что 8J [х (tf), tf] = 0, получим г) 8J (х, t)= 8Н (х, Jx, и1, и°, t)dt. (6.9.5) траект xi (О Таким образом, неявно выраженное уравнениями (6.9.2), (6.9.3) достаточное условие сильного локального минимума (в допол- нение к другим условиям) состоит в том, что 8Н = Н (х, Jx, и1, t) — Н (х, J°x, и°, £)>0 для всех t и u1=/=u0. (6.9.6) Это так называемое усиленное условие Вейерштрасса-, оно требует, чтобы управление и° минимизировало гамильтониан на оптималь- ной траектории. Кроме того, используя теорему о среднем значе- нии, можно получить 6Я == (ЛУи» + Л») (и1 - и0) +11| и1 - и° |6, (6.9.7) где Нии вычисляется в некоторой точке 0, и° < 0 < и1. Поскольку Ни = Jxfuo + Luo = 0 на оптимальной траектории, то можно заменить условие (6.9.6) следующим2): Яии >0 для всех х, и в окрестности х°, и°. (6.9.8) Другими словами, усиленное условие выпуклости (условие х) Идея приводимого здесь доказательства принадлежит Р. Калману. 2) Из условий (6.9.6) и (6.9.7) следует, что &Н = | || иХ — и° || нии । 0 > 0. Положительная определенность квадратичной формы || и1 — и° Пгт эквива- пии лептпа положительной определенности матрицы Нии.— Прим, перев.
Соседние экстремали и вторая вариация ' 247 Лежандра — Клебша) должно выполняться не только на опти- мальной траектории, но и в окрестности оптимальной траектории. Кроме того, оказывается, что если в условии (6.9.6) или (6.9.8) заменить знак строгого неравенства на знак <С^», то получится необходимое условие оптимальности управления н° (t) (это уже было показано в гл. 4 с помощью метода динамического про- граммирования). Таким образом, имеются следующие условия оптимальности для вариационной задачи управления [в предположении, что задача нормальна; см. разд. 6.3, формула (6.3.2)]. Необходимое условие I. Уравнения Эйлера — Лагранжа V = -Нх, Ни = О и соответствующие условия трансверсальности. Необходимое условие II. Условие Лежандра — Клебша Нии > 0 при t0 < t < tf. Необходимое условие III. Условие Вейерштрасса 6Н (ж, Jx, и1, и°, t) 0 для всех t и и1 =/= и° на t0 t tf. Необходимое условие IV *). Отсутствие сопряженных точек на полуинтервале {t0, fy]. Условия I, II, IV являются необходимыми условиями слабого локального (относительного) минимума функционала, а усло- вия I, III, IV — необходимыми условиями сильного локального (относительного) минимума функционала. Если усилить усло- вия II, III путем введения знака строгого неравенства «>» (вместо знака «^>») и усилить условие IV путем замыкания полуинтер- вала {to, tf] (другими словами, если потребовать отсутствия сопря- женных точек на отрезке к0, fy]), то усиленные условия I, II, IV будут достаточными условиями слабого локального минимума, а усиленные условия I, III, IV — достаточными условиями сильного локального минимума 2). Пример. Задача со слабым, но не сильным минимумом [4.3]. Задано 1 х = и, х (0) = 0, ж(1) = 1, /[w(£)]=J и3 dt. о Найти и {t), минимизирующую J [ы (£)]. Применение необходимых условий первого порядка дает Н = Хи + и3, X = 0, X (1) = v = X (t), Ни = X + Зы2 = v + Зы2 = 0, и = У—v/3 = const. х) Условие Якоби.— Прим, перев. 2) Формулировка достаточных условий при переводе несколько уточне- на.— Прим, перев.
248 Глава 6 Очевидно, прямая линия х = t (при v = —3, и = 1) является экстремалью. На ней J = 1. Кроме того, Нии |и=1 >0 и усло- вие отсутствия сопряженных точек, как легко показать, тоже имеется слабый локальный выполняется. Таким образом, Фиг. 6.9.1. Задача со слабым, но не сильным минимумом. А) кривая сравнения, имеющая силь- ную вариацию б х (t); Б) х (/) = t — слабая экстремаль. минимум. Но, с другой стороны, на оптимальной траектории 8Н = Н (и) — Н (1) = и3 — Зи + 2 = и3 — 1 — 3 (и — 1) = = (и — I)2 (и + 2); величина 8Н отрицательна при и < —2, т. е. на этой траектории гамильтониан не достигает абсолютного минимума. Необходимое условие Вейерштрасса нарушается. На фиг. 6.9.1 изображена ломаная линия, на которой значение критерия качества J меньше единицы, но эта линия имеет раз- рывную производную х (т. е. является сильной вариацией). Этот пример демонстрирует также необходимость условия Вейерштрасса. В разд. 3.9 (стр. 136) приведен другой пример, иллюстрирующий необходимость рассмотрения минимума Н вме- сто проверки условия Нии >0. 6.1(f. Дискретный многошаговый вариант метода обратной прогонки1) В этом разделе изложен метод обратной прогонки для опре- деления соседних зкстремальных решений в дискретных много- шаговых задачах оптимизации (типа тех, которые рассмотрены в разд. 2.6). Предположим, что имеется номинальное решение, которое удовлетворяет всем необходимым условиям первого порядка (2.6.2), (2.6.3), (2.6.9), (2.6.10) и (2.6.12) (см. разд. 2.6), и пусть эти условия линеаризованы относительно номинального решения dx (i 4- 1) = fx dx (i) + /u du (i), i = 0, ..., N — 1, (6.10.1) dx (0) задано, (6.10.2) x) Материал этого раздела основан на докторской диссертации С. Мак- рейнольдса (Ph. D. Thesis of S. R. McReynolds, Harvard Univ., 1966).
Соседние экстремали и вторая вариация 249 йф (N) = фх dx (N) задано, (6.10.3) dk (0 = HXX dx (i) + {fx)Td'k (i ф-1) -[Н'а du(i), i = 0, ..., N— 1, (6.10.4) d'k (N) = Фхх dx (N) + фх dv, (6.10.5) Якйп(0 + Якйж(0-|-(/кТйХ(г-)-1) = О, i = 0, ..., N — 1, (6.10.6) ^=^7о’ Hxu = дХ (о ди (о и т- д- Уравнения (6.10.1) — (6.10.6) описывают линейную двухточеч- ную краевую задачу относительно dx (0, йХ (0, du (г) и dv, посколь- ку коэффициенты этих уравнений вычислены на номинальном решении. В принципе такую задачу можно решить с помощью дискретного варианта метода переходной матрицы (разд. 5.2), однако при его использовании могут возникнуть серьезные вычис- лительные затруднения, если система является диссипативной. При использовании дискретного варианта метода обратной прогонки (рассмотренного в разд. 6.2) получается последователь- ность соотношений, эквивалентных соотношениям (6.10.3), (6.10.5): ЙХ (0 = S (i) dx (0 + R (1) dv, (6.10.7) йф = RT (0 dx (0 + Q (0 dv. (6.10.8) Предполагая, что входящие в эти равенства величины известны для i = k + 1, можно с помощью формул (6.10.1) — (6.10.6) получить соответствующие соотношения для i = к. Алгоритм метода состоит из следующих этапов (шагов): Шаг (а). Выражение (6.10.1) при i = к подставляют в соот- ношения (6.10.7) и (6.10.8), в которых I = к + 1: ЙХ (к-\-1) = 5 (& +1) I/» dx (к) + fhu du (Z0] + R (k-\-1) dv, (6.10.9) йф = RT (k 4-1) [fx dx (k) 0- fu du (к)] Ц- Q (к Ц-1) dv. (6.10.10) Шаг (б). В соотношении (6.10.9) полагают k = i и подстав- ляют йХ(г-|-1) в (6.10.4) и (6.10.6): ЙХ (0 = \Hlxx + (fyTS (i +1) /1] dx (0 + + [Як + {fx)TS (t +1) fu] du (0 + (Л)г R (i +1) dv, (6.10.11) [Як + {fyTS (i +1) /'] du (i) + [Як + (fu)TS (i +1) /1] dx (0 + + (Л)ГЯ(£ +1)^=0. (6.10.12)
250 Глава 6 Шаг (в). Считая, что матрица, являющаяся коэффициентом при du (1} в (6.10.12), невырождена, разрешают последнее урав- нение относительно du (Z): du (i) = — [Zuu (Z)]-1 [Zux (i) dx (i) + Zuv (i) dv], (6.10.13) где 2uu(i) = ^L + (A)r5(i + l)/i, (6.10.14) Zux(i) = Hiux+(fyTS(i + l)fix=[Zxu(i)]T, (6.10.15) Zuv (0 = (fyTR (i +1) = [Zvu (i)]T. (6.10.16) Шаг (г). С помошью уравнения (6.10.13) исключают du(i) из (6.10.10) и (6.10.11): dA. (Z) = {Zxx (Z) — Zxu (Z) [Zuu (Z)] 1 Zux (Z)} dx (Z) -|- + {Zxv (i)-Zxu (i)[Zuu (i)]-i Zuv (Z)} dv, (6.10.17) dip = {Zvx (Z) - Zvu (Z) [Zuu (Z)p Zux (Z)} dx (Z) + + {Q (i +1) -Zvu (i) [Zuu (г)Г Zuv (Z)} dv; (6.10.18) 2хх(0 = Яи+(Л)Г5(г + 1)А, (6.10.19) Zxv (Z) = (fyTR (i+1) = [Zvx (6.10.20) Шаг (д). Для того чтобы соотношения (6.10.17) и (6.10.18) были эквивалентны соотношениям (6.10.7) и (6.10.8) при про- извольных значениях dx (Z) и dv, должны быть справедливы сле- дующие равенства: S (Z) = (fx)TS (i -|-1) fx ~\-Нхх—[Hux-]-(ju) S(i-\-l)fx] X X [Hluu + (fyTS (Z +1) Ar1 [HI* + (fyTS (Z +1) /1], (6.10.21) R (0 {fx — fu [HuU + (/u) S (i -)-1) fu] 1 [Hux -)- + (/u)rS 0 +1) fx]}TR (i +1), (6.10.22) <2(Z) = <2(Z + 1)-[7?G + I)]r/U^L + + (/i)r5(Z + l)/ir1 (faTR(i+l). (6.10.23) Эти равенства являются дискретными аналогами соотношений (6.2.11) - (6.2.13). Равенства (6.10.21) — (6.10.23) могут рассматриваться как рекуррентные соотношения; величины S (Z), R (Z) и Q (Z) при этом вычисляются последовательно в порядке убывания индекса Z: от i = N — 1 к Z = 0. Граничные условия при Z = N опреде-
Соседние экстремали и вторая вариация 251 ляются из (6.10.3) и (6.10.5) S (N) = Фжх (N), (6.10.24) R (ЛЭ = {фх [ж (ЛЭН, (6.10.25) Q (N) = 0. (6.10.26) Улучшенные значения величин v и и (г) можно в этом случае получить добавлением приращений dv и du (i) к значениям, соот- ветствующим предыдущему номиналу, причем из (6.10.8) сле- дует, что dv = [<? (О)]-1 [йф - RT (0) dx (0)], (6.10.27) a du (i) определяется из (6.10.13) с учетом (6.10.27). По этим улучшенным значениям v и и (i) можно получить новое номи- нальное решение, которое будет лучше удовлетворять граничным условиям для ж (0) и ф (ЛЭЬ Улучшенные значения v и и (i) можно было бы находить на каждом шаге, так же как при построении дискретного закона управления с обратной связью в разд. 6.2: dv = [(? (i)]-1 [йф - RT (г) dx (г)], (6.10.28) du (г) = — [Zuu] 1 (/u) [<? (i +1) f x — - R (i +1) Q-1 (i) RT (01} dx (i) + (fu)TR (i +1) <2-1 (г) йф]. (6.10.29) Уравнение (6.10.29) представляет собой оптимальный закон управления с обратной связью для соседних траекторий в случае дискретных многошаговых задач. Этот закон обеспечивает требуе- мые изменения в терминальных условиях на величину йф по известным текущим отклонениям dx (i) от номинальной опти- мальной траектории и одновременно минимизирует критерий качества J. Задача. Для случая, когда матрица S (i) невырождена, пока- зать (используя лемму об обращении матрицы; см. разд. 1.3, задача 4 и разд. 12.2, задача 2), что рекуррентные соотноше- ния (6.10.21) — (6.10.23) могут быть представлены в виде S (г) = АТ (г) {[5 (г + 1)Н + В (О}"1 A (t) + С (г), R (0 = АТ (г) [Е + 5 (i + 1) В (ОН Я (г + 1), <2 (0 = <2 (г + 1) - RT (i + 1) В (0 X X [Е + S (i + 1) В (ОН R (I + 1); здесь а (0 = Л- A в (о = Л (HtuT1 (fyT, (См. также задачу 1 в разд. 2.2, где рассматривается случай отсутствия терминальных ограничений.)
252 Глава 6 6.11. Достаточные условия локального минимума для дискретных, многошаговых систем Как было показано в предыдущем разделе, существование соседней траектории, доставляющей минимум критерию качества, зависит от трех условий: Матрица Д- (fu)TS (i-J-1) fu > 0 (т. е. положительно определена), (6.11.1) Матрица Q (i) < 0 (т. е. отрицательно определена), (6.11.2) Матрица {5 (г + 1) fx — R (г + 1) Q-1 (г) RT (г)} ограничена при I = 0, . . ., N — 1. (6.11.3) Эти условия являются аналогами соответственно условий выпук- лости, нормальности и отсутствия сопряженных точек, которые были изложены в разд. 6.3 для систем с непрерывным временем. Следует, однако, отметить, что условие выпуклости (6.11.1) формулируется в данном случае более сложным образом, чем аналогичное условие для систем с непрерывным временем, для которых условие выпуклости сводится к требованию положитель- ной определенности матрицы Нии. Другими словами, для мини- мальности критерия качества в дискретных системах даже доволь- но слабое требование локальной минимизации функции Н уже не является необходимым. Дискретный принцип минимума (макси- мума), таким образом, несправедлив в общем случае х) (если не делать дополнительных предположений). Это объясняется тем, что в дискретных системах конечная величина шага по вре- мени препятствует выполнению варьирований с произвольной амплитудой, а именно такие варьирования необходимы для уста- новления минимальности Н. Кроме того, условия (6.11.3) являют- ся в определенном смысле излишними, поскольку для конечной матрицы Q выражения для S и R не могут стать неограниченными при конечном числе шагов. х) По поводу правильной формулировки дискретного принципа макси- мума см.: А. И. П р о п о й, Условия оптимальности для дискретных процес- сов, приложение к книге Фан Лянь-цэня и Вань Чу-сена «Дискретный прин- цип максимума», изд-во «Мир», 1967.— Прим, перев.
Глава 7 Численные методы решения задач оптимального программирования и управления 7.1. Введение За исключением тех случаев, когда система уравнений, кри- терий качества и ограничения являются весьма простыми, для решения задач оптимального программирования и управления необходимо использование численных методов. Однако объем вычислений, необходимых для решения даже сравнительно несложных задач, слишком велик, чтобы их можно было выпол- нить вручную. Именно поэтому вариационное исчисление мало использовалось до недавнего времени в технике и прикладных науках х). Появление в середине пятидесятых годов двадцатого века экономически выгодных быстродействующих вычислительных машин коренным образом изменило это положение. В настоящее время оказывается возможным решать весьма сложные задачи оптимального программирования и управления в течение допу- стимых отрезков времени и при допустимых затратах. Современные ЦВМ довольно быстро интегрируют задачи с начальными условиями, описываемые системами обыкновенных дифференциальных уравнений. Однако, как было уже показано, задачи оптимального программирования и управления являются по крайней мере двухточечными краевыми задачами, а в некоторых случаях даже многоточечными краевыми задачами (например, в тех случаях, когда заданы ограничения в промежуточных точках или ограничения в виде неравенств на фазовые координаты). Нахождение решений таких нелинейных двухточечных краевых задач является во многих случаях совсем не тривиальным обоб- щением методов решения задач с начальными условиями (одно- точечных краевых задач). Нелинейная двухточечная краевая задача, которая встре- чается в широком классе задач оптимального программирования, х) Вариационное исчисление начало интенсивно использоваться в теории управления после того, как стали известны принцип максимума Л. С. Пон- трягина и метод динамического программирования Р. Веллмана. Ранее вариа- ционное исчисление не находило достаточного применения потому, что до появления принципа максимума не было законченных и строгих постановок вариационных задач теории управления. Появление ЦВМ, а также запросы космической техники создали условия для использования вариационных методов при проектировании систем управления.— Прим. ред.
Глава 7 кратко подытожена в конце разд. 2.8. Эта задача состоит в нахож- дении - а) п фазовых переменных х (t) = [Xi (t), . . ., хп б) п функций влияния (сопряженных переменных) к (f) = = 1М*)> • • К № в) т управляющих переменных и (t) = [и1 (t), . . ., ит (£)], которые должны одновременно удовлетворять: 1) системе п дифференциальных уравнений объекта управ- ления (содержащей х и и)', 2) системе п дифференциальных уравнений для функций влия- ния (сопряженной системе, системе уравнений Эйлера — Лагран- жа), включающей к, х, ; 3) т условиям оптимальности (содержащим X, х, и)', 4) начальным и конечным условиям (включающим х и X). Все численные методы решения таких задач используют либо методы теории поля (или же динамическое программирование), либо итерационные процедуры. Методы теории поля применительно к двухточечным краевым задачам могут быть представлены как процесс построения множе- ства решений, удовлетворяющих заданным граничным условиям на одном конце при использовании незаданных граничных усло- вий в качестве параметров. Если выбран правильный диапазон параметров, то некоторые решения будут проходить (или почти проходить) через заданные граничные условия на другом конце. В настоящее время все предложенные итерационные процеду- ры используют последовательную линеаризацию. Сначала выби- рается номинальное решение, которое удовлетворяет одному, двум или трем из перечисленных выше условий 1—4 либо не удовлетворяет ни одному из них. Затем это номинальное решение модифицируется с помощью последовательной линеаризации так, что в конце концов удовлетворяются и остальные из четырех условий. Интересно, что только три из возможных пятнадцати подходов к построению вычислительных схем были интенсивно использованы до настоящего времени. Эти три подхода указаны в табл. 7.1.1 х). При использовании методов соседних экстре- малей или методов квазилинеаризации необходимо решать после- довательность линейных двухточечных краевых задач. Такие задачи могут быть решены: х) Относительно достоинств и недостатков этих методов применительно, к конкретным классам задач (несмотря на интенсивное их использование) в настоящий момент известно сравнительно немного. Среди немногочислен- ных работ, посвященных сравнительному анализу вычислительной эффек- тивности некоторых из методов, указанных в табл. 7.1.1, можно отметить серию статей Д. Льюоллена и Б. Тепли [7.15*, 7.23*, 7.27*].— Прим, перее.
Численные методы 255 а) путем нахождения переходной матрицы между незаданными граничными условиями на одном конце и заданными граничными условиями на другом; б) путем переноса («прогонки») граничных условий с одной конечной точки на другую конечную точку, основанного на использовании решения матричного уравнения Риккати (см. разд. 5.2, 5.3, 6.2, 6.6 и задачу 8 разд. 5.4). Для всех трех классов итерационных процедур возможно удо- влетворить терминальные ограничения либо путем использова- ния метода проекций градиента (линейных штрафных функций), либо с помощью нелинейных штрафных функций (обычно квадра- тичных) . Таблица Т.1.1 Итерационные процедуры 7 Номинальное решение удовлетворяет системе уравнений сопряженной системе уравнений условиям оптималь- ности граничным условиям Методы соседних экстре- малей Градиентные методы Методы квазилинеари- зации Да Да Нет Да Да Нет Да Нет Да Нет Нет Да или нет 7.2. Методы, использующие поле экстремалей. Динамическое программирование Один из методов решения задач оптимального программирова- ния состоит в систематическом варьировании незаданных (свобод- ных) начальных (или конечных) условий и вычислении соответ- ствующих оптимальных решений из начальной (или конечной) точки. Вычисления продолжаются до тех пор, пока часть фазо- вого пространства, находящаяся в окрестности противоположной точки, не будет достаточно густо покрыта оптимальными реше- ниями, после чего желаемое оптимальное решение может быть получено путем интерполяции. Очевидно, описанная процедура является одним из способов решения уравнения Гамильтона — Якоби — Веллмана (уравнения ГЯБ) в некоторой области фазо- вого пространства. Этот способ решения носит название метода характеристик х) и является полезным для формирования опти- J) См., например, Р. Курант, Д. Гильберт, Методы математиче- ской физики, т. 2,'гл. 2, ГТТИ, 1951 или Р. Курант, Дифференциальные Уравнения в частных производных, изд-во «Мир», 1968.— Прим, перее.
256 Глава 7 мального нелинейного закона управления с обратной связью в задачах оптимального терминального управления, если все оптимальные траектории вычисляются в обратном направлении, начиная с терминальной гиперповерхности. Сравнительно простые примеры нелинейных оптимальных законов управления с обрат- ной связью, решенные этим методом, представлены в разд. 4.1 и 4.3. Другая возможность заключается в непосредственном решении дифференциального уравнения ГЯБ в частных производных; при этом решение начинают с терминальной гиперповерхности. Эта процедура носит название «динамическое программирование», она рассмотрена в гл. 4. Для задач с числом фазовых координат свыше двух-трех этот метод обычно не может быть реализован даже с помощью современных больших ЦВМ. Запоминание одного только результата решения с тремя или более фазовыми переменными (которым является все вычисленное поле экстрема- лей) требует обычно практически недоступного объема памяти ЦВМ. 7.3. Алгоритмы, использующие соседние экстремали Введение В рассматриваемых методах используются итерационные алго- ритмы для последовательного улучшения первоначальных оценок незаданных начальных (или терминальных) условий до тех пор, пока не будут удовлетворены заданные терминальные (или началь- ные) условия. Основная трудность, связанная с этими методами, заклю- чается в выборе начального приближения, т. е. в нахождении такой первоначальной оценки незаданных условий на одном конце, которая приводила бы к решению, достаточно близкому к задан- ным условиям на противоположном конце. Причина указанной трудности состоит в том, что экстремальные решения часто оказы- ваются весьма чувствительными к небольшим изменениям неза- данных граничных условий. Эта чрезмерная чувствительность является прямым следствием природы уравнений Эйлера — Лагранжа, которые, как было показано в гл. 2, представляют собой уравнения для функций влияния. Действительно, уравне- ния Эйлера — Лагранжа являются дифференциальными урав- нениями, сопряженными линейной системе уравнений возму- щенного движения, причем линеаризация производится относи- тельно экстремальной траектории. Если фундаментальные реше- ния линейной системы уравнений возмущенного движения уменьшаются (по модулю) с возрастанием времени, то фунда-
Численные методы 257 ментальные решения сопряженной системы уравнений (уравне- ний Эйлера — Лагранжа) увеличиваются (по модулю) с возра- станием времени т). Таким образом, в процессе интегрирования (в любом направ- лении) решения ж (/) и X (t) дифференциальных уравнений имеют тенденцию становиться величинами, сильно различающимися по своим порядкам. Так как число значащих цифр, с которыми оперируют ЦВМ (безразлично, используют ли они арифметиче- ские операции с фиксированной или плавающей запятой), огра- ничено, то различие в степени роста решений х (t) и X (t) суще- ственно сказывается на потере точности 1 2 * *). Одно из проявлений этой трудности заключается в плохой обусловленности переход- ной матрицы при t > t0, возникающей из-за сильного различия значений величин ее элементов8). Поскольку процедура обра- щения переходной матрицы является необходимой частью числен- ного метода, то полученная в итоге точность решения оказывается недостаточной. Другой аспект этой же проблемы состоит в том, что небольшие ошибки при задании начальных значений функций влияния при t = t0 могут привести к огромным ошибкам в их конечных значениях (при t = tf). Это особенно заметно в сильно диссипативных системах, таких, как системы с трением или сопротивлением. Так как уравнения системы (объекта) и урав- нения Эйлера — Лагранжа взаимосвязаны, то не следует считать необычным, если интегрирование с плохо выбранными началь- ными условиями приведет к «диким» траекториям в фазовом пространстве. Такие траектории могут быть настолько «дикими», что значения х (t) и/или X (t) превзойдут диапазон чисел, с кото- рыми может оперировать ЦВМ! Ввиду указанной трудности с выбором начальных значений метод непосредственного интегрирования обычно практически при- 1) Фундаментальное решение X (t) системы х = A (t) х связано с фунда- ментальным решением Y (t) сопряженной системы ф = — А гф соотношением (t) X (t) = Е, справедливым для любого t (Е — единичная матрица). Нетрудно показать, что корни /., характеристического полинома системы dxldt = Ах [А — постоянная матрица, t0 t ty] и корни Дг характеристи- ческого полинома сопряженной системы dty/dt = —А гф связаны соотноше- нием Хг — —Л;. Отсюда, в частности, следует, что если исходная система устойчива (при выбранном направлении течения времени), то сопряженная система неустойчива (при том же направлении течения времени), н наоборот. Интересно также отметить, что если исходная система устойчива в прямом времени, то сопряженная система устойчива в обратном времени.— Прим, перев. 2) См. [6.9]. ®) При этом все большие величины выступают как равные, а все малые величины — как нули. 17—0102
258 Глава 7 годен для нахождения соседних экстремальных решений лишь после того, как одно экстремальное решение уже получено каким- либо другим методом (например, градиентным методом). Задачи, в которых некоторые из фазовых координат заданы в фиксированный терминальный момент времени Для пояснения основных идей метода рассмотрим сначала сравнительно простой класс задач, исследованных в разд. 2.4. Пусть надо найти управление и (i), минимизирующее tf + L[x(t), u(t), t]dtf (7.3.1) где x = / (x, и, t), (7.3.2) x (t0) = x0, x0 задано, (7.3.3) (tf) — xfi x{, . .., xfq заданы, (7.3.4) t0, tf заданы. (7.3.5) Необходимые условия первого порядка для экстремального реше- ния таковы: ' М</)=(|£)_„. / = г + 1. 9 + 2.....», (7.3.7) Р-3.8) Дифференциальные уравнения (7.3.2) и (7.3.6) должны быть решены при п начальных условиях (7.3.3) и п конечных усло- виях (7.3.4) и (7.3.7), при этом управление и (t) определяется из условия (7.3.8). В данном случае имеется п неизвестных (неза- данных) начальных условий Л, (t0) и п незаданных терминальных условий [A,! (tf), . . ., Xg (tf), xq+1(tf), . . ., xn (fy)J. Алгоритм переходной матрицы. Решение этого класса задач может быть проведено следующим образом: Шаг (а). Выбирают неизвестные начальные значения X (t0). (Другой метод состоит в выборе п неизвестных конечных значе- ний и очевидной модификации последующих шагов.)
Численные методы 259 Шаг (б). Интегрируют (7.3.2) и (7.3.6) от t = t0 до t = tf, используя (7.3.8) для определения и (/). Шаг (в). Запоминают х1 (tf), . . ., xq (tf), %g+1 (tf), . . . • • -1 (fy)- Шаг (г). Находят переходную матрицу [5ц (iy)/5% (^o)lo- Размерность этой переходной матрицы равна п >< п, а смысл ее ясен из следующего соотношения: ' ^l(tf) 6ц (tf) = 6zg (tf) 6Xg+i (tf) (if) M if \ . (if) . [Ниже приведены два конкретных метода вычисления переходной матрицы 5ц (t^ld'k (i0)-l Шаг (д). Выбирают 6ц (tf) так, чтобы следующее решение было ближе к желаемому значению ц (tf). Для этого, например, можно выбрать 6ц (tf) = — е [ц (tf) — цу[, 0 < е 1. Шаг (е). При выбранном значении ц (tf) [см. шаг. (д)1 обра- щают переходную матрицу шага (г) для получения 6% (t0)l Шаг (ж). Используя соотношение (^о)нов = (^о)стар + 6% (t0), повторяют шаги (б) — (ж) до тех пор, пока ц (tf) не станет равно заданному значению в пределах установленной точности. Отметим, что если изменения 6ц (tf) на шаге (д) выбраны слишком большими, то итерационная процедура может не схо- диться. Один из путей проверки «размера» шага 6ц (tf) состоит в. сравнении [ц (^)нов — И (^у)стар! с желаемым 6ц (tf): если они отличаются, скажем, более чем на 10—20%, то шаг (д) должен быть повторен с меньшим значением 6ц (tf). Методы вычисления переходной матрицы Переходная матрица на шаге (г) может быть образована двумя различными путями: 1) непосредственным численным дифферен- цированием; 2) путем определения единичных решений линейных дифференциальных уравнений возмущенного движения. 17*
260 Глава 7 Непосредственное численное дифференцирование требует п дополнительных операций интегрирования нелинейных систем (7.3.2) и (7.3.6) с использованием соотношения (7.3.8). При каж- дом таком интегрировании одна из компонент %г (г0) получает небольшое приращение 6%г (г0) относительно первоначального при- ближения, выбранного на шаге (а) [или уточненного на шаге (ж)]. Полученные в результате каждого интегрирования п величин (tf) запоминаются и делятся на (t0). -Таким образом нахо- дится переходная матрица [5|г (t^/d'k (f0)l. Трудность, связанная с таким подходом, заключается в следующем: если 6%г (£0) выбрано слишком малым, то ошибка округления при интегрировании нелинейных дифференциальных уравнений приводит к весьма неточному определению величины бц (tf); если же бЛг (t0) выбрано слишком большим, то нарушается предположение о линейности х). Определение единичных решений основано на п-кратном инте- грировании системы 2п линейных уравнений возмущенного движе- ния (6.1.21) и (6.1.22). При каждом таком интегрировании одна из компонент 6% (if0) принимается равной единице, а остальные — нулю; при этом всегда 8х (t0) = 0. Этот метод более точен, чем непосредственное численное дифференцирование, но требует дополнительного программирования уравнений возмущенного движения. Он может все же приводить к плохо обусловленной переходной матрице, если единичные решения сильно различают- ся по численным значениям; в этом случае обращение переходной матрицы, необходимое на шаге (е), будет весьма неточным * 2). Алгоритм обратной прогонки. Один из эффективных путей преодоления трудности, связанной с плохой обусловленностью переходной матрицы, состоит в использовании следующей моди- фикации метода обратной прогонки, изложенного в разд. 6.2: Шаг (а). Задают начальные приближения для значений q параметров vT = [%! (tf), . . ., kq (fy)] и (n — q) свободных (незаданных) терминальных фазовых переменных txq+1 (tf), . . . • • ч (£/)}• Шаг (б). Интегрируют (7.3.2) и (7.3.6) от tf до tq, исполь- зуя заданные на шаге (а) оценки vT (tf) и xq+i(tf), . . xn(tf), а также граничные условия (7.3.4) и (7.3.7). Управление и (t) находится при этом из (7.3.8). Шаг (в). Одновременно с выполнением шага (б) интегрируют уравнения (6.2.11) — (6.2.13) в обратном времени с граничными !) Это предположение необходимо при выполнении численного диффе- ренцирования по описанной простейшей схеме, основанной на разностной формуле первого порядка.— Прим, перев. 2) Относительно одного из путей обращения плохо обусловленной матри- цы см. задачу 5 разд. 5.2.
Численные методы 261 Rij (tf) — I условиями (6.2.3) — (6.2.5), которые в данном случае имеют вид 8 (tf) = Фхх li=if’ Q (tf) = О, 1, если i = j, г = 1, 2, ..., п; О, если i=/=7, / = 1, 2, ..., q. Шаг (г). Запоминают значения х (z0), Л. (Zo) и (5 — 7?T(2-17?)t=i0. Выбирают шаг (z0), на величину которого хотят приблизиться к заданному значению х (t0). После этого по формуле (6.2.15) находят 6% (t0) = (5 - RTQ-'R)^ 8х (to). Шаг (д). Интегрируют уравнения возмущенного движения (6.1.21) — (6.1.22) от t0 до tf с начальными условиями 8х (t0), 6Z (Zo), полученными на шаге (г). Запоминают значения dvT — = [SXj (tf), . . 6Xg (Zz)] и [6жд+1 (tf), . . 8хп (Zy)]. Шаг (е). Вычисляют новые значения v VLXt(tf), i = q + 1, . .. . . ., п, по формулам vhob = ^отар Ч~ dv, [•Z-i (Z/)]Hob \.Х} (Zy)]CTap 4“ 6^г (tf), t q Ч~ 1? • • •» И, и повторяют шаги (б) — (е) до тех пор, пока х (t0) не достигнет заданного значения с желаемой точностью. Задачи с ограничениями в виде функций от фазовых координат, заданных в нефиксированный терминальный момент времени f Рассмотрим теперь более общую задачу нахождения управле- ния и (Z), которое минимизирует критерий качества tf J=^{x(tf), tf] + j L [x (Z), u(t), t]dt (7.3.9) , to при наличии ограничений x = / (x, и, t) (n уравнений), (7.3.10) x (to) = Xo, to, Xo заданы (n начальных условий), (7.3.11) ф [x (tf), Zy] =0 (q терминальных условий). (7.3.12) Терминальное время tf (время окончания процесса) определено неявно посредством терминальных граничных условий (7.3.12).
262 Глава 7 Необходимые условия первого порядка для экстремального решения имеют вид Х= — (в уравнений), (7.3.13) ^ = 0, (7.3.14) = \~дх/t~tf (п терминальных условий), (7.3.15) Q[x, и, v, t]t=tf= + =0 (одно условие), (7.3.16) где Ф (х, v, г) = ф (х, t) 4- vri|) (х, t), d® дФ . дФ ,, .. -dF = ^- + -fe /^-“>0- В этой задаче требуется найти решение системы 2п диффе- ренциальных уравнений (7.3.10), (7.3.13) и определить (q ф- 1) значений неизвестных параметров v и tf так, чтобы удовлетво- рялись п начальных условий (7.3.11) и (q + п + 1) терминаль- ных условий (7.3.12), (7.3.15) и (7.3.16). При этом определение и (t) производится с использованием условия (7.3.14). Алгоритм переходной матрицы. Решение задачи может быть осуществлено следующим образом: Шаг (а). Задают начальные приближения для п терминаль- ных условий х (tf), q параметров v и для терминального време- ни tf. Шаг (б). Определяют значения ф [х (tf), ff], % (tf) и Q [х (tf), и (tf), v, tf] из условий (7.3.12), (7.3.Ф5), (7.3.16); и (tf) определяют из (7.3.14) при t = tf, используя X (tf) и х (tf). Шаг (в). Интегрируют уравнения (7.3.10) и (7.3.13) от tf до t0, используя (7.3.14) для вычисления u(t) и терминальные условия x(tf) и ^(tf), найденные на шагах (а) и (б). Шаг (г). Запоминают полученное в результате осуществле- ния шага (в) значение х (t0). Шаг (д). Находят переходную матрицу д [ж (t0), ф, й] 9 [ж {tf), v, t/]’ Размерность этой переходной матрицы равна (n-f-gr-f-l) х X (n + g-|-1), а смысл ее ясен из соотношения 'бх (t0)~ йф d£l _ д [х (to), ф, й] ak {tf),v, tf] bx(tf)~ dv dtf
Численные методы 263 (Ниже изложены два метода вычисления переходной матрицы — метод численного дифференцирования и метод единичных реше- ний.) Шаг (е). Выбирают значения бх (t0), йф и dQ так, чтобы следующее приближение было ближе к заданным значениям x(f0)=x°, ф = 0, Q = 0. Можно, например, выбрать -бх(г0)’ йф dQ x(t0) — x0 ' ф[х (tf), tfL где 0 < 8 1. Шаг (ж). По выбранным на шаге (е) значениям бх (t0), йф, dQ путем обращения переходной матрицы [вычисленной на шаге (д)1 находят значения бх (tf), dv, dtf. Шаг (з). по формуле Вычисляют новые приближения для х (tf), v, tf ~x(tf)~ V _ tf .J HOB X(£y)- V + tf J стар dx (tf) dv dtf и повторяют шаги (б) — (з) до тех пор, пока условия х (t0) — х0, ф [х (tf), tf] = 0 и Q [х (tf), и (tf), v, tf] = 0. не станут выполняться с необходимой точностью. Напомним, что ах (tf) = бх (tf) + х (tf) dtf = бх (tf) + / [х (tf), и (tf), dtf, где бх (tf) выбрано на шаге (ж). Следует заметить, что если величины бх (t0), ^ф, dQ выбраны на шаге (е) слишком большими, то итерационная процедура может и не сходиться. Один из методов устранения расходимости состоит в сравнении действительных изменений х (t0), ф, Q с желаемыми изменениями. Если разница между этими значениями превы- шает, например, 10—20%, то шаги (е) — (з) следует повторить с меньшими значениями бх (t0), йф, dQ. Методы вычисления переходной матрицы Переходная матрица, необходимая на шаге (д), может быть вычислена двумя различными способами: 1) путем непосред- ственного численного дифференцирования; 2) на основе опре- деления единичных решений для линейных дифференциальных уравнений возмущенного движения. Непосредственное численное дифференцирование требует (п + ц + 1) дополнительных интегрирований в обратном вре-
264 Глава 7 мени нелинейных уравнений (7.3.10) и (7.3.13) с использова- нием 17.3.14). При каждом таком интегрировании одна из ком- понент х (tf), v и tf изменяется на малую величину относительно начального приближения, выбранного на шаге (а) [или после- дующих приближений на шаге (б)]. Полученные после каждого интегрирования (п + q + 1) величин 6х (t0), йф, dQ. всякий раз запоминаются и делятся на соответствующие приращения ком- понент х (tf), v или tf. В результате будет получена переходная матрица, необходимая для шага (д). Возникающие при этом вычислительные трудности аналогичны тем, которые уже обсуж- дались выше (см. стр. 260). Определение единичных решений требует (п + q 4- ^-крат- ного интегрирования в обратном времени линейных уравнений возмущенного движения (6.1.21), (6.1.22). При каждом таком интегрировании одна из компонент вектора [6х (tf), dv, dtf] при- нимается равной единице, а все остальные — нулю. Определе- ние 6 A, (tf), йф, йО производится на основе линеаризации терми- нальных условий (7.3.15), (7.3.12) и (7.3.16) [см. (6.5.9) — (6.5.11)]. Уравнения (6.5.10) и (6.5.11) образуют часть переходной матрицы шага (д), а матрица (дх (t0)/d (х (tf), v, tf)} должна быть найдена путем (п + q 4- 1)-кратного интегрирования в обратном вре- мени уравнений возмущенного движения. При этом 6А (tf) нахо- дится из условия (6.5.9) при единичном значении одной из компо- нент вектора [6х (tf), dv, dtf}. Хотя данный метод и является более точным, чем непосредственное численное дифференциро- вание, он, очевидно, требует дополнительных затрат на про- граммирование уравнений возмущенного движения. Кроме того, ему присущи некоторые вычислительные трудности, которые уже упоминались в предыдущем разделе (см. стр. 260). Отметим, что необходимым условием минимума J по tf являет- ся соотношение (4гг),_„>0- <7-3-17) Если в условии (7.3.17) имеет место неравенство, то можно раз- решить уравнение (6.5.11) относительно dtf, выразив его через 8х (tf) и dv. Если теперь подставить этот результат в (6.5.9) и (6.5.10), то для вычисления переходной матрицы в этом случае потребуется только (п 4- q) единичных решений. Алгоритм обратной прогонки. Одно из возможных затруд- нений алгоритма переходной матрицы заключается в том, что необходимая точность вычисления может не достигаться даже при использовании метода единичных решений уравнений возму- щенного движения. По причинам, указанным во введении к разд. 7.3, такая потеря точности, в частности, характерна для диссипативных систем. Обычно эту трудность оказывается воз-
Численные методы 265 можным обойти, используя следующую модификацию метода обратной прогонки г), рассмотренного в разд. 6.6: Шаги (а) — (в) те же, что и в алгоритме переходной матрицы. , Шаг (г). Одновременно с шагом (в) интегрируют (6.6.8) — (6.6.13) с указанными там же граничными условиями. Шаг (д). Запоминают значения х, X, S, R, Q, т, п, ct при f = f0. Выбирают 8х (t0), йф, dQ так же, как и на шаге (е) алго- ритма переходной матрицы. Затем с помощью соотношений (6.6.14), (6.6.15) и (6.6.18) определяют dv, dtf и 6Х (t0). Запоминают dv и dtf. Шаг (е). Интегрируют уравнения возмущенного движе- ния (6.1.21) — (6.1.22) в прямом времени с начальными усло- виями 8х (t0), 8к (t0). Запоминают dx (tf) = 8х (tf) + х (tf) dtf = dx (tf) + + / lx (tf), и (tf), dtf. Шаг (ж). Вычисляют новое приближение и повторяют шаги (б) — (ж) до тех пор, пока условия х (to) = хо> Ф Iх (tf), tf] = О, Q [х (tf), и (tf), v, tf] = О не будут выполнены с желаемой точностью. 7.4. Алгоритмы градиентных методов первого порядка* 2) Введение Градиентные методы были разработаны для преодоления' затруднения, связанного с выбором «хорошего» начального приближения в методах непосредственного интегрирования (см. введение к разд. 7.3). Они характеризуются итерационными алгоритмами, предназначенными для улучшения предыдущих оце- нок зависимости и (t) с тем, чтобы на каждой итерации происхо- х) Причина этого состоит в меньшей вероятности различной степени роста элементов матрицы S (t), чем элементов матриц X (t) и Л (t), используемых в алгоритме переходной матрицы. 2) См. также [2.5, 7.14*, 7.18*, 7.19*].— Прим, перее.
266 Глава 7 дило приближение к удовлетворению условий оптимальности и граничных условий. Градиентные методы первого порядка обычно дают наибольшие улучшения на нескольких первых итерациях, но имеют плохие характеристики сходимости при приближении к оптимальному решению. Градиентные методы второго порядка, излагаемые в следующем разделе, обладают хорошими характеристиками сходимости в окрестности оптимального решения, но могут при- водить к затруднениям на начальном (стартовом) участке, свя- занным с выбором «выпуклого» номинального решения. Задачи, в которых некоторые из фазовых координат заданы в фиксированный терминальный момент времени Вернемся к классу задач, который уже рассматривался под этим названием в разд. 7.3. Алгоритм градиентного метода первого порядка для решения данного класса задач сводится к следую- щим процедурам: Шаг (а). Задают начальные приближения для и (t). Шаг (б). Интегрируют уравнения объекта х — / (х, и, t) в прямом времени от t0 до tf с начальным условием х (t0) = х0 при управлении, заданном на предыдущем шаге (а). Запоми- нают х (f), и (t) и ф [х (iy)]. Шаг (в). Определяют re-мерный вектор р (t) функций влия- ния и (re X ^-мерную матрицу R (t) функций влияния путем интегрирования в обратном времени от tf до ta уравнений для функций влияния. Для определения граничных условий исполь- зуют значение х (tf), полученное на шаге (б). Упомянутые уравнения и граничные условия имеют вид Р= — 'О для 1=1, 2, ..., д, для i = q + 1 ..., п, ^) = ИПРИ^’ ^12 ' ох I (0 при J#=7, / = 1, 2, ..., q. Шаг (г). Одновременно с шагом (в) вычисляются следующие интегралы: Лф = f R^W-1 (~\TRdt (матрица q X q), (JLv \ U 1л J to
Численные методы 267 '« = -Ф = (/>т^-+#) И”1 (<)т-я* to ((/-мерный вектор-строка), I(₽^+#) ^[(<}'Н£)ГР « to Здесь W — (т X тп)-мерная положительно определенная матрица (см. ниже пояснения к алгоритму). Шаг (д). Выбирают значения бф так, чтобы следующее при- ближение было ближе к желаемому значению ф [х (ty)l = 0. Например, можно положить бф — —еф [х 0 < е 1. После этого определяют вектор v: v = —[Ли,]-1 (бф 4- Шаг (е). Шаги (б) — (д) повторяют, используя каждый раз улучшенное значение uH0B (t): ^нов (0 = ^стар (0 4" би (£), где 8и («) = - [W (01"1 {-^4- [р (0 + R (0 v]T Т. Вычисления заканчиваются, когда условия ф [х (fy)] = 0 и Ijj—— 0 выполняются с желаемой степенью точности. Пояснения к алгоритму. Данный алгоритм основывается на использовании функций влияния, введенных в разд. 2.4. Вели- чины р (t) и R (t) предсказывают изменения значений критерия А качества J и q граничных условий фг = [х1 (tf), . . xq(tf)] при изменении 6u (t) управляющего вектора и (t) 4^-) би (t) dt, ди J ' ' to RT4^~ 8u (t) dt. du v > (7-4.1) (7-4.2) Выполняемое на шаге (в) интегрирование (в обратном времени) уравнений для функций влияния не связано с интегрированием уравнений объекта (за исключением определения производных dfldx и dL/дх)', это обстоятельство (по причинам, изложенным
268 Глава 7 в начале разд. 7.3) делает процесс интегрирования вычислительно весьма устойчивым. Поскольку (7.4.1) и (7.4.2) являются линеаризованными соот- ношениями, то величина 6/ при наличии ограничений на значе- ния 6ф не имеет минимума. Математически простой способ обра- зования минимума состоит в добавлении к (7.4.1) интегральной штрафной функции, квадратичной по 8и: == 6/ + у J (6u)r W (t) 8u (t) dt, (7.4.3) to где W (t) — произвольная положительно определенная весовая матрица размерности, т X т. Минимизация 8J\ при наличии ограничений (7.4.2), где значения 6ф заданы, представляет собой линейно-квадратичную задачу оптимизации, уже рассмотренную в разд. 5.3. Эта задача легко решается присоединением выражения (7.4.2) с постоян- ными множителями Лагранжа v к критерию 8J1 ti 67= 6Л4-¥Г[ J RT-^-8u(t)dt — 6ф]. (7.4.4) to Если пренебречь изменением коэффициентов1), то первая вариа- ция (7.4.4) дается выражением ti 8 (Sj) = J Й + + S (S“) to из которого ясно, что минимум 8J достигается при <7-4-5> Подставляя (7.4.5) в (7.4.2), находим, что 6ф = (7.4/6) где и определены на шаге (г) основного алгоритма. Если Тфф является невырожденной матрицей, то уравнение (7.4.6) можно разрешить относительно искомого значения v v = —[7фф1-1 (6ф -(- 7ф/). (7.4.7) Предсказываемое изменение 8J можно найти, подставляя (7.4.5) и (7.4.7) в (7.4.1): ~ —{Ijj — + Т/ф/ффбф, (7.4.8) где Ijj определено на шаге (г) основного алгоритма. 4) Изменение коэффициентов учитывается в разд. 7.3 и 7.5.
Численные методы 269 Из условий (7.4.8), (7.4.7) и (7.4.5) следует, что по мере при- ближения к оптимальному решению и к 6ф = О выполняются предельные соотношения > 0, (7.4.9) v —> — (7.4.10) J£+(/, + jRv)r^-->0 для (7.4.11) Заметим, что левую часть условия (7.4.11) можно интерпрети- ровать как производную дН/ди, где Н = L (х, и, t) + V/ (х, и, t), (7.4.12) Л (f) = р (t) + R (t) v. (7.4.13) Уравнение (7.4.13) полезно для оценки начального приближения вектора X (t) при нахождении решений методами разд. 7.3, 7.5 и 7.6. Выбор весовой матрицы W (t) на шаге (г). должен произво- диться так, чтобы величина первого шага спуска в алгоритме была ограниченной. Этого можно достигнуть путем сравнения действительных значений 6ф и 8J с предсказанными значениями, найденными из (7.4.6) и (7.4.8). Если между ними имеется слишком большое расхождение, то W следует увеличить, если же рас- хождение слишком мало, то можно использовать большие шаги спуска и W следует уменьшить. После получения удовлетвори- тельного первого шага матрица W может оставаться неизменной в течение всех последующих итераций. Ввиду условия (6.1.16) вполне удовлетворительным значением для W является вели- чина е (д2‘Н/ди2‘'), где 0 < е 1 (разумеется, если гарантировано условие положительной определенности матрицы д'1Н/ди2'). Задачи с ограничениями в виде функций от фазовых координат, заданных в нефиксированный терминальный момент времени Рассмотрим класс задач, уже исследовавшихся в разд. 7.3. Последовательность шагов алгоритма градиентного метода перво- го порядка перечислена ниже: Шаг (а). Задают начальные приближения для и (t) и терми- нального времени tf. Шаг (б). Интегрируют уравнения объекта в прямом вре- мени с заданными начальными условиями, используя и (t) и tf,
270 Глава 7 заданные на шаге (а): х = / (х, и, t), х (t0) = х0 задано. Запоминают векторы х (t), и (f), ф [х (tf), tf], [(d$/dt) + L]t=tf и (dty/df) t=tj. Шаг (в). Находят re-мерный вектор функций влияния р (t) и (re X (^-мерную матрицу функций влияния R (t) путем инте- грирования в обратном времени уравнений для функций и матриц влияния: / df \ Т / dL\T I дф \ Р~\'д7) ’ р ~ t^t' Шаг (г). Этот шаг аналогичен шагу (г) предыдущего алго- ритма. Шаг (д). Этот шаг аналогичен шагу (д) предыдущего алго- ритма, за исключением того, что 6ф заменяется на с?ф и v опре- деляется соотношением где Ь — скалярный весовой множитель (см. ниже пояснения к алгоритму). Шаг (е). Повторяют шаги (б) — (д), используя каждый раа улучшенные приближения для и (t) и tf, полученные по фор- мулам [и (f)]HOB ” (^)1стар Ч~ ^14 (#), (^/)нов= (^у)стар 4" dtf, где 6“ W - - tW' W1- [-Й-+(Р+т £]г, Л,= _* (*+vr4t+L\ . т b \ dt 1 dt 1 / t=tj Процесс вычислений заканчивается после того, как условия ф lx (if), tf] = 0, [(d$/dt) Ч~ vT (dty/dt) -j- = 0 и Ijj — — Iстанут удовлетворяться с желаемой,точностью. Пояснения к алгоритму. Данный алгоритм основан на исполь- зовании функций влияния р (t) и R (t), введенных в разд. 2.7. Изменения в критерии качества J и краевых условиях ф при варьировании управления и (t) на величину 8и (t) определяются
Численные методы 271 соотношениями "=(^+г),=,/',+П^+?тя-)6“»‘г‘’ <7-4Л4> ’ to tf dtf+^ (RT^)8u^dt- (7-4-15> f to Как и в предыдущем алгоритме, добавим к (7.4.14) квадратичную по 8и (#) и dtf штрафную функцию и сложим результат с (7.4.15),. предварительно умноженным на вектор v: - dJ = dJ + ±-b(dtfy + ±- f [6u (O]T W (t) 8u(t)dt + to (rI£} M- <7-416> 1 to Здесь b — произвольная положительная весовая константа,, a W (t) — произвольная положительно определенная весовая матрица размерности т X т. Если не учитывать изменение коэффициентов *), то выражении для первой вариации dJ можно записать в виде d [4г+L4г+<>*/],_,,d + ч + J [^- + (p + JRv)r-g- + (6u)TW7]6(6u)di. (7.4.17> to Из (7.4.17) следует, что минимум dJ достигается, если 8и (?) = -И~ [-£- + (р +-Rv)T -£-]Т, (7.4.18> dtf= — lr4r + vT4r +^1 • (7.4.19). 1 b L dt 1 dt i 1 ' Подставив (7.4.18) и (7.4.19) в (7.4.15), получим ^--Жтг) (тг+^тг+^к, (7.4.2О> где и определены на шаге (г). Если матрица 4~ + (1/Ь) (dty/dt) (dty/dt)T] невырождена, то уравнение (7.4.20) можно» г) Изменение коэффициентов учитывается в разд. 7.3 и 7.5.
272 Глава 7 разрешить относительно v -МЖ)Т над (7.4.21) Предсказанное изменение dJ может быть найдено путем под- становки (7.4.18) и (7.4.19) в (7.4.14); в результате получается -I [Hr+z) (^адт-ад -ад. (7.4.22) где Ijj определено на шаге (г) алгоритма. Из (7.4.18) и (7.4.19) следует, что при приближении к опти- мальному решению выполняются предельные соотношения • ^.+ (p + jRv)r^->0 для (7.4.23) (^г + ^ + Ч ( ->0. (7.4.24) \ U-t tit f Если, кроме того, Л|) — 0, то условие (7.4.24) может быть исполь- зовано в (7.4.20), а затем и в (7.4.22), чтобы показать, что v-> —1^1 у j, (7.4.25) Ijj — IjtyItytyItyJ~*"0* (7.4.26) Заметим, что (7.4.23) и (7.4.24) можно интерпретировать как частную производную дШди и Q соответственно, где Н ~ L + V/, (7.4.27) X (7) = р (7) + R (t) v. (7.4.28) Уравнение (7.4.28) полезно для оценки начального приближе- ния X (7) при нахождении решений методами, изложенными в разд. 7.3, 7.5 и 7.6. Выбор весовой константы Ъ и весовой матрицы W (i) на шаге (г) должен производиться так, чтобы величина первого шага спуска в алгоритме была ограниченной. Для этого можно сравнивать действительные значения Л|) и dJ с предсказанными значениями, найденными из (7.4.20), (7.4.22). Если между ними имеется слиш- ком большое различие, то Ъ и W следует увеличить, если же различие слишком мало, то представляется возможным исполь- зовать в процессе счета большие шаги. В этом случае Ъ и W сле- дует уменьшить. Алгоритмы, использующие минимизацию гамильтониана (min 77-алгоритмы). Было предложено несколько алгоритмов гра- диентных методов первого порядка, использующих минимиза-
Численные методы 273 t цию гамильтониана Н *). Одна из сравнительно недавних публи- В наций по этому вопросу принадлежит Готтлибу2); (см. также статью Н. Halkin, Method of Convex Ascent, в сборнике [6.8]). £ В min Я-алгоритмах управление находится путем минимизации гамильтониана Н [определенного соотношениями (7.4.27) и (7.4.28)] ? по управляющему вектору и; при этом х и А, считаются фиксиро- , ванными. Благодаря применению этой процедуры оказывается возможным использовать большие изменения в и, что, видимо, ускоряет сходимость алгоритма вблизи оптимума. Задача. Рассмотрим систему х = / (х, и, t), х (t0) — х0 задано, критерий качества т J=<£ [ж(Т’), Т]-j- j L(x, и, t) dt, T фиксировано. <0 Пусть дано управление и(1) 2 (t), относительно которого утверж- дается, что оно минимизирует J (по крайней мере в смысле отно- сительного минимума). а) Требуется составить (без вывода) детальную пошаговую блок-схему программы, включающей все необходимые вычисли- тельные шаги, которым должен следовать человек или ЦВМ, чтобы, доказать или опровергнуть это утверждение. Если неко- торые процедуры неизвестны в литературе, то это следует отметить. б) Пусть х = и, х (0) = 2, х, и — скаляры, т J = lz3 + 2. J u2(t)dt, wtn(£)=—2, 0<г<7’=1. о Является ли управление и'1’ (i) оптимальным? Если нет, то нужно найти лучшее управление н<2’(Ц, используя один шаг градиентного метода первого порядка или любого другого метода, изложенного в данной главе. 1) Один из таких алгоритмов рассматривался в работе: И. А. Кры- лов, Ф.Л.Черноуеько, О методе последовательных приближений для решения задач оптимального управления, ЖВМ и МФ, № 6, стр. 1132—1139, < 1962.— Прим, перев. 2) R. G. Gottlieb, Rapid Convergence to Optimum Solution using a Min-H Strategy, AIAA J., 5, № 2 (1967); русский перевод: Готтлиб, Уско- рение сходимости к оптимальному решению с помощью min Я-стратегии, Ракетная техника и космонавтика, № 2, 1967. ‘8—0102
274 Глава 7 в) Найти такое управление и° (t), которое будет для зада- чи «б» по крайней мере слабо минимизирующим (т. е. оно должно удовлетворять почти всем проверочным тестам блок-схемы «а»). 7.5. Алгоритмы градиентных методов второго порядка Введение Как отмечалось во введении к разд. 7.4, алгоритмы градиент- ных методов первого порядка дают существенное улучшение управления на нескольких первых итерациях, но имеют плохие характеристики сходимости при приближении к оптимальному решению. Рассматриваемые ниже алгоритмы градиентных мето- дов второго порядка обладают хорошими характеристиками схо- димости в окрестности оптимального решения, но требуют выбора «выпуклого» начального (номинального) приближения (т. е. матри- ца д2Н!ди2 должна быть положительно определенной на всем интервале времени в задачах минимизации и отрицательно опре- деленной — в задачах максимизации). Иногда бывает трудно найти выпуклое начальное приближение, в этих случаях можно использовать градиентные методы первого порядка для улучше- ния исходного начального приближения до тех пор, пока оно не станет выпуклым. Заметим, что для рассмотренного в преды- дущем разделе алгоритма градиентного метода первого порядка в задачах минимизации выпуклость обеспечивается за счет выбора положительно определенной весовой матрицы W и положитель- ной весовой константы Ь. (В задачах максимизации выпуклость достигается за счет отрицательно определенной матрицы W и отрицательной константы Ь.) Задачи с ограничениями в виде функций от фазовых координат, заданных в нефиксированный терминальный момент времени (включая задачи оптимального бы ст родействия) Вернемся снова к классу задач, описанных в разд. 7.3. Здесь также будут изложены два метода решения: метод переходной матрицы и метод обратной прогонки. Алгоритм 'переходной матрицы *). Этот алгоритм состоит из следующей последовательности шагов: /) См. работу: Н. G. К е 1 1 е у, R. К о р р. G. М о у е г, A Trajectory Optimization Technique Based on the Second Variation, Progress in Astrona- utics, Vol. 14, Academic Press, N. У., 1964.
Численные методы 275 Шаг (а). Задают начальные приближения для и (i) и тер- минального времени tf. Шаг (б). Интегрируют уравнения объекта х = / (х, и, t) в прямом времени от i0 до tf при заданном начальном условии х (t0) — х0, используд начальные приближения для и (t) и tf, заданные на шаге (а). Запоминают х (£), и (t) и ip [х (tf), fy]. Шаг (в). Задают начальное приближение для вектора мно- жителей v, удовлетворяющего условию =0’ \ ди ) t=lf dt dt Запоминают Q (tf). Шаг (г). Путем интегрирования в обратном времени урав- нения где Лт dL ,т df Л — дх к дх с граничным условием ' '' \ дх 1 дх f t=, определяют re-мерный вектор функций влияния A (i). Запоминают Ни (t) — Lu №fu. 'J Шаг (д). Одновременно с выполнением шага (г) находят п + q + 1 однородных решений и одно частное решение системы уравнений возмущенного движения SX. ’ А, —В ' . — С, — Ат. 'fix'] Гу (О _6А. -W (t). (7.5.1) (7.5.2) где матрицы А, В, С определяются соотношениями (6.1.23) — (6.1.25), а v (t)=-tuHuUbHTu, (7.5.3) w(t) = HmH~uu&Hl. (7.5.4) Вектор 8Ни выбирается так, чтобы величина Ни (t) была воз- можно ближе к нулю; можно, например, положить = —&Ни, 0 < е 1 п + Ч + 1 единичных решений однородной системы должны быть получены при условии 8HU (t) = 0. Частное решение должно 18*
276 Глава 7 быть вычислено при 8HU (f) =/= 0 и 8х (tf) = 0, dv = O, Таким образом, 8x(t) ______ 5[д;(г), А, (/)] 6Х (i) J ~ v> 01 ~8х (tf)~ dv dtf '8х<р> (t)' _6Х№> (i). dtf = 0. (7.5.5) где 8x{p'> (t), 61<p> (t) — частное решение. Шаг (e). Выбирают значения 8х (70), dtp и dQ так, чтобы приблизить следующее решение к заданным значениям х (i0) = ха, tj; = 0 и Q = 0. Можно, например, положить ~8х (t0)~ dtp dQ x(t0) — x0 tp[z(^), Qk(^), tf] 0<e<l. (7.5.6) J Шаг (ж). Используя выбранные на предыдущем шаге зна- чения 8х (f0), dtp и dQ, выражение для 8х (t0) из (7.5.5), а также выражения для dtp и dQ, полученные из терминальных гранич- ных условий *), определяют значения 8х (tf), dv и dtf, решая систему 8х (£0) dtp dQ ~ дх (г0) дх (tf) 1 дх fa) dv ’ дх (t0) ' dtf 8x (tf) ~8x™ (tf) (7.5.7) = дх (tf) ' 0, dtp dtf dv + 0 . (7.5.8) да _ дх (tf) * / <Этр \ т \dtfj * dQ dtf dtf 0 (7.5.9) Шаг (з). Используя 8х (t) и 6 A, (t), полученные на шаге (д), с помощью значений 8х (tf), dv и dtf [последние определены на шаге (ж)] находят необходимые изменения 8и (t) управляющего вектора и (t) 8u(t) l[~8Hl(t) + Hux8x + HuK8k]. (7.5.10) Необходимые изменения tf и v находятся с помощью dtf и dv, определенных на шаге (ж). III а г (и). Процедуры (б) — (з) повторяются (с постепенно увеличивающимся значением е, стремящимся к единице) до тех 2) После их линеарйзации.— Прим, перев.
Численные методы 277 пор, пока условия 4^=о, М = о, йк(7у), ?/] = о, x(t0) = x0 не будут выполняться с желаемой точностью. Пояснения к алгоритму. Изложенный алгоритм может интер- претироваться как результат решения следующей линейно-квадра- тичной задачи: (у tf 8J = — J 8Ни8и dt -j- | [6а:т6ит] ^0 <0 U XX Них Н хи Нии 8х ’ 8и dt -j- 1 + у (8xT<bxs8x)tf + (Ф+ dtf при условиях 8х = fx8x -(- fu8u, dip = ipx dx ip; dtf, dQ = Qx dx -j- Qf dtf. 8x (t0) задано, dip задано, dQ задано. Здесь 8HU является заданным изменением Ни. Если положить —8Ни = Ни, то выражение для 8J будет представлять собой разложение (вдоль номинальной траектории) исходного крите- рия качества J с точностью до членов второго порядка. Алгоритм обратной прогонки. Этот алгоритм почти полностью совпадает с алгоритмом переходной матрицы, за исключением шагов (д) и (ж). Вместо нахождения п + q + 1 однородных решений и одного частного решения для уравнений функций влияния второго порядка производится «прогонка» (перенос) терминальных граничных условий для зтих уравнений с пра- вого конца на левый (т. е. от момента tf обратно к моменту £0). При этом принимается во внимание, что упомянутые дифферен- циальные уравнения являются неоднородными, т. е. 8HU (t) =/= 0. Для учета этого обстоятельства вводится неоднородный вариант уравнений (6.6.1) — (6.6.3), т. е. ”6Х tf)~ dip dQ ’ Stf), Rtf), KT(t), Qtf), ntf) mT tf.), nT tf), m (01 г(0~ dv a tf) J L dtf 'Л tf)~ + g (t) . L₽ (0 J (7.5.11) (7.5.12) (7.5.13) Продифференцируем соотношения (7.5.11) — (7.5.13) по времени, учитывая, что величины dip, dQ, dv и dtf постоянны: (7.5.14) (7.5.15) (7.5.16)
278 Глава 7 Теперь можно исключить 8х и 6Х из (7.5.14) — (7.5.16) с помощью уравнений возмущенного движения (7.5.1) и (7.5.2), а 6Л, можно исключить с помощью уравнения (7.5.11). В результате получим Г О “I О о S + SA + ATS — SBS + C, R-{AT — SB)R, m+{AT-SB)m Q — RTBR , n — RrBm X a — mTBm 8x (t) dv dtf hA-(AT— SB) hA-Sv + w g — RT {Bh — v) {1.SA1) (7.5.18) (7.5.19) fi — mT {Bh — v) Если уравнения (7.5.17) — (7.5.19) должны быть тождества- ми, справедливыми для любых 8х (г), dv, dtf, и если уравне- ния (7.5.11)— (7.5.13) должны удовлетворяться при t = tf, то должны иметь место соотношения (6.6.8) — (6.6.13) и еще сле- дующие дополнительные соотношения: . h = —(Ат - SB) h — Sv — w, h {tf) = О, (7.5.20) g = RT {Bh - v), g {tf) = 0, (7.5.21) P = m? {Bh - v), p {tf) = 0. (7.5.22) Систему уравнений для S, Q, R, m, n, a, h, g и P следует интегрировать в обратном времени от t = tf до t — t0. После это- го уравнения (7.5.12) и (7.5.13) при t = t0 можно использовать для определения dv и dtf через значения 6х {t0), dip и dQ dv=Q^[{d^-g)-RT8x-^{dQ-^t=to. (7.5.23) dtf — —~^^{тт + nTQ~1RT) 6x-)-nTQ~1 (dip— g) — <7-5-24’ Матрицы Q и R определены соотношениями (6.6.16), (6.6.17). Найденные значения dv и dtf можно подставить в уравне- ние (7.5.11) для получения зависимости 6Л, (t0) от 8х {t0), а затем
Численные методы 279 снова проинтегрировать дифференциальные уравнения (7.5.1), (7.5.2), но уже в прямом времени. В результате будут получены би (i) и 8х (tf), так как s /да\-‘Г яггТ х , д2Н сл 1 п с 6?Z (£) = — I ~д" 9 - ) I — и (О Ч- —л— Ч- ~л—лТ" • (* «5»25) 4 7 \ ди2 / L ' ' 1 ди дх 1 ди дь J 7 Это соотношение вновь возвращает нас к шагу (з) предыдущего алгоритма [см. (7.5.10)). Одно из преимуществ метода прогонки перед методом пере- ходной матрицы заключается в большей вычислительной точно- сти. Единичные решения уравнений второго порядка для функ- ций влияния могут различаться порядками величин, что приво- дит к плохой обусловленности переходной матрицы. В результате величины бх (tf), dv и dtf из уравнений (7.5.7) — (7.5.9) опреде- ляются недостаточно точно. Обычно указанные трудности не встречаются при применении метода обратной прогонки. Другое преимущество этого метода заключается в простоте получения коэффициентов усиления обратной связи оптимального управле- ния для соседних оптимальных траекторий. Кроме того, при выполнении обратной прогонки предоставляется возможность неявной проверки условий выпуклости, нормальности и наличия сопряженных точек (см. разд. 6.3). Дифференциальное динамическое программирование. Еще один вариант метода обратной прогонки был предложен Джекобсоном1), который назвал его дифференциальным динамическим програм- мированием (ДДП). В ДДП гамильтониан Н сначала минимизи- руется по и при фиксированных х и X; это дает улучшенное управ- ление и*. Затем рассматриваются вариации по х и X, а также соответствующие им дальнейшие вариации и относительно и*. Разложение функционала, содержащее члены второго порядка относительно 8х и би, минимизируется по би, что приводит к линей- ному закону управления с обратной связью вида би= —С (t)6x. В качестве нового управления на следующей итерации берется величина и* — С (i) 8х. Этот метод является усовершенствова- нием алгоритмов, основанных на минимизации гамильтониана Н (min /('-алгоритмов, изложенных в разд. 7.4). В нем допускается использование больших изменений по и (больших шагов спуска) и преодолевается затруднение, связанное с невыпуклыми номи- нальными решениями (это затруднение может иметь место в алго- ритме обратной прогонки). Алгоритм Джекобсона включает в себя также метод регули- рования длины интервала варьирования управления, который представляется весьма заманчивым. Метод регулирования длины 2) D. Н. I а с о b s о п, New Second Order and First Order Algorithms for Determining Optimal Control: A Differential Dynamic Programming Approach, J. Optimization Theory and Application (Dec. 1968). ж.
280 Глава 7 интервала варьирования заключается в следующем. Если какая- либо итерация не дает улучшения критерия качества (или при- водит к слишком большим отклонениям х от номинала), то она повторяется, но при этом «улучшенное» управление используется только на интервале t tf, где > t0. В ходе повторных итераций значение постепенно увеличивается до тех пор, пока не будет достигнуто улучшение критерия J (или пока изменения х не станут достаточно малыми). Затем, на последующих итерациях, величина tt постепенно уменьшается, пока не станет равной ta. Задача 1. Требуется показать, что в задачах с фиксированным конечным временем tf алгоритм градиентного метода первого порядка оказывается частным случаем алгоритма градиентного метода второго порядка, если проделать следующие операции: а) приближенно положить Нхх ~ 0, Них = 0, Нии = И', фхх ~ фхх [t- t? “ 0; б) в качестве номинального значения выбрать v = 0; в) отождествить Х(£) с p(t), а [ — 67/Д0] с номинальным значением Hu(t)^pT^ + ~. ' ' ди ‘ ди В частности, показать, что S(t) = O, R(t) для этих методов совпадают, w(t) = 0, h{t) = Q, Q(t) = l^(t), g(t)=—l^j(t). Задача 2. Показать, что алгоритм метода прогонки, изложен- ный в разд. 7.5, может быть использован для получения опти- мального решения за одну итерацию, если имеющееся допустимое номинальное решение очень близко к оптимальному. При этом следует взять в качестве предварительной оценки v — 0. Заме- тим, что это приводит к следующим соотношениям: 8Hu(t)=-kT^ + -^}, , v z \ du 1 du J ’ ' J/ \ dx J ' " \ dx2 / t=tf Vhob = — [<20’Wo), [>-(0]hob==>-(0-|-^ (0vhOb+^-(0+<S (t) 6x(t), 6« (t) = —H~uu [fu^ + Ll + Hux8x + fu (S8x + RvH0st+ h)] = = —Huu [Hux8x 4- f и T.H0B 4- L? 1 Если номинальное решение является оптимальным, то (77и)нов == hi ^пов+ Lu = 0, t0^t<tf,
Численные методы 281 откуда при 6х (*0) = 0 следует, что 8и (t) = 0 на 7.6. Алгоритм квазилинеаризации Введение Как уже указывалось в разд. 7.1, один из вариантов метода квазилинеаризации состоит в выборе таких номинальных функ- ций х (t) и X (i), которые удовлетворяют возможно большему числу краевых условий. Затем из условий оптимальности опре- деляется номинальный вектор управления u(t). Уравнения объек- та и уравнения для функций влияния (сопряженная система) линеаризуются- относительно номинала, после чего решается последовательность неоднородных линейных двухточечных крае- вых задач. При этом решение улучшается до тех пор, пока оно не станет (с желаемой точностью) удовлетворять уравнениям объекта и уравнениям для функций влияния. Методы квазилинеаризации привлекательны с нескольких точек зрения. Во-первых, номинальное изменение фазовых пере- менных во времени часто легче задать, чем номинальную про- грамму управления и (/). Во-вторых, эти методы быстро схо- дятся в окрестности оптимального решения (точно так же, как градиентные методы второго порядка). Задачи с заданными значениями некоторых фазовых координат в фиксированный терминальный момент времени Для пояснения деталей метода вернемся к задачам, уже обсуж- давшимся в разд. 7.3. Для невырожденных задач управление и (t) определяется по значениям х (t) и X (t) с помощью условия (7.3.8) -|^- = 0, откуда и — и (х, X, t). (7.6.1) С учетом этого соотношения уравнения объекта и уравнения для функций влияния могут быть записаны в виде . х = / (х, X, t) (п уравнений), (7.6.2) X = g (х, X, t) (п уравнений). (7.6.3) Граничные условия (7.3.3), (7.3.4) и (7.3.7) принимают вид х (t0) задано (п уравнений), (7.6.4) h [х (tf), X (tf)] =0 (п уравнений). (7.6.5)
282 Глава 7 Соотношения (7.6.2) — (7.6.5) описывают нелинейную двух- точечную краевую задачу для a: (t) и X (t). Пусть х1 (t) и V (г) — значения х (t), X (t), полученные на i-й итерации. Предположим, что 'они не удовлетворяют любому из соотношений (7.6.2) — (7.6.5). Тогда необходимо отыскать такие функции хг+1 (t) и V+1 (t), которые бы лучше удовлетворяли условиям (7.6.2) — (7.6.5). Другими словами, нужно, чтобы име- ли место соотношения V+1 — g(xi+1, V+1, t) я'*1 ((о) — X (Zo) = (l~e) ’ a:1 — f(x\ 7?) V-g(x\ V) a? (Zo) — x (t0) (7.6.6) (7-6.7) (7.6.8) h[xl (tf), V (Ш (7.6.9) где 0<е<Д. Чтобы условия (7.6.6) — (7.6.9) были достигнуты, линеаризуем их левые части относительно хг (£) и V (if), т. е. положим х*+1(Г) = х1(1)+8х(Г), (7.6.10) г+1(0 = х{5(0 + б^(0. (7.6.И) Подставляя (7.6.10) и (7.6.11) в (7.6.6) — (7.6.9) и сохраняя в разложении левых частей в ряд Тэйлора лишь члены первого порядка, получим (8x) —8x — -~f- 67. dt ' ' dx dt. xi-t(xi, V) (7.6.12) ~(8K)-^-8x-^-8K dt 4 > dx dK — — 8 V-g(?, V) (7.6.13) 8x (to) a:’ (to) — x (to) (7.6.14) (^L8x + ^8X\ \ dx 1 dh / t~t^ h[xl (tf), V (fz)] (7.6.15) Уравнения (7.6.12) — (7.6.15) описывают неоднородную линей- ную двухточечную краевую задачу для 6а: (t), 67. (t), которая может быть решена либо методом переходной матрицы, либо методом прогонки (см. разд. 7.5). По мере выполнения последовательных приближений вели- чина е должна постепенно увеличиваться, стремясь к единице. Если метод сходится, то сходимость, как и в других методах второго порядка, оказывается квадратичной.
Численные методы 283 Задачи с функциями от фазовых координат, заданными в нефиксированный терминальный момент времени (включая задачи на оптимальное быстродействие) В этих задачах необходимо задавать не только функции х (I) и X (t), но и значения v и tf. Улучшающие поправки dv и dtf могут быть найдены в данном случае с помощью метода, подобного изложенному в разд. 7.5. 7.7. Алгоритм градиентного метода второго порядка для дискретных многошаговых систем Как указано в разд. 2,6, путем надлежащего представления исходной непрерывной задачи в виде дискретной многошаговой можно достичь значительного ускорения сходимости итерацион- ных процессов. В данном разделе представлен алгоритм обрат- ной прогонки для дискретных систем, аналогичный алгоритму, .изложенному в разд. 7.5 для непрерывных систем. Иногда и в дис- кретных задачах может быть использован алгоритм, основан- ный на переходной матрице, однако здесь он не рассматривается. Как и в разд. 2.6 и 6.10, будем предполагать, что число шагов (стадий дискретности) фиксировано. Отличие материала данного раздела от изложенного в разд. 6.10 состоит в том, что начальное (номинальное) приближение не обязано удовлетворять условиям оптимальности ^- = 0. ди (i) Алгоритм обратной прогонки. Рассмотрим класс задач, опи- санных в разд. 2.6. Алгоритм обратной прогонки состоит из следующих шагов: Шаг (а). Задают последовательность управляющих векторов и (i), i = 0, 1, . . ., N — 1, и решают систему уравнений} х (i + 1) = /г [х (i), и (i)J, х (0) задано, i = 0, 1, . N — 1, последовательно в порядке возрастания индекса i. Запоминают значения х (i + 1), и (1 + 1) и ф [х (2V)]. Шаг (б). Задают значения множителей v и решают систему уравнений для функций влияния первого порядка Xr(i) = zi + ^r(i + l)/i, г = У-1, У-2, ...,0, A, (У) = [<^x + 'vT'I5x]x=x(N)j последовательно в порядке убывания индекса i. При этом коэф- фициенты уравнений вычисляются на номинальной траектории шага (а). Запоминаются значения Нги = Llu + V (i + 1) /I- Одно- временно решается следующая система уравнений для функций
284 Глава 7 ' влияния второго порядка (последовательно в порядке убывания индекса г): 5 (i) = ZXX (i) — Zxu(i) Z^i) Zux(i), S (N) = 4- vHpxx]x=a.(?0, R (г) = fxR (i + 1) - Zxu (i) Z?u (i) fu R (i +1), 7? (TV) = [1рх]х=а:(Х). Q (i) = Q (i +1) - RT (i + 1) (ftfZ^ (i) fuR (i +1), h (i) = fxh (г +1) — Zxu, (i) Zuu (j) [fuh (i + 1) — dH^], A(JV) = O, g (0 = g (i +1) - RT (i +1) (fuf Z-u\ (j) [jluh (i +1) - dHtu], g(N) = 0, где Zxx, Zux, Zuu определены соотношениями (6.10.19), (6.10.15) и (6.10.14), a dHlu——sHu, 0<е-<1. Запоминают значения Zuu(i)Zux(i), Z^UO/u^CH-l), Zuu'd)[fufi(i+l)—dHlu], <? (0) и g (0). Шаг (в). Выбирают dip так, чтобы приблизить следующее номинальное решение к желаемому значению ip [х (Лг)1 = 0. Можно например, положить dip = —sip [х (2V)], 0 < е sC 1. После этого определяют (и запоминают) значение dv dv — [—(? (О)]*1 [dip — g (0)]. Шаг (г). Повторяют шаги (а) — (в), используя улучшенные значения для и (i) и v, полученные путем сложения и (i) и v предыдущего цикла со значениями поправок du (г) и dv, при этом du (Г) — —Z^u (i) [ZUx (0 dx (i) 4- fuR (i 4* 1) dv4- /uh (j + 1)“ dHu], где dx (г) = [x (г)1нов — [x (Olciap- Процесс итераций прекращает- ся, когда ip [х (2V)1 и Н1и становятся близкими к нулю с заданной точностью. Пояснения к алгоритму. Единственная часть алгоритма, тре- бующая дополнительных пояснений (кроме тех, которые уже даны в разд. 6.10), заключается в методе вычисления неоднород- ных выражений, содержащих dHlu. Для их вычисления необхо- димы следующие неоднородные варианты выражений (6.10.7) и (6.10.8) для dX (г) и dip: ~dX (г) dip FS(O, _ят(0, R(i)~ ~dx(i)~ ~h(i) Q(i). . dv . +l_£(0
Численные методы 285 Учитывая эти соотношения и проведя рассуждения, аналогичные изложенным в- разд. 6.10, можно непосредственно показать, что последовательности h (i) и g (i) определяются рекуррентными соотношениями, приведенными на шаге (б). Заметим, что h (i + 1) входит в выражение для du (г) на шаге (г), a g (0) входит в выраже- ние для dv, используемое на шаге (в). 7.8. Алгоритм метода сопряженных градиентов Пусть и будет вектором параметров или функций, которые должны выбираться из условия оптимизации критерия J (и), a u(I) — значением и на i-й итерации. Алгоритмы, изложенные в предыдущих разделах, могут быть отнесены к одной из следую- щих двух категорий: 1. Методы первого порядка, в которых улучшающие измене- ния управления строятся по схеме AuW 1 н(Н-1)-и<*)= —e(Ju)u=u(i) и где е выбирается в соответствии с каким-либо ограничением на величину шага Ан. 2. Методы второго порядка, в которых = и<г+1) _ U(i) = _ ([/ии]-1 J^)u=u(i) Некоторые преимущества и недостатки алгоритмов этих двух категорий указаны в табл. 7.8.1. Метод сопряженных градиентов является попыткой объеди- нить преимущества двух методов, указанных в табл. 7.8.1, при одновременном устранении их недостатков *). На начальных х) Методы сопряженных градиентов представляются весьма многообе- щающими. В настоящий момент известно несколько их модификаций, пред- назначенных либо для решения задач минимизации функций конечного числа переменных [7.16*, 7.20*, 7.25*], либо для решения задач оптимального управления [7.11, 7.24*, 7.26*]. Методы сопряженных градиентов для решения конечномерных задач на безусловный минимум (т. е. при отсутствии ограничений на значения переменных) интенсивно используются при решении прикладных задач. Они прошли экспериментальную проверку на системе специально подобран- ных тест-функций и в большинстве случаев оказались примерно на порядок более эффективными (по количеству вычислений значений минимизируемой функции, необходимых для достижения заданной точности решения), чем градиентные методы первого порядка. При этом одним из самых эффективных оказался метод Давидона [его модификация изложена в работе: R. F 1 е t - с h е г, М. Powell, A Rapidly Convergent Descent Method for Minimization, The Computer Journal, 6. № 2 (1963)]. Следует отметить, что реализация мето- дов сопряженных градиентов на ЦВМ требует несколько больших затрат времени на программирование по сравнению с градиентными методами первого
286 Глава 7 Типы алгоритмов Таблица 7.8.1 Методы Преимущества Недостатки Первого порядка 1. Простота вычисления градиента Ju 2. Отсутствие затрудне- ний при начале счета из далекого прибли- жения Медленная сходимость в окрестности оптимума Второго порядка Быстрая сходимость в окрестности оптимума 1. Необходимость вычисления мат- рицы вторых производных Juu и ее обращения, что весьма затруд- нительно, особенно если и—функ- ция (т. е. имеет размерность со) 2. В начальной точке (особенно если она далека от оптимума). мо- жет не существовать или не быть в какой-либо связи с ее значением в окрестности оптимума; в резуль- тате может иметь место расходи- мость алгоритма итерациях этот алгоритм ведет себя как метод первого порядка, однако по мере увеличения числа итераций его поведение стано- вится все более похожим на метод второго порядка. В то же время в этом алгоритме не нужно вычислять Juu- Имеется несколько вариантов этого алгоритма, но все они построены на двух ключе- вых идеях. Первая идея состоит в формировании последователь- ности направлений спуска т) р0, р1г . . pn-i, которая 'обла- дает свойством сопряженности (обобщенной ортогональности) относительно Juu. Это свойство означает, что = 0 для всех i =/= j, i = О, 1, ... . (7.8.1) Вторая идея заключается в проведении последовательных одно- мерных поисков оптимума J вдоль каждого из сопряженных направлений. Точка оптимума иЮ вдоль р;м-го сопряженного направления используется в качестве начальной точки для поиска порядка. Кроме того, необходимо более точно вычислять частные производные и более точно производить одномерную минимизацию вдоль направления спуска.— Прим, перев. !) Здесь pi — n-мерный вектор, Р; = (рц, Дг;, • • •» pnj), * = 0> 1, п~ — 1.— Прим, перев.
Фиг. 7.8.1. Направления сопряженных градиентов в двумер- ной задаче минимизации квадратичной формы. 1 — линии постоянных значений критерия качества; 2 — направление спуска из точки В в методе сопряженных градиентов; з — направление 'антиградиента в точке В (это направление перпендикулярно АВ). Фиг. 7.8.2. Блок-схема алгоритма сопряженных градиентов.
288 Глава 7 оптимума вдоль следующего сопряженного направления pt, т. е. u(i+l) _ u(j) — diPi, (7.8.2) где х) di = arg min J (и<‘)— dpt). (7.8.3) d>-.0 Графически этот процесс представлен на фиг. 7.8.1. Если критерий оптимальности квадратичен, то вторая произ- водная Juu в (7.8.1) постоянна, и если она при этом положительно определена, то направления рй, pt, . . ., /»п_4 образуют систему п ортогональных линейно независимых базисных векторов в про- странстве оптимизируемых параметров (здесь предполагается, что и — чг-мерный вектор, и g Нп, где Нп — n-мерное векторное про- странство). В этом случае после г итераций (г п) имеем г—1 w(r) = M(0)_ 2 diPi. (7.8.4) 4=0 Можно показать, что вследствие обобщенной ортогональности векторов pi раздельное определение d-L, г = 0, 1, . . ., п — 1, эквивалентно их совместному определению * 2). Другими словами, это означает, что дает точный минимум J (п), если J (и) — положительно определенная квадратичная форма. (Подробное доказательство этих утверждений содержится в работе [6.101.) Блок-схема одного из вариантов метода сопряженных градиентов показана на фиг. 7.8.2. При применении алгоритма к нелинейным критериям, отлич- ным от квадратичных, сходимость за конечное число шагов уже не может быть гарантирована. Однако если критерий в окрестно- х) <1{ — скалярная величина, индекс i относится к номеру итерации, arg min J (d) — значение аргумента, при котором достигает минимума функ- d^O ция J (d).— Прим, перев. 2) Легко показать, что если направления рг, pj попарно ортогональны относительно матрицы А (т. е. если p'fApj = 0 для всех I у), то квадратич- )— 1 ная форма Q (и) = итАи + Вти + С при u<r> = u<°> — принимает г=0 ВИД г- 1 Q(u<r>) = Q {dlpTApi-dip? (2Au^ + b)} + Q («<«>). 4=0 Вследствие попарной ортогональности (сопряженности) векторов рг, Pj относительно матрицы А произведения didj, i =/= j, не входят в выражение для Q (di). Следовательно, минимизация Q (dt) по dt может производиться независимо от остальных dj, j =/= i. Поэтому последовательная минимизация по каждому из п направлений рг приводит к абсолютному минимуму квадра- тичной формы Q (и) на всем пространстве Un = Rn (если такой минимум существует).— Прим, перев.
Численные методы 289 сти оптимума достаточно хорошо аппроксимируется квадратичной формой, то следует ожидать быстрой сходимости. Обобщение этого метода на задачи оптимального управления можно найти в работе [6.11]. Задача. Требуется проверить выполнимость уравнения (7.8.1) для описанного выше алгоритма в случае J (и) = = Vz (м — и)Т А (и — и) и показать, что d/ Ju (иУ) рi!рi Арi. 7.9. Задачи с ограничениями в виде неравенств на фазовые и управляющие переменные Все ранее рассмотренные в данной главе алгоритмы применимы к задачам, в которых отсутствуют ограничения в виде неравенств, содержащих управляющие и/или фазовые переменные. Таким образом, эти алгоритмы применимы только в тех случаях, когда критерий качества и/или уравнения системы являются нелиней- ными. Задачи линейного оптимального программирования при правильной постановке непременно должны содержать ограниче- ния на управляющие и/или фазовые переменные. В таких задачах решение всегда лежит на границе допустимой области, и вычисли- тельная задача сводится к определению момента переключения с одной границы ограничения на другую, а также того, с какой именно границы производить переключение и на- какую (при числе границ ограничений больше двух). В нелинейных задачах с ограничениями на управляющие и/или фазовые переменные часть решения может лежать на границе допустимой области (граничный участок решения), а часть — внутри допустимой области (участок свободного, нестесненного решения). Интегральные штрафные функции. Простейший, но не обя- зательно наиболее эффективный подход к решению задач с огра- ничениями состоит в использовании интегральных функций штра- фа. Если ограничение в виде неравенства С (х, и, t) 0 (7.9.1) задано на интервале t0 t tf, то критерий качества J может быть преобразован путем введения дополнительного слагаемого (штрафа) к виду J = J[С(х,и, t)]2E(C)dt, (7.9.2) <0 где f ° ПРИ С<0> £(С) [1 пр» С>0. (7.9.3) 19—0102
Соответствующим выбором постоянной ц (положительной, если J минимизируется, и отрицательной, если J максимизируется) ограничение (7.9.1) может быть приближенно удовлетворено. Вообще говоря, чем больше выбранное значение | ц |, тем меньше будет значение интеграла в (7.9.2). Однако если | ц | взято слиш- ком большим, то итерационные алгоритмы, рассмотренные в разд. 7.3—7.8, будут в основном стремиться удовлетворять ограничение, а не минимизировать (или максимизировать) исход- ный критерий качества J. В результате сходимость к удовлетво- рительному решению будет весьма медленной (см. разд. 1.10 отно- сительно аналогичной ситуации в задачах оптимизации пара- метров). Метод сопряжения граничных и свободных участков решения. Более эффективный подход к решению задач с ограничениями состоит в сопряжении друг с другом граничных и свободных участков решения. Он основан на использовании необходимых условий, описанных в разд. 3.10 и 3.11. В противоположность методу интегральных штрафных функций такой подход способен обеспечить нахождение точного решения и требует меньших затрат машинного времени. Однако при его использовании необ- ходимо предварительно задавать последовательность граничных и свободных участков. Кроме того, программирование этого метода на ЦВМ оказывается более сложным. Для описания метода рассмотрим довольно общий пример, состоящий в определении управления и (Ц, минимизирующего критерий качества V J — ф [х (tf)] 4- j L (х, и, t) dt (7.9.4) <0 при условиях х — / (х, и, t), х (t0) задано, tf задано (7.9.5) и С (х, и, t) < 0. (7.9.6) Здесь Сии — скалярные функции. Допустим, что есть основание предполагать, что оптимальная траектория состоит из трех сле- дующих участков: а) свободного участка (С < 0) для t0 t Ц, б) граничного участка (С = 0) для Ц t t2, в) свободного участка (С < 0) для t2 t tf, однако значения х (Ц), tf, х (t2), t2 априори неизвестны. Предпо- ложим, что можно найти номинальную (неоптимальную) траекто- рию, которая удовлетворяет условиям (7.9.5) и (7.9.6). Далее можно попытаться найти такие малые изменения 6u (t) номи- нальной программы управления, которые уменьшают J и одно-
Численные методы 291 временно удовлетворяют тем же условиям. Для этой цели можно использовать алгоритм градиентного метода первого порядка, аналогичный рассмотренному в разд. 7.3, но с модификациями, учитывающими, что при С (х, и, t) = О и (х, t) определяется из этого условия (С = 0), (7.9.7) = - Lx - kTfx - [iCx, (7.9.8) -Cu(Lu + KTfu)>0. (7.9.9) Время ti определяется как момент, когда впервые выполнится условие С = 0, а время t2 определяется как момент обращения в нуль р, (далее ц отрицательно) х). Заметим, что неравенство р > 0 на ограничении С = 0 является* необходимым условием. Управление и (£) может быть разрывным в точке и/или в точ- ке t2, если гамильтониан Н имеет два или более минимума по п; однако сам гамильтониан Н должен быть непрерывным в точ- ках ti и t2. Общий алгоритм работает по-разному на разных интер- валах. На свободных участках вычисляется поправка бп = —еЯ„, а на граничном участке используются уравнения (7.9.8) и (7.9.9) для вычисления К (t) при движении вдоль ограничения, при этом X (t) остается непрерывным в точках и t2. Дальнейшие детали метода можно найти в работах [2.10] и [6.7]. 7.10. Задачи с ограничениями в виде неравенств на фазовые переменные Для задач с ограничениями на фазовые переменные применим метод интегральных штрафных функций и справедливы соответ- ствующие рассуждения из разд. 7.9. Однако метод сопряжения граничных и свободных участков решения, использующий алго- ритм градиентного метода первого порядка, более сложен, поскольку в общем случае, для любого граничного участка функ- ции к (t) разрывны в точках входа на границу и схода с нее. Нару- шение непрерывности происходит вследствие того, что решения, соответствующие свободным участкам, должны касаться решений, соответствующих граничным участкам, в точках их соединения; это требование приводит к появлению так называемых ограниче- ний для внутренних точек (разд. 3.11). Если ограничение имеет вид £(£,£)< 0, (7.10.1) х) Эта ситуация обычна. Однако в точке i2 (схода с ограничения) в более сложных случаях может быть ц (/2) #= 0 (см., например, разд. 8.6). 19*
292 Глава 7 то на граничном участке (S = 0) уравнения (7.9.7) — (7.9.9) будут применимы, если заменить в них С {х, и, t) на 5<9> (х, и, t) х). Как и в разд. 7.9, общий алгоритм работает различным образом на граничных и свободных участках, но при этом дополнительное усложнение состоит в решении возникающей здесь многоточечной краевой задачи. Дальнейшее обсуждение этих вопросов можно найти в работах [2.10] и [6.7]. Некоторые задачи с ограничениями в виде неравенств на фазовые переменные могут быть разделены на две полностью не связанные друг с другом двухточечные краевые задачи. Эта возможность является большим упрощением, она исследована Спейером, Мехра и Брайсоном2) (см. также разд. 3.12). 7.11. Применение методов математического программирования Если принять во внимание, что большинство задач оптималь- ного управления должно решаться численно с помощью ЦВМ, то всегда можно рассматривать задачу определения и (t) на интер- вале t0 t tf как эквивалентную задаче нахождения после- довательности и (0), и (1), . . ., и (N — 1) [т. е. некоторого дис- кретного эквивалента и (t)]. Рассмотрим систему х (i + 1) = /г [х (t), и (г)], х (0) задано, (7.11.1) с ограничениями С1 [х (i), и (/)] 0, i = 0, 1, . . ., N — 1, N задано; (7.11.2) критерий качества JV-1 J = ^[x(JV)] + 3 Ll[x(i), u(i)]. (7.11.3) i=0 Положим теперь (согласно разд. 1.7) уТ = [х (1), . . ., X (N); и (0), . . ., и (N - 1)], L (у) = J I) У<3> (х, и, t) — полная производная g-го порядка по времени • от S (х, £), в которой х последовательно заменяется правой частью уравне- ния х = f (х, и, t). Порядок q — наименьший, при котором управление и явно входит в SW (разд. 3.11).— Прим, перев. 21 J. L. Speyer, R. К. М ehr а, А. Е. В г у s on, The Separate Com- putation of Arc of Optimal Flight Path with State Variable Inequality Constra- ints, in «Advanced Problems and Methods for Space Flight Optimization», Ed. by B. Fraeijs de Veubeke, Pergamon Press, Oxford, 1969.— Прим, перев.
Численные методы 293 и введем Ж (1) —/О [Ж (0), 14(0)] //7Л= U(N-1)] lvy> С°[х(О), u(0)] [х (IV-1), u(JV-l)] Итак, задача свелась к уже рассмотренной задаче разд. 1.7, т. е. к определению вектора у, который минимизирует L (у) при ограничении / (у) 0. Если применить необходимые усло- вия (1.7.12) и (1.7.13) к введенным уравнениям, то будут получены обычные необходимые условия для дискретных по времени задач оптимального управления. Очевидно также, что и более сложные дискретные задачи оптимизации могут быть преобразованы ана- логичным образом и соответствующие им необходимые условия могут быть выведены из основных условий (1.7.12) и (1.7.13). После того как эти условия определены, . численное решение заключается в итерационном нахождении последовательности и (f), которая удовлетворяет необходимым условиям. Степень слож- ности осуществления двух этапов итерационного процесса, опи- санных в общих чертах в разд. 1.9 (т. е. нахождение допустимого решения и допустимого направления улучшения этого решения), в большой степени определяется характером конкретной задачи и принятым методом дискретизации или параметризации. Пример. Управление, минимизирующее терминальную ошибку. Пусть система описывается уравнением х.(i + 1) = Ф (г) х (г) + d (I) и (г), i = 0, 1, . . ., N — 1, (7.11.4) с ограничением I w (j) | 1, или i = 0, 1, ..., JV—1; (7.11.5) критерий / = 1|ИЛ0||2. (7.11.6) Так как любая последовательность u(i), удовлетворяющая (7.11.5), является допустимой, то первый этап (первый шаг) численного
294 Глава 7 решения достаточно прост. Определим теперь функции Я* (0 = (i + 1) [ф (0 х (0 + d (i) и (0], (7.11.7) (0 = (i-j-1) Фт (0, kT(N) = xT(N). (7.11.8) Путем обычных рассуждений можно установить, что если не учи- тывать ограничение (7.11.5), то dJ ди (i) дН* (i) ди (i) A,T(i + l)d(0. (7.11.9) Следовательно, допустимое улучшение и (0 будет определяться вектором к (0 = < л ,... дН* „ 1 —м(0, если , <;0, L ’ (7.11.10) 4 , ,ч дН* п — 1 — и (г), если - > 0. v z’ ди (г) Вектор и (0 просто указывает направление на вершину гиперкуба | и (0 | 1 в пространстве управляющих параметров, которая лежит в том же квадранте, где и градиент дН*/ди (0. Это направ- ление всегда является допустимым, так как допустимое решение должно лежать либо внутри, либо на границе гиперкуба. Как далеко следует идти вдоль допустимого направления для полу- чения максимального улучшения, можно определить либо с по- мощью одномерного поиска, либо аналитически. В последнем случае где бн (0 = av (0, (7.11.11) а = Sat ' xT(N)Kv(i) I vT (i) KTKv (i) J К = [Ф (N - 1), . . ., Ф (1) d (0), . . . . . ., Ф (N - 1) d (N - 2), d (N - 1)]. Отметим, что в данном случае, поскольку компоненты ограни- чения [формулы (7.11.5)] не связаны друг с другом [т. е. выбор и (0 не влияет на выбор и (0 при i Ф у], направление допустимо- го улучшения находится легко. В задачах, где ограничение содер- жит фазовые переменные, независимость компонент уже не имеет места. В этом случае определить нужное направление значительно труднее.
Глава 8 Особые решения в задачах оптимизации управления 8.1. Введение В некоторых задачах оптимизации управления встречаются участки экстремалей (Яи = 0), на которых матрица Яии оказы- вается вырожденной. Такие участки называются особыми', они удовлетворяют необходимому условию выпуклости (6.3.12), но не удовлетворяют усиленному условию (6.3.1); другими словами, матрица Нии является только полуопределенной. Для того чтобы установить, является ли особый участок оптимальным, необходи- мы дополнительные исследования. Ниже рассматривается только случай особых участков, наиболее часто встречающихся в при- ложениях, когда гамильтониан- линеен по одной или нескольким управляющим переменным (но является нелинейным по одной или нескольким фазовым переменным). Для таких систем на осо- бом участке в гамильтониане Н коэффициент в члене, линейном по управлению, равен нулю; поэтому необходимое условие экстре- мума Ни — 0 (или условие минимума Н по и) не позволяет опре- делить управление вдоль особого участка как функцию фазовых и сопряженных переменных гик Вместо этого управление нахо- дится из условия, что на особом участке коэффициент при этом линейном члене остается равным нулю; другими словами, произ- водная Ни по времени должна равняться нулю [(d/dt) Ни = 0 на особом участке]. Недавно для особых участков было получено дополнительное необходимое условие, аналогичное условию выпуклости (6.3.12) т). Так, для задачи на минимум с одной управляющей переменной (и — скаляр) можно легко показать, что на особом участке [(4ГЯ«]>»• ‘’°, ч 2............. <8-1Л> Вывод этого неравенства для случая к = 1 приведен в разд. 8.4. Для особых участков до сих пор не разработаны условия, анало- гичные условию отсутствия сопряженной точки (6.3.3); поэтому отсутствуют и достаточные условия оптимальности особых уча- стков. 1) См. работы [8.1—8.3].
296 Глава 8 8.2. Особые решения в задачах оптимизации линейных динамических систем с квадратичным критерием качества Рассмотрим задачу терминального управления разд. 5.2, когда В (£) = 0. В .этом случае критерий качества J является квадратичной формой фазовых переменных х и не зависит от управления и: J = -^хТ (tf) $ xT(t) A(t)x(t) dt. (8.2.1) to Предположим, что матрицы Sf и A (t) положительно полуопре- делены, система уравнений линейная, т. е. х = F (t) х + G (t) и, х (t0), t0, tf заданы. (8.2.2) Отсюда следует, что гамильтониан Н линеен по и-. H^=~xTAx + 'KT(Fx + Gu) (8.2.3) и при этом х = ~FTK — Ах, X (tf) = SfX (tf). (8.2.4) Если и ограничено, то минимум Н по и может достигаться на гра- нице (как это и имеет место в задачах, линейных по переменным управления и фазовым переменным; см. разд. 3.9). В этом случае необходимое условие сводится к тому, что для всех допустимых вариаций 6н ^Gbu > 0. (8.2.5) Однако может случиться, что найдутся интервалы времени, где функции и (t), значения которой не лежат на границах, соот- ветствуют такие К (t), что _^- = X,I’G = O, (8.2.6) ди х ' другими словами, этим и (t) соответствует стационарное решение. Участки траектории, соответствующие этим интервалам, назы- ваются особыми, минимум на них может как достигаться, так и не достигаться. Если и не ограничено, то с помощью управления, содержащего импульсы, систему (8.2.2) можно мгновенно перевести в любые другие состояния. Такие импульсы не изменяют величину крите- рия качества. Таким образом, если с помощью импульса можно
Особые решения 297 перевести систему в состояние х = 0, то это и будет минимиза- цией J, поскольку при этом J = 0! Если такая возможность отсутствует, то импульс можно использовать для перемещения системы на минимизирующий особый участок и далее двигаться по этому участку до тех пор, пока не будет достигнуто состояние, из которого другим импульсом система переведется в точку х = О (или в состояние х (tf), где хт (tt) Sfx (tf) = 0, что менее сложно, когда матрица Sf является полуопределенной). Отметим, что в любом случае условие (8.2.6) не дает непосредственной инфор- мации для определения таких управлений. Пример 1. Автономная линейная система второго порядка с одной управляющей переменной и критерием качества, содержа- щим квадратичную форму только от фазовых переменныхх). Частным случаем такой системы является система с двумя фазо- выми и одной управляющей переменными, где Ч J = ±^x\dt, (8.2.7) о ад = ^2 + и, х2 = —и; Xi, х2, и — скалярные функции, (8.2.8) хх (0), х2 (0), tf заданы, xt (tf) = х2 (tf) = 0. Эта задача линейна по и, но нелинейна по Xi в силу выбранного критерия качества. Гамильтониан задачи Н = (х2 и) -j- А.2 (—и) -j—xi> (8.2.9) причем (8.2.10) Особыми участками должны быть такие, где на конечном интервале времени -^-=^1-^ = 0. (8.2.11) На этом интервале <8-2-12) или —X} Zq 0. Поскольку гамильтониан Я явно не зависит от t, то на оптималь- ном решении он должен быть постоянным: Я = у + А,2) и = const. (8.2.13) 0 Пример 1 аналогичен примеру, рассмотренному К. Джонсоном и Дж. Гибсоном в работе «Singular Solutions in Problems of Optimal Control», IEEE Trans. Automatic Control (Jan. 1963).
298 Глава 8 Учитывая, что на особом участке дН/ди = (d/dt) (дН/ди) = О, получаем соотношение Н — у х\ + х^хг = const, (8.2.14) которое на плоскости (х^, х2) соответствует однопараметрическому семейству особые участков (гипербол) (фиг. 8.2.1). Фиг. 8.2.1. Оптимальная траектория примера 1, включающая, особый участок. Если воспользоваться тем, что d2 / дН \ •, : „ *2 ("аг) — О, то получим —х2 — и — xt = О, т. е. что закон управления на особом участке н = — + х2) является линейным. Отметим, что -д (Г / дН \ . „ ди dt? ди / 1 (8.2.15) (8.2.16) (8.2.17) Таким образом, упомянутое в разд. 8.1 обобщенное условие выпук- лости выполняется. Если и не ограничено, то ясно, что, используя в управлении импульсы типа 6-функции Дирака, можно мгновенно изменять состояние системы вдоль прямых xt -j- х2 = const; положитель- ные импульсы переводят состояние вниз и вправо (фиг. 8.2.1), а отрицательные — вверх и влево. Такие перемещения не изме- няют критерий качества, поскольку и не входит в его выражение.
Особые решения 299 На особом участке, используя (8.2.16), получаем Xi = Х2 — (Х1 + хг), Xi + Xi = О, Xz — Х1 + Х2’ Хг — Хг = Xi, откуда Xi = се"1, где с = const, (8.2.18) т. е. величина Xi уменьшается со временем по экспоненте; направление движёния вдоль обеих ветвей особого участка показано на фиг. 8.2.1 стрелками. Таким образом, типичное экстремальное решение включает (фиг. 8.2.1) начальный импульс, переводящий начальное состояние на особый участок (в момент t = 0+), дальнейшее движение вдоль особого участка до прямой х, + хг = 0 и второй импульс, переводящий состоя- ние в начало координат. Значение постоянной Н, которое выделяет конкретный особый участок из однопараметрического семейства возможных, определяется из условия, что в момент t — tf состояние должно стать таким, чтобы xt х2 = О J). Непосредственно проверяется, что -2tf Н= -2с2—е (8.2.19) 1 —е f где с = Xi (0) + х2 (0) 2). Также можно показать, что ®i(0 + ) = — ’ ж2(0 +) = ТБТу ’ (8.2.20) Xi (t) = Xi (0 + ) е~*, xz (t) = Xi (0 + ) sh t^xz (0 + ) e‘. (8.2.21) Далее, если и ограничено, то для того чтобы попасть на особый участок и затем сойти с него, нужно вместо импульсов типа б-функции Дирака пользоваться максимальными или минималь- ными значениями и; такая задача для случая tt —>- оо исследова- лась Джонсоном и Гибсоном. Итак, оптимальное решение пред- ставляет собой комбинацию управления на упорах и линейного закона управления (особые участки). Пример 2. Автономная линейная система общего вида с крите- рием качества, содержащим только квадратичную форму от t х) Конечно, для того чтобы доказать оптимальность такого решения, нужно сравнить его с другими комбинациями особых и импульсных участков, реализуемыми другими импульсами, которые приходят в начало координат и остаются в нем до момента tf. В последнем случае величина х будет больше, но она будет интегрироваться на меньшем интервале времени. См. задачу этого раздела. 2) В задаче Гибсона и Джонсона ty -* оо, так что Н -> 0. В этом случае особыми участками являются вырожденные гиперболы, а именно две прямые: + 2ж3 = 0 и Xi = 0.
300 Глава 8 фазовых переменных J = L{xTSfX)l=4+l. j xTAxdt, (8.2.22) о х = Fx + Gu, x (0) и tt заданы, (8.2.23) A, F, G — постоянные матрицы, x — n-мерный вектор, и — m-мерный вектор. На оптимальном решении Н = хТАх + № (Fx + Gu) = const (одно уравнение), (8.2.24) № = _)TF _ хтА, X (tf) = SfX (tf). (8.2.25) На особых участках -^- = A,TG = O (m уравнений), (8.2.26) ("^г) = —hTG= —(ATF-|-хтA) G = 0 (т уравнений), (8.2.27) dt2 \ ди / = (KTF + хтA) FG - (xTFT + uTGT) AG = О, откуда u = — (GTAG)~lGT[(AF — FTA)x — FTFTK\ (8.2.28) и матрица GTAG должна быть невырожденной. Системы (8.2.24), (8.2.26) и (8.2.27) содержат 2m + 1 уравнений для X и х, которые в 2тг-мерном пространстве (х, К) определяют семейство возможных особых участков. Соотношение (8.2.28) задает линейный закон управления, имеющий место на особом участке. Если матрица А является положительно определенной, то выполняется обобщенное условие выпуклости = (8.2.29) ди L dt2 \ ди / J ' ' Более подробное исследование этой проблемы можно найти в рабо- те [8.4]. Задача. Система в примере 1 является полностью управляемой, и поэтому с помощью достаточно большого управления ее можно за достаточно малое время перевести в начало координат; так, например, управление и(0), 0<4<А, u(t) = < u (A), A<i<2A, 0, 2А<£<£/:
Особые решения 301 переводит систему в начало координат за время 2А, где А -> 0. Покажите, что, несмотря на то что критерий не содержит и, такое управление хуже особого. 8.3. Особые решения в задичаю оптимизации нелинейных динамических систем В предыдущем разделе рассматривались лишь случаи, когда гамильтониан Н был линейным по управляющим переменным и квадратичным по фазовым переменным. В этом разделе ограни- чение на тип нелинейности гамильтониана по фазовым перемен- ным будет ослаблено, но предположение о линейности Н по управ- ляющим переменным будет сохранено Исследуем проблему минимизации функции ф [х (£/)] (8.3.1) при ограничениях х = / (х) g (х) и, t0 t tf, х (£0) задано, (8.3.2) ф 1х (£/)] = 0, (8.3.3) где х — тг-мерный вектор, и — скаляр 1 2) и ф — «/-мерный вектор. Гамильтониан является линейным по и, и предполагается, что он нелинеен по х: Н = fJlf (х) + g (х) и]. (8.3.4) Необходимые условия стационарности решения включают соот- ношение Ни = lTg = 0, (8.3.5) где X, =—[A, (fx-\~gxu)]> (if)= (фх + ,У'гфх)(=^- (8.3.6) Управление и (А,, х)- непосредственно из формулы (8.3.5) опреде- лить нельзя, так как она не содержит и, тем не менее может ока- заться возможным найти на конечном интервале времени такое и (if), что соотношение (8.3.5) будет выполнено; тогда как след- ствие 4(^) = ^+XTg=(^x)i + XTg = 0. (8.3.7) 1) Данный пример не является наиболее общим, но он включает боль- шинство тех важных случаев, которые встречаются в современных прило- жениях. 2) Это не является серьезным ограничением, так как в векторном случае выкладки этого и следующего разделов проводятся для каждой компоненты вектора и.
302 Глава 8 Подстановка (8.3.2) и (8.3.6) в (8.3.7) дает 4 (7М = (/+(А + g=^тч = °- (8-3-8) где q (*) = gxf — fxg- Заметим, что в (8.3.8) члены, содержащие и, взаимно уничтожают- ся, так что это соотношение определяет и (х, X) не в большей сте- пени, чем соотношение (8.3.5). Вследствие этого, снова дифферен- цируя (8.3.8) по времени, попытаемся получить выражения, опре- деляющие и: -4 (Ни) = XTq + KTq = XTqx (f + gu) — XT (fx + gxu) q = = (qxf— fxq) + (qxg~—gxq) u = Q. (8.3.9) Теперь, если только XT (qxg — gxq)=£® [см. (8.1.1)], уравнение (8.3.9) действительно определяет и и = - (8.3.10) Ar(?xg—gx?) В том случае, если соотношения (8.3.5) и (8.3.8) выполнялись в начале (или в конце) особого участка, закон управления (8.3.10) реализует условие стационарности (8.3.5). Все это напомина- ет ограничения типа неравенств на фазовые переменные из разд. 3.1.1. Итак, особые участки (со скалярным управлением) для всех точек 2к-мерного пространства (х, X) невозможны; в силу (8.3.5) и (8.3.7) они ограничены гиперповерхностью размерности 2п — 2, которая называется особой поверхностью. Для стационар- ных систем со свободным временем размерность особой поверхно- сти равна 2п — 3, поскольку гамильтониан равен нулю на всем промежутке времени Н = Хг (/ + gu) = 0, или с учетом (8.3.5) Н = KTf = 0. (8.3.11) Для стационарных систем со свободным временем и п = 3 урав- нения (8.3.5), (8.3.8) и (8.3.11) являются линейными и однород- ными по Х15 Х2, ^з- Совместность этих трех уравнений требует равенства нулю определителя из коэффициентов при Х15 Х2 и Х3. Это приводит к соотношению, определя’ющему особую поверх- ность в пространстве фазовых координат (см. ниже пример с зонди- рующей ракетой).
Особые решения 303 Пример. Определение программы тяги для максимизации высо- ты подъема зондирующей ракетых). Простой вариант задачи можно сформулировать следующим образом. Дана одноступен- чатая ракета с фиксированным запасом топлива. Как следует программировать тягу с тем, чтобы высота подъема была макси- мальной? Уравнениями движения являются v = (1/щ) [Р (t) — Q(v,h)] — g, (8.3.12) h = v, (8.3.13) m = —(1/c) p (t), (8.3.14) где v — вертикальная скорость; h — высота; m — масса ракеты; Р — тяга, управляющая переменная; Q — лобовое сопротивле- ние, заданная функция h и и; g — ускорение силы тяжести (взятое здесь для простоты постоянным); с — удельный импульс (импульс, отнесенный к единице массы сжигаемого топлива). Задача заключается в нахождении тяги Р (t), максимизирую- щей высоту h (tf), когда v (0) =0, h (0) = 0, т (0) и т (tf) заданы, (8.3.15) 0 Р (t) Риакс. (8.3.16) Так как максимизируется h (tf) и v (tf) не задано, то (tf) = 1, К (tf) = 0. (8.3.17) Гамильтониан Н = Х[; (—g j -j- ХдР ~ (8.3.18) линеен по управляющей переменной Р (t). Задача является авто- номной, поэтому на оптимальной траектории гамильтониан Н постоянен; поскольку конечное время не задано, то Н (t) = 0. (8.3.19) х) Эта знаменитая задача была предложена Р. Годдардом в 1919 г. и стро- го сформулирована Г. Гамелем (G. Hamel, Uber eine mit dem Problem der Rakete, Zusammenhangende Aufgabe der Variationsrechnung, ZAMM, 7, № 6, p. 451 (1927). Русский перевод: Г. Г а м e л ь, Об одной задаче вариа- ционного исчисления, связанной с движением ракеты, сб. «Исследование октимальных режимов движения ракет», Оборонгнз, 1959). Важное частное решение получено С. Тзяном и Р. Эвансом (Н. S. Т s i е n, R. С. Evans, Optimum Thrust Programming for a Sounding Rocket, Amer. Rocket Soc. J., 21, № 5 (1951). Русский перевод: С. Тзян и Р. Эванс, Оптимальное программирование тяги высотной ракеты-зонда, см. упомянутый выше сбор- ник). Полное решение проблемы получено Б. Гарфинкелем (В. Garfin- k е 1, A Solution of the Goddard Problem, SIAM J. on Control, 1, № 3, pp. 349-368 (1963)).
304 Глава 8 Уравнения для функций влияния имеют вид 7-0 = rv 1 1 т dv Л’ (8.3.20) 1 dQ т dh ’ (8.3.21) Кщ = Ху P-Q m2 (8.3.22) Максимум Н по и определяется при максимизации выражения Ку Кп т с при этом получаются три возможных решения: Р = Рмакс, если ^>0, (8.3.23) 0< /’|</>макс5 если —-^ = 0 (особый участок), (8.3.24) Р = 0, если (8.3.25) На особом участке I = сХг, — ткт = 0. (8.3.26) Если I = 0, то ясно, что на особом участке и I = 0. Дифферен- цируя (8.3.26) и подставляя в полученный результат выражения (8.3.14), (8.3.20), (8.3.22) и (8.3.26), получаем <8-3-27) Точно так же на особом участке 1 = 0. Дифференцируя (8.3.27) и подставляя в результат соотношения (8.3.12) — (8.3.14), (8.3.20) — (8.3.22), (8.3.26) и (8.3.27), получаем выражение для тяги Р = Q + mg + ir 2с С2 (a2Q/ap2) х[-<?(е+с4?-)+»<'-’)<8-3-28» Таким образом, выражение (8.3.28) является нелинейным законом изменения тяги на особых участках. Семейство возможных особых участков в пространстве фазо- вых координат определяется условием совместности системы уравнений (8.3.19), (8.3.26) и (8.3.27) с, 0, —т =0
Особые решения 305 ИЛИ Q + mg—'LQ-v^Q, (8.3.29) что соответствует поверхности в пространстве фазовых координат, т. е. в пространстве (и, h, т). Если Q (v, h) монотонна как по v, так и по h (что обычно и имеет место), то, как правило, решение задачи содержит только три участка: а) Р = РМакс до тех пор, пока не удовлетворяется усло- вие (8.3.29); б) особый участок с законом управления (8.3.28) до того момента, когда т = т (tf); в) Р = 0 до тех пор, пока v не станет равным нулю. Структура решения имеет вид «ограничение — особый участок — ограничение», что совпадает с результатом примера 1 разд. 8.2. Отметим, что значение т = т (tf) могло бы быть достигнуто на участке «а» с максимальной тягой еще до того, как выполнится условие (8.3.29), в этом случае решение не содержало бы особого участка. Так и происходит, когда Q = 0 (нет атмосферы), посколь- ку в этом случае условие (8.3.29) сводится к т = 0. В задаче, которую рассматривали Тзян и Эванс, поэтому _g_=-2₽^. (8.3.30) dv v dv2* v2* dh dhdv ~ v ' 7 Далее, особая поверхность есть ш£=(1+^)<2. (8.3.31) Нелинейный закон управления на особом участке имеет вид P = Q + mg + ,.,..^t,li. 2,| —(1+-)- 1-2-1. (8.3.32) < . ь 1 1-j 4 (с/г?)2 (ca/?’2) L g \ ' с ) V J ' ’ Тзян и Эванс также не накладывали ограничений на Р, т. е. /’макс “>• оо. Следствием этого является наличие в момент t = 0 импульса достаточной величины (мгновенное сжигание части топлива), переводящего корабль на особую поверхность (8.3.31). Отметим, что за время действия импульса величина те'1!а остается постоянной. Далее, до тех пор пока не израсходуется топливо, пользуются уравнением (8.3.32), после чего начинается участок свободного полета вплоть до максимальной высоты. Задача 1. Другой подход к проблеме особых участков состоит в исключении управляющей переменной и такой замене фазовых переменных, при которой одна из исходных фазовых переменных 20—0102
306 Глава 8 становится управляющей. Уравнениями движения в примере с зондирующей ракетой этого раздела являются v = -~-[P(t) — Q(v,h)] — g, h = v, m=—^P(t). а) Исключите управляющую переменную Р (t) и выберите h и me°lQ в качестве новых фазовых переменных. б) Используя эти новые переменные, сформулируйте необ- ходимые условия первого порядка максимума высоты. в) Пользуясь новыми переменными, сформулируйте условие выпуклости (Лежандра — Клебша). г) Обсудите, как в случае 0 Р (i) /’макс, по вашему мне- нию, следует пользоваться этим подходом для определения всей траектории. Задача 2. Рассмотрите задачу J = ф [я (t/)l, х = Fx + Gu, | u (t) | 1,' tf задано. Покажите, что особые участки не существуют, когда система (F, G) управляема и фх({/> 0. [Указание. См. приложение Б2.] Задача 3. Определение программы изменения тяги, углов атаки и крена, минимизирующих расход топлива на разворот реактив- ного {или ракетного) самолета, летящего на постоянной высоте. (Обозначения и квазиустановившийся случай этой задачи см. в разд. 1.3, задача 8.) Уравнения движения имеют вид mV = —CXQqS — T[C^a2qS -ф- Р (t), mg — C^aqS cos у, пгИф = CyaqS sin у, ГДе q = l^pV2S. При заданных значениях ф (tf) — ф (t0) и т (£0) требуется найти зависимости Р (t), a (t) и у (t), максимизирующие величину т (tf). Покажите, что на оптимальном особом участке у и V опре- деляются уравнениями = l + (-£•)* (з+е-£-)/(1 + еф)-«*Т, где Отметим, что выражения для а и Р определяются затем из уравне- ний движения.
Особые решения 307 8.4. Обобщенное условие выпуклости для особым участков1) Полученное в разд. 6.3 необходимое условие минимума Нии > 0 (8.4.1) является условием выпуклости. На особых участках HUIL = 0, поэтому условие (8.4.1) выполняется, но информация, даваемая этим условием, невелика. Можно получить более полезное необ- ходимое условие, упомянутое во введении к этой главе, которое очень похоже на соотношение (8.4.1), а именно «)]>» Дадим вывод условия (8.4.2) для случая к = 1. Для этого обра- тимся к разд. 6.1, где было получено выражение для второй вариации критерия качества 6V = у [бхгФжжбх]е/4-у J [бхг, бпг] fo НХх^ Нхи HUX, с ограничениями бх = Я>.жбх 4- Ях„6п, бх (t0) = 0, 6Х — —ЯжХбХ — Яжжбх — Нхи8и, 6Х (tf) = [Фжжбх];/. (8.4.3) (8.4.4) (8.4.5) Рассмотрим следующий интеграл, полученный интегрированием уравнения (8.4.5) и тождественно равный нулю: (бкТ + 8кг1х 4- 8иНих 4- бхгЯжзс) бх dt = 0. to Интегрирование первого члена по частям дает -?г [6A,r6x]^4--i- j [ —бХгбх4-(бА,г/ж4-бпЯиж4-бхгЯжх)бх]Й = 0. to Подставляя вместо бх его выражение (8.4.4) и учитывая, что бх(£о) = О, 8kT(tf)~ [бхгФжх]^, получаем -у [бхтФжжбх](/ + 4- j [—• 8кТНКи8и + 8иНих8х 4- 8хТНхх8х] dt = 0. to • (8.4.6) *) Этот раздел основан на работе [8.1]. 20*
308 Глава 8 Вычтем (8.4.6) из (8.4.3): ч 84 = -L j (8хтНхи + 8ктНКи + 8иНии) 8и dt. (8А.1) to Непосредственно дифференцируя и используя уравнения (8.4.4) и (8.4.5), можно показать, что 4 (8.411 хи + 8ктНКи + 8иНии) = = 8хТ (Ни)х + 8кт (Ни)к + 8и (Ни)и, (8.4.8) 4 (8x41 m + 6ХГII-,и + 8иНии) = = 8zT (Ни)х + 8кт (Ни)к + 8и (Ни)и. (8.4.9) Далее, интегрируя по частям (8.4.7) с учетом (8.4.8), получаелт ч 84 = - 4- J 1&т (Ни)х + 8\т (Ни)к + 8и (Ни)и\ 8щ (t) dt + <0 + 4 1(8хтНхи + 8КтНьи + 8иНии)8щ]^, (8.4.10) где . t 8ui(t) = j 8u(t)'dt. (8.4.11) to Точно так же, если проинтегрировать по частям (8.4.10) и воспользоваться равенствами (8.4.8) и (8.4.9), то можно получить ч 84 = ^- (Ни)х + 8кт (Ни)к + 8и (Ни)и) 8и2 (t) dt + <0 + 4 l(8xTHxu + 8%тНКи + 8иНии) — -4 [(8xT(Hu)x + 8kT(Hu)K + 8u(Hu)u)8u2]tf0, (8 4.12) где Ч 8и2 (t) = J 8ut (t) dt. (8.4.13) to
Особые решения 309 Заметим, что подынтегральное выражение в (8.4.12) очень похоже на подынтегральное выражение в (8.4.7). Аналогом слагаемого 8иНии8и здесь является 8и (Ни)и8и2. В неособом случае условие выпуклости Нии 0 является необходимым для наличия мини- мума, так как, выбрав 8и в виде пары положительного и отрица- тельного импульсов большой величины, это слагаемое всегда можно сделать доминирующим. Этой же специальной вариацией 8и воспользуемся в случае особого участка, когда Ни = Нии = 0. Фиг. 8.4.1. Специальные вариации управления и (t), используемые при выводе обобщенного условия выпукло- сти (к = 1). Ясно, что в выражении (8.4.10) всеми членами можно снова пре- небречь, ибо все 8х и 6Х из-за выбора такой пары импульсов прак- тически равны нулю, а (Ни)и = 0, согласно (8.3.7). С другой сто- роны, для 8щ, 8и2 и 8и имеет место ситуация, представленная на фиг. 8.4.1. Если считать (Ни)и в период изменения 8и (фиг. 8.4.1) постоянной, то ясно, что ч § (8и 6и2) dt <0. (8.4.14) to Таким образом, для того чтобы в случае этой специальной вариации выполнялось соотношение 82J 0, необходимо, чтобы (ни)и < 0. (8.4.15) Может оказаться, что Ни не зависит от и или, в более общем случае, что (4)^“ = °’ z = 0’ 11 ’ zn-1’ (8.4.16) а (4Пя“)=а^ (8-4Л7)
310 Глава 8 Процедура, которой следует придерживаться при решении такой проблемы, в принципе та же, что и в рассмотренном выше случае с иг- 2. Можно доказать следующее (см. работы [8.1—8.3]). 1. Переменная т всегда четная. Назовем задачу вырожденной порядка т, если выполняются условия (8.4.16) и (8.4.17). 2. При выполнении условия п. 1 особая поверхность в про- странстве (ж, %) имеет размерность 2п — т. 3. Обобщением условия (8.4.15) является неравенство т/2 д ди >0. (8.4.18) Отметим, что свойство вырожденности инвариантно по отношению к взаимно однозначному преобразованию управляющей пере- менной. Предположим, что и = h (и); тогда для преобразованной системы получаем Н [х, X, h (р)] == Huh„ -= 0, ~Н[х, X, h(v)] = Huuhl + Huhx>1> = 0 и, кроме того, ~ = + H*h„ = Q, аь аъ Но = Huho + Huhv -J- Huhv 4- HjiB = HuuhB, и поэтому то есть I д rr \ I d TT \ И^я\пЧ^>Ч Задача. Пусть и = h (u) v, где v—новая управляющая пере- менная, и J — ф [х (tf), tf] 4- j L (v) dt. о Покажите, что это преобразование не изменяет характера вырож- денной задачи.
Особые решения ail 8.5. Условия в точках сопряжения участков При рассмотрении сопряжения неособого участка с особым и наоборот можно получить дополнительное необходимое условие, по виду аналогичное (8.4.18). Предположим, что оптимальная траектория х (f) попадает на особую поверхность в момент t = t2; тогда из предшествую- щих выкладок (разд. 8.3) получаем Ни (t2) = 0, Ни (*2) = О и ни (h) = № (qxf — fxq) + А.т (qxg — gxq) и. Для t <z t2 и м&лых t2 — t величину Hu можно разложить в ряд Тэйлора Нц (t)=Hu (t2) —На (t2) (t2—t) (i2) (i2—i)a— • • • = = у ~—gxq)u](t2—t)2—... . Так как в момент t траектория по определению не является особой, то и (i) равно своему предельному значению и Ни (t) #= 0. Если и (t) равно наибольшему значению ив [тем самым Ни (t) < 01, то 1ЛТ (qxf — fxS) + № (qxg — gxq) ив] < 0. (8.5.1) Аналогично, если и равняется своему наименьшему значению пн, то (q*f — fxq) + V (qxg — gxq) uB] >0. (8.5.2) Вычитая из первого неравенства второе, приходим к условию, необходимому для того, чтобы был возможным сход с обеих границ управления: V (qxg—gxq) = -^--^2 ("У”) <0. (8.5.3) \^хь ьху qu ^2 \ /в момент ' 7 сопряжения участков Если порядок вырожденности т больше двух, то, продолжая выкладки и учитывая (8.4.17), находим <о, wi = 4, 6, ... . (8.5.4) du ' dtm ди ' 1в момент сопряжения В вырожденных задачах явление сопряжения довольно сложно. С другой возможной формой соединения неособых и особых уча- стков, когда решение «вибрирует» с бесконечной частотой на осо- бом участке, можно познакомиться по работам [8.2 и 8.6].
Глава 8 Задача. Покажите, что: 1. Если т/2 нечетно, то в момент перехода t = t2 от неособого оптимального участка к особому допустим разрыв в управлении. 2. Если т!2 четно, то разрыв в управлении в точке сопряжения недопустим. [Указание. Сравните (8.5.4) с (8.4.18).] 5.6*. Задача распределения ресурсов с ограничениями типа неравенств и особыми участками х) После обсуждения ограничений типа неравенств в гл. 3 и осо- бых участков в этой главе целесообразно рассмотреть пример, полностью использующий рассмотренные теоретические резуль- таты. Формулировка задачи. В упрощенной модели планирования ресурсов национальной экономики имеются две основные фазовые переменные: г — отношение суммарных капитальных затрат к общему числу рабочих (измеряется числом зданий, машин, площадью земельных участков и т. д.); w — отношение числа работающих рабочих к общему числу рабочих (коэффициент занятости). Выработка (общий национальный продукт) на одного работающе- го / есть функция величины rlw, суммарных капитальных затрат,- приходящихся на одного работающего, / (rlw) — отношение общего национального продукта к числу работающих. Эта функция обладает следующими свойствами: / (а) >0, (dflda) >0, (d2//d2a) < 0 при а 0. Выбором двух управляющих переменных, з и I, выработка на од- ного рабочего wf разделяется на три части, при этом з есть доля wf, выделяемая на капитальные вложения, I — доля wf, отводимая на обучение рабочих (образование), 1 — з — I — доля wf, пред- назначаемая на потребление. Между г, w, I и з имеется следующая связь: г = swf (r/w) — (п 4- 6) г, r(t0) = r0, (8.6.1) w = ~ wf (r/w) — (n4'H)u?, w(to) — wo, (8.6.2) где п — коэффициент прироста рабочей силы, б — коэффициент амортизационных отчислений, ц — коэффициент смертности и вы- хода рабочих на пенсию, d — стоимость обучения одного рабочего. х) Эта задача представляет собой весьма элегантный пример математиче- ской экономики.— Прим. ред.
Особые решения 3ia Имеются следующие ограничения типа неравенств на фазовые и управляющие переменные для всех t: 1 > s 4- I, з^О, 1^0, w 1, W >0. (8.6.3) (8.6.4) (8.6.5) (8.6.6) Оказывается, что в рассматриваемой ниже задаче w >0, поэтому условие (8.6.6) будет опущено. Разумным критерием качества может быть ч J — j (1—s — Z) wf (r/w) exp (— yZ) dt, (8.6.7) <0 где у — норма процента (процентная ставка); иными словами, желательно максимизировать общее потребление за планируемый промежуток времени от t0 до lt. Член ехр (—yZ) означает, что сегодняшнее потребление оценивается более высоко, чем потребле- ние в будущем. Эта задача является задачей с ограничениями типа неравенств, на управляющие и фазовые переменные, в которой управляющие переменные входят в систему уравнений и критерий качества линейно (обусловливая возможность особых участков). Решение и анализ. Как и в предшествующих главах, определим гамильтониан *) в виде Н (г, w, Хг, Xw, s, I, Ц, Z) = (1—8 — /)го/ехр(—yZ)4* + [swf— (п + 8) г] + (Л«, + ц) [-J- wf— (п 4- ц) w j , (8.6.8) где ( ОО, w = 1, ' Я=1 0, щ<1, (8.6.9) и условие w — 1^0 есть условие вида S (х, Z) 0 (гл. 3), кото- рое в данном случае является ограничением типа неравенства первого порядка. Сначала рассмотрим случай w < 1, затем w = 1. Случай, когда w < 1. Так как гамильтониан линеен по s и I, то исследование его на максимум можно свести к исследованию х) Мы могли бы определить гамильтониан, присоединяя ограничение на управление типа неравенств (8.6.3) и (8.6.4); тогда можно было бы полагать Ни = 0 даже в том случае, когда фазовые координаты находятся на грани- це (8.6.5). Однако оказалось, что непосредственная максимизация гамиль- тониана (8.6.8) быстрее приводит к цели.
314 Глава 8 его градиента (Яг, Hs) Hi= — exp ( — yZ)j , (8.6.10) Hs = — exP (—ТОЬ (8.6.11) Из геометрических соображений следует, что в зависимости от на- правления grad Н в пространстве координат управления могут представиться семь подслучаев (фиг. 8.6.1): Случай A: Ht >HS, т. е. (Zu,/d) >ХГ. Ясно, что максимум гамильтониана соответствует выбору I = 1 и s = 0. Получающиеся s Прямая з+1=1 gradH= Область допустимых изменений координат управления, задаваемая D неравенствами(8.6.3) и Не Л. Фиг. 8.6.1. Ограничения и воз- можные направления grad Н в пространстве управлений при w < 1. I при этом уравнения системы и уравнения Эйлера таковы: г=—(«4-б)г, —(ге+ (*)]“’, = НТ = -|- (п 4- б) А.г, = - Hw = [ - + (ге + и) ] Хц,. Здесь штрих означает дифференцирование по аргументу. Случай В: Я8 > Hi, т. е. > Ckwld). При этом s = 1 и Z = 0 и по аналогии с предыдущим можно записать уравнения соответствующей системы и уравнения Эйлера. Случай С: Hs < 0, Hi < 0, т. е. < exp (— yt), (Kw/d) < < exp (—yi). Отсюда следует, что s = 0, I = 0 и получаются соот- ветствующие им уравнения процесса. Случай D: Hs = Hi > 0, т. е. (Хш/й) = Хг, откуда s -ф- I = = 1. Это интересный случай вырожденности. Максимизация Н дает одно уравнение для двух управляющих переменных s и I. Следуя правилу, установленному в первых разделах этой главы, продифференцируем дважды по времени характеристическое урав-
Особые решения '315 нение вырожденности — (Хш/й) = 0. В результате получим [/ - (rM f] -df + (6 - |л) d = 0, (8.6.12) f [sw — I (rid)] — (6 — ц) г = 0. (8.6.13) / Решая совместно уравнения (8.6.13) и s + i = 1, находим выра- жения для s и I = w/-(6—р)г _ /(r/d) + (5 —ц)г /к + (г/й)] ’ /[w + (r/d)] с помощью которых можно определить результирующий процесс. Легко можно проверить, что в этом случае особый участок есть прямая, проходящая через начало координат фазового простран- ства. Случай Е: Hs < 0, Hi = 0, отсюда s = 0 и = = йехр (—yt). Этот случай является вырожденным для управ- ляющей переменной I. Дважды дифференцируя равенство — — dexp (—yt) = 0, получаем I/ — (r/w) f] = (п + ц + у) d, (8.6.15) 1= (8.6.16) Случай F: Hs = 0 и Ht < 0, отсюда I = 0, = ехр (—yt). Для этого случая вырождения получаем /' = (« + 6 + у), (8.6.17) S = -^=±1L, (8.6.18) Отметим, что в зависимости от относительных величин ц и ё один из двух вышеупомянутых случаев в силу ограничений (8.6.4) не может иметь места. Однако в любом случае результирующие движения происходят вдоль прямых, проходящих через начало фазового пространства. Будем предполагать, что ц >6. Случай G: Hs = 0, Hi = 0, т. е. Zr = exp (—yt) и 7.w = = d exp (—yt). Дифференцирование этих соотношений приводит к выражениям (8.6.15) и (8.6.17), которым в общем случае удов- летворяют разные значения r/w. Поэтому приходим к выводу, что этот случай двойного вырождения не может иметь места. Случай, когда iv = 1. Если на траектории сохраняется значе- ние w — 1, то ясно, что должно быть iv = 0, что приводит к ‘ (8.6.19) Кроме того, имеем равенство Я;= W2L_exp(-?/) = 0, (8.6.20)
316 Глава 8 из которого не только определяется г|, но и получается (посколь- ку Л < 0) неравенство 3^_exp(_Ti)>0, (8.6.21) означающее, что дальнейшие улучшения возможны, если было бы снято ограничение w 1. Значение s находится в соответствии со знаком величины Hs. Имеются три подслучая, которые пред- ставлены на фиг. 8.6.2. Случай I: Hs >0, т. е. s = 1г— I = If — (п -j- р) d/f]. Случай II: Hs <С 0, поэтому s = 0. Случай III: Hs = 0. Это другой случай вырождения, приво- дящий к выражению для управления «=[(« + р) r]lf, (8.6.22) которое совместно с (8.6.19) дает точку равновесия г = 0, w = 0- Этим завершается перечень возможных случаев. Условия в угловых точках, условия на конце и последователь- ности переходов. Оставшаяся проблема заключается в определе- нии последовательности возможных случаев (т. е. в построении Фиг. 8.6.2. Ограничения и воз- можные направления grad# в пространстве управлений при w = 1. траектории в фазовом пространстве), которая удовлетворяет задан- ным начальным условиям г (0) = г0, IV (0) = w0, (8.6.23) промежуточным условиям в угловых точках и терминальным усло- виям. Условия в угловых точках имеют место в момент выхода на ограничение. w = 1. Они имеют вид [см. (3.13.4) и (3.13.5)1 w (ij) = 1 и Н (^) = Н (1+), (8.6.24) = + (8.6.25) М*7) = МФ- (8.6.26) Рассмотрим две совокупности терминальных условий.
Особые решения 317 Промежуток времени и терминальные условия заданы. Здесь имеем г (#Д = rT, w (tf) = wT, (8.6.27) что приводит к kT (tf) — vT — постоянная, которую нужно определить, (tf) = vw — постоянная, которую нужно определить. (8.6.28) Бесконечный промежуток времени и свободные терминальные условия. В этом случае Хг (оо) = О, Xw (оо) = 0. (8.6.29) Легко проверяется, что в силу того, что уравнения для X,. и Xw однородны и асимптотически устойчивы, это может быть реали- зовано только в равновесном случае III. Подобный результат типичен для моделей, оптимальных по экономичности. Следует, наконец, рассмотреть возможные переходы от одного случая к другому. Исключить некоторые последовательности пере- ходов помогает тот факт, что как Hi, так и Hs являются непрерыв- ными (за исключением момента выхода ^) функциями времени. Фиг. 8.6.3. Схема возможных переходов. Возможные переходы показаны на фиг. 8.6.3. Дальнейшего обсуж- дения заслуживает тип переходов, который связан со сходом с гра- ницы w = 1. Вновь обращаясь к фиг. 8.6.2, отметим, что переход от случая I к случаю В происходит всякий раз, когда Хг — ехр( — ?i)>|v | 5 это означает, что в момент схода возможен разрыв множителя т)- С ДРУГОЙ стороны, переход от случаев II и III к случаям Е
О1О Глава 8 и G может иметь место только тогда, когда величина Л (0 = d exp (—yt) — (t) становится положительной. Для задачи с бесконечным временем и свободными терминаль- ными условиями экономически выгодными и удовлетворяющими всем условиям последовательностями являются В —> D —> I —>- III или А I -> II или или А II -> III Л III Траектории в фазовом пространстве показаны на фиг. 8.6.4. Оптимальность экстремалей и численные результаты. Для установления того, являются ли рассмотренные выше экстремали Фиг. 8.6.4. Пример планирования экономики. Траектории в фазовом про- странстве. оптималями, имеются три подхода. При одном подходе обычно используется свойство выпуклости системы и критерия качества и показывается, что стационарные экстремали являются макси- малями. Второй подход включает проверку вдоль экстремали условий Якоби (сопряженной точки) и Вейерштрасса. Третий под- ход заключается в численном решении задачи, использующем метод, динамического программирования. Для этой задачи ввиду ее дву- мерной природы и сложности аналитических выражений выбран последний подход. Непосредственное решение по методу динамического програм- . мирования проводилось для / (r/w) = (г/ш)“; а = 0,3; п = 0,03; р = 0,15; б = 0,05; у = 0,05; d = 2. Пределы изменения и дискретизации рассматриваемых переменных таковы: 0,5 w (Д 1 (10 делений), 0,8 w (tf) 1, 0 <1 г (t) 4 (40 делений), г (tf) = 4, 5 t 15 = tf (30 делений).
Особые решения 319 Вместо системы дифференциальных уравнений использовалась ее разностная аппроксимация первого порядка. На фиг. 8.6.5 Фиг. 8.6.5. Численный пример нахождения оптимальной траектории для задачи планирования экономики. показана типичная траектория. Видно, что она хорошо согласуется с траекторией на фиг. 8.6.4. Задача 1. Полагая / >0, f >0 и/"<0, покажите, что для случаев D, Е и F выполняется обобщенное условие Лежандра — Клебша (5/5п)[(<?/(/12) Ни] 0. [Указание. В случае D, исключив I с помощью уравнения s + + I = 1, можно перейти к одной переменной.] Задача 2. Пусть х = и Ух — пх и т / = шах 1 (1—и)У xdt, | u| < 1, х, и— скаляры. “ 0 1. Покажите, что эта задача имеет особое решение. 2. Положив и = и, где v — ynpai т J = max 1 Г(1 — и) ] v 0 шяющая переменная, и /”х—dt,
320 Глава 8 покажите, что несмотря на то, что Hvv < 0, эта задача сохраняет вырожденность. Одной из возможных интерпретаций этой задачи является следующая: х — отношение основного капитала к численности насе- ления; Ух — отношение величины национального дохода к основ- ному капиталу; и — доля национального дохода, отводимая на уве- личение основного капитала; (1 — и) Ух — отношение расходов на потребление к числу населения; и — скорость изменения и', п — амортизационная постоянная для переменной х.
Глава 9 Дифференциальные игры 9.1. Дискретные игры В элементарной теории игр рассматриваются дискретные задачи оптимизации таких ситуаций, в которых имеются два участника (игрока) со строго противоположными (конфликтными) интересами. В типичной, так называемой матричной, игре имеется два игрока U и V, каждый из которых обладает набором стратегий ut, i = 1, 2, . . ., т, и Vj, j = 1, 2, . . ., п, соответственно. Для каж- дой пары стратегий ut, uj задан выигрыш J = L (ut, Vj) = Ltj (ставящий в соответствие стратегиям ut и vj число L,j). Числа L{j удобно расположить в виде матрицы с т строками и п столбцами. Игрок U пытается минимизировать выигрыш, а игрок V — макси- мизировать его. Такая игра называется «игрой с полной инфор- мацией» в том смысле, что каждому игроку известна вся вышепере- численная информация об игре (т. е. ut, i = 1, 2, . . ., nv, v}, j = 1,2, . . ., п; Li}), а также то, какую стратегию выбирает другой игрок. В такой ситуации, если V (максимизирующий игрок) играет первым, то он должен, очевидно, выбрать столбец с наибольшим минимумом, поскольку ему известно, что потом игрок U выберет строку с минимумом. Аналогично, если первым играет U (мини- мизирующий игрок), то он должен выбрать строку с наименьшим максимумом, поскольку он знает, что V выберет столбец с макси- мумом. Пример игры с матрицей размерности 2x2 показан на фиг. 9.1.1. vi • v2 V максимизирует 1-11 = 2 Z-12 — 7 ч— Строка с наименьшим максимумом w2 £2i = 5 ^*22 — 9 । 1-----Столбец с наибольшим минимумом U минимизирует Фиг. 9.1.1. Простая дискретная игра. В данной игре оптимальными стратегиями независимо от того, кто играет первым, являются щ и н2, а соответствующий выигрыш 21—0102
322 Глава 9 равен 7, поскольку имеет место соотношение max min Ьц = 7 = min max Ьц vj ui ui vj (первым играет У) (первым играет U) ИЛИ L (ui, vj) < L (щ, v2) < L (uh v2). Стратегии Uj и v2 называются минимаксным решением данной игры * 2). Д1=и Д2 = 7 Д1 = 5 ^22 = 9 pj v2 ч— V максимизирует - Щ и2 t U минимизирует Ф и г. 9.1.2. Дискретная игра, в которой имеет значение порядок игры. Однако выбор стратегий не всегда столь прост. Предположим, например, что значение Ьц изменено с 2 на 11, как показано на фиг. 9.1.2. В этом случае имеем max min Ду=7<^ min max Ду =9. ____ui (первым играет У) (первым играет U) Если V (максимизирующий игрок) играет первым, то он должен выбрать v2, поскольку соответствующий столбец содержит наи- больший минимум, равный 7. Если же играет первым U (мини- мизирующий игрок), то он должен выбрать и2, поскольку это соот- ветствует строке с наименьшим максимумом, равным 9. Таким образом, результат получается различным в зависимости от того, кто начинает первым. Это противоречие можно разрешить, если каждая сторона будет выбирать стратегию случайным образом в соответствии с некотдрой определенной вероятностью 2). В этом В теории игр величина max min носит название максиминной Д UJ (нижней) цены игры, а величина min max Lq — минимаксной (верхней) цены игры.— Прим, перев. 2) Такие стратегии в теории игр называются смешанными.— Прим, перев.
Дифференциальные игры 323 случае, если V выбирает фиксированную стратегию, в то время как U играет случайным образом, то математическое ожидание выигрыша для U при различных вероятностях выбора щ и и2 имеет вид, представленный на фиг. 9.1.3, а (аналогичная ситуа- ция для V показана на фиг. 9.1.3, б). Как видно из фиг. 9.1.3, а, если U играет с любыми значениями вероятностей выбора щ, и2, отличными от тех, когда в половине случаев выбирается ulf а в другой половине — и2, то V может получить большую величину среднего выигрыша, если выберет Фиг. 9.1.3. Пояснения к минимаксному решению дискретной игры фиг. 9.1.2. фиксированную стратегию, указанную над соответствующим участ- ком жирной линии. Точно так же убеждаемся (фиг. 9.1.3, б), что, для того чтобы реализовать максимальный средний выигрыш, V должен играть с такими значениями вероятностей выбора страте- гий Vi и vz, при которых в одной четверти случаев выбирается щ, а в трех четвертях — v2. Равенство Е [min max Ьц\ — 3 — Е [max min Ьц\, р а ра где операции взятия математического ожидания Е и оптимиза- ции (min max, max min) проводятся по двум возможным значе- ниям вероятностей р и q выбора стратегий иг, V; соответственно, не является случайным. Это равенство выражает суть знаменитого минимаксного принципа Неймана и Моргенштерна, согласно кото- рому с помощью рандомизации (случайного выбора) стратегий и рассмотрения математического ожидания выигрыша можно избежать разницы между минимаксом и максимином. Задача 1. Найдите минимаксное решение для платежной мат- рицы, представленной на фиг. 9.1.4, где U минимизирует, а V мак- симизирует выигрыш. 21*
324 Глава 9 vi Ч 3 1 6 2 4 9 12 7 8 9 3 10 Фиг. 9.1.4. Платежная матрица в задаче 1. Задача 2. а) Рассмотрим типичную для динамического программирова- ния задачу о выборе наивыгоднейшего пути (гл. 4, разд. 4.2). Пусть игрок U (минимизирующий) принимает решения на шаге 2, Ф и г. 9.1.5. Траекторная сеть для задачи 2. а игрок V (максимизирующий) контролирует 1-й шаг. Вычислите минимаксную цену игры, соответствующую тому случаю, когда U объявляет выбранную стратегию своей игры первым. Подсчитайте также максиминную цену и покажите, что она меньше минимаксной. б) Сведите эту двухшаговую игру к матричной игре того типа, который описан в этом разделе. Задача 3. а) Рассмотрите задачу о выборе пути, показанную на фиг. 9.1.6. Два игрока А я В попеременно принимают решения, на каждом В Фиг. 9.1.6. Траекторная сеть для задачи 3. шаге выбирая отрезки пути. Игрок А контролирует выбор пути на 1-м и 3-м шагах и хочет максимизировать общие затраты на весь
Дифференциальные игры 325 путь, тогда как игрок В контролирует выбор пути на 2-м и 4-м ша- гах и стремится к минимизации затрат. Определите оптимальные затраты и стратегию для всех узловых точек, в частности для начальной точки. б) Решите ту же задачу, но со следующим усложнением: в каж- дой точке, где принимается решение, у игрока имеются две воз- можности: 1) Выбрать путь детерминированным способом, но при этом заплатить дополнительно 2 единицы (т. е. для игрока А две единицы должны вычитаться из его оптимальных затрат; для игрока В две единицы должны прибавляться к его оптимальным затратам). 2) Выбрать путь случайно, для чего подбросить монету и при- нять решение в зависимости от того, на какую сторону она упадет. Определите оптимальное математическое ожидание затрат и стратегию (детерминированную или случайную) в каждой точке. 9.2. Непрерывные игры Если выбор стратегий кик проводится игроками U и V не- прерывно, а не дискретно, то вместо платежной матрицы Ltj долж- на быть задана непрерывная функция выигрыша L (и, и). Будем рассматривать пару стратегий и0, к0, таких, что L (и0, v)^L (и0, и0) L (и, и°) для всех и, и. (9.2.1) Следуя разд. 1.1, можно утверждать, что необходимыми условия- ми для и° и являются -^ = 0, 4^ = °, (9.2.2) ди dv v ' (9-2-3) а достаточными условиями — соотношение (9.2.2) и условие (9.2.3), в котором сохранено лишь строгое неравенство. Любые u9, и°, удовлетворяющие достаточным условиям, называются теоретико- игровой седловой точкой. Следует отметить, что, как показывают нижеследующие примеры, условия (9.2.2) и (9.2.3) не эквивалент- ны обычным условиям для седловой точки в дифференциальном исчислении, которые имеют вид dL q dL ди ’ dv difl д-[, d2L dv% (9.2.2') (9.2.3') Пример 1. Рассмотрим функцию выигрыша J (и, и) = ~ (и2 — У2),
326 Глава 9 заданную на квадрате —1 и 1, —1 v 1, и найдем ее седловую точку. Из (9.2.2) имеем -^ = 0, ^ = 0. ди dv Отсюда иР = 0, v° = 0, при этом - 1^0 d2L I < ди2 ’ dv2 ’ ди2 Sv2 \ ди ди ) Эта точка является как теоретико-игровой, так и дифференциаль- ной седловой точкой (фиг. 9.2.1). Пример 2. Рассмотрим функцию выигрыша L = и2 — 3uv + + 2г?2, заданную на квадрате —1 и 1, —1 SjwSjl. Для нее условия -|^- = 0, -^- = 0 дают п° = 0, р° = 0, при этом d2L d2L ( d2L \ 2_ du2 dv2 \dudv) Таким образом u°, — дифференциальная седловая точка Фиг. 9.2.1. Геометрия окрестно- сти седловой точки в примере 1. Фиг. 9.2.2. Геометрия окрестно- сти седловой точки в примере 2. (фиг. 9.2.2). Однако d2L/dv2 = 4 >0, поэтому эта точка не являет- ся теоретико-седловой точкой. Можно проверить, что max [min L (и, p)] = maxf —~v2 при п = 3/2гЛ=0 при и = 0, V и V 1- J min [max L (и, р)] = min [и2 + 3 ] и | + 2 при v = — sgn и] — 2 и V и при и = 0, т. е. max min L < min max L. v и и v
Дифференциальные игры 327 С другой стороны, если записать L (и, и) в виде L-=u? — 3uv -f- 2у* 2 = — (2и — Зу)2 — у2, то и° = 0, р° = 0 можно рассматривать как теоретико-игровую седловую точку в системе координат [(2и — Зу), »]• Разница между двумя типами седловых точек обусловлена смешанными членами в функции выигрыша L (и, у). Если д^Ыдиди = 0, то два типа седловых точек совпадают. Такие задачи называют разделимыми (сепарабельными)', для них всегда min max L (и, у) = max min L (и, и), и V V и В последующих разделах этой главы всегда предполагается, что при минимаксимизации функций двух групп переменных условие разделимости выполнено. Поэтому здесь не рассматривается возможность использования смешанных или случайных стратегий при уравнивании разницы между минимаксом и максимином. Задача., Проверьте, что функция L = uv имеет как теоретико- игровую, так и дифференциальную седловую точку. 9.3. Дифференциальные игры1) Естественным обобщением материала разд. 9.1 и 9.2 на дина- мический случай являются задачи, известные под названием диф- ференциальных игр 2). Такая задача может быть сформулирована следующим образом. Дана динамическая система х = / (х, и, v, t), х (t0) = х0, граничные условия ф [х (tf), tf] — О, критерий качества J = ф [х (tf), tf] + J L (x, и, v, t) dt. to Требуется найти такие u° и у0, чтобы J (и°, v)^J (и°, у0) < J (и, у°). (9.3.1) (9.3.2) (9.3.3) (9.3.4) 4 Теория дифференциальных игр была создана Р. Айзексом одновремен- но и независимо от развития теории управления [9.1, 9.2]. 2) Другим естественным обобщением могли бы быть последовательные, или многошаговые игры. В этом кратком обзоре они не рассматриваются.
328 Глава 9 Если просмотреть выкладки гл. 2, то можно обнаружить, что вывод необходимых условий первого порядка определяется только сооб- ражениями стационарности, а не максимизации или минимизации функционала J. Естественно ожидать поэтому, что необходимые условия сформулированной выше задачи на минимакс можно получить аналогичным образом; в результате будем иметь Н = V/ + L, (9.3.5) V = —Нх, №(tf) = Фж(//), (9.3.6) Ни =0, Hv = 0, (9.3.7) или Н° = max min Н. (9.3.7') V и Несмотря на то что непосредственное применение соотношений (9.3.5)—(9.3.7') часто дает полезные результаты (разд. 9.4i, сле- дует соблюдать некоторые предосторожности. Прежде всего, уравнения (9.3.7) или (9.3.7') содержат минимаксимизацию функ- ции Н от переменных и и v. В общем случае теоретико-игровая седловая точка не существует, если явно не предполагать, что функция Н разделима (разд. 9.2). К счастью, в большинстве при- кладных задач / = /t (ж, u, t) -Ь /2 (*, У, t) и L = Li (х, и, t) + L2 (х, v, t); при этом функция Н разделима. В дальнейшем предполагается, что функции / и L имеют указанный вид. Однако стоит отметить, что разделимость функции Н, вообще говоря, не означает разделимости функционала J, а именно это нас и интересует. Справедливость разделимости функционала J проверить трудно, в большинстве случаев она просто не имеет места. Например, пусть 2 ,/=Z2(3) + 3 [«(О2-’ (021 i=0 и динамическими уравнениями будут х (j 1) = х (г) + и (г) + v (j). Непосредственная подстановка показывает, что в данной задаче функционал J не является разделимым [есть члены с произведе- ниями и (i)v (г)], а функция Н разделима. В общем случае это озна- чает, что стратегии, полученные из решения двухточечной крае- вой задачи (9.3.5) — (9.3.7), могут не удовлетворять условию седло- вой точки (9.3.4). Однако это не снижает ценности вариационного подхода, поскольку во многих управляемых ситуациях бывает
Дифференциальные игры 3291 желательным встать на точку зрения, согласно которой одна из сто- рон всегда будет играть первой. Например, в расчетах на «наихуд- ший случай» мы предполагаем, что природа достаточно умна, чтобы определить наихудшее v (t); однако мы не предполагаем, что при- рода настолько сообразительна, чтобы изменить v {£), после того как игра началась. Другими словами, рассчитывая на наихудший случай, мы неявно предполагаем, что природа играет первой, заранее объявляя о v° (t). Таким образом, сведения о максимине- или минимаксе, даже если они не равны, все же могут быть полез- ными. Второе соображение относится к интерпретации и° и v° в урав- нении (9.3.4) как стратегий в разомкнутых или замкнутых системах. Ф и г. 9.3.1. Простая двумерная игра преследования. ЖА = иХ’ У А “ иУ< 'ХВ = У В = ®й- Игран U л Игран v -----*-х В обычной детерминированной задаче управления разницы между разомкнутой и замкнутой схемами управления нет; в случае игры ситуация иная. Это утверждение можно пояснить на простом примере. Рассмотрим двумерную задачу преследования с простой кине- матикой, критерием качества которой является квадрат промаха в фиксированный конечный момент времени tt (фиг. 9.3.1). Огра- ничения: || и ||2 1 и || v ||2 < 1/4. Проверкой убеждаемся, что - иу _ = -1 - .0 _ , (9.3.8) ' Уу. — ’1/2- . о; (9.3.9) J (ufi, р0) = ^_ (хв(0)+-1^) ]2. В форме управления с обратной связью имеем Хв— ХА н0(0 = У(^в—^а)2 + (г/в—г/л)2 у в — У А = ки(х, t) (9.3.8') _У(х — ха^ЛДУв — Уа)2_
330 Глава 9 и аналогично 1 v° (0 = V и° (0) = kv (х, t)г). (9.3.9') Очевидно, ЧТО при условии ув (0) -- У А (0) = 0 и хв (0) — rv2i управление р° (t) = I является оптимальным независимо от того, определяется ли и° (t) выражениями (9.3.8) или (9.3.8') или каким-либо иным путем * 2). С другой стороны, совершенно неясно, будет ли при тех же начальных условиях Г 11 0 оптимальным, если р° (Г) определяется с помощью формулы (9.3.9'), включающей обратную связь. Действительно, простым рассуждением можно показать, что и°(£) = тирует значение J если tf н»(0 = ’1' 0 гаран- _ [tf — (хв (0) + 1/2tf)]2 только в том случае, хв (0) — хА (0). Более того, значение критерия при '11 0 будет больше того значения, которое можно было бы получить, если бы управление (9.3.8') использовалось тогда, когда V играет неоптимальным образом. Математически это объясняется тем, что второе неравенство в (9.3.4) можно рассматривать двояко: min J [и, к0 (£)] = J [u° (f, х0, t0); у0 (£)], (9.3.10) «(О min J [u, kv (x, £)] = J [u° (t; x0, tQ); kv (x, £)]. (9.3.10') u(i) С точки зрения игрока U, соотношения (9.3.10) и (9.3.10') описы- вают две различные задачи обычного («одностороннего») управления. Соотношение (9.3.10') представляет более сильный случай опти- мальности. Оно означает, что и° должно быть оптимальным, несмотря на действия противоположного игрока, чье управление вырабатывается по типу обратной связи; иными словами, игрок V может немедленно воспользоваться любым неоптимальным шагом, сделанным игроком U. Оптимальные управления и° (t), полу- ченные по (9.3.10) и (9.3.10'), вообще говоря, будут разными (более точные результаты см. в разд. 9.4). Итак, общая процедура решения задач дифференциальных игр состоит в основном из двух этапов: х) Предполагается,'что в момент tf перехвата не происходит. 2) Нетрудно убедиться, что утверждение об оптимальности v° (f) = = [1/а,0]т при произвольном и не является справедливым.— Прим, перев.
(9.3.11) (9.3.11') (9.3.12) (9.3.13) Дифференциальные игры 331 1) Определение и° и v° либо путем решения двухточечной крае- вой задачи [формулы (9.3.1), (9.3.2), (9.3.5) — (9.3.7)], либо с по- мощью метода динамического программирования (см. задачу этого раздела). 2) Раздельная проверка неравенств (9.3.4) путем решения двух обычных задач управления с использованием и0 и к0 в разомкну- той или замкнутой форме. Следует подчеркнуть, что проверка 2 необходима при установ- лении седлового свойства решения. Существование решения 1, как видно из предшествующих рассуждений, вообще говоря, не означает, что седловая точка достижима. Проверочный зтап 2, как это и следовало ожидать, приводит к различным необходимым условиям второго порядка. Эти условия имеют вид Я°„>0, Я°с<0, или Я (х, К, t) = min max Я (х, %, и, и, t), u£U 1>£У отсутствует сопряженная точка для задачи J (и°, v°) — min J (и, v°), и где ( v°(t; х0, t0), VQ = \ [ kv(x, t), отсутствует сопряженная точка для задачи /(u°, n°) = maxJ(u°, и), V где ( и° (t; Xo, t0), и°= ( , . . I ки(х, t). Таким образом, чтобы установить наличие седловой точки, нужно показать, что в (9.3.12) и (9.3.13) и0 и v° одинаковы. Пример. Минимаксный конечный промах при ограниченном ускорении. В игре преследования управлением преследователя является его ускорение ар (t), нормальное к начальному направ- лению линии визирования на преследуемую цель. Управлением преследуемого также является его ускорение ае (t), нормальное к начальному направлению линии визирования. Относительная скорость вдоль начального направления линий визирования такова,
332 Глава 9 что среднее время до наибольшего сближения равно tf. Если v (i) есть относительная скорость, перпендикулярная начальной линии визирования, а у (t) — относительное смещение, перпендикуляр- ное той же линии, то уравнениями движения будут *) v = ар — ае, v (t0) = Vo, (9.3.14) У = v, у (t0) = 0. (9.3.15) Преследователь стремится минимизировать конечный промах | у (tf) тогда как преследуемый хочет его максимизировать. Таким образом, за критерий качества можно взять J = ily(h)]*- (9-3.16) Ускорения преследователя и преследуемого ограничены: |ар|<арт| (9.3.17) \ав\<ает J’ W аРт>ает- (9.3.18) Решение начинается с построения гамильтониана Н — Kv (ар — ае) + Kyv. (9.3.19) Сопряженными уравнениями будут = -Ку, Kv (tf) = 0, (9.3.20) Ку = 0, Ку (tf) = у (tf), (9.3.21) а условиями оптимальности — (t) = —арт sgn К„, (9.3.22) (t) =ает sgn Kv. (9.3.23) Сопряженные уравнения легко интегрируются Kv (t) = (tf — t) у (tf), (9.3.24) Ky (ty = У (if) ~ const, (9.3.25) и поэтому понятно, что sgn Kv (t) = sgn у (tf) = const. (9.3.26) Подставляя (9.3.26) в (9.3.22) и (9.3.23) и далее в (9.3.14) и (9.3.15), получаем простую систему дифференциальных урав- нений, решение которой можно записать в виде у (tf) = v0 (tf — t0) — 1- (apm — aem) (tf — t0)2 sgn у (tf), (9.3.27) О Это игровой вариант примера 2 разд. 5.2, в котором квадратичный штраф для ускорения заменен на ограниченное ускорение.
Дифференциальные игры 333 откуда и определяется у (tf). Итак, имеем 2 & [ tf-10 а<гт)] ’ если г;—ттт ; > 1 > {tf— to)(apm~aem) У(М = { ! Г -2уп ,-1 (У-3-2а) 2 М [Z/_Zo (аР™ 2i?o а если 77 7-7-7 г < — 1. (V — W \арт — ает) Для ' — 1 < Э2 < 1 (9.3.29) (4у —10) (арт — ает) решение уравнения (9.3.27) не существует. Действительно, для этой совокупности начальных условий преследователь всегда мо- жет свести промах к нулю, т. е. получить у (tf) — 0. Например, это можно сделать, выбрав ар (t) так, чтобы ap(t)=ae(t) + ^-. (9.3.30) Задача 1. В рассмотренном примере проверьте седловое свой- ство решения (9.3.22), (9.3.23) и (9.3.28). Задача 2. Докажите справедливость равенства — = min max Н (х, Jx, v, и, t), и V которое является аналогом равенства (4.2.15). 9.4. Линейные игры преследования с квадратичным функционалом Р-41) Пусть имеются две динамические системы: хр = Fpxp + Gpu, хр (to) задано, (9.4.1) хе = Fexe + Gev, хе (t0) задано; (9.4.2). здесь индексы р и е обозначают соответственно преследователя и преследуемого, а матрицы Fp, Fe, Gp и Ge определяются обыч- ным для линейных систем общего вида образом. При перехвате цели преследователь пользуется управлением и (t)', стремясь уйти от погони, преследуемый использует управление v (t). х) См. также М. Ю. Гаджиев, Автоматика и телемеханика, 23, № 8, 9 (1962).— Прим, перее.
334 Глава 9 Для такой линейной системы игра получается особенно простой, если целью ее является минимизация преследователем конечного промаха и максимизация этого промаха преследуемым, причем промах определяется как взвешенная квадратичная форма ||Жр.(«/)-же(^)|ЦтА. (9.4.3) Однако, чтобы игра имела смысл, нужно наложить также неко- торое ограничение на управляющие переменные. Например, V f || и||| dt-^Ep, (9.4.4) to P 4 ( || у ||| dt^Ee, (9.4.5) J e to где Rp >0, Re >0, a Ep и Ee-—положительные числа. Для простоты будем также считать время конца игры tf фиксированным. Ясно, что в случае конечной величины минимакса промаха в конце как преследователь, так и преследуемый будут исполь- зовать все имеющееся в их распоряжении управление, так что ограничения (9.4.4) и (9.4.5) будут равенствами. Добавление зтих ограничений к критерию качества (9.4.3) дает t. 1 1 г J = ^\\xp^ — xA4}\\\ta + ~2 J [|MIrp~IMIrJ dt, (9.4.6) to где Rp = CpRp, Re = ceRe, а срнсе — положительные константы, которые нужно определить так, чтобы удовлетворить равенствам в (9.4.4) и (9.4.5). Отметим, что, поскольку преследуемый стре- мится максимизировать (9.4.3), второе ограничение (9.4.5) вычи- тается из (9.4.3). Вводя следующие определения: хр (t) = Фр (tf, t) хр (t), (9.4.7) Хе (f) =Фе(^, t) Хе (t), (9.4.8) z(i)=A[ip (t)-ie(i)I, (9.4.9) где Фр (tf, t) и Фе (tf, t) — фундаментальные матрицы для Fp и Fe соответственно, находим, что задачу можно записать более компактно ч J = min max {у || z (tf) ||2 + у j HI w Цдр —И y IlnJ • (9-4.10)
Дифференциальные игры 335. где z = oP(£)u—g (t) v (9.4.11) и & (t) = АФр (tf, t) Gp (t), g (t) = АФе (tf, t) Ge (t), z (t0) = z0 = A [Фр (tf, to) Xp (to) — Фе (tf, to) xe (^o)l- (9.4.12V Необходимыми условиями стационарного решения являются следующие: % = О, % (tf) = z (tf), (9.4.13) HU = O или u = -Др1^т%= — R£&Tz(tf), (9.4.14) Я„ = О или р = -R^T^ = -Re^Tz(tf), (9.4.15) где Н = “ (uTRpu— vTRev) + № [cP (t) и— g (t) v]. £ Двухточечная краевая задача, описываемая уравнениями (9.4.11) и (9.4.13) — (9.4.15), получается линейной и очень простой. Реко- мендуемый способ ее решения состоит в использовании метода обратной прогонки, который уже обсуждался в разд. 6.2 и 6.3.. Определим матрицу S (t) из условия K(f) = S (t) z (t). (9.4.16) Так как в этой задаче, согласно (9.4.13), % = 0, то из (9.4.11) следует, что Sz + S [<£Р (t) и - g (t) и] = 0. (9.4.17) С помощью (9.4.14), (9.4.15) и (9.4.16) пир можно выразить через z: и= —Rp^Sz, v=-R?$T(t)Sz. (9.4.18) После подстановки (9.4.18) в (9.4.17) видно, что матрица S (t) должна удовлетворять уравнению 5 = 5[^/?p1^r_g7?;igT]5 (9.4.19) или 4 (S-1) = - [&R?&T-SR;1^]. Из (9.4.13) следует, что граничное условие для S есть S (tf) = Е. (9.4.20) . Интегрирование (9.4.19) с условием (9.4.20) дает S'1 (t) = Е + Мр (tf, t) - Me(tt, t), (9.4.21)
336 Глава 9 тде к Мр (tf, it)=\& (t) Rp1 (t) &T (t) dt, t 9 Me(tf, t) = ( §(г)7?Д(*) $T(t)dt. (9.4.22) (9.4.23) Уравнения (9.4.18) описывают стратегии с обратной связью для игроков U и V как функции текущего состояния. Матрицы в выра- жениях (9.4.22) и (9.4.23) характеризуют частичную управляе- мость системы с преследователем и преследуемым (см. в разд. 5.3 случай с матрицей А = 0). Для проверки условия седловой точки (этап 2 разд. 9.3) рассмотрим две вспомогательные задачи: max || z (tf) ||2 + 4" J (II и ||нр —1| v dt} | V to при условиях Z = & (t) и — § (t) V и и= —Rp1AiTSz, где S определяется с помощью (9.4.19); 1 'I тт{4-||2(^)ц2+4-j(im^hmim*} I “ to j. при условиях Z = cP (t) U — g (t) V и y = —Rg1^TSz, (P-1) (P-2) где S определяется с помощью (9.4.19). После подстановки выра- жений и = —Rpi&'TSz ti v = —R^TSz в критерии качества задач (Р.1) и (Р.2) соответственно обе задачи сводятся к стандарт- ным неигровым линейным задачам с квадратичным критерием каче- ства, рассмотренным в гл. 5. Для задачи (Р.1) находим, что v = -R-e4gTS<i'z, - где S<» = S^&Rp^S + S&Rp'&TSa -S&Rp^S - -Sll)$R?gTS“’, Sa'(tf) = E. Для задачи (P.2) получаем, что u= -Rj&rS^z,
Дифференциальные игры. 337 где Sm = - SgR-^S™ - SW$R?$TS + S<2 >&R-x&TSm + + 5§Я;1§Т5, S^{tf) = E. Отметим, что 5(1) = 5(2> = S [уравнение (9.4.19)], поскольку S(1) {tf) = 5(2) {tf) = S {tf). Итак, установлено, что стратегии с обратной связью (9.4.18) действительно соответствуют седло- вой точке задачи на минимакс. Теперь можно попытаться также проверить оптимальность управлений и° и v°, рассматриваемых как стратегии разомкнутого типа. В этом случае приходим к задачам (Р.З) и (Р.4): max (|Н/) У2+ 4 J ] .‘° (p-3) при условиях Z = oP {t) и — § {t)v и и — — Rp1^ {t) S {t0) z (£0) — функция времени , tf 1 “j11 +4 J <IMI2Kp-IHl2Ke)*} | /° . } (P.4) при условиях Z = efi{t)ll—S {t) V | и v = — R^'1 {t) S {t0) z{t0) — функция времени J Задачи (Р.З) и (Р.4) являются обычными линейными задачами на оптимум квадратичного критерия с тем дополнительным осложне- нием. что теперь критерии качества и уравнения системы содер- жат известные функции времени и° (t) и г?° {t). Задачи решаются так же просто, как и ранее. Для задачи (Р.З) имеем V {t) = - R?$T{t) [S(3> {t) z {t) + a{t)], где a = S^PR^S '{t0) z {t0) - S‘*WTa, a {tf) = 0, 5<з)= _5<3)§^-igT5<3>f si3y{tf)=E. Для задачи (P.4) u{t)=-R^T{t)[Swz{t) + b{t)], где 6 = -S^gRe^S {t0) z {t0)+Sw^Rp^b, b {tf) = 0, 5<4> = s^&R^&TS^, Sw {tf) = E. 22-0102
338 Глава 9 Отметим, что 5<3> =£ 5(1> и 5(4> =£ 5<2>. Последние соотноше- ния являются частными случаями уравнений (9.3.10) и (9.3.10'), которые обсуждались в разд. 9.3. Опираясь на уже известные свой- ства решения уравнения Риккати (разд. 6.3), приходим к сле- дующим утверждениям: 1) Если 5(1> = 5<2> = S конечна при t0 <1 t <1 tf, то стра- тегии с обратной связью (9.4.14) и (9.4.15) соответствуют седло- вой точке J, при этом J-0 = г/2 11 z {t0) ||s(t0)- 2) Стратегия разомкнутого типа и° (t) = —НрlfT (t) S (t0) z0 оптимальна только в том случае, когда матрица 5(3> остается конечной. Для достаточно больших значений t0— ty и >0 матрица 8(3> будет всегда стремиться к бесконечности. 3) Стратегия разомкнутого типа v° (t) = — R^<ST (t) S (t0) z всегда является оптимальной, поскольку всегда 5<4> < оо. Для широкого класса линейных задач с квадратичным крите- рием утверждения 2 и 3 аналогичны тем, которые были сделаны в простом примере разд. 9.3. Утверждению 1 можно дать дальней- шую интерпретацию. Из (9.4.21) видно, что если матрица S ко- нечна, то [Е Мр {tf, t) — Ме {tf, t)] >0, to t ty. (9.4.24) Так как 7ИР и Ме — матрицы, характеризующие управляемость систем преследователя и преследуемого соответственно, то из фор- мулы (9.4.24) видно, что седловая точка имеет место, если Мр > Z>Me, т. е. когда преследователь более управляем, чем пресле- дуемый. Поведение промаха в конце интересно исследовать в том случае, когда величина энергии, отводимой на управление [формулы (9.4.4) и (9.4.5)], становится очень большой. Ясно, что по мере того, как Ер и Ее стремятся к бесконечности, константы ср и се прибли- жаются к нулю [см. (9.4.6)]. Это в свою очередь приводит к тому, что Мр оо, Ме оо; если при этом Мр — Ме -> оо, то 5 (t) -> -> 0 при t -* tf [см. (9.4.21)]. Из соотношений J° =г/2 11 z (t0) | ||(fo), (9.4.10) и того, что се и ср 0, следует, что промах в конце стре- мится к нулю. Таким образом, для того чтобы произошел пере- хват, преследователь должен быть более управляемым, чем пре- следуемый. Такой вывод представляется довольно разумным. Пример. Закон наведения для перехвата цели. Частным слу- чаем г) рассмотренных выше задач является следующая. 0 Данный пример представляет собой дифференциально-игровой аналог примера 2 из разд. 5.2. Здесь используется классическое векторное обозначе- ние для трехмерного пространства, не зависящее от выбора системы коор- динат.
Дифференциальные игры 339 Уравнения пространственного движения перехватчика и цели имеют вид vp = fp + Яр, Гр = Vp, Ne = fe + ае, Ге = Ve, (9.4.25) где v — скорость тела в пространстве трех измерений; г — вектор положения в том же пространстве; f — отнесенная к единице массы сила притяжения, действующая на тело; а — управляющее ускорение тела. Предполагаем, что расстояние между преследо- вателем и преследуемым достаточно мало, так что ipfvie. Сле- довательно, если интерес представляет лишь разность гр (t)—re (t), то влиянием внешних сил можно пренебречь. В качестве кри- терия рассмотрим J = 4 [Гр (tf) — ге (tf) ] • [Гр (tf) — re (tf) 1 + 1 ? + -у J [с/ (Яр-Яр) —Се1 (яе-ае)] dt, (9.4.26) где ср и се — постоянные, связанные соответственно с энергией преследователя и преследуемого. Используя результаты этого раздела, можно непосредственно проверить, что в этом случае уравнения (9.4.14) и (9.4.15) сводятся к __ cp(tf О 1гр (0 ге (0 + Ivp (0 (4)] (tf 4)} Яр (l/b) + (cp-ce)[(tf-ty>/3] ’ (y-4'Z ае = -^-Яр. (9.4.28) Сразу отметим, что: 1) Если ср >се, то знак коэффициента обратной связи не ме- няется. 2) Если ср < се, то при достаточно большом tf коэффициент обратной связи изменит знак в момент t, для которого ^+(сР-Се) [(^-«)3/3]=0. (9.4.29) Но (9.4.29) есть просто конкретизированное для этой задачи усло- вие (9.4.24) наличия сопряженной точки. Поэтому для больших tf в случае 2 соотношение (9.4.27) уже не является оптимальным. Отметим, что этот факт очевиден, в частности, когда Ъ — оо. В этом случае при ср < се (сравните с Мр < Ме) перехват невоз- можен. Если рассматривать случай 1 и положить Ь = оо, то стра- тегия управления для преследователя упростится аР = [1-(Се/~)](4/- 4)2 <ГР W W + tVr (0 - V* (01 (tf ~ t)}- (9.4.30) Пусть преследователь и цель находятся па номинальной траектории встречи на расстоянии R и скорость сближения 22*
340 Глава 9 V=Rl(tf—t). Обозначим через ур—уе боковое отклонение от траек- тории встречи (фиг. 9.4.1). Тогда боковое управляющее ускорение, которое нужно сообщить преследователю, согласно (9.4.30), будет равно Моковое) = [1 — (се/ср)] V°’ (9.4.31) т. е. это просто пропорциональное наведение с эффективной нави- гационной постоянной Ке = 3/[1 —(се/ср)]. На практике уста- новлено, что наилучшее значение Ке лежит в пределах от 3 до 5 *). Преследователь /Линия визирования ] -------- Номинальная линия визи- R=v(tf_t) \Р0<™иЯ Преследуемый Ф’и г. 9.4.1. Метод пропорциональной навигации. Из формулы (9.4.28) видно, что Ке = 3 соответствует случаю, ког- да цель не маневрирует (се = 0), тогда как Ке= 5 имеет место при (се/ср) = 2/5. Задача 1. Проверьте результаты задач (Р.1) и (Р.2). Задача 2. Проверьте результаты задач (Р.З) и (Р.4). Задача 3. Рассмотрите более общую линейную задачу на мини- макс с квадратичным функционалом Ч Г А J = ±-(xTSfx)t=if+± j [х^ТрТ] 0 to .0 х = Fx-^-Gu-^-Dv, RfX (tf) = Q. Предполагая, что В >0 и С >0, получите условия анормаль- ности и наличия сопряженной точки. Ответ. Матрица [5 — RQ~rRT] ограничена; Q < 0 или Q >0; tQ t tf, где 5 = -SF - FTS - А + S (GB~1GT - DC~lDT) S, S (tf) = Sf- RT = __RTF + RT (GB ^JT - DC^DT