Текст
                    Московский государственный технический университет
имени Н.Э. Баумана
Н.П. Деменков
Оптимальное управление
в классическом вариационном исчислении
Учебное пособие
Ь
Москва
ИЗДАТЕЛЬСТВО
МГТУ им. Н. Э. Баумана
2 0 17


УДК 519.3(075.8) ББК 22.161.8 Д30 Издание доступно в электронном виде на портале ebooks,bmstu.ru по адресу: http://ebooks.bmstu.ru/catalog/200/bookl678.html Факультет «Информатика и системы управления» Кафедра «Системы автоматического управления» Рекомендовано Редакционно-издателъским советом МГТУим. Н.Э. Баумана в качестве учебного пособия Рецензенты: д-р техн. наук профессор Κ.Λ. Неусыпин канд. техн. наук доцент В.А. Суханов Деменков, Н. П. ДЗО Оптимальное управление в классическом вариационном исчислении : учебное пособие / Н. П. Деменков. — Москва : Издательство МГТУ им. Н. Э. Баумана, 2017. — 133, [3] с. : ил. ISBN 978-5-7038-4714-5 Приведены необходимые теоретические сведения и даны примеры решения задач оптимального управления на основе классического вариационного исчисления. Для студентов МГТУ им. Н.Э. Баумана, обучающихся по направлению «Управление в технических системах» и изучающих дисциплины «Оптимальное управление детерминированными процессами», «Алгоритмическое и программное обеспечение систем управления», «Управление в технических системах», «Основы автоматики и системы автоматического управления». УДК 519.3(075.8) ББК 22.161.8 © МГТУ им. Н.Э. Баумана, 2017 © Оформление. Издательство ISBN 978-5-7038-4714-5 МГТУ им. Н.Э. Баумана, 2017
Предисловие При управлении производственными процессами и техническими объектами приходится выбирать из всех возможных вариантов наилучший (оптимальный), что требует развития такого раздела математики, как вариационное исчисление. В данном учебном пособии рассмотрены вопросы применения классического вариационного исчисления к решению задач оптимального управления. Так как задачи оптимального управления — это задачи на условный экстремум функционала, то они похожи на задачу Лагранжа в классическом вариационном исчислении. Однако задачи оптимального управления имеют ряд существенных отличий от задач в классическом вариационном исчислении. Они заключаются в следующем. 1. Существуют ограничения на управление u(t) e U и траекторию x(i)el. 2. Подынтегральная функция L в критерии качества не зависит от й, т. е. существуют первые интегралы уравнений Эйлера для переменных Uf(t). 3. Управления щ(1) являются кусочно-непрерывными функциями и могут иметь точки разрыва первого рода, в то время как в классическом вариационном исчислении все неизвестные функции дважды непрерывно дифференцируемы. Методы классического вариационного исчисления не позволяют учитывать при решении задач многие ограничения, реально существующие в управляемых процессах. В силу этого математический аппарат вариационного исчисления использовался при проектировании систем управления крайне редко и давал весьма ограниченный эффект, да и то лишь в частных задачах с применением искусственных приемов. Вариационное исчисление удалось распространить на задачи оптимального управления только после опубликования принципа максимума Л.С. Понтрягина усилиями ученых разных стран. 3
Однако получаемые таким образом условия оптимальности оказываются аналогичными принципу максимума и являются по сравнению с ним более слабыми. Именно в вариационном исчислении область допустимых значений вектора управления обязательно должна удовлетворять условию связанности. В принципе максимума эта область может быть любым множеством векторного пространства, например состоять из совокупности изолированных точек. Таким образом, методами классического вариационного исчисления могут быть решены задачи оптимального управления без ограничений на траекторию и управление и некоторые задачи с ограничениями. На практике при определении оптимального управления предпочтение отдается, как правило, принципу максимума или динамическому программированию Р. Беллмана. Однако изучение вариационного исчисления как одного из методов построения оптимального управления позволяет более глубоко понять содержание математических методов теории оптимального управления и их возможности. Это и послужило основанием для написания данного учебного пособия. Цель учебного пособия состоит в изложении в доступной форме примеров решения задач оптимального управления на основе классического вариационного исчисления и в рассмотрении алгоритмов решения однокритериальной задачи оптимизации, использующих современные информационные средства с применением классического вариационного исчисления. В пособии приведены различные математические постановки задач оптимального управления непрерывными детерминированными системами и пути их решения методами классического вариационного исчисления, изложены методы повышения эффективности этих алгоритмов, представлено большое число примеров решения тестовых и практически значимых задач оптимизации. Задачи оптимального управления являются задачами минимизации на множестве функций. Поэтому в первой главе рассмотрены необходимые условия оптимальности в различных постановках. Вторая глава посвящена вычислительным аспектам, возникающим при управлении объектом с обратной связью по состоянию. 4
В классическом вариационном исчислении исследуются только гладкие траектории движения системы, в то время как во многих задачах управления область допустимых траекторий и управлений оказывается ограниченной и замкнутой. Поэтому в третьей главе изложены методы решения задач оптимизации динамических систем при наличии ограничений на траекторию. В четвертой главе рассмотрены различные математические постановки задач оптимального управления непрерывными детерминированными системами и пути их решения методами классического вариационного исчисления. В результате освоения материала учебного пособия студенты приобретут навыки и умения по расчету оптимальных систем управления методами классического вариационного исчисления.
Глава 1 Необходимые условия оптимальности Если математическое описание системы управления и ограничения даны в виде дифференциальных или алгебраических уравнений и функционалов типа определенных интегралов, а координаты управления и входящие в уравнения функционалы функции имеют 2« непрерывных производных (п — порядок уравнения объекта управления), то задача оптимизации в принципе может быть решена методами классического вариационного исчисления. Классическое вариационное исчисление применяется в тех случаях, когда ограничения на переменные состояния и управления отсутствуют. Это бывает, когда рассматриваются малые отклонения вектора состояния χ и вектора управления й от их установившихся значений. 1.1. Необходимые условия оптимальности на фиксированном интервале времени 1.1.1. Оптимизация при отсутствии краевых условий на правом конце траектории Рассмотрим следующую задачу Больца. Определить непрерывную вектор-функцию u(f) и дифференцируемую вектор- функцию x(t) со значениями из пространств Rm и if" соответственно, доставляющие минимум функционалу J(x,u)= \ L (χ ,й, t)dt + Gk[x (tk), tk], (1.1) ίο где L — скалярная, непрерывно дифференцируемая функция своих аргументов, при условиях 6
Χ = f (Χ (Ο» U (Ο» * )» * (fa) = Xo,t0<t<tk. (1.2) Здесь / — непрерывно дифференцируемая вектор-функция, а ίο и tk заданы. Прибавив к выражению (1.1) для J систему дифференциальных уравнений (1.2) с некоторым множителем p(t), в результате получим вспомогательный критерий качества (к Ji= J{z(jc,w,0 +pT[f(x(t),u(t),t)-t]} dt+Gk[x(tk),tkl (1.3) ίο Для удобства введем вспомогательную скалярную функцию Η (гамильтониан): Н(х, й, р, t)=L(x, й, 0+ pT(t)f(x(t\ Щ\ 0· (1.4) Интегрируя по частям подынтегральное выражение в (1.3), получим J! = Gt[x(it),it] -pT(tk)x(tk) + pT(tQ)x(tQ) + tk + \ΪΗ(χ, й, ρ, t) + pT(t)~\x(t)dt. (1.5) to Рассмотрим вариацию критерия качества J\, соответствующую вариациям δ й вектора управления й (t) при фиксированных значениях ί0 и tk'. bJx = (dG, \ δχ к —Τ Ρ δχ + τ ρ δχ '='* =Ό tkV Ι ΊδΗ ^τ {δχ δχ + δΗ„_ Η OW dt. (1.6) Определять непосредственно вариации δ λ; (/), вызванные заданными вариациями δ й (/), было бы довольно громоздко, поэтому 7
выберем множитель p(t) таким образом, чтобы коэффициенты при вариациях δ χ (ί) и δ χ (4) в (1.6) обратились в нуль. Тогда ^_т дН dL _т ρ = = ρ дх дх ydx~j (1.7) с граничным условием f(h) = [ dGk^ Jt=tk Ш (1.8) В этом случае уравнение (1.6) примет вид дН „_. ίο δ/j =ρτ (t0)5x(tQ)+\^budt. (1.9) Выражение (1.9) для 3J\ называется первой вариацией кри- терия качества J. Из (1.9) следует, что функция ρ (ί0) — это градиент критерия качества J, поскольку J\ = J на решениях системы (1.2) по л: (ίο) при условии, что функция U(t) фиксирована (не варьируется, т. е. Ъй(1) = 0) и удовлетворяет уравнению (1.2). Функция p(t) носит также название функции влияния на критерий / вариаций χ (ί) (или функции чувствительности критерия J к вариациям χ (ί)), поскольку она указывает на изменение критерия при изменениях (вариациях) x(t) в произвольный момент времени ί = ί0. Компоненты вектор-функции дН/дй называются импульсами или импульсными переходными (или весовыми) функциями, поскольку каждая компонента dH/dui представляет собой изменение критерия / при вариации Ьиь равной единичной импульсной функции (функции Дирака, дельта-функции δ(τ - ί)), приложенной в момент ί. При этом величина χ (ίο) считается фиксированной и удовлетворяющей уравнению (1.2). Если функционал / достигает экстремума, то вариация bJ должна быть нулем для произвольных выражений δ й (ί). Для этого необходимо, чтобы выполнялось условие 8
дН_ ди = 0, tQ<t<tk. (1.10) Уравнения (1.7), (1.8) и (1.10) известны в вариационном исчислении как уравнения Эйлера — Лагранжа. Итак, для того чтобы найти вектор управления u(i), при котором критерий качества J достигает экстремального значения, нужно решить систему дифференциальных уравнений при x(to)= x0; χ = f{x,u,t) Р = Ρ (—Υ ^дх j (1.11) (1.12) при ρ (tk) = '3GOT дх J где и (f) определяется из условия дН дй = 0 или cfV —т уди j - (дЬЛ Р + ди) = 0. (1.13) Граничные условия для уравнений (1.11) и (1.12) разделены: χ (ίο) заданы при t = t0, p(tk) заданы при t = t^ Таким образом, приходим к необходимости решения двухточечной краевой задачи. Если функции L и / явно не зависят от времени ί, то задача имеет первый интеграл. Действительно, Н = дН дН ^ дН ^ + dt дх -х + ди и + ff = Ht+Huu+(Hx+pT)f = Ht+Huit. Если L и / (а следовательно, и Я) не являются явными функциями от времени ί, а й (t) — оптимальное управление (т. е. условие (дН I д й) = 0 выполнено), то 9
Η = О или Н= const (1.14) вдоль оптимальной траектории. Для того чтобы критерий качества / достиг локального минимума, недостаточно выполнения условия дН/дй-0. Необходимо еще, чтобы при выполнении условия χ —f (χ, й, t) = 0 слагаемое второго порядка δ2J (вторая вариация /) в выражении для 6J было неотрицательным для всех бесконечно малых значений δ й, т. е. 6V = i δχ Гд2аЛ V дх' χ д2н дх2 д2н дхдй δχ + -\[δχτδΰτ \х t=u Ό д2н дидх д2н ди2 δχ δΰ dt>0 (1.15) при условии, что δ (χ — /) = 0} или dt ydxj δχ + δη, δχ(ί0) = 0. (1.16) Уравнение (1.16) определяет δ χ через δΰ довольно сложно. Особенность задачи со свободным концом состоит, таким образом, в том, что на правом конце траектории полностью определен вектор импульса. Это обстоятельство делает задачу со свободным концом наиболее простой среди других задач для численного решения. В качестве примера рассмотрим принцип Гамильтона в аналитической механике. Согласно принципу Гамильтона истинное (реально осуществляющееся) движение консервативной механической системы, переводящее ее из фиксированной в момент времени ίο точки q0 в другую заданную точку qk в течение заданного промежутка времени tk — to, отличается от всех возмож- 10
ных (дозволяемых наложенными связями) достаточно близких движений между указанными точками на интервале & — ίο тем, что интеграл J - \L(q,u)dt имеет стационарное значение, т. е. ίο вариация функционала δ/=δ JL(q,u)dt=0. fo Здесь L = T(q ,u)-U(q) — лагранжиан системы, T(q ,й) — кинетическая энергия системы, U (q) — потенциальная энергия системы, q — вектор обобщенных координат (вектор состояния системы), й-q —вектор обобщенной скорости. Выведем из принципа Гамильтона уравнение Лагранжа в обобщенных координатах. Гамильтониан имеет вид т-1 Н = L (q, и) + ρ и. Отметим, что в механике принято называть гамильтонианом выражение — L + ρ ы. Уравнения Эйлера — Лагранжа в нашем случае выглядят так: ^т дН dL Ρ =—— = —-; dq dq дН dL _τ Λ -^=— + ρ =0. би ди Учитывая, что й =q, а ρΊ = — dLIdй = - dLIdq, получим известное уравнение Лагранжа, описывающее движение консервативной системы: дй dq Если L не зависит явно от времени, то система имеет первый интеграл Η = const, т. е. 11
„ τ dL_ дТ _ Η = L —— и = 1 —и —— и = const. ди ди Поскольку T(q, и ) — квадратичная функция от и , то дТ_ -^и =2Т. ди Следовательно, H=T-U-2T=-U- T= const. Таким образом, сумма кинетической и потенциальной энергий в процессе движения системы остается постоянной. 1.1.2. Оптимизация при фиксированных значениях некоторых переменных состояния Предположим, что в задаче оптимизации, рассмотренной в подразд. 1.1.1, некоторые компоненты вектора состояния x(f) должны принимать заранее заданные значения при t — tk (иногда такие краевые условия называются терминальными). Тогда вариация критерия качества J\, соответствующая вариациям вектора управления u(t) при заданных значениях ίο и &-, будет определяться тем же выражением (1.6), а именно: а/1 = дх Ρ δχ + ρτδχ + Jt=tk Jt=tQ + tk i дН ^т дх й- дНх- ох +^^ои ди dt. (1.17) Выберем множитель p(t) таким же образом, т. е. чтобы коэффициенты при δ χ (t) и δ χ (tk) обратились в нуль. В этом случае справедливо соотношение (1.7). Однако в отличие от задачи со свободным правым концом, если i-я компонента вектора χ задана при t = tk, то значение допустимой вариации бх,(4) в выражении (1.17) равно нулю: 12
δ^ (tk) = о. Тогда граничное условие (1.8) запишем в виде dG, Pi = 0 -*=** и оно уже не является необходимым. По существу это граничное условие заменяется другим, а именно х;(&), которое задано. Следовательно, и в этом случае имеется 2п граничных условий для решения задачи: при χ (to) = х0; χ =f(x,u,t) ^т дН dL т df ρ =-— = -—-ρ дх дх дх при pT(tk) = dx(h))t --tk где и (t) определяется из условия дН ди = 0 или 'еРт уди j Р + ί—Υ = 0. Если величина Xj не задана в начальный момент времени t = to, то отсюда уже не следует равенство δ xj (to) = 0. В этом случае для величины Xj(to) существует оптимальное значение Xj (to) такое, что 8J\ = 0 для произвольно малых вариаций Ьх$о) от значения Xj(to). Чтобы условие 6J\ =0 выполнялось, выберем Pj(to) = 0. (1.18) Это означает, что влияние малых изменений величины xj (t0) на значение функционала / равно нулю. И в этом случае одно граничное условие, т. е. Xj(t0) задано, заменяется другим, а именно условием (1.18). 13
Условия типа (1.18) называют иногда естественными граничными условиями. Указанными различиями в формировании граничных условий и отличается задача данного раздела от задачи, рассмотренной в предыдущем подразд. 1.1.1. Однако для задач оптимизации с фиксированными значениями фазовых координат в конечный момент времени tk необходимость условия (1.13) требует дополнительного подтверждения. При выводе этого условия ранее предполагалось, что вариации bu(t) при to < t < tk являются произвольными. В рассматриваемой задаче величины 8u(t) уже не являются полностью произвольными, так как допустимые значения δΰ(ί) подчинены следующим ограничениям: Sxj{tk) = 0J= 1,...,/, (1.19) где / — число фазовых координат, заданных при t = ifr. Таким образом, по определению допустимые вариации δ й (i) в общем случае должны удовлетворять всем условиям задачи, в том числе и ограничениям (1.19). Тем не менее и в этом случае можно определить функции влияния для критерия качества J точно так же, как это было сделано ранее. Будем отмечать их верхним индексом ρ . Кроме того, поскольку координаты х,(4) заданы для i = 1, ..., /, то справедливо считать член Gk, не стоящий под знаком интеграла критерия качества (см. (1.1)), функцией лишь остальных координат Xi(tk), / = / + 1, ..., и, т. е. Gk = G(xi —ι tk' (1.20) Тогда для значений х (to) = 0 получим вариацию функционала {0 f0 bu{t)dU (1.21) где вектор сопряжения переменных /г ; вычисляют по формуле 7^> -К-0 /Л ' =- удх j -U) удх; (1.22) 14
о, PT{tk) = \dGl dXj 7=1 Ζ" j = 1 + 1,..., n. t=tk (1.23) Предположим, что критерий качества задачи вместо Jl=Gk[x(tk), tk~\ + JL(x,u,t)dt fo задан в виде критерия Ji = χι (tk), т. е. функционал равен г'-й компоненте вектора состояния в конечный момент времени tk. Функции влияния для Xj(4) можно определить, если положить Gk = Xi(tk) и Цх, и, t) = 0. Будем отмечать такие функции влияния верхним индексом: р1. Аналогично уравнениям (1.21)-(1.23) получим &/2 =&с&к)= \(р{1)) ^z8u(t)dt, / = 1,..., /, (1.24) fo где уравнения (1.22) и (1.23) примут вид ?« = Кдх; ί1)- Pf}(tk) = \ (1.25) (1.26) В действительности следует определить / различных систем таких функций влияния для всех i = 1,..., /. Предположим теперь, что вектор управления u(t), при котором система удовлетворяет заданным граничным условиям, 15
каким-либо образом определен. Тогда можно построить такие функции времени 6U(t), которые уменьшают J\, т. е. соответствующие им значения 6J\ < 0, и удовлетворяют / ограничениям (1.19) &:#*) = 0. Для этого умножим каждое из / уравнений (1.24) на некоторую константу ν, и прибавим полученные соотношения к выражению (1.21) для δ/ь В результате получим &/1+Σν/^ω=] ^+ i=\ Ό дй 8u(t)dt. (1.27) Выберем вариацию управления в виде Ьи = -к< '3}τ удй j iOO. / i=l {П + удй j (1.28) где к — положительная скалярная величина. Подставим выражение (1.28) в (1.27). Тогда &/ι+Σν;δχ(.(^) = (=1 = -*! С я7^Т у νι* j б(^). / PW)+ZViP С) (дьЛ + J V ди) dt<0. (1.29) Соотношение (1.29) строго отрицательно, если подынтегральное выражение не обращается тождественно в нуль на всем интервале интегрирования. Определим теперь значения ν, так, чтобы удовлетворились краевые условия (1.19). Подставив (1.28) в (1.19) для каждого i, i = 1, 2, ..., I, получим tk Ό ,ηγ df\[df И1 f a7^ уди j i=l удй dt = 0 или 16
jf* дй Гт pyj) + I fk уди j -. f .-:\T \ди dt + TiW df удй j p(J)dt = 0. (1.30) Введем обозначения *k. ur=JWl^' 5/ ^Sw у /?(/)cfr, /,/ = !,.„,/; ^(/) 5/ удй j p{JK кдй j dt, 1 = 1,..., I. Соотношение (1.30) является системой линейных алгебраических уравнений относительно ν,-: ΣνΑ-+& = °> Μ или в векторной форме Qv + g = 0. Целесообразно теперь ν, выбирать следующим образом: (1.31) Существование обратной матрицы Q является условием управляемости системы. Если Q~ не существует, то невозможно найти вариацию u(f), с помощью которой можно перевести систему в состояние, удовлетворяющее всем /, заданным краевыми условиями при t = tk одновременно, т. е. найдется, по крайней мере, одно, а может быть, и несколько из / краевых условий, которые удовлетворить в данной задаче невозможно. Итак, построена функция времени u(t), уменьшающая значение критерия качества и удовлетворяющая терминальным огра- 17
ничениям (1.19), Другими словами, вариация U(f) является допустимой и улучшающей в смысле изменения критерия качества. Из соотношения (1.29) вытекает, что единственное условие, при удовлетворении которого дальнейшее уменьшение критерия качества уже невозможно, состоит в следующем: BL ди -|Т р^ + Y^iP =(') i=\ ф = 0, t0<t<tk. ои (1.32) Если это условие выполняется, то полученное решение является стационарным и удовлетворяет заданным ограничениям в конечный момент времени tk. Так как уравнения для функций влияния линейны, необходимое условие (1.32) стационарности функции Гамильтона может быть записано в виде дН = 0, где Η = L(x, u,t) + p (t)f(x, й, t), рЛ*к) = \дв dxj /=12 Ь У =/ + !,...,77. t=*k (1.33) Изложенный метод получения необходимых условий оптимальности составляет основу современного подхода к вариационным задачам. В этом подходе можно отметить два ключевых момента. Сначала находится выражение для вариации критерия качества h дН Ό а гамильтониан Η определяется с помощью функций pt{t) и множителей Vi. 18
Затем доказывается, что если —^ φ 0 (не равно тождественно ди нулю), то всегда можно (в предположении выполнимости уело- вий управляемости, т. е. существования Q ) выбрать такие значения V/, при которых вариация управления 6u(t), определенная формулой (1.28), оказывается допустимой и улучшающей критерий качества /. Вектор-функцию —— можно интерпретировать как градиент ди в функциональном пространстве критерия качества / по отношению к переменной управления u(t) при условии, что конечные значения величин χ,, ί = 1, ..., / остаются фиксированными и удовлетворяется система дифференциальных уравнений. 1.1.3. Оптимизация при заданных значениях функций от фазовых координат (задача с подвижным правым концом) Рассмотрим еще более сложную задачу. В некоторых случаях, например при посадке самолета на движущийся корабль, представляет интерес сохранение заданных значений некоторых функций от конечного (терминального) состояния системы в заданный конечный момент времени, т. е. должны быть выполнены граничные условия: Χ(/0) =Xq', (1.34) φ[*ω,α=ί, =ф[х(у,у=о, где Φ — вектор-функция размерности /, причем / < η — 1, если L = О, и 1<п , если L φ 0 . Таким образом, задача состоит в отыскании управления, которое переводит систему из точки x{t<^) на поверхность <&[x(tk),tk] = 0 за заданное время Т= tk -t0. Как и в задачах, приведенных в предыдущих подразделах, присоединим систему (1.34) к критерию качества, предварительно умножив ее на /-мерный вектор ν . Кроме того, присоединим к критерию и систему уравнений χ = f(x,u,t). 19
В результате получим λ = Gk[x(tk),tk] + утФ[х(7ДУ + +J |ζ[χ(ί), и (0, t] + рт {f - χ)) dt. fo (1.35) Если определить функцию G как G = Gk+vLQ?, (1.36) то дальнейшие рассуждения и выкладки, сделанные ранее, применимы без изменений и в данном случае. Однако окончательные выражения для необходимых условий стационарности функционала / при удовлетворении граничных условий (1.34) должны быть истолкованы следующим образом: имеется набор параметров vt, i= 1, ..., /, которые следует выбрать так, чтобы удовлетворялись / уравнений (1.34). Необходимые условия стационарности имеют вид x = f{x,u,t) (η дифференциальных уравнений); Р = - 'V? < дх ) р- dL V ^дх j in дифференциальных уравнений); ди ) \ди j Р + -_ \ди = 0 (т алгебраических уравнений); Xj(t0) задано или pj (ί0) = 0, j = 1,..., η, (1.37) (1.38) (1.39) (1.40) (η начальных условий); 20
p\h) = dGk _T дФ K +v dx dx (1.41) Jt=tk (n граничных условий); Щ),У = 0 (1.42) (/ дополнительных условий). Условия стационарности (1.39) определяют m-мерный вектор u(t). Система 2и дифференциальных уравнений (1.37) и (1.38) с In граничными условиями (1.40) и (1.41) описывает двухточечную краевую задачу с / параметрами ν, которые должны быть найдены из (1.41) так, чтобы были удовлетворены / дополнительных условий (1.42). 1.2. Необходимые условия оптимальности на нефиксированном интервале времени 1.2.1. Оптимизация задачи при фиксированных значениях некоторых переменных состояния Важное отличие рассматриваемой задачи состоит в том, что время tk окончания процесса движения не задано. Целесообразно считать в этом случае время tk некоторым параметром, который должен быть выбран в дополнение к U{t) таким образом, чтобы минимизировать критерий качества и удовлетворить ограничениям. Покажем, что здесь имеют место те же необходимые условия, что и в случае заданного tk, но, кроме того, путем оптимального выбора tk должно быть удовлетворено дополнительное условие: ^T+Pf+L = 0. Выразим критерий качества: J\ =Gk[x(tk)> *k]+ J\{L(x> й, t) + pT(t)[f(x, «, t)-t^dt 21
Приращение dJ\, возникающее при вариации управления 5й(0, и приращение значения tk имеют вид dJx = dU Щ ,_^ ■dx + м,^+/й/ ί го дх дх дх δχ + ) ν + L(x,u,t)\ dtk + dL _Tdf — + P — ди du t=h ρ Ъх \dt. Интегрируя это выражение по частям и группируя, получим dJx = К vL \ dt άίί+—-dx J дх ρ δχ + "J to dL _τθί · τ дх дх Jt=tk λ / *=*к ρ δχ + ί=ί0 δχ+ j dL _тд/Л λ ди ди Ьи dt. (1.43) Здесь величина δχ — вариация вектора при фиксированном значении времени t. Определим полное приращение вектора χ в конечный момент времени tk следующим образом: d x(tk) = bx(tk) + x(tk)dtk, где xQk) вычисляется на оптимальной траектории. Из (1.44) Sx(tk) = dx(tk)-x(tk)dtk. (1.44) Подставив это выражение в (1.43), получим dJx = dGk т _Т_Л —-+L+p χ dt F du + rdGk _ТЛ * Ρ J ν их dx J +P (Ό)δ*ο + t=tk to *k \(dL _jdf . τ T=+P ^=+P ox dx Λ _ f δχ+ J dL _Tdf du du \ 6u dt. (1.45) 22
Примем следующие условия: xt{tk) заданы, i= 1, ...,/. (1.46) Тогда функцию Gk можно считать зависящей только от незаданных фазовых координат, т. е. Gk = G[xj (й), tk], j = I + 1,..., n. (1.47) Выберем функции p(t) = p (t) так, чтобы коэффициенты при δχ(ί) ипри^х(^) обратились в нуль: -СО /ТОН :El\ \ЗХ; о, -\Т vdxj ,-оо. (1.48) KdxJ J j = I ···, /; (1.49) r=it Тогда выражение (1.45) для <i/i при таком выборе p(t) упрощается: dJx = dGi dt tkl dL df λ 6udt, (1.50) где величина δ χ (tk) считается равной нулю, так как χ (t0) задано. Рассмотрим приращение координаты χέ (tk), i = 1, ..., Ι, соответствующей произвольной вариации 5w(i), используя метод функций влияния: *<('*) = [ЛЦ Л4 +][ρ(/)(θ]Τ^δ«Λ, (1.51) где р^ определяется по формуле 23
ί<"= удх j Рт (1.52) при условии рР = 1, i = f, [θ, i*j. (1.53) Отметим, что уравнение (1.51) можно считать частным случаем уравнения (1.50), если положить Gk = χ{{ί ) и L = 0. Построим функцию времени 8u(t) и выберем значение dtk так, чтобы приращение dJ было отрицательным и удовлетворялись условия dxi(tk) = 0, i = 1,..., /. Умножим каждое из / уравнения (1.51) на постоянный множитель Vi и прибавим полученные выражения к (1.50), тогда <^ι+ΣνΑ('*) = ί=1 до, dt + L + (piJ)ff + ivlfi V 7 f=l dh + t=*k + tk i to dL .τ Λ-τΛ + ρ^ + Σ^ρ (/) df budt. (1.54) Величины dtk и Ъи выберем следующим образом: ύίι. — Кл Щ dt L + [p(J)Jf+ivJt t=tk (1.55) — К") fdLY fdf) + you J you j 'P{J) ΛνίΡ{Ι)Λ 1=1 J (1.56) где k\ и кг — положительные числа. Подставив величины dtk и Ьй в (1.54), получим 24
(=1 дв ,Ί - I -к2\ ( a +L+(~pW) J+l?>f> Ы^+L·^^ dt<0. (1.57) Это выражение отрицательно, если квадратичные формы не равны тождественно нулю. Выберем ν, так, чтобы терминальные условия (1.51) удовлетворялись при dxi(tk) = 0, г = 1, ..., /. Для этого подставим (1.55) и (1.56) в (1.51). Тогда получим dXi(tk) = -ki ft dt + L + (p^)Tf+ivjfj -Φ»)'* fo ίχτ\τ ί^τ\Ίί 3L + удй j Υ PiJ)+Yivjp tt(^) /=1 J dt = 0. (1.58) Обозначим (ИИ df Кдй j Ρ (/>Λ; те/ *-JW§ 8L^ ί*\Ί ди + уди j ρ и) dt: П=\/г dGi + L + dt (p^ff -jJt=tk t=*k Тогда уравнение (1.58) принимает вид -м -her -ΣνΛ*Λ·+щ)=ь 25
или -{klS + k2Q)v = klr+k2g. Отсюда ясно, что значения вектора ν следует выбирать из условия ν = - Q + ^-S g + T-r (1.59) l2 J Из (1.57) следует, что критерий качества может быть уменьшен лишь в единственном случае, когда выполняются условия 'dGi dt + L + (p^ff + {vifl = 0; t=tk dL du \ P(J)+ZviP (D i=l J ^ = 0, tQ<t<tk. ou (1.60) (1.61) Если эти два условия выполняются, то получено стационарное решение, удовлетворяющее терминальным условиям (1.46). Условия вида (1.60) называются условиями трансверсальности. Они позволяют найти неизвестные постоянные ν, в семействе экстремалей. Из уравнений (1.60) и (1.58) следует, что для стационарного решения величины Vi не зависят от&ι и #2 и определяются соотношением v = -Q~% (1.62) Здесь так же, как в случае задач с фиксированным конечным временем, требуется существование обратной матрицы Q~l (условие управляемости). Поскольку уравнения для функций чувствительности линейны, то необходимые условия (1.60), (1.61) могут быть представлены в виде BG, dt + Н = 0; (1.63) Jt=h дН = 0, t,<t<tk (1.64) 26
Здесь H = L + plf, (1.65) τ1 ρ получается путем интегрирования следующих уравнений: ^т дН dL _Tdf ρ = = ρ —; дх дх дх Pi(tk) = < ν(·> бХ; . V. J J у = l,...,/; , y' = / + l, ...,η. t=tk (1.66) (1.67) Величины ν, можно считать параметрами, которые должны выбираться так, чтобы в конечный момент времени tk фазовые координаты xiv i = 1, ..., /, имели на допустимой траектории заданные значения. Точно так же & является параметром, который обеспечивает ра- (8Gk венство нулю выражения dt + Н для стационарного решения. J*=*k Другой способ решения заключается в том, что задача с неопределенным временем окончания процесса может быть заменена последовательностью задач с фиксированным конечным временем. Иными словами, можно рассматривать tk как дополнительный параметр и решать серию одинаковых задач оптимизации для различных значений tk. To значение tk из этой серии, при котором критерий качества достигает минимума, и будет решением задачи с незаданным конечным временем. При этом должно быть выполнено еще одно дополнительное условие для определения оптимального значения tk — условие (1.63). 1.2.2. Оптимизация задачи с подвижным правым концом Рассмотрим критерий качества вида J = Gk[x(tk), tk] + j" Цх, и, t)dt. fo 27
Прибавим к этому выражению ограничения на терминальное состояние x(tk) O[x(tk),tk] = 0, где Φ — /-мерная вектор-функция, и систему дифференциальных уравнений где to задано с множителями Лагранжа ν и p(t) соответственно. Тогда получим вспомогательный (расширенный) критерий качества h =[< J^G.+^tb t=tk + \L(x, w, t) + pT[f(x,u,t)-x\dt. to Гамильтониан для этой задачи записывается в виде Η =L(xiuit) + p f(x,и,t). Приращение критерия качества /, возникающее при вариации ou(t), и приращение конечного времени dtkимеют вид dJ = ( д 6> + ντΦ V dt + L dt + dG ν дх k ρτ Λ dx J J + '='* +1 δχ Η——Ьи - ρ οχ dt- \Ji\=t dtQ. v (JJC Gil J Интегрируя по частям это выражение и принимая во внимание равенство ox(tk) = dx(tk)-x~(tk)dtk, получим dJ= dG т _т_ . \-L + ρ х atu + dt ' к 't=tk f3G _т^ V дх Ρ dx J + ρ Ьх Jt=tk t=tQ tk -[H\^dtQ+\ h дН ^т + P dx ox л——ow ) du dt, (1.68) где G = Gk+v Φ. 28
Выберем функции p(t) так, чтобы коэффициенты при 5x(t), dx{tk) и dtk (так как tk не задано) обратились в нуль, т. е. положим ρ = = -р ; дх дх дх где f(h)= 'ддл V Jt=tk dGk _т дФ dG т _т^ VL+ Ό Χ dt дх ί дх At=tk t=tk dG T^ + L ν dt = 0, λ=, h (1.69) dG dG dG _, — = h^^x. dt dt дх В результате такого выбора p(t) выражение (1.68) упрощается: ^ Ж fiITA , .τ dJ= \^6udt + pl(t0)dx(tQ)-H(t0)dtQ. (1.70) fo Чтобы величина J принимала стационарное значение, должны выполняться соотношения дН _T3f dL Л — = /тг + - = 0» h<t<tk. (1.71) Если χ;(ίο) не задано, то р$0) = 0. Соотношение (1.69) — дополнительное условие, необходимое для определения времени 4 окончания процесса. Постоянные величины Vj...V/ должны быть определены так, чтобы удовлетворялись ограничения Φ[χ(^),^] = 0 на терминальное состояние объекта управления. В итоге, для того чтобы критерий качества / принимал стационарное значение, должна выполняться следующая система необходимых условий: 29
x = f(x,u, t) {η дифференциальных уравнений); Р = rdJj^ r*V /--τ уд χ j df ydXj д£ дх (η дифференциальных уравнений); ^дН^ уди j ди ди (т алгебраических уравнений); Xi(to) задано или pt (t0) = О (η граничных условий); Pih) = (η граничных условий); Ω = rGy _таФ^т^ '*+ντ V дх дх dGk _T дФ f ν — + dt dt dG^ _т дФ дх к +ντ дх f + L t=tk (одно граничное условие для ft)', &[x(tk),tk]=0 (1.72) (1.73) (1.74) (1.75) (1.76) = 0 (1.77) (1.78) (/ граничных условий). Условие оптимальности (1.74) определяет /w-мерный вектор управления u(t). Далее In + 1 + / граничных условий (1.75) — (1.78) определяют решение In дифференциальных уравнений (1.72), (1.73), / + 1 параметров vf}..., V/ и tk. Решить такую краевую задачу непросто. Если бы были заданы величины ν вместо функции Ф, а также время tk вместо (1.77) для Ω, то (1.75) и (1.76) представляли бы собой 2« граничных условий для двухточечной краевой задачи порядка In с фиксированным конечным временем. 30
1.2.3. Задачи оптимального быстродействия Во многих задачах критерием качества является время, за которое система переходит из заданного начального состояния x(i0) в заданное конечное состояние x(tk). В случае когда минимизируется время tk- to, т. е. J=tk- k, можно считать, что Gk[x(tk),tk)] = О и L(x, й, t)= L Таким образом, условие (1.77) принимает вид dG_ dt λ + 1 = 0. (1.79) '*=tk Для того чтобы определить программу управления, минимизирующую время перехода, требуется решить следующую двухточечную краевую задачу: x=f{x,u,t), Р = - кдху Ρ- (1.80) (1.81) В (1.80) задано η начальных условий х(^). Если Xj(t0) не задано, Topj(to) = 0. В (1.81) задано η условий на правом конце: xAtk)j = ι,..., /; pj(tk) = o,j = i+\, ...,n. При выполнении т условий оптимальности ^7ЛТ Р = 0, (1.82) уии j а при выполнении условия трансверсальности Щк) = 0 или (pTf)_ * *к = -1. (1.83) Для определения In граничных условий имеется In дифференциальных уравнений (1.80) и (1.81), для определения т управляющих переменных имеется т условий оптимальности (1.82). 31
Условие трансверсальности (1.83) служит для определения конечного значения времени ifr. Неизвестные значения pj (Д) j = = 1, ..., /, которые ранее были обозначены через у,, также находятся в процессе решения. По крайней мере одна из фазовых координат должна быть задана при t = to и при t=tk,B противном случае задача минимизации времени не имеет смысла. 1.2.4. Оптимизация по расходу энергии и ресурсов Управление с минимальным расходом топлива, т. е. достижение цели с минимальными затратами материальных средств, актуально для самого широкого класса объектов. Одна из задач оптимизации объектов в статических режимах — обеспечение минимума расхода топлива, в связи с чем используют экстремальное управление. Другой задачей оптимизации по расходу топлива является управление объектами, исходя из условия минимума расхода топлива в динамике при переводе их из одного заданного положения в пространстве в другое. Задачи подобного типа возникают при управлении самолетами и космическими летательными аппаратами, когда требуется управлять положением спутника, обеспечивать встречу космических летательных аппаратов на орбите и мягкое причаливание. При этом управляющие силы и моменты создаются за счет расхода топлива или рабочего тела, запасы которых ограничены. Задача обеспечения минимума расхода топлива может также рассматриваться при переводе двигателей внутреннего сгорания с одного режима работы на другой и т. д. Задачи оптимального управления с точки зрения минимизации расхода топлива в значительной степени связаны с задачами управления движением систем с реактивными двигателями (самолетов, ракет, космических аппаратов и др.). Особенно это важно при маневрировании и поддержании ориентации космического аппарата на орбите в связи с большими материальными затратами на доставку топлива на орбиту. Модуль реактивной силы, которая является управлением в уравнении Мещерского, характеризующем движение материальной точки переменной массы, пропорционален интенсивности расхода топлива (производной от массы). Поэтому расход топлива за время [ t§,tk ] составляет 32
tk J = \c Iй(t)|dt, to где с — постоянный вектор (коэффициент пропорциональности). При управлении от источников энергии, ограниченных по мощности, используют частный критерий в виде функционала, характеризующего расход энергии на управление. Для электрического источника энергии, например, J = ^u(t)i(i)dt = \ru2(t)dt, (1.84) где u(t) и i(i) — напряжение и ток нагрузки источника; г = — — R коэффициент пропорциональности; R — сопротивление электрической цепи. Полученная из условия минимума функционала (1.84) система является оптимальной по расходу энергии на управление. Функционал типа (1.84) характеризует стоимость управления в ряде других случаев, когда u{t) — координата управления, а г — весовой коэффициент. В механических системах для оценки энергии управления иногда принимают функционал вида J = \u(t)y(t)dt, to где u\t) — координата управления; y(t) = — — производная вы- dt ходной переменной объекта. В качестве критерия оптимальности, характеризующего расход топлива, используют функционал J = \r\u(t)\dt. (1.85) Полученная из условия минимума функционала (1.85) система является оптимальной по расходу топлива. 33
Контрольные вопросы и задачи 1. Как ставится задача нахождения оптимального управления методами классического вариационного исчисления? 2. Что характеризует критерий качества управления? 3. Перечислите основные типы критериев качества управления. 4. Выведите необходимые условия оптимальности при решении задач методами классического вариационного исчисления. 5. Как решить задачу оптимизации со свободным правым концом методами классического вариационного исчисления? 6. Как решить задачу Лагранжа при заданных значениях некоторых переменных состояния и фиксированном интервале времени методами классического вариационного исчисления? 7. Как решить задачу оптимизации с подвижным правым концом методами классического вариационного исчисления? 8. Как выполнить оптимальный синтез при заданных значениях функций от фазовых координат в неопределенный момент окончания процесса методами классического вариационного исчисления? 9. Как изменятся условия трансверсальности, если момент окончания tk процесса не фиксирован? 10. Как решить задачу оптимального быстродействия методами классического вариационного исчисления? 11. Как решить задачу обеспечения минимума расхода энергии или ресурсов методами классического вариационного исчисления? 12. Объект управления описывается дифференциальным урав- d2x чdx нением Т,Т2 ^- + (Т1+Т2) \-х = ки. Методами классического dt1 dt вариационного исчисления найдите оптимальный закон управления и, переводящий объект из положения χ - 0, χ = 0 при t = 0 в положение χ(ί*) = х^, χ (4) = 0 за минимальное время. Составьте структурную схему оптимальной системы.
Глава 2 Управление с обратной связью по состоянию Многие объекты управления достаточно точно описываются линейными динамическими моделями. Во многих случаях схемы управления возмущенным движением приводят к рассмотрению линейных систем с квадратичным критерием качества. Методы классического вариационного исчисления, как правило, позволяют находить оптимальное управление как функцию времени. Путем разумного выбора квадратичных критериев качества и квадратичных ограничений удается синтезировать весьма удовлетворительные управляющие устройства с линейной обратной связью по состоянию. 2.1. Линейные системы с квадратичным критерием качества Задача синтеза закона управления для линейного объекта управления, минимизирующего квадратичный критерий, называется задачей об аналитическом конструировании оптимального регулятора (АКОР). В этом случае оптимальный закон управления является линейным. Таким образом, задачу об аналитическом конструировании оптимальных регуляторов можно рассматривать как метод синтеза линейных систем. Теория аналитического конструирования оптимальных регуляторов впервые была разработана A.M. Летовым. Заслуга A.M. Лето- ва состоит в том, что процесс синтеза оптимального управления был поставлен на математическую основу, выраженную в аналитической форме. Для этого на основании математической модели объекта управления и выбранного критерия оптимальности аналитически находилось выражение для алгоритма оптимального 35
управления или выражение для оптимального регулятора. Одновременно с A.M. Летовым Р. Калманом был разработан метод, названный методом пространства состояния, подобный решению задачи АКОР, который является одной из основ современной теории управления. Заслуга Р. Калмана состоит в том, что он разработал методы синтеза алгоритмов оптимального управления не только для детерминированных, но и для стохастических динамических систем. Различают терминальные управляющие устройства и терминальные регуляторы. Терминальное управляющее устройство предназначено для приведения системы в условия, близкие к желаемым, в момент окончания процесса (который либо может быть задан, либо может оставаться свободным). При этом одновременно должно быть достигнуто приемлемое поведение системы в течение всего процесса управления. Терминальный регулятор предназначен для удерживания отклонений стационарной системы от заданных условий в допустимых пределах путем использования приемлемых значений управляющих воздействий. 2.1.1. Терминальные управляющие устройства Пусть система описывается векторными дифференциальными уравнениями с переменными коэффициентами: χ (0 = Α(ή χ (0 + B(t) й (0; (2 Л) y(t)=C(t)x(t). Необходимо перевести систему из некоторого начального состояния χ (to) в заданное конечное состояние *(**) = О, (2.2) используя допустимые функции управления и (f) и не выходя за допустимые пределы по фазовым переменным в процессе движения. В постановке задачи АКОР очень важное место занимает выбор критерия оптимальности или выбор функционала качества. Рассмотрим три случая. 36
В первом случае в качестве критерия оптимальности выбирают желаемый вектор выходных координат >>ж(0 и задача АКОР состоит в том, чтобы текущее значение выхода вектора было близко к желаемому: а при t —► оо, e{t) —> 0. Тогда критерий оптимальности можно представить в общем виде: / = ι Ί л*к 2 к 1 ЧС - \ [ёТ (t)Q(t)e(t) + йт (ί) Д (ί)« (θ] dL (23a) Критерий качества является суммой квадратичной формы от вектора ошибки в конечный момент времени и интеграла от суммы квадратичных форм вектора ошибки и вектора управления. В (2.3а) Gk и Q(f) — положительно-полуопределенные матрицы; R(t) — положительно-определенная матрица. Физический смысл слагаемых в критерии качества (см. (2.3а)): первое слагаемое под интегралом представляет собой просуммированную ошибку, а матрица Q(t) — матрицу квадратичной формы размером η χη. Весовые коэффициенты этой матрицы выбирают с таким расчетом, чтобы в конечном итоге первое слагаемое имело минимальное значение. Это слагаемое характеризует точность работы системы. Второе слагаемое — квадратичная форма, физически характеризующая затраты энергии на управление. Косвенным образом это слагаемое определяет и быстродействие системы: чем больше затраты энергии на управление, тем более быстродействующей оказывается система. Выбирается компромисс между затратами энергии на управление и полученным быстродействием. Задача АКОР с критерием вида (2.3а) называется задачей слежения. Во втором случае если в качестве функционала качества выбрать ι Ί л*к 1 ттТ, / = ~2УОку + Jt-t 2 \ J [f (t)Q(t)y(t) + йт (t)R(tW)] dt, (2.36) а целью управления является удержание выходных координат объекта y{t) —> 0, то подобную задачу называют задачей о регулировании выхода. 37
Если начальное отклонение выходных координат относительно нуля велико, то управляющее устройство должно сначала выходные координаты приблизить к нулю, а затем удерживать их около нуля, при этом не расходуя много энергии на управление. Третий случай решения задачи АКОР связан с задачей удержания около нуля не выходного вектора и его компонентов, а компонентов вектора состояния χ (t) —> 0. Критерий оптимальности при этом будет выглядеть следующим образом: 1 1 *к J = -\xTGkx\_ +-UxTQx + uTRu}dt. (2.3в) В этом случае оптимальное управление должно минимизировать критерий вида (2.3в), а соответственно задачу называют задачей о регуляторе состояния. В стационарном случае предполагается, что матрицы А, В, Q и R не зависят от времени, а ^ = оо. Кроме рассмотренных случаев на практике встречаются задачи с оптимизацией нелинейных объектов и ограничением на управляющее воздействие. Тогда решение задачи АКОР осуществляется на основе принципа максимума Понтрягина, который приспособлен специально для решения подобного рода задач, т. е. для решения задач оптимизации с нелинейным объектом и ограничением на управляющее воздействие и фазовые координаты. Управление и (t), минимизирующее функционал (2.3а)-(2.3в), можно найти путем совместного решения уравнения (2.1) и уравнения Эйлера — Лагранжа ОХ при ρ (tt) = GtX (it), где функция Гамильтона H=-xTQx+-uTRu + pT(Ax+Bu). (2.5) Оптимальное управление определяют из необходимого условия оптимальности 38
—* и дН ди = R~ = 0, ιΒΊ Ρ (2.6) uu откуда (2.7) Подстановка соотношения (2.7) в (2.1) приводит к следующей линейной двухточечной краевой задаче на оптимальной траектории: Jc*=Ax*-BR~lBTp*, (2.8) где χ (ί0) задано; ?=-Οχ·-Ατ?, (2.9) где ρ (tk) = Gkx (it). 2.1.2. Решение краевой задачи с помощью переходной матрицы Для решения краевой задачи (2.8), (2.9) с помощью переходной матрицы определяется система η линейно независимых решений указанной системы In дифференциальных уравнений, т. е. xw(0 и p^l)(t), i = 1, 2, ..., и. При этом каждое решение удовлетворяет терминальным граничным условиям: x%k) = G^(tk). Удобный способ нахождения такого решения состоит в построении так называемого единичного или фундаментального решения системы (2.8), (2.9), т. е. решения, удовлетворяющего условиям fl, если i = j; *%) = [0, если i φ j; pf(tk) = {gk}ji· Полученные таким путем для г = 1, 2, ..., η решения могут быть записаны в виде столбцов, образующих две переходные матрицы X{f) и P(f), размером η χη каждая с элементами XjAt)=Xj®(t); Pjtf) =p/\t). (2.10) 39
Эти матрицы в силу способа их построения удовлетворяют условиям X{tk) = E-P(tk) = Gk. (2.11) В силу справедливости для линейных систем принципа суперпозиции можно записать общее решение системы при известном χ (tk) в виде x(t)=X(t) x(tk); (2.12) p(t)=P(t)x(tk). (2.13) Поскольку задано χ (ίο) при t = to, а не х (tk), необходимо из уравнения (2.12) при t = to получить зависимость χ (tk) от χ (to): x(tk)=X-\t)x(to). (2.14) Подставив (2.14) в (2.12) и (2.13), получим x(f) = X(t)X-\to)x(to); (2.15) p(t) = P(t)X-\tQ)x(to). (2.16) Подстановка (2.16) в (2.7) приводит к выражению u(f) = -R~lBTp{i) = -R-1 ΒΊP(f)X~\to) x(to) = -K(tJo) 3t(*b). (2.17) Уравнение (2.17) может рассматриваться как дискретный закон управления с обратной связью, в котором время ί0 является значением предыдущего момента дискретизации. Если проводится непрерывное измерение состояния χ системы, то значением предыдущего момента дискретизации является время t, т. е. to = t, и соотношение (2.17) превращается в непрерывный закон управления с обратной связью u(t)=-K(t) x(0, (2.18) где переменная по времени матрица коэффициентов усиления K(f) имеет вид K(t) = R~\t) BT(t)P(t) X~\t). (2.19) 40
Решение для ρ (t) в этом случае с помощью (2.16) может быть записано следующим образом: ρ (t) = ДО X~\t) χ (t) = S(t) x (0; (2.20) S(t) = P(f)X~\t). (2.21) 2.1.3. Решение краевой задачи с помощью метода прогонки В некоторых задачах, особенно в тех, которые связаны с процессами рассеивания, численное определение матриц X(t) и ДО фундаментальных решений может быть затруднительным вследствие различных скоростей роста фундаментальных решений. Другими словами, вычисления могут сопровождаться значительной потерей точности из-за того, что значения элементов матриц X(t) и P(f) изменяются на интервале времени [to, 4] н^ разные порядки. В этом случае может оказаться полезным использование для решения метода прогонки. Идея метода прогонки содержится в соотношениях (2.20) и (2.21). Вместо того, чтобы определять матрицы фундаментальных решений X(f), P(f), следует непосредственно находить матрицу S(f) = P(t)X~1(t). Этот процесс можно рассматривать как формирование для системы (2.8), (2.9) граничного условия, эквивалентного терминальному условию Р(*к) = вкх(*к)> но для более ранних моментов времени. В действительности коэффициенты терминального условия прогоняются (переносятся) назад к начальному времени. Затем, поскольку χ (to) известно, ρ (to) можно вычислить по уравнению ρ (to) =S(t0)x(to) и систему (2.8), (2.9) проинтегрировать вперед с уже известными начальными условиями (задача Коши). Подстановка (2.20) в (2.9) дает уравнение S (ή χ (t) + S(t) x (t) = -Q(t) x (t) - AJ(t)S(t) χ (t). (2.22) Далее, подставляя х из (2.8) в (2.22) и снова используя (2.20), получаем 41
S (t) χ (t) + S(t)[A(t) χ (Ο - B(t)R-\t)BJ(t) x χ S(t)x(t)] + Q(t)x(t) + AT(t)S(t)x(t) = О, или [ S + SA + ATS - SBR~iBTS + Q] χ = 0. (2.23) Так как х (t) #0, из уравнения (2.23) следует S = - SA - AJS + SBR-1BJS - Q (2.24) при граничном условии ЗД = Gk, (2.25) что вытекает из уравнения (2.9). Уравнение (2.24) квадратично относительно матрицы S и называется матричным уравнением Риккати. Поскольку Gk является симметрической матрицей, а уравнение (2.24) также симметрично, то S(t) также симметрическая матрица при всех значениях t. Уравнение (2.24) можно проинтегрировать (прогнать) назад от терминального момента времени t = 4 к начальному моменту t = to. После этого с помощью уравнения (2.20) можно получить ρ (к) = S(t0) x (to). (2.26) Вектор р (to) можно рассматривать как эквивалент терминального граничного условия (2.9), перенесенного на более ранние моменты времени. Теперь решения для системы (2.8), (2.9) могут быть получены путем интегрирования в «прямом» времени (т. е. от ί0 к tk), поскольку начальные условия χ (to) и ρ (to) уже известны. Итак, результатом решения краевой задачи (2.8), (2.9) является программное управление й (t) = - K(t) χ (0, при K(t) = R~\t) ΒΊ(ΐ) S(t\ (2.27) где симметрическая матрица S(t) определяется из матричного уравнения Риккати: S= - SA - ATS + SBBT^eFS - Q 42
при граничном условии ад = ок, а χ и ρ связаны линейным преобразованием p*=Sx*-v\ (2.28) в котором вектор ν* после подстановки уравнения (2.28) в (2.9) и (2.8) находится из уравнения v*+S(AT -BR~1BT)v* +Qx* = 0. (2.29) В случае отсутствия ограничений на χ в конечной точке & имеем р* (tk) = 0. Тогда граничные условия, накладываемые на S и ν в соответствии с уравнением (2.28), состоят в равенстве ну- лю элементов S и ν при t = tk. При определенных S и ν* закон управления оптимальной системы получается в результате подстановки уравнения (2.28) в уравнение (2.7): й* =-R-1BT(Sx*-v*). (2.30) В рассмотренном случае закон управления является линейным и составляющие коэффициента усиления обратной связи К не зависят от состояния объекта управления. Так как закон управления не зависит от начальных значений переменных состояния, структура оптимальна при любых начальных условиях (рис. 2.1). 7\ ь У 1, с R В "Уптимя г 1 1 I I 1 I й" ! w I I I ^ ι ТКЯЫИ ! 5 ^ \ i регулятор ! I 1 1 с с \ ^ ^ Объект управления 7\ х ^ 9 i t А <—' X* ι Г Рис. 2.1. Структура оптимальной линейной системы 43
Определив и *, реакцию оптимальной системы найдем из выражения x*=(A-BR-1B'Ts}x*+BR-lBTv*. (2.31) Таким образом, двухточечная краевая задача сведена к двум задачам Коши, т. е. это решение уравнения (2.29) назад от t = & к t = to и последующее решение уравнения (2.31) вперед — от t = = to К t = tk. Часто основной интерес для задачи терминального управления представляет сам непрерывный закон управления с обратной связью по состоянию й(х) = -K(t)x(t) при K(t) = ir\t)BT(t)S(t), (2.32) а не программное управление й (i). В качестве примера рассмотрим задачу синтеза оптимального управления боковым движением летательного аппарата (ЛА). Полагая, что траектория движения ЛА представляет собой отрезок горизонтальной прямой, движение по которой происходит с постоянной скоростью, можно считать, что боковое движение независимо от продольного. Это обстоятельство позволяет проводить синтез оптимального управления отдельно по каждому из каналов. В силу стационарности параметров опорной траектории и критерия качества матрицы А, В и С математической модели ЛА, а также матрицы Q и R квадратичного функционала будут постоянными. Уравнения бокового движения ЛА в отклонениях имеют вид ί/Δβτ mzlT AD sq cosy . .. mzlH AS: _J^_ = A(p + —ί-Δβτ+ * + smaTAy + —^A5H; dt mV V mv ί/Δψ . ^ = Δω4; dt λ 44
ί/Δω χί (ηζχΑω + ττζγΑω + /^τΔβτ + «/3Δδ3),?#/; fa j ν *ι *ι χ\ η χι ''L ~χι χ\ άΑω ^=—^Αω +Μω*Αωχ +mβτΔβτ + /wδэΔδэ + mδiίΔδя)^/, τ ν Л Л Л *1 Л ^τ Л э Л ti t ч. ь dt Jv где β τ — угол скольжения (угол между вектором путевой скорости и плоскостью симметрии ЛА); ψ — угол рыскания; γ — угол крена; 0 — угол тангажа; ат — угол атаки (угол между проекцией путевой скорости на плоскость симметрии и осью ЛА); V— путевая скорость полета; т — масса ЛА; / — моменты инерции ЛА относительно соответствующих осей; ω — проекции вектора скорости ЛА на оси связанной системы координат; s — площадь крыльев; q — скоростной напор; / — размах крыльев; δ — углы отклонения рулей; тх\, ту\, mz\ — коэффициенты моментов аэродинамических сил. В качестве вектора координат состояния объекта выберем вектор χ : χ а в качестве управления и = хх х2 Х3 Х4 _Х5_ = Δψ ΔωΛ Δγ ΔωΛι Δβτ вектор й: щ _и2_ "Δδ„ _Δδ3 Уравнение движения объекта с учетом введенных обозначений можно записать в нормальной форме: х\ — α2\χ2·> Х2 = а22Х2 + a24X4 + а25Х5 + ^21М1 + ^22М2> ι Χί — @'Х4Х4' Хл — йЕлтХ? ~Т~ ОллХл "Т CIacXz Τ DaiII-i "Τ Ол'уМ'}} X5 = «52X2 + a53X3 + a54X4 + a55X5 + ®5\U\' 45
или в векторном виде: χ = Ах + Вй. Элементы матриц АиВ имеют следующие значения: «21 =U sql ων «22 =—"ν; ^1 «42 - V ; J л sq «53=ycosv; Jy\ «34 —1' га/ ω «24= * <;; ^Л га/ Ю;с # «44 _ j mxx ' ^Л а54 =sinaT; sqlт^-Ъ - Sql J *' 41 J Jy\ Jy\ «52=1; га/ и «25 = m*> Jy\ sql βτ a - l · «55 TZ » ШЛ ' °42 ~ 17 л *i2 = -г-<я; ^ = -T-<:; b4i = -r-<H; *« = -f-«£ Неуказанные элементы матриц равны нулю. В функционале качества / выберем матрицы Q и R диагональными, причем R - Е. В этом случае функционал примет вид J(x,U) = — Г {qxxl + C/2*2 + «3*3 + «4*4 + «5*5 + U\ + и\)&> 2о Элементы матрицы Q следует выбирать таким образом, чтобы оптимальная система удовлетворяла заданным показателям качества: необходимый запас устойчивости, требования к качеству переходного процесса, статическая и динамическая точность системы. В соответствии с уравнением (2.32) оптимальное управление ■^ й =-Кх при К = R~1BTS, а матрица S находится из уравнения (2.24). В исходных переменных управление имеет вид Ьн = *£< Δβτ + Ιξ» Δψ + kl» Δω, + kl« Αωγ; δ3 =*£Δβτ Η-^Δψ + ^Δω, +^Αωγ. 46
Для реализации оптимального управления ЛА должен быть оборудован датчиками угла ψ и угловой скорости ω рыскания, угла γ и угловой скорости ω^ крена, а также угла скольжения β τ. В качестве второго примера рассмотрим задачу синтеза оптимального регулятора для колебательного звена (рис. 2.2). В качестве критерия оптимизации выберем квадратичный критерий и 1 s + 2 ζω0£ -г ω0 Регулятор X Рис. 2.2. Регулятор для колебательного звена J(x) = \ (QiXi + q2x\ + ru2)dt, где q\> 0, q-L> О, г > 0 — некоторые весовые коэффициенты. Зададим граничные условия х1 (0) =%, Х2 (0) = ^20 ' х1(оо) = х2(со)=0. Динамика колебательного звена описывается системой уравнений Χι — Х^ ·> В соответствии с методикой решения задачи составим гамильтониан H = q1xl + q2x2+ru + />ιΧ2 + />2(-ω0χ1-2ζω0χ2+«)> в котором переменные р\ и рг находятся из уравнений Эйлера — Лагранжа: Pi = -2qixi+p2G)l\ р2 = -2q2X2~P\ + 2р2ζω» · 47
Управление найдем из необходимого условия оптимальности = 2ги +Р2=0, ди откуда 1 « = -— Pi- 2г Подставив это значение управления и в уравнение исходной системы для х2, получим следующую краевую задачу: χι = χ2; χ2 = -ωΙχι -2ζ(%Χ2-—рг\ 2г р\ = -lq^xx+рг ω2 Pi= -2^2X2 -Ρι + 2ρ2 ζω2, при Pi(tk)=h при p2ftt)=1- Запишем характеристическое уравнение полученной системы уравнений: <ΐ6^-μ^=λ4 + 2ίω^-2ζ2ω^-^]λ2+^ + ωί=0. ^ 2г) г Обозначим ΰ = ω2(1-2ζ2)-|2-; С = ^- + ш5>0. 2r r Тогда в зависимости от соотношения между В к С имеют место два случая. Случай 1. Если В > С, то при В > 0 все корни характеристического уравнения чисто мнимые и оптимальный регулятор не существует. При В < 0 корни будут следующими: λι,2=±Μιί λ3>4=±μ2» где μι =^-в + 4в2-С\ μ2 =4-В-4в2-С. 48
В общем решении системы уравнений для краевой задачи переменная X! (О = cxew + с2е~М + съе^ + сАе~^, причем произвольные постоянные с\ = сз = 0 в силу граничных условий. Выразив производную х2 через переменные состояния х2 = -μι μ^ι - (μι + μ2)χ2, получим уравнение оптимального регулятора и = - (μιμ2-ω2,) х\ - (μι + Цг -2ζω0 )*2· Случай 2. Пусть теперь В < С. Тогда корни характеристического уравнения λι>2=μ±/ν; 44=-μ±/ν' где \4с-в \4с+в \χ=\\—-—; ν = В общем решении системы уравнений для краевой задачи для этого случая переменная хх (t) = е^ {сх cos vt + с2 sin vt) + е~^ (с3 cos vt + сА sin vt), где произвольные постоянные с\ - Сг= 0 в силу граничных условий. Выразив производную х2 через переменные состояния объекта, т. е. χ2 = _(μ +ν )χι ~2μχ2, получим уравнение оптимального регулятора Μ=-(μ2+ν2-ωο)χ! -2(μ-ζω0)χ2. Таким образом, для оптимизации колебательного звена в смысле квадратичного критерия необходимо замкнуть его отрицательной 49
обратной связью по выходной координате и ее производной с коэффициентами соответственно. Для случая 1 £ι=μιμ2-ω0; к2= μι+ μ2-2ζω0. Для случая 2 ^=μ2+ν2-ωο; к2= 2(μ-ζω0). Структурная схема оптимальной замкнутой системы приведена на рис. 2.3. Рассмотрим задачу Чаплыгина, которая формулируется следующим образом. Определить замкнутую кривую, по которой должен двигаться центр тяжести самолета, чтобы за время Τ облететь наибольшую площадь S, если задана постоянная скорость ветра W. Скорость самолета постоянна и равна Vo (рис. 2.4). ; К V. 7) « 9 ' 1 s2+ 2ζω05 + ω^ к2 s *ι χ Рис. 2.3. Структурная схема замкнутой системы регулятора Рис. 2.4. К постановке задачи Чаплыгина При решении задачи требуется определить максимум функционала 1 rf dy dx^ 2{{ dt dt) о при наличии связей dx dt = K0cosa-iF; dy dt = -K0sina. 50
Имеем вариационную задачу на условный экстремум. Составим гамильтониан: Η = [~(ху - ух) + Р\ (^оcos а~Ю~Р2^о s*n α] · Уравнение Эйлера — Лагранжа для этого функционала имеет вид дН . ох дН р2 = = -х . бу Интегрируя эти уравнения, найдем Р\ = У\ Ρ2 = -χ· Произвольные постоянные выбраны равным нулю за счет параллельного переноса осей координат. Необходимое условие оптимальности: дН дН „ . „ — =— = -plV0sma-p2V0cosa=0, ди да откуда Pi Р\ Подставив в последнее уравнение найденные значения ρι,ρι, получим _ysina-xcos a = 0. Отсюда следует, что можно принять у = г sin a; χ = г cos a. Тогда dr _ W dy dt V0 dt Интегрируя это уравнение, получим уравнение эллипса 51
ΓΊ 2 W "θ Его можно привести к виду 2 ,.. .. \2 а2 Ьг где малая полуось эллипса Ъ = ΤΖ2 vi-w1 большая полуось эллипса а VQcr yjV02-W7 и смещение центра эллипса VaWcx y<s = vt-w- Расстояние от центра до фокуса /71 2 V0WCl = Vo -а = —г ;г = Vq-W2 У о- У 1 °х \о f\ F2 I у χ Рис. 2.5. Решение задачи Чаплыгина Эксцентриситет эллипса _^_W_ е~ь~г' Таким образом, искомая траектория представляет собой эллипс, один из фокусов которого /<2 расположен в начале координат, большая ось перпендикулярна направлению ветра и эксцентриситет эллипса е = W/Vq (рис. 2.5). Произвольная постоянная с\ определяется временем полета Т. 52
2.2. Выбор весовых коэффициентов показателя качества Закон управления и реакция системы в значительной степени зависят от выбора весовых коэффициентов показателя качества матриц Qn R. Выбор этих коэффициентов представляет трудную задачу, так как взаимосвязь весовых коэффициентов и параметров оптимальной системы или ее реакцией в общем случае весьма сложная. По-существу QwR — матрицы штрафов (весов) на компоненты вектора состояния и вектора управления в критерии качества. Для неавтономной системы весовые коэффициенты этих матриц зависят от времени. 2.2.1. Процедура Брайсона Для получения допустимых уровней величин χ (4), х (0 и и (0 матрицы Gk, Q{t) и R{t) могут быть выбраны, например, диагональными со следующими элементами: 1 2 7Г~ = х1твх((к)> (2.33) κιι — = ('*-'о)*2п«(0 (2.34а) или —=*?ш»(0; (2-346) - = (^-'оК2ших(0 (2.35а) или - = И?шах(0. (2.356) Таким образом, метод Брайсона использует характеристики переходных процессов, т. е. прямые показатели качества: время переходного процесса и его максимальное значение (перерегулирование). 53
2.2.2. Процедура Эллерта Для стационарных систем метод выбора коэффициентов матрицы Q предложен Эллертом. Согласно процедуре Эллерта на выбор коэффициентов влияют степень устойчивости и полоса пропускания системы, значение перерегулирования и точностные характеристики системы. Для объекта второго порядка, описываемого уравнением χ = ап а12 «21 αΊΊ Χ Λ- "0 0 0 " ^22 _ и, (2.36) с показателем качества 1 fk Χ ρ τ-" τ-" J= — \(x Qx + u Ru)dt, (2.37) Ό где tk = oo, а матрицы QnR заданы в виде диагональных матриц: ~qn О Q = Q О «22 R гп О О г22 гц*0; 1-22=1, (2.38) закон управления выглядит так: Ы2 (ί) = -Ы&1 ΧΪ (0 + &2 4 (01 + t>22 ν? (0, (2.39) где коэффициенты Sy определяются из решения системы нелинейных алгебраических уравнений Риккати (2.24) при S=0: 2 с>2 qii + 2α22 »$22 + 2αΐ2 Six — b22S22 — 0 2 o2 qn+2ci2\ 021+2ац S\\ — b22S2i — 0> 2 «21 «$22 + «22 «$21 + «11 «$21 + «12 S\\ ~ b22S22S2l = О, (2.40) а вектор ν — из уравнения (2.29) dv\ dt V Φ ί 7 i Π ^ = #22*2 + «22 ν2 + «12 ν1 _ί>22ύ22ν2 '■■ j * —j- = qnx* + α2λν\ + αην\ ~h^2\A· dt (2.41) 54
Так как замкнутая система линейная стационарная, ее передаточная функция определяется так: _*ι0) 1 W(s) где u(s) Tsz+2QTs + \ 2ζ 2 — = ^22^22 ~~ α\ 1 ~~ α22 '·> α1ΐ(α22 _ ^22^22 ) + α12 (^22^21 _α2ΐ)ί u{s)= anbl2T2 wx(s) Отсюда можно найти коэффициенты: 1 1 '22 ъ 2ζ Л 11 ?2 ^21_ '22 V 1 ζ fl21^22 V —■Т + аП2— + аПа2\+аП (2.42) (2.43) а следовательно, и значения весовых коэффициентов qx j и </22 ?ll=ftl ' 1 Л 2 /2 V а12°22 У ζ , 2 (12ζ + 2) , +8αίιζ 1 ^ - ^ ^ + (2ana12a2i«22 + 2απαΐ2«2ΐ + «lVfi + «π) (2.44) ?22 '22 (4ζ -2) 2 2 -βπ -«22 -Ζα12α21 При выбранных значениях ζ и Т соотношения (2.44) определяют qn и q22. Согласно процедуре Эллерта выбор коэффициента демпфирования ζ обеспечивает требуемую степень устойчивости системы при условии, что ни одна из переменных системы не превышает 55
заданных пределов. Постоянная времени Τ выбирается в соответствии с требуемой полосой пропускания системы или ограничениями на составляющую управления U2(i). Взаимосвязь иг(0 и Τ получается из подстановки уравнения (2.43) в соотношение (2.39): u2{t) = - 1 ^(f) Ъ22 [al2T2 «11*1 (О а 4-*2(0 12 2ζ + 11 а «12 ■\-а 21 хх (t) + + {an + a12)x2{t) + b22vx(t). (2.45) Уравнение (2.45) можно разрешить относительно Τ при подстановке в него максимально допустимого значения иг(0> наихудших xi(i), xi{t) и νι(ί), предварительно разрешив систему дифференциальных уравнений (2.41) относительно v\(t). После определения параметров ζ и Г весовые коэффициенты <7п и #22 задаются уравнениями (2.44). Для выпуклости функционала качества весовые коэффициенты qw и #22 должны быть неотрицательными. Это требование служит проверкой непротиворечивости требований проектирования в предположении правомерности выбора квадратичного показателя качества с постоянными весовыми коэффициентами. После определения этих величин предположение о бесконечном tk отбрасывается (это является слабым местом методики Эллерта) и рассчитывается оптимальная система для заданного tk. Для объектов, описываемых уравнениями более высокого порядка, передаточная функция замкнутой системы принимает вид W(s) = N(s) Tnsn + 2ζ„_1Γ"Λ""1 +... + 2ζ17> +1 (2.46) ,22 щеN(s) =\, ^ = ζ; N(s) = 2^Ts + \,N(s) = 2 ζ2ΤΥ + 2 iiTs + \ соответственно для систем первого, второго и третьего типа, т. е. систем соответственно с нулевой установившейся ошибкой при 56
единичном ступенчатом входном сигнале, единичном линейно нарастающем входном сигнале и т. д. Предложенная Эллертом процедура выбора весовых коэффициентов показателя качества применима и для этих объектов, если ζ,■ (i = 1, 2, ...,«- 1) можно определить за небольшое число пробных шагов. В литературе существуют табулированные численные значения ζ;·, называемые стандартными формами (например, стандартные формы характеристического уравнения Уайтли, которые могут быть использованы для выбора Q, исходя из требуемого значения ошибки и максимального значения перерегулирования (табл. 2.1)). Таблица 2.1 Стандартные формы характеристического уравнения Уайтли Тип системы Нулевая позиционная ошибка Нулевая скоростная ошибка Нулевая ошибка по ускорению а Ъ с d е f Я h i J к ι Стандартные формы T2/T2s2+l,4Ts + l T^/tV + ITV + ITs+I Τ4/ Τ У+2,6Τ У + 3,47/ ¥ + 2,6Ts + 1 7,2/7,V + 2f57,^+l Γ3/ГУ + 5ДГ¥ +6,37^+1 ΤΑΙΓ V + 7,2Γ V + 1,6Γ V + \2Ts + 1 Τ5/ 7/У + 97/У + 297/У + 387/У + 187\s +1 Тв/ 7/У + ИГ V + 437/У + 837/У + + 73TV + 25TS+1 Тъ! ГУ + 6,77/У + 6,7Ts + 1 ТА1Г У + 7,97/У + 15Г V + l,9Ts +1 Т5/ ГУ + 187/У + 697/У + 697/У +187/5 +1 Г6/ 7/У + 36ГУ + 251ГУ + 4857/Υ + + 251г¥ + 36Г$ + 1 ^maxs /° 5 8 10 10 10 10 10 10 10 20 20 20 На рис. 2.6 приведены типовые переходные процессы в различных типах систем (см. табл. 2.1). Так как передаточной функцией типа (2.46) обладают многие реальные системы управления, для определения весовых коэффициентов, удовлетворяющих объективным требованиям проектирования, можно использовать стандартные формы Уайтли совместно с процедурой Эллерта. 57
Однако следует отметить, что выбор коэффициентов показателя качества не самоцель, так как именно этот показатель определяет ζΐ5 а следовательно, и параметры регулятора. r{t) 1,0 0,5 10 15 20 25 d e f g h ω0/ 0 5 10 15 20 Рис. 2.6. Переходные процессы в различных типах систем 58
2.2.3. Процедура М.Е. Салуквадзе Предложенный М.Е. Салуквадзе метод выбора вектора qeG основан на идее синтеза парето-оптимального управления, обеспечивающего максимальную близость функционала качества к каждому из аддитивно составляющих функционалов. Представим функционал качества системы в виде '* ■W ίο ι=1 dt (2.47) и потребуем, чтобы весовые коэффициенты qt удовлетворяли ограничению η ι=1 (2.48) во избежание тривиального решения qt = О (i = 1: ή). Задачу аналитического конструирования оптимального регулятора сформулируем в следующем виде: требуется отыскать вектор и (t) e U, доставляющий на решениях системы (2.1) минимум функционалу (2.47) при ограничении (2.48). Представим функционал (2.47) таким образом: i=\ где Ό т xf(t) + ^uj(t) 7=1 dt. (2.49) * Обозначим J{ минимальное значение функционала (2.49), получаемое в результате решения задачи АКОР при минимизации только функционала (2.49). При фиксированных значениях qt минимально возможное значение функционала (2.47) составляет It (2.50) ί=1 59
Найдем минимум функционала (2.50) по qt при условии (2.48). Рассматриваемая задача представляет собой задачу на условный экстремум. Для решения ее составим функцию Лагранжа: и ( η ^ i=l V е'=1 ) (2.51) где μ — множитель Лагранжа. Для отыскания минимума функции (2.51) приравняем нулю производные по компонентам вектора q: д * F(q) = 2qiJi — μ = 0, ί = 1, ...,«, dq{ откуда получим 4i = μ 2Χ i = 1: п. (2.52) Вектор q с компонентами (2.52) доставляет минимум функции Лагранжа (2.51), поскольку гессиан д' dq F(q)=2 Jx 0 0 Λ о о о о f в силу положительности I. (г = 1: п) является положительно- определенной матрицей. Подставив соотношения (2.52) в формулу (2.48), получим выражение для множителя Лагранжа μ = И -Ι (2.53) 60
а подставив (2.53) в (2.52) — искомые значения компонент вектора q\ 1 В качестве примера рассмотрим объект, возмущенное движение которого описывается уравнениями х2 —и. Требуется отыскать управление u(i), доставляющее минимум интегральному квадратичному функционалу τ τ ГГ 22, 22,/2, 2ч 2],, 0 где весовые коэффициенты q\ и q2 удовлетворяют условию (2.48), т. е. ^ + ^2= 1? и подлежат выбору. В соответствии с изложенным выше заданный функционал представим в виде суммы (2.50), причем τ J\= J Χι +u2 \dt; о τ Ji - ι \ χ2 + и \dt. Минимальные значения этих функционалов /;=(х(0), ^х(О)); /2*=(х(0), 52x(0)), где х(0)= [ximax = 1, Ximax. = 1]Т — вектор состояния объекта управления в момент t — 0, а квадратные симметрические матрицы Sx и S2 удовлетворяют матричным уравнениям Риккати 61
Ql + SXA + ATSl - SlBBTSl = 0; Q2 + S2A + ATS2 -S2BBTS2 = 0. Матрицы, входящие в уравнения Риккати: <2ι = "1 0" L° °J ; Qi = "0 0" L° l\ ; A = 0 f L° °J ; в = "0" 1 Решения уравнений Риккати 4ι ι ^1= 1 л/2 S2 = о о О 1 Значения функционалов составляют I* = 4lx\ (0) + 2хг (0)х2 (0) + 4lx2 (0); Г2 = х\ (0). Поскольку х1тах = х2шах = 1, то /;=2(1 + V2); /*=1. Подставим полученные значения 1Х и /2 в выражение (2.54). В результате получим искомые значения весовых коэффициентов функционала: 1 2 + 2л/2 <к 3+2V2 42 3 + 2л/2 Управление u(f), доставляющее минимум функционалу, запишем в виде u{t) 2 2 Ях +Я2 1 BTSx(t), (2.55) где матрица S удовлетворяет матричному уравнению Риккати Q + SA + ATS—J]—rSBBTS = 0, Qi +Q2 62
а матрица Q \ql 0 о" ll\ Решение уравнения Риккати приводит к следующей матрице S: S = ^11 ^12 >21 '22 где Sn=qly]qf+2q1^q?+q2; S12=S21=qiyjqf+qj; S22=^qf+q2l χ ΧλΙϊ7ο +2q1^j"2 · ~г q2+zql^jql +q2 . Подставив матрицу S в соотношение (2.55) для u(f), получим формулу для оптимального управления и(0 = 1 ί 2 2 Чх +4ι qxxx{t) + ^ql+2qi^ql +qlx2(t) Александровым Е.Е. рассмотрена методика выбора вектора q, основанная на требовании быстрейшего убывания функции Ляпунова — Белмана вдоль траектории замкнутой системы. Функцию Ляпунова — Белмана можно трактовать как текущее расстояние между возмущенным состоянием замкнутой системы и невозмущенным. Динамические свойства системы тем выше, чем быстрее убывает это расстояние в переходном процессе. Метод требует значительного объема вычислений в процессе его реализации, а также может приводить к весьма большим значениям коэффициентов усиления оптимального регулятора, соответствующих малым значениям весовых коэффициентов qi (i = 1: ή). Таким образом, закон управления и реакция системы в значительной степени зависят от выбора весовых коэффициентов показателя качества. Выбор этих коэффициентов представляет трудную задачу, так как взаимосвязь весовых коэффициентов и параметров оптимальной системы или ее реакцией в общем случае очень сложная. 63
Контрольные вопросы и задачи 1. Как ставится задача АКОР нахождения оптимального управления? 2. Изложите методику решения задачи АКОР. 3. Какие основные проблемы возникают при решении задачи аналитического конструирования регуляторов? 4. Как решаются проблемы, возникающие при решении задачи аналитического конструирования регуляторов? 5. Какие условия накладываются на исходные данные при синтезе линейного квадратичного регулятора? 6. Изложите основы теории синтеза оптимальных линейных систем по интегральному квадратичному критерию. 7. Каково назначение матриц Q и R в критерии качества? 8. Как задать элементы матриц Q и R в критерии качества, используя прямые показатели качества, методом А. Брайсона? 9. Как выбрать элементы матриц Q и R в критерии качества методом Эллерта? 10. Как выбрать элементы матриц Q и R в критерии качества методом М.Е. Салуквадзе? 11. Какой вид имеет оптимальное управление в задаче АКОР? 12. В чем состоит особенность решения уравнения Риккати? 13. Какова структура оптимальной системы в задаче АКОР? 14. Для объекта, поведение которого описывают уравнения х1—х2, х2- axi +^w> определите методами классического вариационного исчисления оптимальное управление, обеспечивающее переход из произвольного начального состояния в заданное конечное состояние {x\{tk) = Хг(4) = 0} так, чтобы критерий оптимальности / = min [ (oijxf + а2х\ + β и2 J dt. Здесь αϊ, аг, β — некоторые положительные постоянные. Составьте структурную схему оптимальной системы.
Глава 3 Задачи оптимизации динамических систем при наличии ограничений на траекторию Задачи оптимального управления являются задачами минимизации на множестве функций. В отдельных случаях эти задачи могут быть решены методами классического вариационного исчисления. Однако чаще всего задачи оптимального управления ставятся как задачи минимизации при ограничениях на состояния или функцию управления. Ранее были рассмотрены задачи оптимизации нелинейных динамических систем при наличии ограниченной в конечной точке траектории. В данной главе рассмотрены задачи с ограничениями на всю траекторию в целом, т. е. при t0<t<tk, а не только в конечной точке t — tk. При наличии дополнительных ограничений типа равенств C(x,u,t) = 0, где составляющие вектора С функции ct, к = 1, ..., г < η дважды дифференцируемы, для определения экстремума функционала можно использовать множители Лагранжа. В этом случае, как всегда, при введении / переменных Лагранжа, которые являются функциями от времени t μ^ί),...,μΓ(ί), задачу нахождения минимизирующего решения для исходного функционала с ограничениями типа равенства можно рассматривать как задачу минимизации функционала вида Λ J\=\\L + YiVkck dt to ν *=ι без учета ограничений. 65
Если минимизирующая траектория удовлетворяет требуемым граничным условиям, то функционал J\ не зависит от переменных Лагранжа, и, следовательно, в выражении (1.3) для первой вариации функционала J\ коэффициент при каждом множителе Цд- (t) равен нулю, и поэтому стационарное значение функционала J\ соответствует стационарному значению функционала J. В этом и заключается идея метода множителей Лагранжа. 3.1. Интегральные (изопериметрические) ограничения Потребуем, чтобы некоторый интеграл вдоль оптимальной траектории принимал заранее заданное значение xn+i(tk) = \N(x,u,t)dt, (3.1) ίο где xn+i(tfr) —заданное число; N—заданная скалярная функция. Естественный подход к решению такой задачи состоит в присоединении к исходной системе уравнений, описывающей динамику объекта, уравнения состояния, полученного из (3.1): Xn+i(t) = N(x,u,t) (3.2) с граничными условиями: (3.3) Хп+\(Ч) задано. Пусть μ — функция влияния (множитель Лагранжа, функция чувствительности), соответствующая координате χη+ί. Гамильтониан расширенной системы имеет вид Η = 1 + ρτ/ + μΝ. (3.4) Уравнения Эйлера — Лагранжа таковы: ^т дН dL _т df dN „ ,ч р =~^=~^=~р т=-»т=> (3·5) ох ох ох ох 66
дН dL _T df dN n ди ди ди ди οχ (3.6) где μ — коэффициент чувствительности критерия качества / к изменению χη+ι, т. е. а/ μ = дх, (3.7) и+1 X * Уравнения (3.6) и (3.1) можно рассматривать как систему размерности т + 1 для определения т компонент вектора уравнения U(t) и постоянной величины μ . Итак, в задачах с ограничениями на траекторию типа равенства (3.1) величина N(x,u,t) присоединяется к гамильтониану с постоянным множителем Ла- гранжа μ. Класс задач, в которых в качестве дополнительных условий выступает интеграл, называется классом изопериметрических задач по наименованию одной из них. Среди линий равной длины / найти такую, которая охватывает наибольшую площадь (рис. 3.1). Уравнение линии имеет вид Рис. 3.1. Изопериметрическая задача хМ) = \^(1 + х2)Ж = 1, ?о где длина линии / известна. Площадь под линией определяют по формуле 'К J = \ Xdt. fo 67
В качестве примера рассмотрим следующую задачу: среди кривых, проходящих через точки .4(0,0) и Вф,0) и имеющих заданную длину /, найти кривую у(х), для которой площадь, заключенная между этой кривой и осью Ох, имеет максимальное значение. Таким образом, в задаче требуется определить максимум функционала J{y) = \ydz IX о при условии Ъ Ъ {N(x,y)dx = Ul + у'2 dx =l о о и граничных условиях >>(0) = 0; У(Ь) = 0. В соответствии с методикой решения задачи классическим вариационным исчислением составляем функционал: * , А(у)=1(у + \Ч1 + у'2)<Ь· Уравнение Эйлера для функционала Jx (у) имеет вид ду dxdy' где L=y+ μ-y/l + y2· Подынтегральная функция не зависит явно от х, поэтому можно записать первый интеграл уравнения Эйлера = μΤΪ ,2 γ=μ^1 + γ - ,2_ W fi+y Решив это уравнение, получим 68
(х-С2) = ц8Шф; (>у-С1)=-цсойф, откуда 2_..2 {х-С2У + {у-СхУ = \х или с учетом граничных условии χ — V 27 2 Г + Г ^4μ2-ϊ V μ у Постоянная μ может быть найдена из граничных условий. Экстремаль представляет собой дугу окружности с центром в точке и радиусом μ. ) 3.2. Ограничения в виде равенств на управление Рассмотрим дополнительно ограничение на управляющие переменные в виде равенства С(«,0 = 0, (3.8) где C(u,t) — скалярная функция; u(t) — w-мерный управляющий вектор, т<2. Условие т < 2 необходимо для того, чтобы задача представляла интерес (при т = 1 ограничение (3.8) полностью определяет функцию u(t) и никакой проблемы оптимизации не возникает). В тех случаях, когда т>2, влияние ограничения (3.8) сводится к уменьшению свободы выбора управляющих переменных й. Один из возможных подходов к решению этой задачи состоит в исключении с помощью (3.8) одной из управляющих переменных и последующем решении задачи минимизации по отношению к оставшимся управляющим переменным, которые уже не связаны никакими ограничениями. При таком подходе необходимые условия минимизации, выведенные для задач без ограничений, остаются справедливыми и в этом случае. 69
Другой подход заключается в том, что выражение (3,8) с множителем Лагранжа μ(ί) прибавляется к гамильтониану. При этом получается расширенный гамильтониан Я = 1 + ^т7 + цС. (3.9) Такая форма гамильтониана вносит изменения только в условие оптимальности дн dL _Tdf дс _ ,, im ^=—+р ^τ+μ^ = θ· (зло) ди ди ди ди Это условие вместе с (3.8) определяет т компонент вектора управления u(t) и скалярную функцию μ(ί). 3.3. Ограничения в виде равенств на функции управления и фазовых координат Пусть оптимальное решение x(t), u~(t) должно удовлетворять ограничению С(3с,й,0 = 0, (3.11) причем —^ φ 0 для любого й. ди Следуя принятой методике, добавим к гамильтониану вариационной задачи без связи ограничение (3.11) с множителем μ(ί). В результате получим гамильтониан Η = ρτ/ + Σ + μ€. (3.12) Условие оптимальности в этом случае совпадает с (3.10): ен dL _Tdf ее -^ = ^ + ρ ^τ + μ^ = 0, (3.13) ди ди ди ди а уравнения Эйлера — Лагранжа должны быть модифицированы: ^т дН dL _Tdf дС ρ = = ρ — -μ—. (3.14) дх дх дх дх 70
Все остальные уравнения необходимых условий остаются без изменений. Необходимое условие (3.13) и ограничение (3.11) составляют систему т + 1 уравнений с т + 1 неизвестными величинами μ им. Характерное отличие этой задачи от предыдущих — появле- ние в уравнении (3.14) слагаемого μ—. дх Если C(x,uj) = 0 является вектор-функцией, число компонент которой меньше числа компонент вектора управления й, то уравнения (3.12)-(3.14) соответственно примут вид H = pTf + L + ^TC; (3.15) дн dL Tdf_TdC -^ = ^ + ρ -^+μ ^ = 0; (3.16) ди ди ди ди ^т дН Tdf dL т бе ρ1 = = -р μ —· (ЗЛ7) дх дх дх дх Здесь μ — вектор множителей Лагранжа, размерность которых совпадает с размерностью вектора C(x,u~,t). 3.4. Ограничения в виде равенств на функции фазовых координат Если функция, задающая ограничение, явно не зависит от управляющих переменных, то в этом случае при решении задачи возникают дополнительные осложнения. Пусть задано ограничение в виде следующего равенства: S(x,t) = 0. (3.18) Если равенство (3.18) справедливо для любого значения t, tq < t < tk, то производная по времени от функции вдоль оптимальной траектории должна обращаться в нуль: dS dS dS^ dS dS - _ _ , Λ „ 1ft4 — = — + —x= — + — f(x,u,t) = 0. (3.19) dt dt дх dt дх 71
Выражение (3.19) может, в свою очередь, оказаться либо явно зависящим от й, либо снова не зависящим от й. Если (3.19) зависит явно от г7, то оно играет роль совместного ограничения на управляющие и фазовые переменные, аналогичного равенству (3.11). Однако в этом случае следует либо исключить одну из компонент вектора х, выразив ее с помощью (3.18) через остальные (п — 1) компонент, либо присоединить (3.18) в качестве граничного условия точках t = t§ или t = tk. Если же выражение (3.19) не содержит явно й, то его можно еще раз продифференцировать и подставить условие χ = f(x,u,t). Эту процедуру можно повторять до тех пор, пока полученное выражение не будет явно зависеть от й. Если явная зависимость от й получится после /-кратного дифференцирования функции S по времени t, то соотношение (3.18) будем называть ограничением 1-го порядка типа равенства, наложенного на фазовые переменные. В этом случае 1-я полная производная по времени от функции S играет роль ограничения на управляющие и фазовые переменные, аналогичного условию вида (3.11): ^™=0. (3.20) dt1 Кроме того, в этой задаче необходимо либо исключить / компонент вектора χ, выразив их через остальные (п -1) компонент этого вектора с помощью системы из / уравнений S(x,t) = 0; dS(x,f) = dt ' ' (3.21) dSl l(x,t) _ /-ι и' dt либо рассматривать систему (3.21) как дополнительные граничные условия в точке t — ί0 (или t — tk). 72
3.5. Метод функции штрафов Часто встречаются задачи, в которых на управляющее воздействие «;(/) наложено Ограничение ВИДа |мг-(01—Mimax ПР1* Мг'тах> О· Приближенно эти ограничения можно учесть, вводя соответствующие фунБщии штрафа. Точный подход учета таких ограничений разработан Валентайном. Идея метода функции штрафов заключается во введении таких дополнительных членов в минимизируемый показатель качества, которые при нарушении ограничений, наложенных на управляющие воздействия, приводят к существенному увеличению значения функционала. После того как такие члены введены, задача оптимизации решается без учета ограничений. В качестве примера рассмотрим задачу, в которой траектория для χ -f(x, и, f), соединяющая точки х\ и хг, должна быть найдена так, чтобы минимизировать показатель качества J = \L(x,u,t)dt. ίο Допустим, единственное управляющее воздействие u(f) должно удовлетворять ограничению -1 < и <1. При образовании функции штрафа рассмотрим новый показатель качества J1=J+\ g(u)dt, где g(u) — функция штрафа: малая, если \u(t)\ < 1, и значительная при \u(t)\ > 1. После этого ищется решение, которое минимизирует функционал J\ уже без учета ограничений. Метод функций штрафа особенно полезен в некоторых численных схемах нахождения оптимальных решений. В 1937 г. Валентайн показал, что введение некоторых дополнительных переменных преобразует ограничения типа неравенств, налагаемые на управляющие воздействия, в ограничения типа равенств. Допустим, что в системе χ = f(x, и, t) содержится г компонент щ, j = 1, ,.., г, на каждую из которых наложено ограничение вида 73
Ujmm - Uj — М;пшх5 ujmm> Ujmsx — ^· \p.22,) Неравенства (3.22) можно преобразовать в совокупность ограничений типа равенств, если ввести г дополнительных переменных у,- (0;У = 1j ···> г> и предположить, что в каждый момент времени t,t0<t< 4-, выполняется условие (^•(0 + ";min)(^max-";(0)-v'(0 = 05 /=1,...,Г, (3.23) где Vj (t) — переменная, которая стремится к нулю, если uj(t) достигает любого из своих пределов: Ujnnn или UjmsK; когда Uj(t) располагается между этими пределами, переменная у,· (t) является конечной величиной, например, при uj(t) = 0 ν/ί) имеет значение Поскольку функции Vj(f), определенные по соотношению (3.23), образуют ограничения типа равенств, то найти уравнения Эйлера — Лагранжа не представляет труда. В частности, можно ввести г дополнительных переменных хп+г+\, .·., xn+ir, таких что xn+r+j=Vj(t)J=h...,r. (3.24) Кроме того, можно определить г величин Cj(uj) как Cj(Uj) = (uj + uJmki)(ujmax -«/)-V; =0, 7=1,.., г. (3.25) Таким образом, можно ввести в дополнение к обычным множителям Лагранжа p(t) другие г множителей μί(ί),...,μί.(ί) и образовать функцию а также функцию Гамильтона #=ζ+/>τ7+χμ/:,., используя которую нетрудно получить уравнения Эйлера — Лагранжа. 74
Так как функции и At) могут иногда достигать своей верхней или нижней границы на конечном отрезке времени, синтез на основе вариационного исчисления становится довольно сложным. Валентайн, однако, показал, что необходимые условия по- прежнему выполняются всякий раз, когда задача остается невырожденной. В частности, условие Вейерштрасса непосредственно приводит к принципу максимума Понтрягина. 3.6. Ограничения в виде неравенств на управляющие переменные Пусть вместо ограничения типа С( й, t) = 0 в виде равенства задано подобное ограничение в виде неравенства C(u,t)<0. (3.27) « τ — Если определить Η = L+ ρ f, то вариацию критерия качества можно записать так: '* дН &/ = f — budt = f δ#* (χ, ρ, й, t)dt, (3.28) J Ян J fo to где ρ определяется по уравнению ^т dL _т df Ρ =-—-ρ — (3.29) ох ох при pT(tk) = ^\t=tk. (3.30) ох Предполагается, что конечное время tk фиксировано, а терминальные ограничения отсутствуют. Если управление u(t) минимизирует критерий качества, то для всех допустимых значений 8u(t) должно быть 6J > 0 . Отсюда 75
следует, что δΗ > 0 для всех t и всех допустимых Ьи (t). Таким образом, в каждой точке, удовлетворяющей условию C(u,t)<0, оптимальное управление и обладает следующими свойствами: 6#*=-^бй>0; 5С =—Ьй<0. (3.31) ди ди Другими словами, это означает, что величина Ьп не должна улучшаться при любой допустимой вариации Ьй . В действительности справедливо более сильное утверждение, что функция Н* должна быть минимизирована (максимизирована функция -Н*) на множестве всех возможных значений й. Эта формулировка известна как принцип максимума Л.С. Понтрягина. Сейчас обсуждается частный случай задачи, когда отсутствуют терминальные ограничения и вариации являются слабыми. Если определить гамильтониан системы следующим образом: # = £ + ^т7 + цС, (3.32) то необходимое условие экстремума функции Гамильтона Η будет иметь вид дН dL _T df дС п — = — + ρτ^-+μ— = 0. (3.33) ди ди ди ди Уравнение (3.33) совпадает с уравнением (3.13), определяющим условие оптимальности в задаче с ограничением в виде равенств, причем в данном случае дополнительно требуется, чтобы множитель принимал следующие значения: Г>0, если С = 0; [=0, если С*0. Положительный знак множителя μ при С = 0 может быть интерпретирован как требование, чтобы производная по определению 76
дН* δ dL T df ——=^ + p —= ди ди ди была такой, при которой лучшее значение Н* могло быть достигнуто только за счет нарушения ограничений. При расширении рассматриваемого класса задач можно использовать как гамильтониан Н*, так и расширенный гамильтониан Н. Переход от одной функции к другой не вызывает затруднений. Если оптимальная траектория состоит из участков, одни из которых лежат на границе допустимой области (С = 0), а другие — внутри допустимой области (С < 0), то эти участки должны быть состыкованы так, чтобы были удовлетворены все необходимые условия. В точках стыковки управление й может быть как непрерывным, так и разрывным. Если управление разрывно, то точка стыковки называется угловой. Такое название возникло из-за разрывности производных по времени нескольких или всех фазовых координат. Угловой точкой может оказаться любая точка, но более вероятно, что это будет точка соединения участков траектории, а не промежуточная точка, лежащая внутри допустимой области. В действительности отсутствует метод, с помощью которого можно было бы априори установить существование угловых точек. Рассмотрим пример минимизации траектории нормы при наличии мягкого I [||w|| dt < СI и жесткого (|w(f)| ^ 1J ограничений. Пусть необходимо минимизировать критерий качества 2 ! Τ т Q и ,„.112 1 Гц ||2 , J = —\\х(Т)\\ + — \\\и\\ dt z zo при условиях x = g(t)u, где g(t) — заданная функция времени; 77
и (0| * ι, т. е. -1<м(0<1 или -1-й < 0, и-1<0. Гамильтонианы системы имеют следующий вид: * 1 и ц2 Я =—\\и\\ + pgu; 2 и и 1ц ιι2 Η = — ||w|| +/jgw+ μ1(^-1) +μ2(-«-1). Необходимые условия оптимальности Ρ дН дх = 0, откуда />(0 = />(Г) = в*(Г). дН ди = u + a2g(t)x(T). При этом должны выполняться такие условия: дН* - *·> (1 τη υ^ηί^ΥΛττΓΤΛίΓΐ тлГмлятт~ 1,_ опт 1) если > 0, то необходимо выбрать иош ——\ (чтобы было ди дн ди Ьи > 0 для всех допустимых Ъи, удовлетворяющих \u(t)\ < 1); 2) если 3) если зя а;/ дН = 0, то -l<wonr<l; <0, то«опт=+1. Так как = и + α gxCO, из приведенных условий следует ди и —i (*опт "ι -1 при -\ + а gx(T)>0, т.е. при a gx(T)>l; +1 при \ + а gx(T)<0, т.е. при a gx(T)<-l; -a2gx(T) при = 0 и -\<agx{T)<\. ди 78
На рис. 3.2 показана типичная программа оптимального управления с ограничениями типа насыщения и на расход энергии. Рис. 3.2. Типичная программа оптимального управления при наличии ограничения типа насыщения и ограничения на расход энергии Типичное изменение множителей μ^ί) и μ2ί^)^ΙΙ5ί задачи с ограничением типа насыщения и ограничения на расход энергии μι(0 = -[l + a2g(t)x(T)l ty<t<t2; О для остальных моментов времени; μ2(0 [-l + a2g(t)x(T)l t3<t<t4; О для остальных моментов времени показано на рис. 3.3. μ(0ί μ2(0 t4 t Ч "2 '3 Рис. 3.3. Типичное изменение множителей μι(ί) и y^if) для задачи с ограничением типа насыщения и ограничения на расход энергии 79
Итак, уравнения Эйлера выведены для условий, когда режимные ограничения отсутствуют. Учет ограничений в форме равенств в классическом вариационном исчислении возможен с помощью известных множителей Лагранжа. При наличии ограничений в форме неравенств должны дополнительно соблюдаться так называемые уравнения трансверсальности, которые отражают условия наилучшего сопряжения линий оптимального режима (экстремалей) с линиями режимных ограничений в зонах, где сказываются режимные ограничения в форме неравенств. Число уравнений трансверсальности равно числу указанных точек сопряжения экстремалей, поэтому в сложных задачах число уравнений трансверсальности может быть очень большим. Кроме того, заранее не известны точки сопряжения экстремалей и приходится записывать уравнения трансверсальности для всех возможных точек сопряжения экстремалей. В силу этого для сложных задач практический учет ограничений в форме неравенств методами классического вариационного исчисления невозможен, поэтому необходимо искать иные решения. Контрольные вопросы и задачи 1. Как найти оптимальное управление методами классического вариационного исчисления при наличии ограничений? 2. Как учесть ограничения на траекторию? В силу чего они рассматриваются? 3. Как учесть ограничения на регулируемые переменные? В силу чего их рассматривают? 4. Как учесть интегральные изопериметрические ограничения? 5. Как учесть ограничения в виде равенств на управление? 6. Как учесть ограничения в виде неравенств на управление? 7. Как учесть ограничения в виде равенств на функции управления и фазовых координат? 8. Как учесть ограничения в виде равенств на функции фазовых координат? 9. Изложите методику учета ограничений с использованием функций штрафов. 10. Запишите гамильтониан, полученный после введения в алгоритм решения задачи АКОР ограничений на управление. 80
11. Объект управления описывается дифференциальным уравнением TlT2^ + (Tl+T2)^ + x = ku. dt2 at Методами классического вариационного исчисления найдите оптимальный закон управления м, переводящий объект из положения χ = 0, χ = О при t = 0 в положение χ = хк, χ = 0 за минимальное время; на управляющее воздействие наложено ограничение \и\ < Ищах. Составьте структурную схему оптимальной системы. 12. Для объекта, движение которого задается уравнением найдите с помощью классического вариационного исчисления решение о переводе фазовой точки х= (хь х2) из заданного начального состояния χ (0) = (2,0) в начало координат так, чтобы функционал о где время tk не фиксировано, принимал свое наименьшее значение. Составьте структурную схему оптимальной системы.
Глава 4 Примеры решения задач В этой главе изложены различные математические постановки задач оптимального управления непрерывными детерминированными системами и пути их решения методами классического вариационного исчисления. Методы классического вариационного исчисления, как правило, позволяют находить оптимальное управление как функцию времени. 4.1. Задача о брахистохроне Задача о линии наискорейшего спуска, или задача о брахистохроне, — это в действительности целый класс очень интересных задач. Начнем с практического вопроса. Представьте, что ремонтируется жилое здание, и при этом возникает вопрос, как кратчайшим образом доставлять предметы с верхних этажей на нижние, используя только силу тяжести. Естественно рассмотреть наклонный пандус, который позволяет за оптимальное время скатывать предметы с верхних этажей на нижние. В этом случае и возникает задача о брахистохроне (линии наибыстрейшего ската). Термин «брахистохрон» имеет греческое происхождение и состоит из двух слов: брахисто — самый короткий; хронос — время (βραχιστοζ — короткий, χρονοζ — время). В 1696 г. Иоганн Бернулли опубликовал в журнале Acta Eruditorum статью «Новая задача, к решению которой приглашаются математики». Эта задача была сформулирована так: «... В вертикальной плоскости даны две точки А я В. Определить путь АМВ, спускаясь по которому под влиянием собственной тяжести, тело М, начав двигаться из точки А, дойдет до другой точки В в кратчайшее время». 82
Рис. 4.1. К задаче о брахистохроне Поставленная задача получила название задачи о брахистохроне, т. е. кривой наискорейшего спуска. Решение задачи было дано самим И. Бернулли, а также Г. Лейбницем, Я. Бернулли, Г. Лопиталем и И. Ньютоном. Вскоре в работах Л. Эйлера и Ж. Ла- гранжа она была включена в более общий класс аналогичных задач. Формальная постановка задачи о брахистохроне такова. Тело Μ (бусинка) скользит без трения по проволоке между точками А и В в постоянном гравитационном поле. Начальная скорость бусинки в точке А равна Vo (рис. 4.1). Какую форму должна иметь проволока, чтобы бусинка проходила путь между двумя этими точками за минимальное время? Задача состоит в том, чтобы найти оптимальный закон изменения θ(ί), при котором время перехода J- Тиз точки А в точку В минимально. Две заданные точки А и В и вектор гравитационного ускорения g определяют вертикальную плоскость (см. рис. 4.1). Прежде всего можно предположить, что достаточно провести прямую линию, соединяющую точки А и В. В этом случае отрезок прямой будет кратчайшим расстоянием между точками А я В, однако это не означает, что время, затраченное на движение по этому отрезку, будет наименьшим. В соответствии с физическими законами ясно, что вначале тело должно максимально ускориться, чтобы затем это ускорение работало на всем пути. Двигаясь по прямой, тело имеет постоянное ускорение. Это заставляет предположить, что есть траектории, которые позволяют спускать груз за время, меньшее, чем при движении по прямой. Чтобы найти такую траекторию, формально нужно перебрать все линии, соединяющие точки А и В, и определить оптимальную линию, для которой время Τ минимально. Это и будет линия наискорейшего спуска. Пусть ось у направлена вниз, а начало координат совпадает с точкой А. Так как сила реакции проволоки на бусинку направлена строго под прямым углом к ее скорости F, система консервативна, т. е. полная энергия системы постоянна: 83
mV1 —-=mgy или V=^2gy = V(y). Компоненты скорости удовлетворяют следующим уравнениям: х = х1 = V(y)cosQ; у = x2=V(y)smd. Формально скорость скатывания тела по дуге S определяется выражением dt откуда dS dt = V Время спуска Τ по всей линии вычисляется как сумма dt: dS •^Мт-. ty а интеграл берется по кривой у(х). Линия у(х) задана в явном виде как функция от х, поэтому можно считать, что интегрирование ведется от 0 до х\. Дифференциал дуги вычисляется по формуле dS = Jl + Следовательно, 4Λ2 \dxj dx. J J ν J ν 2 J=T= \dt=\— = \ -* ^ v " dx V J V или, подставив в это выражение значение скорости, окончательно получим 84
Составим гамильтониан н=11±(уШ_ +Р1 v(y) cos θ +Р2 v(y) sin θ5 где функции р\ и р2 удовлетворяют уравнениям Р\=- дН _ дх2 дН _ дхх дН _ ду дх V у\х) Pi гдеЯ0) = 0;Хх)>0. Оптимальный закон изменения угла θ находим из условия ЯГ/ ЯГ/ ^— = ^— = -PlV(y)sme+p2V(y)cosQ = 0, ди ου откуда оптимальное изменение угла θ имеет вид tg9= —, или θ = arctg^- = arctg-/?2 Pi Pi ci так как/>1 = const = Ci. Задача оптимального управления траекторией сводится к решению двухточечной краевой задачи. Ее решением являются циклоиды, т. е. траектории, образованные точкой на окружности колеса радиусом г, катящегося без проскальзывания по горизонтальной плоскости, и θ = const. Найдем аналитически параметрическое уравнение циклоиды. Поскольку интегрант V У(х) явно не зависит от х, для поиска экстремали можно применить интеграл энергии, в соответствии с которым для экстремали у справедлив принцип Эйлера 85
yLy(y,y)-L(y,y) = const, следствием которого является то, что экстремаль у удовлетворяет дифференциальному уравнению у(1+(у'х)2) = с. Разделив переменные, получим ГфЛ2 ( ^Ϋ dx или dx=\- £-1 у J dy \с_ -1 Введя новую переменную ζ =sjy и учитывая, что dz- dy ^4у имеем Izdz *-Ьт=-/ 2zldz ё7· * Выразив ζ cos tdt, получим χ -J 2Csin2 t^C cos tdt V С-sin t = $ 2&ш2 tdt = С sin 2Л 2 J + C 21· Итак, параметрическое уравнение брахистохроны будет выглядеть так: С х= — (2i-sin2i); С y=—(\-cos2t). 86
Это решение есть циклоида. Циклоида — периодическая функция по оси абсцисс с периодом 2кг, которая описывается в общем виде параметрическими уравнениями: χ = rt - г sin t; у = г — г cos t. Циклоида может быть получена как решение дифференциального уравнения 2г-у У Отметим, что задача о брахистохроне является частным случаем проблемы Ферми о траектории минимального времени прохождения через область, в которой скорость зависит от фазовых координат. 4.2. Максимизация скорости в конце участка выведения КА на прямолинейную траекторию Рассмотрим материальную точку (ракета-носитель с КА) массой т, находящуюся под действием силы тяги Ρ = та (рис. 4.2). t=tk = T VX(T) 9 m χ Рис. 4.2. Вывод КА на орбиту Угол направления тяги θ(ί) с осью X (угол тяги) для данной системы является управляющей функцией. Движение тела без учета силы тяжести описывается следующими уравнениями: Vx = a cos θ; 87
V = a sin θ; χ — vx, где ускорение α под действием силы тяги по предположению является известной функцией времени. Введя обозначения x\ = Vx\ x2=Vy; x3 = x; ха = У, получим систему уравнений хх =а cos θ =f\, х2 =а sin θ =f2; x3 = xi =h\ x<\ = xi = A для которой заданы начальные условия Xi(to) = Xi(h i= 1,2,3,4. Поскольку функция зависит только от конечных условий (L = 0), критерий качества выглядит следующим образом: J=Gk(x(tk))=x1(T) = Vxmsii. Заданы отдельные компоненты вектора состояния при tk = Т: Х2 (T)=Vy= 0; χα (Τ) = _узад. Найдем оптимальную программу изменения вектора тяги, т. е. такое управление и - ν, которое в конце участка выведения tk= T обеспечивает максимум горизонтальной составляющей скорости Χι(Τ) = К*: max при нулевой вертикальной скорости Φι&) = х2(Г) = Vy= 0 на заданной высоте 88
х4.Т)=узад = к, т. е. Qh.(tk)=X4(T)-y3aa = 0. Область допустимых управлений зададим условием cos2 β + sin2 θ = 1. Составим гамильтониан: η H(x,u,pJ)=L + ^pifi =ρ\α cos β + ρ2α sin β +ръх\ +Р4Х2, i=l в которому найдем, решив сопряженную систему уравнений А= Рг Рз= Раг ен дхх дН дх2 = -ЭЯ=0; дхъ Зх4 Эти уравнения легко интегрируются: Р\ = Р2 = Рз= Ра= :-№^+Сь ■--p4t+C2; Сз; Q, где Ci — С\ — постоянные величины, определяемые из начальных (конечных) условий. Для этой системы задано единственное граничное условие в конце участка выведения (х\(Т) = Vx (Τ) = VxnMX). Следовательно, ΜΌ = дхл 1. Jt=tk 89
Остальные граничные условия, с учетом того, что конечное значение координаты χ не представляет интереса (т. е. хз (Т) свободно и, следовательно, Охз (Χ) φ 0), имеют вид xi(0)=^(0) = 0; Pi(T)= pVx(T) = l; xi(7,)=^max; X2 (0) = Vy(0) = 0; p2 (Γ) = pVy (T) = vi; x2(Γ) = KF(70 = 0; x3 (0) = χ (0) = 0; />3 (T) =px(T) = 0; x3 (70 — свободно; х4(0)=.у(0) = 0; P4(T) = v2; ха(Т)=У^ = К где Vi и V2 — постоянные величины , определяемые из условий Vy(T) = 0; y{T) = h. Условие оптимальности выглядит так: дН dv -рха sin θ +Ρ2 a cos θ = 0. Таким образом, оптимальное управление направлением силы тяги определяется соотношением t θ= Ρι(0_ -p4t+c2 A (0 -/>з> + ci которое часто называют законом дробно-линейного тангенса. Поскольку/>3 (Т) =рх(Т) = Сз = 0, то р\ = pv = С\ = 1 вдоль всей траектории, и поэтому оптимальная программа управления становится законом линейного тангенса tg θ = -рА t + C2 = - Ct + tg θ о, где tg % = vi + v2 Τ; С = v2. В случае а - const дифференциальные уравнения движения легко интегрируются при управлении по закону линейного тангенса, если вместо независимой переменной времени t использовать угол v. Тогда получим γ _ a^tg^+secV х С tgO + secO ' 90
χ- Vy = — (sec % - sec θ); a / α α + α ι tg$0+sec$0 — (sec θο-sec θ -tg β In—^ ^-); С tg$ + sec$ _ α (tg θ0 - tg β) sec \ - (sec$0 - sec$)tg& - In tg&0 + sec$0 tg^ + secd Величины θ о и С (а следовательно, vi и Уг) определяются из двух граничных условий Vy(T) = 0 и у(Т) = h. Эти неявные соотношения можно представить в виде Ah аТ2 sine. 1 _Ы™»0+Ъ»0,2ъ2Во; О secik -tg$ о С _ 2tgS0 откуда / tg β =tg β( \ ι-2£ V Ту h Очевидно, что безразмерная величина ^ определяет зна- аТ2 чение Vo, по которому затем можно найти постоянную С. Максимальная скорость Vx (Τ) max и конечное значение х(Т) находят из уравнения УхСПш* - 2^-inseceQ + tg^/2tg9 аТ aTz sec$0-tg$0 tg^o· Программы управления углом тяги θ 'Л VJ J для перелета на прямолинейную траекторию представлены на рис. 4.3. Зависимость максимальной конечной скорости Vx max от начального угла тяги θ о и зависимость θ 0 от безразмерной высоты вы- ведения —- представлены на рис. 4.4. аТ2 91
.γ max'"-' ι,и 0,8 0,6 0,4 0,2 У χ max'^* N. θ0 = 90° 30 60 90 % Рис. 4.3. Программы управления Рис. 4.4. Зависимости максималь- угломтяги 9 Отметим, что ν ι = - tg θ0, V2: ной скорости Vx щах и угла тяги β о 2tg$0 4.3. Оптимальная траектория перелета на круговую орбиту максимального радиуса за заданное время Рассмотрим решение задачи нахождения программы управления направлением β(ί) вектора тяги КА для перелета КА массой m с заданной начальной круговой орбиты на круговую орбиту максимально возможного радиуса (рис. 4.5). Конечная орбита Начальная орбита О Центр притяжения Рис. 4.5. Схема перелета с орбиты на орбиту: Ρ —вектор тяги; θ —угол тяги; Ψ —радиус; г — радиальное расстояние КА от центра притяжения; Vr — радиальная компонента скорости; Vx — тангенциальная компонента скорости 92
Двигатель КА развивает постоянную силу тяги Р, значение которой известно, время работы двигателя tk задано. Таким образом, задачу можно сформулировать так: найти функцию θ(ί), максимизирующую r(tk), т. е. J= r(tk)=n max; при удовлетворении связей \ = r=Vr\ ■ V1 μ Ρ sill θ — + r2 mQ-\m\t г mQ-\rh\t (4.1) (4.2) (4.3) где χι = r;x2= Vr; хз - VT; m — секундный расход топлива (постоянная величина); μ — гравитационная постоянная притягивающего центра, и граничных условий r = 0, Vr = 0; Υτ= J— Таким образом, имеем <Di(fc) = Vr (tk) = 0; <Di(ft) = VT (tk) μ Kh) = o. Запишем выражения для гамильтониана и для функции G соответственно: H = PlVr + p2\^-—^ + г г mn-\m\t + Ръ VrVx PcosS r mQ - \m\t G=r(tk) + v1Vr(tk) + v2 vAh) μ Kh) 93
Общие необходимые условия оптимальности имеют следующий вид: Ρι=-Ρ2 f V2 г τ 2μ Ръ U2 J (4.4) при pi{tk) = 1+ у2уи 3/2 ' Рг = -Р\+Ръ (ν λ I *■ J при р2 (it) = vi; при />3(it) = v2; /" V \ Рг = -Рг +р>\ -^ (4.5) (4.6) (jocose -/?3sin9-) »ίη-I m 11 = 0, откуда tgd _ />2 ^3 (4.7) Шесть дифференциальных уравнений (4.1)-(4.6) должны решаться с учетом шести краевых условий. При этом ν ι и Уг выбираются так, чтобы удовлетворялись два дополнительных граничных условия: Φι(4) = 0, Фг(4) = 0. Управляющая функция β(ί) определяется через рг и р$ из выражения Рг tgO Ръ Американские ученые Копп и Макгилл решили задачу нахождения траектории межорбитального перелета КА с двигателем малой тяги, обеспечивающим минимальное время перелета между Землей и Марсом. 94
Для выбранных значений тяги Ρ = const = 0,385 кН, массы КА, покидающего орбиту, то = 4,5 τ, расхода топлива т =5,85 кг/сут, значений Щ- = 0,1405, ^/^К= 0,533 и -=£= = = 3,32 время перелета составило порядка 193 сут. Одна из минимальных по времени траекторий перелета КА с двигателем малой тяги показана на рис. 4.6, Орбита Марса ч \ 1 / у Орбита Земли Рис. 4.6. Направление тяги КА при перелете от Земли к Марсу Как видно на рис. 4.6, первую половину пути тяга направлена от Солнца, а вторую половину пути — к Солнцу. 4.4. Выведение на орбиту за минимальное время Пусть ракета-носитель КА находится под воздействием силы тяги Ρ = та. Движение ракеты-носителя описывается теми же уравнениями, что и в примере, рассмотренном в подразд. 4.2, а именно: Vx = a cos θ; Vy = a sin β; x=Vx, y=rr Требуется перевести КА на прямолинейную траекторию, параллельную оси χ и находящуюся от нее на расстоянии h = ^ад- Время перехода должно быть минимальным, т. е. 95
tk=T J= J dt, fo а скорость КА в конце выведения должна равняться заданному значению Vx зад и быть параллельной оси х. Значение дальности χ в конце участка выведения интереса не представляет. Составим гамильтониан и Щх, u,p,t) = L + ΣPifi = 1 +Ρι& cos0 +р2а sin^+p^xi +Р4Х2, ι=1 в котором переменные pt найдем, решив сопряженную систему уравнений, аналогичную примеру, рассмотренному в подразд. 4.2: дН Ρι=-^- = -Ρϊ>, ΟΧγ дН Pi =-— = -P4l, дх2 Ръ~- Ра = дН дхъ дН дхА = 0 = 0, Эти уравнения легко интегрируются: р\ = -ръ t+Cu p2=-P4t+C2; Ръ=Съ\ Ра=Са= V2. Запишем краевые условия КД0) = 0; VX(T) = VXW; Vy(0) = 0; Vy(T) = 0; *(0) = 0; рх(Т) = 0, так как конец х(Т) свободен; 96
Х0) = 0; y{T) = h = y^. Условия оптимальности, как и в примере, рассмотренном в подразд. 4.2, имеют вид = -pxa sin β + р2а cos θ = О, откуда tg9 = Рг = 'Ρ** + с2 = -Ра* + С2 Р\ ~Ръ* + с\ С\ Поскольку х(Т) не задано, то ръ(Т) = рх(Т) = С3 = 0 и функция р\ - С\ вдоль всей траектории. Оптимальным законом управления в этом случае является закон линейного тангенса tg^=tg^0-O, iWstgd0=-S-; С = ^ = Я Условие трансверсальности в задаче на максимальное быстродействие (pTf)t=t =(piacos& + p2asm&)t=tk =-1 используется для определения конечного значения времени it — ίο= Τ· [С&соъЩ)* р2(Т)аъш§(Т)\ =-1, ИЛИ da(T) = -l. Для случая, когда а = const, имеем следующие соотношения: х С tgO + secS ' Vy=—(sec θ0-sec θ); 97
a χ- σ sec$0 -sec$-tg$ln tg9-0 + sec$0 tg$+sec$ A У- a 1С (tgd0 -tge)sec00 -(sec$0 -secS)tgS-ln^° +SG°% ti tg$+sec$ Pi=PVr = COS θ. a P2=Pvy = sin θΓ a t \ 1-2- Рз=Рх=°'> 2sin$0 Ра = Ру = oT Постоянные величины So, С и конечное (минимальное) время tk= T7определяются тремя граничными условиями на правом конце: VJJ) = Vxva Vy(T)=0; y{T)=h. Эти соотношения могут быть представлены в виде 4ah tgdosec»o-lntg(n/4 + 0,5»o) χ зад {ΐηί8(π/4 + 0,5θ0)}' аТ _ tgaQ lntg(ji/4 + 0,5$0)' χ зад Cr = 2tg^( О' откуда tgd = / 1-* V Ту tg«( α/г Безразмерная величина 4—г— определяет θ0 (рис. 4.7) и, хзад следовательно, аТ χ зад (рис. 4.8). 98
%, град ЧУ) 60 30 < I I о 0,5 1,0 0,5 О Рис. 4.7. Зависимость начального угла установки тяги Э0 от безраз- ah мерной высоты 4 слева от 1,0 χ зад И г а: зад 4ah справа Рис. 4.8. Зависимость минимального времени Τπύη от безразмерной высо- ты 4—— слева от 1,0 и χ зад Aah справа: аТ„ Τ шш χ зад Таким образом, граничные условия определяют характер поведения траектории при выводе КА на орбиту. 4.5. Синтез ресурсо- и энергосберегающих систем Если в качестве критерия оптимальности системы взять критерий минимизации расхода рабочего тела (ресурса), т. е. при необходимости синтезировать оптимальную ресурсосберегающую систему, нужно потребовать выполнение минимума функционала h m J (и) = J ^ cUjdt, где q > 0 (/' = 1, 2,..., m) — некоторые весовые коэффициенты. С физической точки зрения это означает следующее: чем меньше управляем, тем меньше тратим рабочее тело (ресурс). Пример 4.1. Пусть движение объекта описывается уравнениями: Λ=Τΐ2· Заданы следующие граничные условия: 99
η2(0) = 2; η2(οο) = 0. Функционал качества h m ί0 J=l представим в следующем виде: J(v) = J(v2)u?i. о Запишем гамильтониан H = v2+p2r[2+pi(2r\2+3v) и соответствующие уравнения Эйлера — Лагранжа: р1=-2р1-р2; 2v + 3pl=0. Вместе с уравнениями движения объекта получим следующую П-систему дифференциальных уравнений: ηι=η2; ч2=2Л2-4>5л; Р\=-1Р\-Р2> [р2 = 0. Решив данную систему с учетом заданных начальных условий, получим: ^=(f^+l + f^)(l-e-2/)-fi(2c3e-24c4+c4e-2/); -it η2 = 2e"2f +|fe-2i(2c3 + c4) + |c4(e^ -1); (4.8) Pl=C4' 100
Искомое оптимальное управление имеет вид v = -l,5((c3+ic4)e-2'-lc4). (4.9) Постоянные сз и са определим из первых двух уравнений реше- с ния системы (4.8) подстановкой конечных условий: с4 = 0, с3 = ~. Выражение (4.9) для оптимального управления примет вид v = +4e~2'. Оптимальная замкнутая система будет выглядеть так: ή2=2η2+3ν; v = +4e_2i. Пример 4.2. Решим задачу конструирования системы управления для объекта, описываемого следующей системой уравнений: Χι = Ρι-^ί ~^~ *И%0 ' х2 =-β2χ2 +k2X^l Хз — /СтИ; У1=Х1+Х2. Задачей управления поставим стабилизацию переменной у1 на уровне yl = const. Тогда невозмущенное состояние объекта будет описываться следующей системой уравнений: 0 = —βχΧ^ + ^Χ2', U — Р2"^2 2^3 ' * * , * 3>ι* = *ι + х2. Отсюда следует * Λι # # Pi * * Р1Р2 * * η Χι = —у,; χ? = —у,; ^ = — >Ί i «ι=0. 1 β1+0 2 ft+*/' 3 M*l+*i) Введя ошибки переменных * * * * * 101
запишем уравнения возмущенного движения объекта ё2 =Ь22^2^Ъ1ъеъ\ ёъ=ЬъхУу, 2\ =апе1+апе2> где Ьп=-р1; ^2=^; Ь22=-Р2:> ^23=*2> %=*3> α11=α12=1· В соответствии с поставленной задачей в качестве критерия оптимальности возьмем следующий функционал: J=j(mlzl2 +\\)dt. о Преобразовав его, получим J = \(C\ \е\ + ^2^2 + С22<?2 + V? )dt, О где сП=ЩаП> С\2=^-т\а\\а\2) С22 =Ща22· Решение задачи аналитического конструирования системы управления по полученному функционалу приведет к следующему алгоритму оптимального управления: Щ =Кп (VX1 +/ί12*2 +KiX3 -1*)· Здесь "и - т, ' л12 - „ ' "π κι\ κι\ Kpt где γπ, γΐ2, γΐ3 — коэффициенты, значения которых находятся при решении задачи аналитического конструирования системы управления; 1 = "Пх1 + "12х2 + Л13х3 = 2\У\ ' 1 2- 1 Pi + Ai ' 1 Л klhn+$xklhn+ — $l$2hn 102
Для определения конкретных значений коэффициентов необходимо решить систему уравнений Гамильтона. Ниже приведен пример script-файла в MATLAB, моделирующего систему управления и выполняющего синтез оптимального регулятора с помощью процедуры dlqr: % Параметры системы Л=[Ю;-21]; β=[10;10]'; % Параметры критерия качества управления Q=[l/2 0;0 1/2]; /?=[1/2 0;0 1/2]; % Время регулирования 7=100; % Величина шага SS=0.5; % Количество шагов N=T/SS; % Вычисление параметров регулятора [к ρ е]= a\qr{A, В, Q R) χ = zeros(2y N); и= zeros(2, /V-l); % Начальные условия х(1Д)=2; х(2Д)=1; % Построение графиков динамики системы for i=l:/V-l, (/(:, /)= — к*х{:, /); х(:, /+1)=Д*х(:, i)+B*u[:, i); end xl=x(l,:); x2=x(2,:); t = O.SST-SS; subplot(4,1,1); plot(t,xl, '*>'); subplot(4,1, 2); plot(t, x2, 'g'); subplot(4,1, 3); plot(SS:SS.T-S5, u[l, :), У); subplot(4,1, 4); plot(SS:SS.T-SS, u{2, :), V); 103
В результате проведенных вычислений получим значения параметров оптимального регулятора: к = 0.8229 -0.1771 0.8229 -0.1771 Р = 3.7343-14114 -14114 11614 е = 0 1771 + О 177И 0.1771-0.17711 Графики динамики системы приведены на рис 4 9. Fie Edit Insert D^y§ 2 ν Λ 0 2ο 0 5 ί 0 } I 5 0 h * 05 ' 05 1 1 Tools Window He* Α λ * 1 1 15 ■— 15 15 ' 15 ■ 2 2 & 2 2 *■» i 25 25 1 25 25 3 3 ι 3 —ι 35 35 35 35 • 4 - 45 45 4 5 45 Рис. 4.9. Динамика состояний *ь χ и управлении и , и Прим ρ 4 3 Для объекта движение которого задается уравнением х + 4х = 2и найти управление u(t\ переводящее перемен- 104
ную x(f) из состояния х(0) = 0 в состояние х(10) = 4 и минимизи- 10 рующее функционал J = \ и2 (t)dt. о Это задача на минимум энергии, функционал которой задается квадратичной формой. Для решения задачи составим гамильтониан Н(р,х,и) = и + р(-4х + 2и), в котором p(f) определяется из уравнения Эйлера — Лагранжа: дН л р = -— = 4р дх при p{tk)=\. В результате интегрирования этого уравнения получаем Pit) = С, е4/, где p(tk) =1, откуда постоянная интегрирования С1=4- = е^°. Управление, минимизирующее функционал, определяется из необходимого условия оптимальности = 2и + 2р = О, ди откуда w(0 = _p(0=_e^°e4i. Подставив полученное управление в исходное уравнение для объекта, получим χ^-4χ-2^0^. Проинтегрируем это уравнение: х(0 = С2(1-И/)(-2е^°е4/). 105
Подставим в него значение х(10) = 4 и найдем С2 = -2их(0 = 4е-40е4/(1-е^). Графики оптимального управления и оптимальной траектории приведены на рис. 4.10. 0 2 4 6 8 10 Рис. 4.10. Графики оптимального управления и оптимальной траектории: 1 u(t); 2 — x(t) Пример 4.4. Для объекта, движение которого задается уравнением χ = и - 4х, найти управление u{t% переводящее систему из произвольной точки пространства в конечную точку х^ = 0 и минимизирующее функционал / = |(х2 +u2)dt. В нашем случае f(x, u) = u- 4х; L(x, u) = x +и и гамильтониан системы примет вид Н=х2 +и2+р(и-4х). Функцию ρ найдем, решив уравнение Эйлера дН Лагранжа: Ρ дх 2х + 4р. 106
Поскольку на управляющий параметр и не наложено никаких ограничений, то для определения минимума необходимо продифференцировать функцию Гамильтона по и: = 2и + ρ = О, ди откуда 1 и = р. 2 Решив краевую задачу л 1 χ = - 4х р; 2 р = -2х + 4р, аналогично примеру 4.3 получим оптимальное управление в виде и = (4 - 7Ϊ7 ) х. Пример 4.5. Решим задачу нахождения оптимального управления u{t\ переводящего объект, описываемый системой уравнений Xl — Xl ~Г Хт , х2 =Vw, из состояния Xq (хю, Х2о) в начало координат. В качестве конечной точки выберем начало координат хк= (0, 0). Поскольку управление и содержится под корнем, то и > 0. Качество процесса оценим функционалом τ J={\ u(t) I dt. о Определим оптимальную стратегию и = θ(χι, хг), которая обеспечивает перевод фазовой точки из произвольного начального состояния в начало координат и притом так, чтобы на траекториях движения функционал /, характеризующий расход топлива, принимал наименьшее значение. 107
Запишем гамильтониан Н= \и\ + ρί(χι+ х2) + р24и , в котором рх и р2 найдем из уравнений Эйлера — Лагранжа: Ρι=-Ρι> Для определения минимума необходимо продифференцировать гамильтониан по и. Учитывая ограничения, наложенные на и, получаем равенство 1+Р2—Г=0, 2-Ju откуда и, следовательно, л/й = р2 2 1 2 U= —р2 4 Уравнения Эйлера — Лагранжа примут вид ■ _ Pi ■ - ■ _ Χγ-Χγ+Xj, Xj- ·> Pi Ръ Р\- Ρ\· Решив уравнения Эйлера — Лагранжа, найдем, что оптимальное управление является квадратичной функцией вектора состояния: и = 4(4χι + 4х2)2· 4.6. Посадка на поверхность планеты объекта постоянной массы Рассмотрим задачу нахождения оптимальной по расходу топлива тяги двигателя P(t) при посадке КА постоянной массы т на поверхность планеты, лишенной атмосферы, в функции от высоты h и вертикальной скорости h. Космический аппарат находится на высоте h -x\(t) и движется с вертикальной скоростью h -X2(t). 108
Уравнения движения ΚΑ имеют вид Xl(t) = X2(t) при Х!(0) = χί0, χι(4) = х1к; т где abs(P(0) < Рщ*.; χι(Ρ) = ад xifa) = хгь g = const — ускорение свободного падения на планету; тяга Рт^ > mg; время &не задано. Количество потребляемого топлива определяется соотношением /= \\P(t)\dt Это задача, как и задачи, рассмотренные в подразд. 4.5, на минимум расхода топлива. Поскольку при решении используем классическое вариационное исчисление, то, чтобы учесть ограничение на силу тяги Р, введем штрафную функцию вида и = sin α, так как abs(sin α) < 1. Тогда ДО = ^тах"· Представим исходную систему уравнений как χ = f(x, й) и получим Мх,и) = х2; J2\x,u) = g= g- т т Запишем функцию Гамильтона Н = L +p\f\ +pifi = absCFUxSin α) + ρ\χ2 + Р2(РтжЫп dm -g) = ί Ρ и Л = absCPmaxM) + piX2 + pi max - g . V m J Система уравнений для нахождения составляющих pt имеет вид 109
дн Ρι=-— = θ; дН дх2 Интегрируем сопряженную систему: р\ = const =p\(tk) = Cu P2 = -Pit+C2 = -Cit+C2. Оптимальное управление найдем из условия дН л ,_ ч i^cosa — = аЫ(Рт cos α) + ρ2 -^ οα т ΡιΡ, Pmaxsigna + max" m = cosa откуда либо cos a = 0, и тогда sin a = +1, либо /^signa^2 π max = o, m = 0. Последнее выражение может выполняться на интервале времени лишь при α = 0, так как в противном случае ему будет удовлетворять лишь одно значение времени t. Таким образом, управление и может принимать три значения: (-1; 0; 1), а исходя из физики процесса спуска КА — лишь два значения: (1; 0), т. е. либо есть тяга, либо двигатель выключен. Момент включения/выключения двигателя определяется из условия обеспечения конечных значений на траектории спуска КА. Поскольку рассматриваемая задача — это задача с закрепленными концами, το/>ι(4) = 1 и/>2(Д) = 1· Следовательно, P2(tk) = \=-tk+C2, откуда C2=\-tk и p2(t)=-t + tk+\. 110
Обозначим т где Κ(ί) — линейная функция от времени L Значение и = 0 оптимально лишь при -1 < K(t) < 1, т. е. и = О возможно на единственном интервале Для определения этого интервала построим фазовые траектории движения КА (рис. 4.11). h, м/с -4000 -2000 0 2000 4000 h, м Рис. 4.11. Фазовые траектории в координатах высота (/г) — скорость (h) при различных значениях силы тяги: / — фазовые траектории при свободном падении (и = 0); 2 — фазовые траектории при максимальной тяге вверх (и = 1); 3 — фазовые траектории при максимальной тяге вниз (и = -1); 4 — три фазовые траектории, проходящие через нуль Заметим, что и начальные, и конечные условия находятся в четвертом квадранте (скорость отрицательна, а высота — положительна). Далее, так как конечные условия малы и точка, соответствующая им (конечная точка), находится вблизи начала координат, дальнейшие рассуждения в целях упрощения будем проводить, предполагая, что конечная точка совпадает с началом координат. 111
Единственная траектория (обозначим ее 7Ί) находящаяся в рассматриваемом квадранте и проходящая через начало координат, соответствует максимальной тяге вверх. Из любой точки квадранта выходят две граектории, пересекающиеся с Ти — они соответствуют свободному падению и максимальной тяге вниз Легко убедиться, что оптимальная из них — та, что соответствует свободному падению. Учитывая полученный с использованием классического вариационного исчисления результат, т. е то, что в программе спуска может быть не более одного участка свободного падения, получаем, что оптимальная программа посадки состоит из двух участков: вначале свободное падение, а затем — максимальная тяга вверх. На рис 4 12 показаны зависимость траектории и области маневра в координатах от высоты h и вертикальной скорости h Λ мс 4000 2000 0 2000 4000 А м Рис. 4.12. Возможные области маневра КА на фазовой траектории в координатах высота — скорость В случае если КА находится в области, закрашенной черным цветом авария неизбежна Математическое выражение для высоты на этом участке. *ю> х2 2g + xlk-t 2g или h > и 2g + xlk + 12к 2g 112
Когда КА находится в области, закрашенной серым, задача посадки КА в принципе может быть выполнена. Если же КА находится точно на границе этих областей, максимальная тяга вверх обеспечит его вывод в заданную точку. И эта траектория единственная, т. е. оптимальное по расходу топлива решение единственно, если не учитываются возмущения. Для исходных данных хю = 5400 м, хго = - 225 м/с, х\к = 40 м, xik = -4,0 м/с, т = 4000 кг, ускорение Марсаg = 3,76 м/с иРпж = = 100т путем моделирования при заданных условиях в системе MATLAB получены результаты, представленные на рис. 4.13-4.15. 4000 1000 0 5 10 15 20 г, с Рис. 4.13. Зависимость высоты снижения от времени h, м/с xi(f) 5 10 15 20 t,c Рис. 4.14. Зависимость скорости снижения от времени 300 0 1000 2000 3000 4000 5000 h, м Рис. 4.15. Фазовая траектория снижения КА ИЗ
4.7. Задача стыковки и причаливания космических объектов На орбиту по криволинейной траектории выводится перехватчик. По орбите движется цель, с которой должна пройти стыковка перехватчика (рис. 4.16). Цель Перехватчик Рис. 4.16. Схема перехвата Перехватчик 9 Цель 200 м Рис. 4.17. Этап перехвата и стыковки Этап стыковки можно считать прямолинейным, так как его длина примерно равна 200... 400 км, что составляет 0,5-1 % от длины круговой орбиты, равной 41 000 км. При этом положение тел друг относительно друга выглядит так, как показано на рис. 4.17. В этом случае можно допустить, что на объект действуют лишь гравитационная сила, перпендикулярная траектории, и сила тяги реактивного двигателя, управляемого с помощью системы автоматического управления. Уравнения движения двух объектов вдоль оси χ при этом примут вид Ρ v2= *r m ■■v, где Χι и V\ — координата и скорость перемещения первого объекта (цели); х2 и Уг — координата и скорость перемещения второго 114
объекта (перехватчика); Ρ — сила тяги двигателя перехватчика; т — масса перехватчика. Сила тяги может менять направление и зависит линейно от перемещения управляющего органа: Ρ = К$. Астатический регулятор ускорения описывается уравнением h=Kv{u-v2), в котором К — коэффициент передачи рулевого привода; и = = u(t) — требуемое ускорение, подлежащее определению; V2 — текущее ускорение перехватчика, измеренное вдоль оси х. Исходные данные: время процесса стыковки Т= 30 с, начальная координата цели Хю = 1200 м, начальная скорость цели V\q = = 8000 м/с, начальная координата перехватчика хго = Ю00 м, начальная скорость перехватчика Vio = 8000 м/с, перемещение руля δ0 = 0 рад, масса m = 2943 кг, коэффициент передачи управляющего органа К& = 9810, коэффициент передачи Кр= 10. В конце процесса стыковки координаты и скорости перехватчика и цели совпадают. Постановка задачи оптимального управления: предполагая, что цель движется без ускорения (щ = 0), определить закон управления ускорением и = u(t) перехватчика, обеспечивающий плавную безударную стыковку двух космических объектов и при этом минимизирующий энергию управления на промежутке времени управления [0, Т\\ τ J= \u2(t)dt —»min. о "(О При решении данной задачи рассмотрим последний этап выведения на орбиту перехватчика — этап его стыковки с целью. По условию задачи этап стыковки прямолинейный, поскольку его длина составляет 0,5... 1 % от длины круговой орбиты. Также можно считать прямолинейной и траекторию движения перехватчика, это следует из начальных условий. Для удобства расчетов выберем начало системы координат, совпадающее с целью. В роли функции управления выступает ускорение перехватчика. 115
Запишем исходную систему уравнений: т ^2=V2 =/4· Составим гамильтониан системы Н: H = L + pTf = и2 + рхах + р2У[ +р3 — + p4V2: т (4.10) где Х1 *2 х3 х4 = Ά; = χ\> = ν2\ = х2. Уравнения для сопряженной системы имеют вид ^т дН или * - д дН дхх дН дх2 дН дхъ дН 1 X :-р2; = 0; ~Ра\ = 0. Отсюда следует, что рг = const и р4 = const. Тогда решение сопряженной системы уравнений будет выглядеть так: 116
Pi — ^2 '■> Pa = ^4 '■> Pi = ~Pit + Q => A = _C2i+ Q' ръ = -p4t + C3 => />3 = -CAt + C3. Чтобы использовать необходимое условие оптимальности т η « —з- = и, требуется учесть действие на силу тяги астатического ди регулятора ускорения (Ь=Кр(и - V2)). Для этого рассмотрим следующие уравнения: V2=—; Ρ = Κδδ. т Следовательно, можно записать τ V2m = P= K5JKv(u-V2)dt, о или т> Т т = judt-jv2dt. κδκν о о Исходя из условия выбора системы координат, имеем г JY2dt=0. Тогда о τ Vr,m ΚδΚν о = Г udt, или V2=^L^\udt. m 0 117
Подставив последнее выражение в гамильтониан (см. (4.10)) и используя необходимое условие оптимальности, получим —^ = -ръ \udt + Ъа = 0; ди mdu Q τ ι udt 2и=ръ LiL—; m au 21 udu =ръ \ udt; 0 m 0 u2 КЪК т. 2— = p3 udt, 2 m J0 или г— = Ръ - \udt πι В начале и конце процесса стыковки управление будет максимальным, но с отличием в знаке, т. е. τ udt = -u — u = —2u . о С учетом последнего выражения можно найти и: U1 КЪКр -2и т откуда 2ΚδΚρ „ 2ΚδΚρ , „ 2ΚδΚρ и = -ръ = С4 1 - С3 . т т т Найдем время переключения. Так как управление симметрично относительно времени переключения, u(t ) = 0. Следовательно, можно написать 118
или откуда 2КяКп 2Κ*Κ„ г ° Ρ * —г ь р т т ^4^пер — ^3» С, t = Окончательно, подставив в последнюю формулу численные значения Сз, Сц найдем время переключения tnep = 15. Схематично построим график управления и (рис. 4.18). Управление и = 66,7(C4t- Сз). Рис. 4.18. График управления и 4.8. Управление скоростью дисковых ножниц Дисковые ножницы должны нарезать материал строго определенной длины. В связи с тем, что скорость подачи материала в процессе управления несколько изменяется, она измеряется совместно со скоростью вращающихся фрез. Эти сигналы используются в действующей модели для поддержания длины нарезаемого материала в допустимых пределах. Рассмотрим частную задачу, а именно переход от одного разрезанного куска к другому путем изменения скорости вращающейся фрезы. Чтобы избежать брака материла, подводимого к ножницам, изменение скорости должно быть плавным. Однако оно должно быть и быстрым, чтобы уменьшить количество производимого за один проход материала нежелательной длины, так как подобный материал составляет отходы производства. Желаемое изменение скорости фрезы в функции времени у™ (t) = = 0,5[1 + cos(7tf/10)] показано на рис. 4.19. Для простоты начальное значение скорости нормализуем и приравняем единице, а начало перехода соответствует нулю. 119
О 2 4 6 8 10 t Рис. 4.19. Желаемое изменение скорости фрезы Уравнения объекта управления имеют вид χ = Ах + Вй\ у = Сх, 0 -0,25 1 -0,2 J • в = , "0 0" [о ioJ ; С = , *■* "2 0" [о ι J где А = Целью построения является линейный регулятор, стремящийся, чтобы выходной сигнал y\(i) воспроизводил желаемый сигнал уГ(0 при ограничениях типа зоны насыщения: | u2(t) | < 0,2; | y2(t) I < 0,2. Реакция системы при единичном начальном условии должна быть несколько задемпфированной, т. е. перерегулирование не должно превышать пяти процентов. Диапазон начальных условий для вектора состояния объекта управления: 0,5 <х10< 0,75; 1 <у10< 1,5; 0<_у2о<0,2. В качестве показателя качества примем h. 2 1 V /=-|[(хж-х)т£(хж-х) + ^ж =ч ■ йтШ dL к где χ (t) — желаемое поведение системы, т. е. 120
χΓ(0 = 0,25 Kt 1 + cos— 10 *?(0 = *Г(0 = - f π^ sm- πί У40] 10 дщя 0 < ί < 10. С целью определения весовых коэффициентов показателя качества положим tk равным бесконечности. Передаточная функция замкнутой линейной стационарной системы определяется как <вд ι T2s2+2^Ts + l Так как проектируемая система должна иметь перерегулирование, не превышающее пяти процентов, и нулевую позиционную ошибку выбираем из первой стандартной формы (см. табл. 2.1) ζ = 0,7. Для определения постоянной времени Τ решим уравнения (2.41) относительно ν^Ο) при ν(^)=0: * * Ж * * 7 2 τ * . -V1 —4l2X2 +a22V2 +a12vl ~ЩзгтэУг-> -v2 = qxхххж + a2Xvx + axxvx -\xk2Xv2. Подставим результат в уравнение (2.45) совместно с уравнениями (2.44) и «худшими» значениями xi(0) = 0,75, Хг(0) = 0,2 и т (0) = - 0,2 и получим решение: 7 = 0,43834965; дп = 0,06786696; #22 = 0,02075401. Далее после определения этих величин предположение о бесконечном tk отбросим и рассчитаем оптимальную систему для 4 = 10. На рис. 4.20 показаны графики изменения переменных ν2(ί)> s22 (0 и s2X (0 на интервале управления. 121
v2> ^22^21 0,05 0,04 0,03 0,02 0,01 ^ 2 ^^^^^.7 1 1 Ί "\ \ ^ 0 2 4 6 8 10 ί Рис. 4.20. График изменения переменных: l—\*2(t); 2— s22(t); 3 — s21(t) На рис. 4.21 и 4.22 показаны переходные процессы по выходным координатам у$) и y2(t) при двух крайних значениях начальных условий: _у1(0)=1}5, У2Ф) = 0,2 (пунктирная кривая); Ух(0) = 1,0, у2(0)=0 (сплошная кривая). 0 2 4 6 8 10 ί Рис. 4.21. График переменной ух{1): 1 при Л(0) = 1,5, у2(0) = 0,2; 2 при Л(0) =1,0, ^(0) = 0 На рис. 4.23 приведены значения управляющего сигнала u2{t) также при двух крайних значениях начальных условий. 122
Рис. 4.22. График переменной y2(t) '· при Л(0) = 1,5, у2(0) = 0,2; 2 — при Л(0) =1,0, у2(0) = 0 0,16 0,08 0 0,08 0,16 -0,24 1 10 t Рис. 4.23. График управляющего сигнала Щ (0 · - при Л(0) = 1,5, ^2(0) = 0,2; 2 — при Л(0) =1,0, у2(0) = 0 Как следует из графиков, приведенных на рис. 4.20 - 4.23, синтезированная система отвечает всем требованиям, за исключением ограничения на y2(t), которое можно учесть, используя метод штрафных функций или синтезируя нелинейный регулятор. Для поддержания у2 (0 в заданных пределах можно ввести в показатель качества штрафную функцию ,22|Zi(Or^22|M)r5 422 ' 0,2 0,2 в которой показатель степени μ следует выбирать так, чтобы соблюдалось ограничение, накладываемое на у2 (t), путем итерации 123
закона управления до тех пор, пока ^(ί) не станет соответствовать заданным пределам. Однако возможности линейного регулятора при большой области начальных условий ограничены в смысле качества управления. В подобных случаях желательно использование нелинейного регулятора. 4.9. Задача с подвижным правым концом На плоскости задана линия у = χ и точка с координатами (х = = О, у = 10). Используя вариационное исчисление, найти линию, соединяющую точку (0,10) с кривой у = χ и имеющую минимальную длину. Функционал, определяющий длину кривой и подлежащий минимизации, выглядит следующим образом: J = jyj\ + (z')2dx. Линия, которую надо найти, обозначим z(x), чтобы не путать с кривой у = х2 (это разные кривые), но фактически z(x) есть_у(х). Минимум данного функционала определяет линию наименьшей длины среди линий, соединяющих точки (а, А) и (Ь, В). В рассматриваемом случае а - 0, Ъ - х^ граничные условия: А - = z(0)=\0,B = z(b)=y(b)=x2k. Данная задача относится к классу задач с подвижным правым концом. Запишем для нее уравнение Эйлера d 6L dL _ n dt бх бх и условие трансверсальности L — x ν бх J °Λ + '=** 6L бх 6xk = 0. '='* Функция, доставляющая минимум функционалу, является решением уравнения Эйлера и удовлетворяет условию трансверсальности. 124
В нашем примере L=^l + (ζ')2 , t = χ, χ = ζ, а уравнение Эйлера приобретает следующий вид: ( . \ = 0. d_ dx Vi+(0 2 Это уравнение имеет циклический первый интеграл, т. е. nodi скольку в функционале — = 0, или L = L(z',x), то уравнение Эй- dz лера имеет первый интеграл dL — = с = const. dz' Таким образом, г Σ Выразим из этого уравнения ζ': ζ =■ После интегрирования этого уравнения получим z(x) = —^=x + c7. (4.11) Постоянную а находим из краевого условия z(0) = 10: с2 = 10. Для нахождения постоянной с\ используем условие трансверсальности. Поскольку задано ограничение типа равенства на правом конце то Ф=х2 -у =0, дФ 125
и тогда условие трансверсальности приобретает вид = 0. с ■ а/Л V dz x=xk Подставим в это уравнение трансверсальности полученные соотношения для L, Φ, z\ тогда ^l + z'(xk)+[2xk-z'(xk)] Z'(Xk) = 0 ψ + ζ'(χ,)2 или после упрощения Поскольку *'(**) = - 2х, z" = const = 1 то ч=- ^ ^ 2 сх Подставив хк в выражение (4.11) для z(xk), получим z(xk) = -]- +10 = 9,5, и с учетом ς(χ^) = % найдем, что 1 1 ci=+ = = i >/ϊ+4* 39 Исходя из логики задачи, выберем су 126
Контрольные вопросы и задачи 1. В чем отличие задачи, рассмотренной в подразд. 4.2, от задачи, рассмотренной в подразд. 4.4? 2. Программа оптимального управления направлением тяги (см. подразд. 4.2) имеет следующий вид: 0 = $! при 0<ί<—; β2 при |<г<2\ где 0i = const. Такая программа дает значение 0 (7) = 0. Найдите такое значение θΐ5 чтобы у (7) = /г, и определите VJJ) и х(7). Сравните полученное значение VX{T) с Vx max(7), найденным в подразд. 4.2, для заданного h/aT2. Ответ: βι = arcsin—-, VJJ) = aTcos θι, χ (Τ) = - αΤ2 cos 0Ь αΓ2 2 3. Решите задачу оптимального управления: / = min j (и2 -x2)dt; и о х = и: I и |< 1; х(0) = χ — π = 0. 4. Найдите оптимальное управление и оптимальную траекторию: / = птт|и<#; w I < 24: н о Λΐ — Лл ^ Ат — W х1(0) = 11;х1(1) = х2(1) = 0. 127
5. Решите задачу оптимального управления: 4 / = mini (и- χ )dt; и 0 х = и; | и|<1; х(0) = 0; х(4) = 1. 6. Найдите оптимальное управление и оптимальную траекторию: τ J = mmju2dt + T2; х = и; | и |< 1; х(0) = 0; х(Т) = 1. 7. Синтезируйте оптимальное управление: / = Г-> min; \и\<1; Χι(Τ) = χ2(Τ) = 0. 8. Решите задачу оптимального управления: τ J = min ι (χ2 + и2)dt\ и о χ = —χ + и; ugR . 9. Решите задачу оптимального управления: ι / = min Г (χ2 + 2м2 )dt; и о х = —]= + Щ х(0) = 1. V2 128
10. Найдите оптимальное управление: π J = mm\(u -xx)dt\ и о Λι(0) = ^1(π) = 0; *2(0) = 1. 11. Решите задачу стыковки космических объектов из примера, приведенного в подразд. 4.7, при условии, что цель движется с ускорением ах = 2 м/с . 12. Постройте множество достижимости Q{\) из точки [0, 0] для системы Χι — Хо ; -^2 = ^ *^1 ^' | м | < 1; α > 0. 13. Выведите критерий управляемости линейной системы £ = Л#)Зс+Я(0м, хеД\ ueRm из начала координат на линейное многообразие Dx =Ь, где £> — матрица полного ранга размером г χ п. 14. Покажите, что в случае, если вывод КА выполняется в постоянном поле тяготения, уравнения Эйлера — Лагранжа для функций влияния не изменяются и закон дробно-линейного тангенса направления вектора тяги остается оптимальным. Примечание. Если принять, что ось у направлена противоположно силе притяжения, то задача отличается от задач, разобранных в подразд. 4.2 и 4.4, лишь уравнением для вертикальной составляющей ускорения Vy=asm&-g, где g — гравитационное ускорение. 129
15. Определите оптимальное управление и оптимальную тра- 10 екторию для объекта хх — х2, х2—и ПРИ J =■ \u2dt и следующих о граничных условиях: a)jq(0) =0; х2(0) =0; хх{Щ = 10; х2(10) =0; б) jq(0) =0; х2(0) =0; хх{Щ = 10; в) ^(0) =0; х2(0) =0; х2(Щ =0; г) xt(0) = 5; х2(0) =0; ^(10) = 10; х2(10) =0; Д) *(0)=0; х2(0)=5; хх(Щ= 10; х2(Ю) = 0. 16. Определите оптимальное управление и оптимальную тра- 10 екторию для объекта хх = х2, х2—и-\ при J = \u2dt и следую- о щих граничных условиях: а)^(0)=0; х2(0)=0; л^(10)= 10; х2(10)=0; б)х1(0)=0;х2(0)=0;х1(10)=10; в) Xi(0) = 0; x2(0)=0; х2(Ю)= 10; г) Xi(0)=5; x2(0)=0; ^(10)= 10; х2(Ю)=0; д) Х!(0)=0; х2(0)=5; хх{Щ= 10; х2(Ю)=0. 17. Определите оптимальное управление и оптимальную траекторию для объекта х^х^ х2 = — 5хх — 4х2 + и при / = = [(м2+3х1 +3*2 + 4xxx2)dt и следующих начальных условиях: о хЛО) = 2; х2(0)=1. 18. Определите оптимальное управление и оптимальную траекторию для объекта хх—х2, х2—-5х1-2х2+Ъи при / = 00 = \{2и2 + 2х2 + 2х\ + 2xxx2)dt и следующих начальных условиях: о х1(0) = 2;х2(0)=1.
Заключение Большой класс задач оптимального управления может быть решен с помощью вариационного исчисления, дающего ряд необходимых условий, которым должна удовлетворять оптимальная траектория. Необходимыми условиями являются: уравнения Эйлера — Лагранжа, условие Лежандра, условие Вейерштрасса и условие Якоби. Классическая трактовка вариационного исчисления не допускает наличия управляющего воздействия. Это препятствие можно обойти, введя дополнительную переменную xn+\(t) такую, что νι(0=«(0. Изучив основные положения вариационного исчисления, студенты могут приступить к анализу уравнений Эйлера — Лагранжа, необходимых условий оптимальности и применить их к задачам оптимального управления. Вариационное исчисление помогает определить необходимые условия оптимальности для достаточно широкого круга задач управления. Задача оптимального управления с интегральными показателями качества известна как задача Лагранжа, задача оптимального управления конечным состоянием — как задача Май- ера, задача с обобщенным критерием — как задача Больца. Если управляющие воздействия ограничены, то используют метод Валентайна, который предусматривает введение достаточного числа дополнительных переменных. Применяя различные необходимые условия для сложной нелинейной задачи, получим двухточечную краевую задачу, включающую в себя In дифференциальных уравнений. Только в редких случаях ее можно решить аналитически. Для класса линейных оптимальных задач управления с показателем качества в виде интеграла от положительно-определенной квадратичной формы переменных векторов состояния и управления можно найти аналитическое решение. 131
Литература Деменков Н.П. Вычислительные аспекты решения задач оптимального управления: учеб. пособие. М.: Изд-во МГТУ им. Н.Э. Баумана, 2007. 171 с. Деменков Н.П. Вычислительные методы решения задач оптимального управления на основе принципа максимума Понтрягина: учеб. пособие. М.: Изд-во МГТУ им. Н.Э. Баумана, 2015. 78 с. Деменков Н.П. Практикум по динамическому программированию: учеб. пособие. М: Изд-во МГТУ им. Н.Э. Баумана, 2015. 98 с. Деменков Н.П., Васильев Г.Н. Управление техническими системами: учеб. М.: Изд-во МГТУ им. Н.Э. Баумана, 2013. 399 с. Деруссо П., Рой Р., Клоуз Ч. Пространство состояний в теории управления. М.: Наука, 1970. 484 с. Летов A.M. Динамика полета и управление. М.: Наука, 1969. 312 с. Методы классической и современной теории автоматического управления: учебник: в 5 т. Т. 4: Теория оптимизации систем автоматического управления / под ред. К.А. Пулкова и Н.Д. Егупова. М.: Изд-во МГТУ им. Н.Э. Баумана, 2004. 744 с. Многоканальные системы оптимального управления: производственно-практическое издание / Е.Е. Александров [и др.]. Киев: Технжа, 1995.281с. Салуквадзе М.Е. Задачи векторной оптимизации в теории управления. Тбилиси, 1975. 201 с. Сборник лабораторных работ по курсу «Управление в технических системах»: метод, указания к лабораторным работам / под ред. К А. Пулкова. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002. 72 с. Сайт кафедры ИУ-1: http://iul.bmstu.ru/materials/ Сайт библиотеки МГТУ им. Н.Э. Баумана: http://library.bmstu.ru/
Оглавление Предисловие 3 Глава 1. Необходимые условия оптимальности 6 1.1. Необходимые условия оптимальности на фиксированном интервале времени 6 1.1.1. Оптимизация при отсутствии краевых условий на правом конце траектории 6 1.1.2. Оптимизация при фиксированных значениях некоторых переменных состояния 12 1.1.3. Оптимизация при заданных значениях функций от фазовых координат (задача с подвижным правым концом) 19 1.2. Необходимые условия оптимальности на нефиксированном интервале времени 21 1.2.1. Оптимизация задачи при фиксированных значениях некоторых переменных состояния 21 1.2.2. Оптимизация задачи с подвижным правым концом 27 1.2.3. Задачи оптимального быстродействия 31 1.2.4. Оптимизация по расходу энергии и ресурсов 32 Контрольные вопросы и задачи 34 Глава 2. Управление с обратной связью по состоянию 35 2.1. Линейные системы с квадратичным критерием качества 35 2.1.1. Терминальные управляющие устройства 36 2.1.2. Решение краевой задачи с помощью переходной матрицы 39 2.1.3. Решение краевой задачи с помощью метода прогонки 41 2.2. Выбор весовых коэффициентов показателя качества 53 2.2.1. Процедура Брайсона 53 2.2.2. Процедура Эллерта 54 2.2.3. Процедура М.Е. Салуквадзе 59 Контрольные вопросы и задачи 64 133
Глава 3. Задачи оптимизации динамических систем при наличии ограничений на траекторию 65 3.1. Интегральные (изопериметрические) ограничения 66 3.2. Ограничения в виде равенств на управление 69 3.3. Ограничения в виде равенств на функции управления и фазовых координат 70 3.4. Ограничения в виде равенств на функции фазовых координат 71 3.5. Метод функции штрафов 73 3.6. Ограничения в виде неравенств на управляющие переменные 75 Контрольные вопросы и задачи 80 Глава 4. Примеры решения задач 82 4.1. Задача о брахистохроне 82 4.2. Максимизация скорости в конце участка выведения КА на прямолинейную траекторию 87 4.3. Оптимальная траектория перелета на круговую орбиту максимального радиуса за заданное время......... 92 4.4. Выведение на орбиту за минимальное время 95 4.5. Синтез ресурсо- и энергосберегающих систем 99 4.6. Посадка на поверхность планеты объекта постоянной массы.... 108 4.7. Задача стыковки и причаливания космических объектов 114 4.8. Управление скоростью дисковых ножниц 119 4.9. Задача с подвижным правым концом 124 Контрольные вопросы и задачи 127 Заключение 131 Литература 132
Учебное издание Деменков Николай Петрович Оптимальное управление в классическом вариационном исчислении Редактор ОМ. Королева Художник ЯМ. Асинкритова Корректор КВ. Савельева Компьютерная графика М.В. Пинегиной Компьютерная верстка А.Ю. Ураловой Оригинал-макет подготовлен в Издательстве МГТУ им. Н.Э. Баумана. В оформлении использованы шрифты Студии Артемия Лебедева. Подписано в печать 20.05.2017. Формат 60x90/16. Усл. печ. л. 8,5. Тираж 100 экз. Изд. № 029-2016. Заказ Издательство МГТУ им. Н.Э. Баумана. 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1. press@bmstu.ru www.baumanpress.ru Отпечатано в типографии МГТУ им. Н.Э. Баумана. 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1. baumanprint@gmail.com