/
Автор: Александров А.Г.
Теги: компьютерные технологии вычислительная техника микропроцессоры оптимизация эвм учебное пособие теория управления
ISBN: 5-06-000037-0
Год: 1989
Текст
А.Г. АЛЕКСАНДРОВ
ОПТИМАЛЬНЫЕ
и
АДАПТИВНЫЕ
СИСТЕМЫ
Допущена
Государственным комитетом СССР
по народному образованию
в качестве учебного пособия
для студентов вузов,
обучающихся специальности
«Автоматика и управление
в технических системах»
Москва
«Высшая школа» 1989
ББК 32.97
А46
УДК 681.3
Рецензенты
кафедра автоматики и телемеханики Московского
инженерно-физического института (зав. кафедрой проф. Е. В. Филипчук);
проф. С Д Земляков (Институт проблем управления)
Александров А. Г.
А46 Оптимальные и адаптивные системы: Учеб. пособие для
вузов по спец. «Автоматика и упр. в техн. системах». М.:
Высш. шк., 1989. — 263 с: ил.
ISBN 5-06-000037-0
Вводятся понятия и формулируются задачи оптимального и адаптивного
управления. Излагаются математические теории оптимизации и адаптации, на
основе которых затем строятся методы расчета оптимальных и адаптивных систем.
Эти методы излагаются в форме процедур и алгоритмов, удобных при создании
программ для ЭВМ. Приводятся доказательства сходимости этих процедур и
алгоритмов и приводятся содержательные примеры их практического применения.
А 1402060000(4309000000)—425 ББК 32.97
А — * '- 74—89 6Ф7
001(01)-89 ЬФ/
ISBN 5-06-000037-0 © Издательство «Высшая школа», 1989
Предисловие
Предлагаемая вниманию читателей книга написана в
«современном» стиле, который характеризуется сравнительно высоким
уровнем формализации изложения. Такой стиль является не
данью моде, а вызван формой использования приводимых
результатов. Дело в том, что широкое внедрение универсальных
ЭВМ в практику расчета алгоритмов работы регуляторов и
управляющих ЭВМ для их реализации требует математически
строгого описания процедур расчета и алгоритмов управления.
Формализация изложения предъявляет повышенные требования к
аналитическому мышлению и математической культуре
студентов.
Книга состоит из двух частей. Первая часть посвящена
оптимальным системам, вторая — адаптивным. Изложение ведется
так, что части независимы и могут изучаться в любом порядке.
Каждая из частей содержит по пять глав. Части имеют сходную
структуру. В начале каждой из частей (глава 1-я и первая
половина главы 6-й) вводятся понятия, формулируются задачи и
приводятся содержательные примеры оптимального и адаптивного
управления. Затем в главе 2-й и во второй половине главы 6-й
излагаются математические теории, на базе которых в
последующих главах (главы 3—5-я и 8, 9, 10-я) строятся методы
расчета оптимальных и адаптивных систем.
Изложение каждого метода синтеза оптимальных систем и
метода построения алгоритма работы адаптивного регулятора
резюмируется в виде некоторого утверждения, которое является
основой для написания алгоритмического модуля. На основе этих
модулей создаются программные модули, входящие в систему
автоматизированного проектирования (САПР) объекта и
предназначенные для синтеза оптимального регулятора, либо эти
программные модули входят в систему программ мини- или мик-
роЭВМ, реализующей алгоритм работы адаптивного регулятора.
Для более глубокого понимания утверждений приводятся в
краткой форме их доказательства. Более развернутые доказательства
перенесены в приложения.
Многие параграфы заканчиваются модельным или
содержательным примером, предназначенным для более детального
представления процедуры синтеза оптимального алгоритма или
алгоритма адаптивного управления. Кроме того, содержательные
примеры подчеркивают практическую применимость процедур и
3
алгоритмов для проектирования оптимальных и адаптивных
систем.
Часть заглавий подпараграфов отмечена звездочкой. Эти под-
параграфы и приложения содержат материал для углубленного
дальнейшего изучения и могут быть опущены при первом чтении.
Список литературы в конце книги содержит названия статей,
в которых впервые были получены излагаемые результаты, либо
статей, в которых эти результаты получили существенное
развитие, и названия монографий, где можно найти более подробное
изложение доказательств и обобщение приводимых методов.
Замечания и пожелания, касающиеся книги, можно
направлять по адресу: 101430, Москва, ГСП-4, Неглинная ул., д. 29/14,
издательство «Высшая школа».
Автор
Введение
Развитие теории оптимального управления связано с ростом
требований к быстродействию и точности систем регулирования.
Увеличение быстродействия возможно лишь при правильном
распределении ограниченных ресурсов управления, и поэтому учет
ограничений на управление стал одним из центральных в теории
оптимального управления. С другой стороны, построение систем
регулирования высокой точности привело к необходимости учета
при синтезе регуляторов взаимовлияния отдельных частей
(каналов) системы. Синтез таких сложных многомерных
(многосвязных) систем также составляет предмет теории оптимального
управления.
К настоящему времени построена математическая теория
оптимального управления. На ее основе разработаны способы
построения оптимальных по быстродействию систем и процедуры
аналитического конструирования оптимальных регуляторов.
Аналитическое конструирование регуляторов вместе с теорией
оптимальных наблюдателей (оптимальных фильтров) образуют
совокупность методов, которые широко используются при
проектировании современных сложных систем регулирования.
Сложность задач теории оптимального управления
потребовала более широкой математической базы для ее построения.
В названной теории используются вариационное исчисление,
теория дифференциальных уравнений, теории матриц. Развитие
оптимального управления на этой базе привело к пересмотру
многих разделов теории автоматического управления, и поэтому
теорию оптимального управления иногда называют современной
теорией управления. Хотя это и преувеличение роли лишь одного из
разделов, однако развитие теории автоматического управления
определяется последние десятилетия во многом развитием этого
раздела.
В построение теории оптимального управления внесли
большой вклад советские ученые А. Н. Колмогоров, Л. С. Понтрягин,
Н. Н. Красовский, А. М. Летов и зарубежные — Н. Винер, Р. Бел-
лман, Р. Е. Калман.
Развитие теории адаптивного управления вызвано все
нарастающим количеством сложных объектов управления различной
физической природы, параметры которых не определены.
Причиной этой неопределенности могут являться: множество
режимов работы объектов либо невозможность их экспериментально-
5
го исследования с целью определения параметров без нарушения
технологического процесса, наконец, сжатые сроки
проектирования, не допускающие временных затрат на исследования и
расчеты для определения параметров динамической модели объекта.
Регулятор объекта с неопределенными и изменяющимися
параметрами должен изменяться (адаптироваться) так,, чтобы
работоспособность и точность системы оставались неизменными.
Теория адаптивного управления находится в стадии
становления, и к настоящему времени разработано большое количество
приемов, способов и методов синтеза адаптивного управления,
позволяющих проектировать эффективные системы управления
при неопределенных параметрах объекта.
ЧАСТЬ ПЕРВАЯ. ОПТИМАЛЬНЫЕ СИСТЕМЫ
В широком значении слово «оптимальный» означает
наилучший в смысле некоторого критерия эффективности. При таком
толковании любая научно обоснованная система является
оптимальной, так как при выборе какой-либо системы
подразумевается, что она в каком-либо отношении лучше других систем.
Критерии, с помощью которых осуществляется выбор (критерии
оптимальности), могут быть различными. Этими критериями могут
являться качество динамики процессов управления, надежность
системы, энергопотребление, ее вес и габариты, стоимость и т. п.,
либо совокупность этих критериев с некоторыми весовыми
коэффициентами.
Ниже термин «оптимальный» используется в узком смысле,
когда система автоматического управления оценивается лишь
качеством динамических процессов и при этом критерием
(мерой) этого качества выступает интегральный показатель
качества. Такое описание критериев качества позволяет использовать
для нахождения оптимального управления хорошо
разработанный в математике аппарат вариационного исчисления.
Далее рассматривается два класса систем: системы
программного управления, управляющее воздействие в которых не
использует информацию о текущем состоянии объекта, и системы
автоматического регулирования (системы стабилизации
программного движения), действующие по принципу обратной связи.
Вариационные задачи, возникающие при построении
оптимальных систем программного и стабилизирующего управления,
формулируются в первой главе. Во второй главе излагается
математическая теория оптимального управления (принцип
максимума Л. С. Понтрягина и метод динамического
программирования Р. Беллмана). Эта теория является фундаментом для
построения оптимальных систем. Она доставляет большой объем
информации о структуре оптимального управления.
Свидетельством последнего являются оптимальные по быстродействию
управления, которым посвящена третья глава. Вместе с тем
практическое применение теории сталкивается с трудностями
вычислительного характера. Дело в том, что математическая
теория оптимального управления позволяет свести процесс
построения оптимального управления к решению краевой задачи
для дифференциальных уравнений (обыкновенных либо в
частных производных). Трудности численного решения краевых за-
7
дач приводят к тому, что построение оптимальных управлений
для каждого класса объектов управления является
самостоятельной творческой задачей, решение которой требует учета
специфических особенностей объекта, опыта и интуиции
разработчика.
Эти обстоятельства побудили к отысканию классов объектов,
для которых при построении оптимального управления краевая
задача легко решается численно. Такими объектами управления
оказались объекты, описываемые линейными
дифференциальными уравнениями. Эти результаты, полученные А. М. Летовым и
Р. Калманом, явились основой нового направления синтеза
систем оптимальной стабилизации, называемого аналитическим
конструированием регуляторов.
Аналитическому конструированию регуляторов, широко
используемому при проектировании современных сложных систем
стабилизации, посвящены четвертая и пятая главы.
Глава 1. ПОНЯТИЯ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
§ 1.1. Оптимальное программное управление
Рассмотрим объект управления, движение которого
описывается уравнением
х = ср(х, u, t), (1.1.1)
где x(t)—л-мерный вектор переменных состояния объекта, u(t) —
m-мерный вектор управлений.
В развернутой форме уравнение> (1.1.1) имеет вид
dxifdt = yi(xu...,xn, uu...,um, t) (1=ГГп),
где ф/(хь ..., хП9 Щ, ..., Um, t) (i=l, n)—заданные функции. Они
предполагаются непрерывными и необходимое число раз
дифференцируемыми ПО Х\, ..., Хп, Щ, ..-, Wm, t.
В уравнении (1.1.1) управления являются неизвестными
функциями времени, которые определяются исходя из следующих
условий.
1. Задано начальное
х(*0) = х<°> (1.1.2)
и конечное
x(tx) = xi» (1.1.3)
состояния объекта (1.1.1), где t0 — время начала, a t\ — время
окончания функционирования объекта.
8
2. Эффективность управления оценивается с помощью
интеграла
ti
/=]■ «MX, u, t)dt, (1.1.4)
to
где ф0 (х, u, t) —заданная непрерывная функция своих
аргументов. Для определенности далее будем полагать, что
эффективность управления тем выше, чем меньше значение этого
интеграла.
3. На управления и переменные состояния накладываются
ограничения, выражающие ограниченные ресурсы управления и
допустимые пределы изменения переменных состояния. Часто
ограничения на управления имеют вид
|я*(*)|<ил (*=1, т), (1.1.5)
где Uk* (k=l,m) — заданные числа.
При т=2 точки вектора и= {ихи2), координаты которого
удовлетворяют этим неравенствам, заполняют заштрихованный
прямоугольник, приведенный на рис. 1.1.1.
В общем случае будем считать, что в соответствии с
конструкцией объекта и условиями его эксплуатации задано замкнутое
множество U в пространстве
переменных Ui,...9um и управления могут
принимать в каждый момент времени
лишь значения из этого множества.
Замкнутость множества С/ означает,
что управления могут находиться не
только внутри, но и на его границе
(например, щ (t)=ui*).
Далее будем называть оптималь- Рис* 1ЛЛ
ним программным управлением функ-
ции времени uk(t)=uk°(t) (&=l,m), принимающие значения
из множества it/, при которых объект (1.1.1) переводится из
состояния (1.1.2) в состояние (1.1.3) и при этом функционал
(1.1.4) принимает наименьшее значение.
Часто краевые условия имеют более общий, чем (1.1.2), (1.1.3), вид:
а) моменты времени t0 и t\ в (1 1.2), (1.1.3) либо один из них не заданы
(тогда говорят о задаче с нефиксированным временем), б) вектор х(*> (или х<°))
не задан (задача со свободным правым (или левым) концом траектории с
фиксированным либо нефиксированным временем t0 или t\); в) в (1.1.2),
(1.1 3) компоненты xi<0, xit L (i=l, m) векторов х<°) и х<1> не заданы, а лежат
на гиперповерхностях
v;0
(х(0), *0)=0; vn(x(1), *!) = () (j=Us<n; i = \,p<n)
(задача с подвижными концами).
9
Интеграл (1.1.4) также может иметь более сложную структуру:
/=?1 J <P0(X, U, O^+^2V0(X(1), tt),
to
где v0(x(1), t\)—заданная функция, a q{ и q2—известные числа.
Кроме того, на переменные состояния, как и на управления, могут
накладываться ограничения
XG^ (1.1.6)
где X — замкнутое множество в пространстве состояний хи ..., хп.
В ряде случаев на управления и переменные состояния накладываются
интегральные ограничения, например, вида
tx tx
J ir|(0<« </^<* = l. m); J x]{t)dt<txl (/ = 1,/г). (1.1.7)
t0 t0
Нетрудно расширить понятие оптимального программного управления в этих
более общих случаях.
Пример 1.1.1. Система «двигатель-генератор». Рассмотрим силовую
часть электрического привода типа «двигатель — генератор» (приведенную на
рис. 1.1.2).
Рис. 1.1.2
Запишем уравнения, описывающие процессы в отдельных элементах
привода.
1. Уравнение моментов на валу двигателя
(1.1.8)
где А — момент инерции якоря двигателя и приводимого в движение рабочего
механизма (Р. М.), Н-м*с2; г|? — угол поворота вала двигателя, рад; Мл —
момент двигателя, Н-м, определяемый выражением Мд=/С/г/я; Мс — момент
нагрузки, Н-м.
2. Уравнение якорной цепи
где £г — электродвижущая сила генератора (В), связанная с током возбуж-
10
дения 1\ (А) кривой намагничивания £г = фг(Л); £д — электродвижущая сила
двигателя, связанная с током возбуждения двигателя: /2 (А) зависимостью
£д = С/2ф, в которой'С — коэффициент пропорциональности.
Подставляя эти зависимости в уравнение якорной цепи, получим
f,=(.<trVi)-Crd)/R.. (1.1.9)
3. Уравнение цепей возбуждения генератора и двигателя имеют
соответственно вид
£i-^7- + /i*i = £i; L2-^f- + l2R2 = E2t (1.1.10)
at at
где Ei, Iu Ri [Ом] Li [Гн] (i=l, 2) —напряжение, ток, сопротивление и
индуктивность цепи возбуждения генератора и двигателя соответственно.
В зависимости от назначения рабочего механизма, связанного с валом
двигателя, возникают различные режимы управления рабочим механизмом,
который должен:
а) за минимальное время разогнаться до заданной скорости либо
б) совершить заданную работу за минимальное время, либо
в) переместиться из одного положения в другое за заданное время при
минимальных потерях в цепях управления и якорной цепи.
Осуществление каждого из этих режимов управления затруднено целым
рядом ограничений, к числу которых относятся следующие:
1. Перегрев якоря, определяемый потерями в якорной цепи, которые
пропорциональны квадрату тока в этой цепи. Температура перегрева
пропорциональна числу
Г ,2 ,Л о ,г Г 1?г(Л)-С/аЙ»
Р
(ОЛ,л;=\ D—***—&
и, следовательно, ограничение температуры перегрева описывается
соотношением
f [©.(Л) — С/2Ф12
LVH V ^—dt<T, (1.1.11)
J ая
to
где Т — заданное число, характеризующее допустимую температуру.
2. Напряжение, прикладываемое к обмотками возбуждения генератора и
двигателя, ограничено напряжением источников питания — Ei0, £20:
|£i(OI<£io; №2(t)\<E20. (1.1.12)
3. Максимальные значения скоростей и ускорений движения ограничены
из условий прочности рабочего механизма либо комфорта, если, например,
рабочим механизмом является лифт с людьми. Эти ограничения имеют вид
1Ф1<4£ |ф|<<й. (1.1.13)
где \|V и ф2*—заданные числа.
Время осуществления названных выше режимов управления «а» и «б»
выступает в рассматриваемом случае как мера эффективности управления. Эту
меру можно описать с помощью интеграла
/ = j \-dt. (1.1.14)
to
Действительно, из (1.1.14) следует jJ = t—10.
11
Начальными и конечными состояниями системы «генератор — двигатель»
являются положение, частота вращения вала двигателя, ток в обмотках
возбуждения генератора и двигателя в начальный (^0) и конечный (/1 = min/)
моменты времени.
<К'о)=<к>. Ф('о) = Фо. М*о) = /ю. /2(*о) = /2о; (1.1.15)
Ф('1)=Фь Ф(^1)=Фь h(ti)=hi> /2(^1) = /21. (1.1.16)
Оптимальным программным управлением являются законы изменения
напряжений Ex(t)y E2(t), удовлетворяющих ограничениям (1 1 12), при которых
система «генератор — двигатель» переходит из состояния (1.1.15) в состояние
(1.1.16) и при этом функционал (1.1 14) принимает наименьшее значение и
выполняются ограничения (1 1 13), (1.1.11)
Для режима «в», когда требуется переместить рабочий механизм из
одного положения в другое за заданное время tx—10 при минимальных потерях
в цепях управления и якорной цепи, минимизируемый функционал имеет вид
/ = f (l\ (t) Яя + l\ (t) Rx + l\ (0 R2) dt
h
и выражает энергию, выделяемую в этих цепях.
Для удобства последующего изложения запишем уравнения системы
«генератор— двигатель» и ограничения в стандартной форме. В связи с этим
введем обозначения
ф
Фн
= xt;
±_
Фн
= хц
т1—*
Ei
h
— = ЛГ4;
'2н
Ич.
Bi
h»Ri
— и.1,
(1-1.17)
/2„/?2
где i(?h, i|)H, Лн, hn — номинальные значения угла поворота двигателя (рад),
частота его вращения (рад-с-1), токов в обмотках возбуждения (А) (для
простоты полагаем, что числовые значения \\)н и if>H равны).
С учетом этих обозначений запишем уравнения (1.1.8), (1.1.9), (1.1.10) в
безразмерной форме (полагая далее Мс = 0):
х\ = лг2; х2 = ят г (х3) хА + а2х2х\\ (1.1.18)
хъ = ——хъ + — иг\ х4= —— х4+ —и2, (1.1.19)
где
«1 = —7^1—; ¥1г(*з)=-—г~в—' a2===~"~~Jp—'
АЯЯ<\>И /iH/?i АНя
Ограничения (1.1.11)...(1.1.13) примут вид:
j [WlrW + W2F^</,; (l.l.ll')
/о
l«l| < UV \U'Z\ < а2» (1.1.12')
|*2| < -^2» l^l^lr (*з) *4 + «2^2-^41 < *2> 0 ' 1 " 13')
12
+1 -* *2 /1н/?х С/2нфн
фн фн Яю Яю
Я10 * Лн#1 /2НА2
Оптимальным программным управлением в рассматриваемом случае
будут (например, для режима «а») функции Wi(0)(0 и u2(0)(t), такие, что рабочий
механизм за минимальное время при выполнении ограничений (1.1.11')...
(1.1.13') переместится из состояния Xi(to)=xio (t=l, 4) в состояние Xi(t\) =
=Xil (/=ГТ),
гДе *хо = 4Wfe *2о = Фо/Фн; *зо = ho/I\H,
§ 1.2. Оптимальное стабилизирующее управление
Уравнения возмущенного движения. Пусть оптимальное
программное управление найдено. Это означает, что известны
функции tik*(t)=Uh°(t) (k=l, i/n). Подставляя эти функции в
уравнения (1.1.1) и решая уравнения с начальными условиями (1.1.2),
получим функции Xi*(t) (i=l, п)у которые будем называть
оптимальным программным движением или оптимальной
программной траекторией.
Реальное (истинное) движение системы всегда отличается от
программного по следующим причинам: а) неточная реализация
начальных условий (1.1.2), б) неполная информация о внешних
возмущениях, действующих на систему, в) неточная реализация
программного управления и т. д., поэтому реальное движение
описывается функциями:
-Kf(/)=**(/) + &.*/(tf); un{t) = Uk{t)-\-bun(t) (/ = 1,л; А=1,/гс),
(1.2.1)
где 6*»(0 (i=l, n)—отклонения (возмущения) фактического
движения от программного; bUk(t) (fe=l, m)—отклонения ре-
ального управления от программного. Числа bxi(U) (i=l, n) —
достаточно малые, но неизвестные числа, являющиеся
случайными погрешностями при реализации заданных начальных условий
(1.1.2). Об этих погрешностях обычно известно лишь, что они
удовлетворяют неравенству
где
*
х2 "~"
где е — известное число.
13
Нетрудно получить уравнения (уравнения возмущенного
движения), описывающие отклонения фактического движения от
программного движения, которое называется невозмущенным.
Действительно, принимая во внимание, что функции (1.2.1)
удовлетворяют (1.1.1), и вычитая из уравнений
+ &■*«('), u\(t) + bux(t\...,um(t)-\-bum(t), t]
тождества
** (О = ?П-*Г (/),...., x*n(t), Ui(t),...,um(t), t) (/ = ГГл),
получим уравнения возмущенного движения
8JC, (0 = 8^(8.*!,..., Ъхп, Ьии...,Ьит, t), (/ = 1Гл), (1.2.3)
где Ъъ(Ъхи...,Ъхп, Ъии...,Ъит, t) = yi(x\-\-hxl,..., х*п + Ъхп, и*г +
-\-Ъи1,...,ит + Ъит, t) — ^-(Xi,..., х*п, Uu...,u*m, t).
Если функции 6ф< (i= 1, п) разложить в ряд Тейлора в
окрестности точки х\*9 ..., Хп*> Wi\ ..., иш\ то уравнения (1.2.3) примут
вид
п т
а-М*) = 2 ^/;(0^/ + 2 bik(t)hUk+Ol(*Xu...,bXni Ъии...
/=•1 Л = 1
..., Зите> t), (i = ~n), (1-2.4)
где
а/у (О:
<*Р<
сиг»
М') =
0<Р/
I*
ди*
символ |* означает, что частные производные вычисляются в
точке Xj = Xj*, uk = Uk* (*=1, я; £=1, m); o*(6xi, ..., 6хп, 6иь ...,
б и™, /) (*=1, л)—функции, разложение которых в ряд Тейлора
начинается с членов второго порядка малости.
Отбрасывая в (1.2.4) нелинейные члены, получим уравнения
первого приближения
8^ = 2 л'/(')8л7+2 bik {t)bUk (/ = 1, Л)' (1-2.5)
;=.! Л-=1
Понятие об оптимальном стабилизирующем управлении.
Решения уравнения (1.2.4) при начальных условиях из множества
(1.2.2) описывают отклонения реального движения от
программного в каждый момент времени. Для количественной характе-
14
ристики этих отклонений часто используют значение интеграла
j=] (2?,a^W d.2.6)
в котором qu (i=l, n)—положительные числа. Интеграл (1.2.6)
представляет собой взвешенную с помощью коэффициентов qu
(i=l, n) сумму площадей, ограниченных квадратом отклонений
истинного движения от программного по каждой переменной
состояния. Он характеризует «расстояние» реального движения и
программного и является «мерой» близости этих движений.
Используем &Uk(t) (k=l, m) для сближения этих движений,
тогда 6Uk(t) (&=1, т) называются стабилизирующими
управлениями. Таким образом, результирующие управления Uk(t) =
= Uk*(t)+dUk(t) (fe=l, m) состоят из программных и
стабилизирующих управлений. Подставляя это выражение в (1.1.5),
получим ограничения на стабилизирующее управление:
-ul-ul (t) < Ъцк(/) < а*-1£ (/). (1.2.7)
Обычно \uh*(t)\^\6Uk(t)\ (fe=l^m). Это объясняется тем,
что программное управление обеспечивает основное
(программное) движение системы, а стабилизирующее управление лишь
«парирует» малые отклонения от программного движения,
обеспечивая, если tx-^oo, устойчивость (отсюда термин
«стабилизирующее управление») и требуемую точность осуществления
программного движения. В связи с этим часто вместо ограничений
(1.2.7), определяющих допустимый «расход» стабилизирующего
управления в каждый момент времени, накладывают на
стабилизирующие управления интегральные ограничения
(ограничения на «энергию»)
J bul(t)dt<CJ*uk (£=1, m)% (1.2.8)
и
Для учета ограничений (1.2.8) будем вместо (1.2.6)
рассматривать критерии качества стабилизации
У==? | 2 ?«*■*?+2 ^Д*1Л' d-2.9)
где числа улл (&= 1, #*) определяются значениями J*Uh (k= 1, /и).
Стабилизирующее управление предназначено для
минимизации интеграла (1.2.9). Кроме того, если t\->~oof то для
существования этого интеграла стабилизирующее управление должно
обеспечивать асимптотическую устойчивость нулевого решения
системы (1.2.4).
15
Если отыскивать стабилизирующее управление как явную
функцию времени (по аналогии с программным управлением),
то для каждого начального условия из множества (1.2.2) получим
управления 6iik[t, 6xi(t0), ..., 6xn(t0)] (*=1, га), для реализации
которых необходимо измерять переменные состояния в момент
времени / = /0, так как числа 6Xi(t0) (i=l, n) неизвестны. Кроме
того, функции 6tik(l, bxi(tQ), ..., 6xk(to)) будут различными для
каждого набора 6Xi(t0) (i=l, n) из множества (1.2.2).
В связи с этим естественно отыскивать стабилизирующее
управление не как явную функцию времени, а как функцию
переменных состояния
buh{t) = rh[bxx(t),...,bxn(t\ t] (k=TTni). (1.2.10)
Заметим, что вид этих функций не зависит от начальных
условий из множества (1.2.2). Поясним это обстоятельство
подробнее.
Допустим, что найдено управление 6Uk0=rk°[6xu ..., 6хПу t\
(k=l, m), при котором (1.2.9) принимает наименьшее значение
на движениях системы (1.2.4), и пусть в начале движения
оптимальной системы реализовались начальные условия 6*;*(*о) (* =
= 1, п). Подставляя в (1.2.4) buk°=rh0 (k=l, m), решим это
уравнение и, подставляя его решения в (1.2.9), вычислим
значение интеграла. Получим число J(t0l tu bxx*(t0)y ..., 8xn*(to)). Оно
является наименьшим из всех значений интеграла (1.2.9) при
buk°=£rk° (k= l, m). Допустим теперь, что в начале движения
системы (1.2.4) реализовались начальные условия бХг**(/0) ^=бХг*(^о)
(i=l, п), тогда при 6ик° = Гк° (&=1, т) получим другое значение
(1.2.9), определяемое как / (f0, tu Ъхх** (/0), ..., 6хп** (t0)). Это
число опять должно быть наименьшим по сравнению со значениями
интеграла на траекториях системы (1.2.4) при uk¥=rh° (&=1, т)
и начальных условиях 6х,**(/о) (*=1, я).
Теперь можно определить понятие оптимального
стабилизирующего управления как функции переменных состояния и
времени, при которых на движениях системы (1.2.4), возбужденных
произве 1ьными начальными отклонениями из множества (1.2.2),
показатель качества, например (1.2.9), принимает наименьшее
зн?чение. Если в (1.2.9) верхний предел t\ не ограничен, то
стабилизирующее управление должно также обеспечивать
асимптотическую устойчивость системы.
Примечание 121 Стабилизирующее управление реализуется
регулятором, который является сложным динамическим устройством, состоящим
обычно из трех компонент измерительных органов, устройства реализации
алгоритма управления (корректирующих контуров), исполнительных органов.
Здесь и далее известные дифференциальные уравнения, описывающие
измерительные и исполнительные органы, включаются в уравнения (1.2 4)
Другими словами, уравнения (124)—это уравнения физического объекта вместе
16
с измерительными и исполнительными устройствами регулятора Тогда 6xi(t)
(/=1, п)—выходы, измерительных устройств, a 6uk(t) (&=1, m)—входы
исполнительных органов.
Уравнения (1.2.10) описывают устройство реализации алгоритмов
управления
Для упрощения терминологии будем по-прежнему называть уравнениями
объекта уравнения (1.2.4) известной (неизменяемой) части системы, состоящей
из объекта и элементов регулятора, а уравнениями
регулятора—(1.2.10)—называть неизвестную (подлежащую определению) часть системы, состоящую
лишь из устройства реализации алгоритма управления
Пример 1.2.1. Оптимальное стабилизирующее управление в системе
«генератор — двигатель». Пусть в системе «генератор — двигатель» найдено
оптимальное программное управление ux*(t) и u2*(t). Эти функции порождают
программное движение Xi*(t) (i=l, 4), которое находится путем численного
интегрирования уравнений (1.1.18), (1.1 19) на ЭВМ, используя какой-либо из
методов численного интегрирования (например, метод Рунге — Кутта). При
ЭГОМ В (1.1.18), (1.1.19) tti=Mi*(0, "2 = "2*(0-
Реальные значения начальных значений положения вала двигателя, его
скорости, токов в обмотках возбуждения отличаются от расчетных из-за
погрешностей при «выставке» угла или скорости двигателя в начальный момент
времени. Поэтому реальное движение будет отличаться от расчетного
(программного). Переходя к уравнениям возмущенного движения, отметим, что
по построению невозмущенное движение удовлетворяет уравнениям-
х1 = х2\ х2 = ахср1г (*3) х4 + azx2x4 ;
• * i * l * * * l * ( 1 *
хз ~ —~~^~ хз + ~7~" а\\ х4~ — ~—-~ х4-г и2.
J I 1 1 J 2 J 2
Так как возмущенное движение удовлетворяет уравнениям (1.1 18).
(1.1.19), то
х\ + Ьхг = х\ + Ьх2; xl + Ъхъ = я!<р1г (дгз + Ьх3) (х\ + ЬхА) +
+ а2 (*2 + Ьх2) {х1 + Ьх4)2;
xl + Ьх3 -= - — (xl + Ьхг) + — (и* + Ьиг) ;
х\ -f ЬхА = ——- (х*4 + ЬХ4) + — («2 + Ьи2) .
12 * 2
Учитывая уравнения невозмущенного движения, получим
Ьх\ = 5*2;
&*2 = Л1 [<р1г (jf з + 5х3) (*4 + Ьх*) — Пг (xl) х*А] +
+ а2 [(xl + Ьх2) (х*4 4- Sx4)2 — х*2х*4];
»*з = -—&*а + —-Щ; Ъх4=-—Ъх4 + -—Ъи2. (1.2.11)
М /1 /2 ^2
В качестве показателя отклонения реального движения от расчетного примем
интеграл
t \
J = j (?us-*a + ^22^2 + Yii&H? + 722^2) <"» (1.2.12)
to
в котором г/ц, (722, V11, 722—-заданные положительные числа.
17
__Оптимальное стабилизирующее управление 6uh(8xu 6х2, 6*3, блг4, /) (& =
= 1,2) должно минимизировать этот функционал на движениях системы
(1.2.11) при начальных условиях
2 »*/('о)<«2.
(1.2.13)
где е определяется погрешностями реализации начальных состояний 6** (/о)
(/=1, 4).
Физическая реализация стабилизирующих управлений осуществляется с
помощью дополнительных обмоток возбуждения, показанных на рис. 1.1.2
пунктиром.
Во многих случаях контроль отклонений истинного движения от
программного осуществляется не по переменным состояния, а по переменным,
называемым регулируемыми (управляемыми) переменными. Они связаны с
отклонениями по каждой переменной состояния соотношением
/-1
(1.2.14)
где 0г- (/— 1, т) — регулируемые переменные.
Критерий, с помощью которого оцениваются эти отклонения, имеет вид
to N/=-1 £=I /
(1.2.15)
Особенности оптимальных систем программного управления
и стабилизации. Рассмотрим более подробно связь и различие
программного и стабилизирующего управлений. В связи с этим
рассмотрим общую структурную схему реализации этих
управлений (рис. 1.2.1), на которой объект управления описывается
уравнениями (1.1.1), а регулятор реализует стабилизирующие
управления (1.2.10). Объект вместе с задатчиками программного
Задатчик
программного
управления
bum(t)
Рис. 1.2.1
управления и движения образует систему программного
управления, а объект вместе с регулятором — систему
стабилизации программного движения. На рис. 1.3.1 не показаны
исполнительные и измерительные устройства, которые в соответствии с
примечанием 1.2.1 включены в модель объекта.
18
Различие способа функционирования системы программного
управления и системы стабилизации состоит в следующем.
1. Для первой из этих систем начальные условия (1.1.2)
известны до начала проектирования, а для второй начальные условия
неизвестны, известно лишь, что они находятся в пределах,
устанавливаемых неравенством (1.2.2).
2. В первом случае управления являются явными функциями
времени, а во втором — функциями измеряемых переменных
состояния (а в общем случае и времени). Таким образом, в первом
случае управление осуществляется по разомкнутому циклу, а во
втором — по принципу обратной связи.
3. Эффективность работы системы программного управления
оценивается определенным интегралом (1.1.4), в котором функция
Фо(х, и, /) определяется физической природой объекта
управления.
В системе стабилизации критерий (показатель) качества
(1.2.9) ее функционирования часто не связан с физической при-
родой объекта управления, а его коэффициенты цц (£=1, п)
определяются исходя из инженерных требований (времени
переходного процесса от истинного движения к программному,
перерегулирования при этом движения, установившейся ошибки в
осуществлении программного движения и т. п.). Однако в теории
оптимального управления полагают критерий (1.2.9), аналогично
(1.1.2), заданным, оставляя вопросы выбора его коэффициентов
(а в общем случае и структуры) за пределами этой теории.
4. При построении стабилизирующего управления (1.2.10)
обычно используют уравнения первого приближения (1.2.5). Это
объясняется тем, что стабилизирующее управление
предназначено для уменьшения отклонения bxi (i=l, я), а при малых
значениях этих отклонений уравнения (1.2.4) и (1.2.5) имеют близкие
решения, так как функции о,- (£=1, п) зависят от квадратов,
кубов и т. д. этих отклонений, и поэтому эти функции можно
опустить.
Линейный характер уравнений первого приближения
существенно упрощает процедуры построения стабилизирующих
управлений (1.2.10). Использование же уравнений первого
приближения при построении программного управления, как правило,
недопустимо.
§ 1.3. Развитие понятий оптимального управления
Стабилизирующее управление при внешних воздействиях
(возмущениях). Причиной возмущенного движения часто
является неполнота знаний о внешних воздействиях на объект
управления в его программном движении.
19
Уравнения (1.1.1) при учете внешних возмущений имеют вид
Х = ф(х, u, f, t), (1.3.1)
где i(t)— |ы-мерный вектор внешних воздействий.
Будем полагать, что эти функции имеют две составляющие:
известную — /,-*(t) (i=l, \i) и неизвестную —6/t(0 (i=l9\i).
Повторяя изложенное в § 1.2, получим уравнения
возмущенного движения с учетом внешних воздействий.
В первом приближении эти уравнения имеют вид
п т (а
ьх{=2 ач w bxJ+2 *»(t) 8м*+2 */р (/) 8Л (/=^
j-i k=i p-i
(1.3.2)
где
(/=1, /г, р=1, [х).
В зависимости от объема информации о функциях 6fi(t)
можно различить три случая:
а) полная информация (это означает, что функции известны
заранее; тогда, в частности, они могут быть включены в состав
fi*(t) (i=l, \i) либо они точно измеряются в процессе движения
объекта);
б) б/г (0 (*=1, \х)— случайный процесс с известными
статистическими характеристиками;
в) отсутствует какая-либо информация о функциях dfi(t)
(i'=l, jul>, однако известно, что они ограничены некоторыми
известными числами 6f(\6fi(t) | ^6f/, i= 1, \л).
В зависимости от объема информации о внешних
воздействиях можно различить следующие типы оптимальных систем:
а) равномерно-оптимальные; б) статистически оптимальные;
в) минимаксно-оптимальные [1,4].
Стабилизирующее управление для систем первого типа
находится из условия минимума функционала (1.2.9) на решениях
системы (1.3.2). В системах второго типа каждой реализации
внешнего воздействия соответствует при известных управлениях
(1.2.10) свое значение интеграла (1.2.9), и поэтому в качестве
меры эффективности стабилизирующих управлений используется
математическое ожидание этого интеграла
Л=м ff (2 ч»1**+2Y**8 A dt\ • а -3-3)
Физический смысл величины J\ состоит в том, что случайные
воздействия возбуждают случайное движение по ординатам bxL{t)
(i=l,/z). Если вычислить значение интеграла (1.2.9) для каждой
20
реализации случайного движения и затем определить
«среднеарифметическое», то получим значение ]\. Управление, при
котором ]х достигает минимума, является оптимальным в среднем,
и поэтому система стабилизации называется статистически
оптимальной.
При отсутствии информации о внешних воздействиях
используется игровой подход к определению оптимального управления.
В соответствии с этим подходом функции б/г(0 (i=l, ^)
считаются «управлениями» и определяются из условия максимизации
интеграла (1.2.9), а управления 6uh{t) (k=l, m)—из условия
его минимизации. Эти управления обеспечивают наилучший
результат при наихудшем внешнем воздействии [минимум
максимального значения функционала (1.2.9)], и поэтому системы с
таким управлением называются минимаксно-оптимальными.
Общий вид уравнений стабилизирующего управления. В
общем случае стабилизирующие управления описываются не
алгебраическими уравнениями (1.2.10), а дифференциальными
уравнениями вида
Хр=фр(хр, 8х, t); (1.3.4)
8ц = гр(хр, 8х, О, (1.3.5)
где xp(t)—Яр-мерный вектор переменных состояния устройства
управления (регулятора); фр (хр, 6х, t), rp (хр, бх, t) —лр- и т-
мерные векторы соответственно.
В ряде случаев не все переменные состояния объекта
управления доступны непосредственному измерению.
Пусть измеряются некоторые переменные y\(t)y ..., yr(t)>
связанные с переменными объекта соотношениями
y = w(8x, /), ' (1.3.6)
где у(0 — r-мерный вектор измеряемых переменных; w(6x, t) —
заданный r-мерный вектор. В этом случае уравнения регуляторов
имеют вид
хр —Фр(хр, у, t); (1.3.7)
8u = rp'(Xp, у, t). (1.3.8)
Далее будем опускать символ 6 в соотношениях (1.2.2)...
(1.2.5), (1.2.9), (1.2.10), относящихся к системам стабилизации.
Если теперь для общности изложения заменить функцию под
интегралом (1.2.9) функцией ср0, то модели объекта управления и
модели целей управления (критерии качества управления) в
системах программного управления и стабилизации будут
совпадать. Это естественно, так как с математической точки зрения
несущественно происхождение этих моделей.
Используя матричную форму, запишем также, отбрасывая
21
символ 6, уравнения (1.3.2) первого приближения и уравнение
(1.2.14) для регулируемых переменных:
x=A(t)x + B(t)u + WV)t9 Q=N(t)x, (1.3.9)
где A(t), B(t), W(t)t N(t)—матрицы, элементами которых
являются известные функции времени. Эти матрицы имеют размеры
пхп, пХт, nX\i, тХп соответственно.
Связь (1.3.6) переменных состояния объекта с измеряемыми
переменными часто может быть линеаризована и тогда она с
учетом помех измерения принимает вид
y=D(*)x + x</), (1.3.10)
где х(/)—г-мерный вектор помех измерения; D(t)—заданная
матрица размеров пХг.
Устройство управления (регулятор) часто описывается не
уравнениями (1.3.7)...(1.3.8), а линейными уравнениями вида
Хр=Лр(*)Хр + Яр(*)у; (1.3.11)
u = Dp(/)xp + /3,p(«y, (1.3.12)
где Av(t)y Bp(0, Dv{t)y Fv(t)— матрицы размеров %Х%, прХг,
тХПр, тхг соответственно.
Часто регулятор содержит управляющую ЭВМ. В этом случае
он описывается разностными уравнениями:
х?[(к + \)Т] = Фр(кТ)хр(кТ) + Ц9(кТ)у(кТ) (*=0, 1,2,...);
(1.3.13)
VL(kT)=Dp(kT)x9(kT) + Fp(kT)y(kT) (£=±0, 1,2,...); (1.3.14)
u(t) = u(kT), £7</<(£+1)7 (£=0,1,2,...), (1.3.15)
где 7— интервал дискретности регулятора; фр(&7), Rv(kT)y
Dv(kT)y Fv(kT) (fe = 0, 1, 2, ...)— матрицы чисел соответствующих
размеров. Поскольку для работы регулятора (1.3.13) ...(1.3.15)
достаточно измерения вектора у лишь в дискретные моменты
времени 0, 7, 27, 37 и т. д., то естественно при определении
параметров дискретного регулятора использовать дискретную модель
объекта (1.3.9), (1.3.10). Такая модель при f(*)=x(0=0 имеет
вид
х{(к+\)Т\ = Ф(кТ)х(кТ)-\-Н(кТ)\1(кТ)\ Q(kT) = N(кТ)х(кТ);
(1.3.16)
у(кТ) = 0(кТ)х(кТ) (£ = 0, 1,2,...). (1.3.17)
Матрицы Ф(£7) и R(kT) (й=0, 1, 2, ...) нетрудно построить на
основе матриц A (i) и B(t), если воспользоваться формулой Коши
t
Х(0 = Я(/, /0)x('o) + J Я(/> *)B(x)\i(x)dx, (1.3.18)
to
22
где H(ty to) — нормированная фундаментальная матрица. Эта
матрица (размеров пХп) составлена из я-мерных векторов (первый
вектор — это решение однородного уравнения x—A(t)x при
начальных условиях xi(to) = \, x2(t0)= ... =Хп(М; второй вектор
является решением однородного уравнения при начальных
условиях X\(t0)=Q, x2(to) = l, x3(t0)= ... =xn(to)=0 и т. д.).
Произведение H(t, т) В(х)—это импульсная переходная
матрица объекта. Ее можно получить экспериментально,
прикладывая (в момент т) к входам объекта 6-импульсы.
Полагая в (1.3.18) t=(k+\)T, t0=kT и принимая во
внимание (1.3.15), получим
х[(А+1)Г] = //[(*+1)7\ kT]x(kT) +
Г(*+1)Г 1
+ f H[{k + l)T, x]B(x)dx\u(kT), (1.3.19)
отсюда следует, что
Ф(кТ)=*Н[(к+1)Т, kT]; R(kT) =
(*+1)Г
= f #[(Л+1)7\ x\B(x)dx (A=0, 1,2,...). (1.3.20)
кТ
В дискретном случае критерий качества имеет вид
N
J=^x' (kT)Q{kT)x(kT)+u'[(k-\)T\u\(k-\)T\, (1.3.21)
где Q(kT) (k=l, N) — заданные положительно-определенные
матрицы чисел.
В стационарном случае, когда параметры объекта не
изменяются во времени, его уравнения (1.3.9) записываются как
x=Ax+Bu+Wt9 Q=Nx, (1.3.22)
где А, В, 1¥f N — заданные матрицы чисел.
Дискретная модель объекта, описываемого уравнениями
(1.3.22), имеет (при f=0) вид
хЦк+1)Т] = Фх(кТ) + #и(кТ); 9(k)=Nx(k), (1.3.23)
где
ф=е™=Е + АТ+±(АТ?+...+-±-1АТГ + ... + ; (1.3.24)
2! р.!
R = \ET+±rAT2+...+ л^т^ +..Ав. (1.3.25)
Соотношения (1.3.23) ...(1.3.25) нетрудно доказать, если принять
во внимание, что в стационарном случае можно указать явный
вид нормированной фундаментальной матрицы//(7, t0)=eA{t~to).
23
Глава 2 МЕТОДЫ ТЕОРИИ
ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
Задачи построения оптимального программного и
стабилизирующего управлений, рассмотренные в предыдущей главе, по
математическому содержанию являются задачами вариационного
исчисления. Методы вариационного исчисления условно можно
разделить на классические и современные. К классическим
методам относятся методы, основанные на уравнениях Эйлера, Лаг-
ранжа, Якоби, Вейерштрасса, а к современным — принцип
максимума Понтрягина и метод динамического программирования
Беллмана. Современные методы, разработанные в последние
десятилетия, своим возникновением обязаны задачам
оптимального управления. Их достоинствами (по сравнению с
классическими) являются возможность учета ограничений на управление и
переменные состояния, более широкий класс функций
управления, приспособленность для использования вычислительной
техники и т. п.
Первый параграф этой главы посвящен классическим методам
отыскания экстремума функционалов, основанным на уравнениях
Эйлера и Эйлера — Лагранжа. В § 2.2 приводится решение
задачи об оптимальном программном управлении на основе принципа
максимума. Показано, что принцип максимума сводит эту задачу
к краевой задаче для обыкновенных дифференциальных
уравнений. Обсуждаются трудности ее численного решения. В § 2.3
излагается решение задачи об оптимальном стабилизирующем
управлении на основе метода динамического программирования.
Метод сводит задачу об оптимальном стабилизирующем
управлении к краевой задаче для уравнения в частных производных.
Указываются трудности численного решения краевой задачи.
Устанавливается связь принципа максимума и метода
динамического программирования.
§ 2.1. Элементы классического вариационного исчисления
Создание вариационного исчисления. В 1696 г. появилась
заметка И. Бернулли, озаглавленная «Новая задача, к решению
которой приглашаются математики». В ней ставилась следующая
задача. «В вертикальной плоскости даны две точки А и В (рис.
2.1.1). Определить путь AM В, опускаясь по которому под
действием собственной тяжести, тело М, начав двигаться из точки Ау
дойдет до точки В в кратчайшее время».
Решение этой задачи было получено самим И. Бернулли, а
также Г. Лейбницем, Я. Бернулли и И. Ньютоном. Оказалось,
что линией наискорейшего спуска (брахистохроной) является
циклоида. После этих работ стали появляться и решаться
многие задачи того же типа. И. Бернулли поставил перед своим
учеником Л. Эйлером проблему найти общий путь их решения.
24
В 1744 г. вышел труд Эйлера «Метод нахождения кривых
линий, обладающих свойствами максимума и минимума или
решения изопериметрической задачи, взятой в самом широком
смысле», а в 1759 г. появилась работа Лагранжа и с ней новые
х к
Рис. 2.1.1
Рис. 2.1.2
методы исследования, которые составили новый раздел
математики, названный Эйлером вариационным исчислением.
Понятия вариационного исчисления. Переменная величина
/[*(£)] называется функционалом, зависящим от функции x(t),
если каждой функции x(t) (из некоторого класса функций)
соответствует число /. Аналогично определяются функционалы,
зависящие от нескольких функций.
Функционал /[*(0] достигает на x°(t) минимума, если его
значение на любой близкой к x°(t) кривой x(t) не меньше, чем
J[x°{t)]fT. е.
bJ = J[x(tj\ — J[jfl(t)]^0.
Аналогично определяется кривая, на которой реализуется
максимум. В этом случае 6/^0 для всех кривых, близких к кривой
Уточним понятие близости кривых. Кривые x(t) и x(t)
близки в смысле близости нулевого порядка, если модуль разности
x(t)—x(t) мал. Кривые x(t) и x(t) близки в смысле близости
1-го порядка, если модули разностей x(t)—x(t) и x(t)~x(t)
малы. Кривые x(t) и x(t) близки в смысле близости &-го порядка,
если |*'(0—#'(0 |^е (i= 1, /г), xl(t)—i-я производная, е —
достаточно малое число. На рис. 2.1.2 изображены кривые, близкие
в смысле близости нулевого порядка (координаты их близки, а
направления касательных существенно различаются), а на рис.
2.1.3 приведены кривые, близкие в смысле близости 1-го порядка.
Если функционал J[x(t)] достигает на кривой x°(t) минимума
или максимума по отношению ко всем кривым, близким к д'°(/)
в смысле близости нулевого порядка, то такой минимум (или
максимум) называется сильным.
2Г>
Если функционал /[*(/)] достигает минимума (или
максимума) лишь по отношению к кривым x(t), близким к x°(t) в
смысле близости 1-го порядка, то такой минимум (или
максимум) называется слабым. Очевидно, что если достигается
сильный минимум (максимум), то достигается и слабый. Далее, если
хА
Рис. 2.1.3
Рис. 2.1.4
не оговорено противное, будет подразумеваться слабый минимум
(максимум).
Разность функций x(t)—x(t)=6x(t) называется вариацией
(приращением) аргумента x(t) функционала J[x(t)].
Вариационная задача с закрепленными граничными точками.
Первое необходимое условие экстремума (уравнение Эйлера).
Исследуем на экстремум (максимум или минимум) функционал
■/[*<<)]=( %['. *('), x(t)\dt,
(2.1.1)
где ф0(^, x(t), x(t))—непрерывная и трижды дифференцируемая
функция своих аргументов.
Искомая функция (для которой этот функционал принимает
экстремальное значение) удовлетворяет краевым условиям
x(t0)=x0, x(tl) = xl. (2.1.2)
Задача о нахождении экстремума функционала (2.1.1) при
условиях (2.1.2), в которых х0 и Х\ — заданные числа, называется
вариационной задачей с закрепленными граничными точками.
Непрерывно дифференцируемые функции x(t), определенные на
[*о, ^i] и удовлетворяющие условиям (2.1.2), называются
допустимыми функциями.
Переходя к решению вариационной задачи, допустим, что ее
решение — кривая x°(t)—найдено. Возьмем некоторую функцию
x(t) и включим ее в однопараметрическое семейство кривых
x(t, a) = jfl(t) + a[x(t)-jfl(t)],
(2.1.3)
где а — некоторое число.
26
Концы варьируемых кривых естественно также закреплять в
точках (2.1.2) (рис. 2.1.4), и поэтому
x(tQ, а) = х0, x(tu a)=xv (2.1.4)
Рассмотрим значения, которые принимает функционал (2.1.1)
на кривых семейства (2.1.3),
У(а) = | <р0[*, jc°(*) + a8*(*), x°(t)+abx(t)]dt, (2.1.5)
где bx(t)=x(t) — x°(t), hx(t)=x(t) — xP(t).
Нетрудно видеть, что при известных кривых x°(t) и x(t)
функционал (2.1.1) становится функцией а. Эта функция достигает
своего экстремума при а=0, так как, по определению, x(ty 0) =
Необходимым условием экстремума функции J (а) при а=0
является, как известно, равенство
dj(a)
da
= 0. (2.1.6)
=о
Подставляя в это условие выражение (2.1.5), получим
dj (а)| _ С Г^тр dx(t, a) , <fyo dx(t, а) 1 „. _ _
da |a=o J idx да дх да J
to
tl
= f Ш Ъхм+Щ bx(t)]dt=0.
J I dX U=0 dX\* = Q J
to
После интегрирования по частям
J дх дх J\t=t0 J dt дх
to t0
и тогда запишем (2.1.6) окончательно с учетом краевых условий
&x(to)==6x(ti)=0 в виде
f (JbL-A- *S-\bx(t)dt = Q. (2.1.7)
J \ дх dt дх )
to
т» дц>о d дч>с\
В этом выражении сомножитель — —-г является на кривой
дх dt дх
Л'°(0> реализующей экстремум, заданной непрерывной функцией,
27
а второй сомножитель 6x(t)—произвольная (в силу произвола
при выборе функции x(t)) дифференцируемая функция.
При этих условиях из (2.1.7) следует тождество
J*L__£_ JSL^o, (2.1.8)
dx dt дх
которое выполняется на экстремалях x°(t).
Доказательство того, что (2.1.8) следует из (2.1.7), опирается
на основную лемму вариационного исчисления, которая
формулируется так: если для каждой непрерывной функции r\(t)
(удовлетворяющей условию i\(to)=r\(tl)=0)
J V-(t)-mt)dt = 0, (2.1.9)
to
где ii(t)—непрерывная на отрезке [t0f t{] функция, то \x(t)=0
на том же отрезке.
Для доказательства леммы_ предположим (в противоречии с
ее утверждением), что в точке t^[t0y ^i] значение \х(1)ф0. Тогда
придем к противоречию с утверждением леммы. Действительно,
из непрерывности функции \i(t) следует, что если |i(£)¥=0, то
\i(t) сохраняет знак в некоторой окрестности to^t^ti точки
I. Выбирая функцию r\(t) сохраняющей знак на отрезке |70, ?i]^
^[*о» ^i] и равной нулю вне этого отрезка, заключаем, что
произведение \i{t)r\(t) сохраняет знак на отрезке [t0, t\] и равно нулю
вне этого отрезка и, следовательно,
а это противоречие и доказывает лемму. Таким образом, x°(t)
является решением уравнения
дур d дур
^ -2SL = 0, (2.1.10)
дх dt дх
которое называется уравнением Эйлера.
Принимая во внимание, что
d д<?оУ, x(t) xx(t)) = дур | дур ^ . fop ^
dt дх -dtd'x дхдх дхдх
запишем (2.1.10) в развернутой форме:
_4^3с~4^-х--^- + ^=0. (2.1.11)
дхдх дхдх dtdx дх
Его решения x(ty clc2), где сх и с2 — постоянные, определяемые
краевыми условиями (2.1.2), называются экстремалями.
28
Пример 2.1.1. Найдем кривую x°(t), проходящую через заданные точки
х0 и хх в моменты времени i0 и tu на которой достигает экстремума
функционал
/=j* (Х2 + Х2х2) dt, (2.1.12)
to
где т — заданное число.
В рассматриваемом случае (р0 = л:2+т2л;2, поэтому
дсрб/дл: = 2jc; d<p0/d* = 2т2*
и уравнение Эйлера для экстремалей функционала (2 1.12) имеет вид
х- — х=0. (2.1.13)
Решением этого уравнения является (как нетрудно проверить
непосредственной подстановкой) кривая
х (О = с^/х + с2е~'/т. (2.1.14)
Используя граничные условия, определим значения постоянных с{ и с2 из
уравнений
*о = cie'°/T + с2е-'о/т; хг - сге^/х + c2e~/l/T;
Cl — e('o-'i)/*_e-('o-'i)/* > ^2~ e(*o-M/*_e-('o-*i)/* • ^.i-io/
Уравнения Эйлера — Пуассона. Исследуем на экстремум
функционал
/=J ?oC -«(О, *(*), *(/))<#, (2.1.16)
/о
в котором функцию фо будем считать дифференцируемой по
своим аргументам необходимое число раз.
Пусть граничные условия имеют вид
x(tQ) = x0; x(t0) = xt>l); х^^х,; x(tl) = x[1\ (2.1.17)
где х0, xl, хг, х[1) — заданные числа.
Нетрудно показать, повторяя изложенное при выводе
уравнения Эйлера, что экстремали функционала (2.1.16) являются
решением уравнения
_**L __ JL J^L + _1L -2SL=0, (2.1.18)
которое называется уравнением Эйлера — Пуассона. Это
уравнение четвертого порядка, его решение x(tu с]у с2, с3, с4) содержит
постоянные d (i=l, 4), которые определяются из граничных
условий (2.1.17).
29
Пример 2.1.2. Найдем экстремали функционала
tx
/ = j* (*2 + r*x2) dt
'о
при граничных условиях (2.1.17).
Вычислим вначале
д%/дх — 2х\ дуъ/дх — 2т4дг,
тогда уравнение Эйлера — Пуассона имеет вид
х -4-tA*iV =0.
Характеристический полином этого уравнения
d (S) = T4S4 + 1 == (t2S2 - Y2 zs + 1) (t2S2 -f- j/~2tS + 1).
Его корни
1 1 1 1
И, таким образом, экстремаль функционала имеет вид
--^ (!+/) —7=" (W) 7=- <*+') 4=" <W)
*(*) = *ie >2т +с2е ^ +Сзе/2т -Ь*4е>2т
где Ci (/=1, 4) определяются из граничных условий (2.1.17).
Вариационные задачи с подвижными границами. До сих пор
при исследовании функционала (2.1.1) предполагалось, что
граничные точки (t0y xo), (t\, X\) заданы. Теперь будем полагать, что
одна или обе граничные точки могут перемещаться. Класс
допустимых кривых в этом случае расширяется, так как кроме
кривых сравнения, имеющих общие граничные точки с исследуемой
кривой, можно брать кривые со смещенными граничными
точками. Это означает, что если на какой-нибудь кривой x°(t)
функционал (2.1.1) достигает экстремума в задаче с подвижными
точками, то экстремум тем более достигается по отношению к более
узкому классу кривых, имеющих общие граничные точки с
кривой x°(t), и, следовательно, x{t) должна быть решением
уравнения Эйлера (2.1.10).
Общее решение уравнения Эйлера содержит две
произвольные постоянные, которые находятся при закрепленных границах
из граничных условий, а при подвижных границах — из условий
трансверсальности.
Эти условия имеют вид
,(*, x(t), x(t))-x(t)
[[То
дя,('. *(0. *(*))
= 0;
t=tQ
дх
к (Л *(*), x{t))-x{t)
дх
=0; (2.1.19)
d%(t, * (О, x(t))
дх
=0;
30
d'fo
дх
= 0.
к-*»
(2.1.20)
Если правая граничная точка (tu xi) должна перемещаться по
некоторой кривой *i=^=pi(£i), то условия (2.1.20) принимают вид
ср0'(/, хфу x(t)-
V «7 <ft /
tf* \д?0(^ ■*(*)» *.(0)"
дх
=0.
*-*i
Аналогичный вид принимают условия (2.1.19), если левая
граничная точка (/0, Хо) перемещается по кривой x0=p0(t0).
Соотношения (2.1.19), (2.1.20) представляют собой четыре
уравнения для определения четырех неизвестных: to, t\ и
произвольных постоянных С\ и с2, входящих в общее решение
уравнения Эйлера. Часто числа t0 и tY заданы, т. е. точки (t0, x0), (tu xx)
могут перемещаться только вертикально, и тогда условия (2.1.19),
(2.1.20) принимают вид
*РоС *(0. *(0)
дх
t=t0
= 0;
аур (Л x(t), хщ
дх it^ty
= 0. (2.1.21)
Вывод соотношений (2.1.19)...(2.1.21) приведен в [2.2].
Пример 2.1.3. Найдем экстремаль функционала (2 1 12) при заданных
t0 и t\ и произвольных х0 и Х\. Используя (2 1.21), получим
д<?о
дх
t=*t0
• = 2т2дг (*0) = 0;
д<?о
дх
t=tx
= 2т2^(^)=0.
Подставляя в эти равенства решения (2.1.14), имеем
1
сг — е'0/" + с
- е'оЛ + с — e-'o/* = о; 'Cl — е^т + с2 — е~'*'х =0.
Т Т Т X
Откуда следует, что Ci = c2 = 0, и таким образом, экстремалью функционала
(2.1.12) с подвижными границами является x(f)==0
Если предположить теперь, что наряду с х0, Х\ нефиксированы и числа
/0, t\, то, используя (2.1.19), (2.1 20), получим
*2(*0)-Ьт2*.(*о)-
Х*Уг)+%*Х&).
X (t0) 2%2Х (*0) :
.0; 2т2д: (*0) = 0;
. 0; 2t2jc(/1)=0.
Из этих равенств следует, что *(/0)=*(/i) =0 независимо от /0 и tu и
поэтому из (2.1.15) получим вновь Ci = c2 = 0. Таким образом, и в этом случае
экстремалью является x(t)z==0.
Второе необходимое условие экстремума (условие Лежанд-
ра) [2.3]. Экстремали функционала (2.1.1) с закрепленными
концами удовлетворяют уравнению (2.1.10), которое выражает
первое необходимое условие экстремума. Однако оставалось
неясным, доставляют ли они функционалу (2.1.1) максимум или
минимум? Ответ на этот вопрос дает теорема Лежандра,
выражающая второе необходимое условие экстремума: для того чтобы
функционал (2.1.1) в задаче с закрепленными границами дости-
31
гал на кривой xx(t) минимума (максимума), необходимо, чтобы
вдоль этой кривой выполнялось условие
dx (0 dx it) ^ [ dx {t) dx(t) ^ ) '
Пример 2.1.4. Исследуем, выполняется ли это условие для экстремалей
(2.1.14) функционала (2.1.12).
Нетрудно видеть, что в рассматриваемом случае
-г-^г = Т2 > О
дхдх
и, следовательно, на кривых (2 1 14) функционал (2 1.12) достигает минимума.
Вариационные задачи на условный экстремум. Уравнения
Эйлера — Лагранжа. Вариационными задачи на условный
экстремум (связанный экстремум) называются задачи, в которых
требуется найти кривые, доставляющие экстремум функционалу,
при этом помимо граничных условий они должны удовлетворять
некоторым связям (условиям). Например, эти кривые должны
иметь заданную длину (изопериметрическая задача) либо
удовлетворять некоторой заданной системе дифференциальных
уравнений (задача Лагранжа), либо лежать на некоторой
поверхности.
Приведенная в первой главе задача об оптимальном
программном движении является по математическому содержанию
задачей на условный экстремум, в которой требуется найти вектор —
функции х(^), u(t)9 доставляющие функционалу (1.1.4) минимум,
причем эти функции должны удовлетворять дифференциальному
уравнению
х = ф(х, и, /), (2.1.23)
а также интегральным связям (1.1.7) и ограничениям (1.1.5).
Опустим пока эти связи и ограничения и для удобства
изложения введем в функционал производные переменных состояния и
управлений.
Итак, требуется найти экстремали функционала
t,
y=f <р0(х, х, u, ii, t)dt, (2.1.24)
.;
t9
удовлетворяющие граничным условиям
х(*0) = х«»; (2.1.25)
х(/1) = х<1) (2.1.26)
и являющиеся решением уравнений связей (2.1.23). Эта задача
называется задачей Лагранжа. Отметим, чго если в функционале
(2.1.24) отсутствует производная какой-либо из компонент векто-
32
ров х или и, то, естественно, что граничные условия для нее не
задаются.
Переходя к решению, введем в рассмотрение новый
функционал
У1= f сро(х, х, и, и, ф, t)dt, (2.1.27)
to
в котором
90 = ?о(х, х, и, и, О + ф'(0[х-ф(х, u, t% (2.1.28)
где я|)(/) — л-мерный вектор, компонентами которого являются
пока неопределенные функции, называемые множителями Лаг-
ранжа. С помощью этих множителей задача об условном
экстремуме функционала (2.1.24) сводится к задаче на безусловный
экстремум функционала (2.1.27). Уравнения Эйлера для
безусловных экстремалей функционала (2.1.27) имеют вид:
-Ts—yibW-TL-4-\bm+-^\=o </ = Сй; (2.1.29)
dxi /LA dxi at |_ dxt J
J^-YtW_^ £_J|u.=o (Л=1Т^); (2.1.30)
d#£ >--^ d#fc dt dUk
^L = Af/-T/ = o (*' = Ui). (2Л.23)
Уравнения (2.1.23), (2.1.29), (2.1.30) образуют систему из
2n-\-m уравнений, которые называются уравнениями Эйлера —
Лагранжа, для определения такого же числа неизвестных */(/),
i|)i(0 (i=l,n)9uh(t) (ft=l, m).
Если кривые хг(/), и&(/) (/=1, я; /г=1, т) доставляют
безусловный экстремум функционалу (2.1.27), то на них достигается
и условный экстремум функционала (2.1.24). Действительно, если
на указанных кривых достигается безусловный экстремум
функционала (2.1.27), то они удовлетворяют уравнениям Эйлера
(2.1.23), (2.1.29), (2.1.30). Это означает [см. (2.1.28)], что на
таких кривых значение функционала J\=J. И если они доставляют
безусловный экстремум функционалу (2.1.27), то они будут
доставлять экстремум и в более узком классе кривых,
удовлетворяющих уравнениям связей (2.1.23).
Обратное утверждение о том, что функции */(/)> uu(t) (i =
= 1, п\ k=l9 m), доставляющие условный экстремум
функционалу (2.1.24) при наличии связей (2.1.23), будут являться
безусловными экстремалями функционала (2.1.27), дает следующая
теорема.
2—1017
33
Теорема 2.1.1. Если функции Xi(t), Uu(t)y (i=l, n\ k=
= 1, т) доставляют экстремум функционалу (2.1.24),
удовлетворяют уравнениям связи (2.1.23) и краевым условиям
(2.1.25), (2.1.26), то существуют такие множители ^i(0> •••»
г|)п(0, что эти функции удовлетворяют уравнениям Эйлера
(Эйлера — Лагранжа) для функционала (2.1.27).
Доказательство теоремы приведено в приложении 1.
К задачам на условный экстремум относится также изопери-
метрическая задача, которая формулируется так: среди всех
кривых, удовлетворяющих граничным условиям (2.1.25), (2.1.26)
и равенствам
tt ^
f li(x, х, и, it, t)dt=J*it (i = l, а),
где li(x, x, w, й> t) — заданные функции; j\.— заданные числа
(i=l, а), требуется найти кривые *,•(/), Uk(t) (i=l, n\ &=1, m)y
на которых достигается экстремум функционала (2.1.24).
Изопериметрическая задача сводится путем введения
вспомогательных множителей г|); (здесь г|?г — некоторые числа, i==
= 1, п) к задаче на безусловный экстремум функционала
А='((%+У.*Ли.
to V /-1 /
Пример 2.1.5. Найдем экстремали функционала
/=J(^2 + ||2)^ (?>0) (2.1.31)
to
на связях
x = ax + bu (2.I.32)
при граничных условиях
х(*о) = *о; *(*i) = *i. (2.1.33)
В соответствии с методом решения задачи на условный экстремум
составим вспомогательный функционал
*\ 'i
/j = | [qx* + a2 + ф (*) (i _ а* — to)] fltf = J f0 (л:, и, ф) dt. (2.1.34)
/0 to
Уравнения Эйлера (Эйлера — Лагранжа) для безусловных экстремалей
этого функционала имеют вид
дур d дур дур _ J_ дур _ Q#
дх dt дх да dt да
<*|/ dt dty
34
= 0.
Принимая во внимание, что дф0/ды==дф0/д^==0, dcp0/d;c = i|), запишем эти
уравнения соответственно в виде
ф = — aty + 2qx; 2и = b<\>; x = ax + bu. (2.1.35)
Исключая переменную и, получим систему из двух уравнений
х = ах -Ь — ЬЦ) ф = —аф 4- 2#*.
Дифференцируя первое уравнение с учетом второго, имеем
х = ах + — Ь2 (—-аф + 2^л:).
Исключая из этого уравнения переменную
1
♦ =
(х — ах),
0,5^2
получим окончательно уравнение для экстремали x(t)\
х — (а2 +^2)^=0.
Решение этого уравнения имеет вид
^(0 = с1е//х + в2е"//х,
(2.1.36)
(2.1.37)
где т =
1
Используя граничные условия (2.1.33), получим постоянные С\ и с2.
Задачи Майера и Больца. В более общем случае функционал
(2.1.24) и граничные условия (2.1.25), (2.1.26) имеют вид
J=4i J %<x. u> x, u, /)rf/+?2vo(x(,), *i), (2.1.38)
vyo(x<°>, *0)=0; vn(xilK ti)=0 U==~s<n; l=)7p<n)y
(2.1.39)
где vo(x<1), tx)—заданная функция; qx и q2— известные числа.
Если в (2.1.38) Ц\фЪ, q2¥=0y то задача о нахождении экстремалей
этого функционала, удовлетворяющих уравнениям связи (2.1.23)
и граничным условиям (2.1.39), называется задачей Больца. Если
в (2.1.38) #1 = 0, то она называется задачей Майера. При q2=0
это задача Лагранжа.
Покажем, что задачи Больца и Лагранжа сводятся к задаче
Майера. Действительно, если дополнить уравнения (2.1.23)
уравнением л:0=фо, а граничные условия (2.1.39)—равенством
*о(^о)=0, то функционал (2.1.38) примет вид J=q\X0(ti)+q2x0-
Верно и обратное. Действительно, рассмотрим вместо
функционала
J = M*l\ tx)
2*
(2.1.40)
35
в задаче Майера функционал
Л-^оСх*1), /^^(х0, tQ). (2.1.41)
Поскольку vo(a'<°), t0)—известная величина, то экстремали
функционалов (2.1.40) и (2.1.41) совпадают.
С другой стороны, нетрудно видеть, что
Л=Г -j-MMt), t)dtJ\ (V iSL9l(x, ц. t)+-%-)dt,
а задача об экстремуме этого функционала на связях (2.1.23) —
это уже задача Лагранжа.
Покажем также, что задача Больца эквивалентна задаче
Лагранжа. В связи с этим запишем функционал (2.1.39) как
и
J=l (?l?0 + ?2*ii+l)<#,
to
дополним уравнения (2.1.23) уравнением in+1 = 0, а краевые
условия (2.1.39)—равенством хп+\ (to) =v0/(/i—t0). Тогда из
уравнения связи следует xn+I = const = vo/(/i—/0), и, следовательно*
задачи Больца и Лагранжа эквивалентны. Выбор той или иной
формы вариационной задачи определяется соображениями
удобства ее формулировки.
В заключение этого параграфа отметим, что в связи с
задачами оптимального управления в последние десятилетия
уравнения Эйлера, Эйлера — Лагранжа были получены для
дискретных систем [2.4] и систем с распределенными параметрами [2.5].
§ 2.2. Принцип максимума
Развитие систем управления, ужесточение требований к их
точности при ограниченных габаритах и ресурсах привело в 40—
50-х годах к использованию вариационного исчисления для
построения оптимальных систем управления. Вначале использовались
методы классического вариационного исчисления, однако вскоре
стало ясно, что для построения систем новой техники (в
частности, систем запуска ракет [2.19]), систем, оптимальных по
быстродействию, и т. п., необходимо дальнейшее развитие
вариационного исчисления и создания математической теории
оптимального управления. Дело в том, что из-за ограничений на управления
(например, ограниченным количеством топлива ракеты, наличием
«упоров» рулей управления и т. п.) оптимальные управления
оказались кусочно-непрерывными функциями с точками разрыва
первого рода, число которых неизвестно. Это противоречило
предположению классического вариационного исчисления о
непрерывности экстремалей.
36
Этапом в развитии теории оптимального управления в нашей
стране явилась общая постановка проблемы об оптимальном
управлении, предложенная в 1954 г. сотрудником Института
автоматики и телемеханики АН СССР дроф. А. А. Фельдбаумом на
совместном семинаре инженеров и математиков, руководимом
акад. Л. С. Понтрягиным. В 1956—1960 гг. Л. С. Понтрягиным и
его учениками была разработана математическая теория
оптимальных процессов, подытоженная в их всемирно известной
монографии [2.7]. Основным результатом этой теории является
«принцип максимума», указывающий необходимые условия
оптимальности для широкого круга задач оптимального программного
управления.
Задача об оптимальном управлении как задача Майера. Для
удобства последующего изложения сформулируем задачу об
оптимальном (программном) управлении, ограничиваясь для
простоты случаем стационарного (автономного) объекта, и
представим ее в форме задачи Майера.
Пусть объект управления описывается уравнением
х=ф(х, и). (2.2.1)
Управления U\(t), ..., um{t) при каждом t принимают значения из
некоторого замкнутого множества U. В качестве такого
множества можно, в частности, иметь в виду множество
|и*(')|<«* (*=17^Т- (2.2.2)
Назовем допустимыми управлениями те Uk(t) (k= l, m), которые
являются кусочно-непрерывными функциями и принимают
значения из множества U.
Среди допустимых управлений, переводящих объект (2.2.1)
из заданного состояния
х(/0) = х«» (2.2.3)
в другое заданное состояние
х(^)=х(1)э (2.2.4)
требуется найти такое, для которого функционал
7=f cp0(x, и) dt (2.2.5)
U
принимает наименьшее значение.
Отметим, что в отличие от задачи Лагранжа, приведенной в
§ 2.1, здесь присутствуют ограничения вида (2.2.2). Кроме того,
в (2.2.1) и (2.2.5) функции ф0 и ср* (/=1, п) не зависят явно от /.
Последнее (стационарность объекта) не снижает общности
рассмотрения, так как в противном случае, вводя новую переменную
37
xn+\ = t и дополняя (2.1.23) уравнением in+1=l, получим
систему, правая часть которой не зависит явно от t.
Сформулированную задачу можно представить как задачу
Майера. Действительно, вводя новую координату состояния х0,
удовлетворяющую дифференциальному уравнению
х0=ср0(Х, и), (2.2.6)
и дополняя соотношение (2.2.3) равенством
х0(/0)=0, (2.2.7)
получим задачу Майера, в которой требуется найти допустимое
управление, переводящее «объект» (2.2.1), (2.2.6) из состояния
(2.2.3), (2.2.7) в состояние (2.2.4) так, чтобы в момент времени
t\ переменная х0 принимала наименьшее значение.
Опустим пока ограничения (2.2.2) на управления и, принимая
в качестве допустимых непрерывные функции управления,
запишем уравнения Эйлера — Лагранжа, разрешающие
рассматриваемую задачу Майера в этом случае.
Эти уравнения нетрудно получить на основе (2.1.29), (2.1.30),
учитывая, что ф0 не зависит от производных управлений и
переменных состояния. Таким образом,
^ у^у_ ф ! (/ = 17я); (2.2.8)
'■А dxi
d<?j
duk
fy = 0 (ft=l,/и). (2.2.9)
Переменные г|)/(0 (i=0, n) часто называют вспомогательными
переменными, а уравнения (2.2.9) для их определения называют
сопряженной системой.
Запишем теперь уравнения (2.2.1), (2.2.8), (2.2.9) в более
компактной форме. Для этого введем в рассмотрение функцию Н
переменных х\ (t), ..., хп (t), -ф0 (0 • *i (0, -, фп (0, Щ (t), ..., um (t).
Я(х, ♦, %, и)*=2Ф/Т/(х- «). (2.2.10)
используя которую представим (2.2.1), (2.2.6), (2.2.8), (2.2.9) как
i, = <?///<?<!>, (i=6Tn); (2.2.11)
ц.^-дН/дх; (1 = 0, п); (2.2.12)
dH/duk = 0 (А=1, ш). (2.2.13)
Отметим, что эти уравнения выражают необходимое условие
экстремума функционала x0(t\), а в задаче Майера требуется
38
найти его наименьшее значение. В связи с этим дополним (2.2.12),
(2.2.13) необходимым условием минимума, которое называется
условием Вейерштрасса,
dukdui
М#/<0, (2.2.14)
где 8uk (Л=1, т)—бесконечно малая вариация оптимального
управления.
Принцип максимума. Учтем теперь ограничения (2.2.2) на
управление. Если в процессе оптимального управления функции
Uk(t) (k=l9 m) не достигают границ множества (2.2.2) (что
означает \Uk(t) | <Uk* (k=l, m)), то для них выполняются
соотношения (2.2.13), (2.2.14). Однако часто оптимальное управление
принимает граничные значения iik* либо — Uk* (k=l, га), более
того, оптимальное управление может скачком переходить с
одной границы на другую. Такие управления уже являются
кусочно-непрерывными функциями времени.
При попадании оптимального управления на границу
множества U соотношения (2.2.13), (2.2.14) нарушаются. Оптимальные
управления удовлетворяют в этом случае принципу максимума
Л. С. Понтрягина, установленного и доказанного в форме
приведенной ниже-теоремы.
Переходя к этой теореме, сделаем некоторые пояснения.
Возьмем произвольное допустимое управление u(t) и при начальных
условиях х<0), лга(/0)=0 найдем решение системы (2.2.1): X\(ti)t
...,xn(t).
Подставляя это решение и управление u(t) в (2.2.8),
определим, пока при некоторых произвольных начальных условиях
Ф(^о), решение (2.2.8): yp\(t)9 ..., г|?п(0- При фиксированных
(постоянных) значениях векторов хиф функция Н становится
функцией вектора ue(/. Максимум этой функции по и обозначим
через М (х, if, ф0):
Af(х, Ч>, Ф0)=тахЯ(х, ф, %, и). (2.2.15)
Максимум (наибольшее значение) непрерывной функции
Я(х, ф, -фо, и) может достигаться как в точках локального
максимума этой функции, в которых
№Н
дН/дик=0 (4=1, т) и V ип ЬиЛЪи1<09 (2.2.16)
А-А dukdui
так и на границах uh* и —Uk* (k= 1, т) множества U.
I Теорема 2.2.1 (принцип максимума Л. С. Понтрягина).
I Пусть u(/), to^t^ti — такое допустимое управление, что соот-
39
ветствующие ему решения x{(t) (i = 0, лг) уравнения (2.2.11),
исходящие в момент t0 из состояния (2.2.3), (2.2.7), проходят в
момент времени tx через точку х<1\ x0(t{). Для оптимальности
управления (при котором x0(ti) принимает наименьшее
значение) необходимо существование таких ненулевых
непрерывных функций \p0(t )y\p\{t), ..., i|5n(0. удовлетворяющих
уравнениям (2.2.12), что при любом /(f0^^*i) функция H(x(t)t
♦ (О» ^о(0> и) переменного ueJ7 достигает при u = u(^)
максимума
Я(х(0, ♦(/), %(t), u(t)) = M(x(t)${t), %(t)), (2.2.17)
при этом в конечный момент времени t\ выполняются
соотношения
«M'i)<0; АЦхУО, ф(^), %(tx))=0. (2.2.18)
Если tp(0, x(0 и u(t) удовлетворяют (2.2.11), (2.2.12) и
(2.2.17), то функции г|)0(0 и M(x(t), ty(t)y гро(О) переменного
t являются постоянными и поэтому проверку соотношений
(2.2.18) можно проводить не обязательно в момент времени t\>
I а в любой момент t(tQ<^.t^.t{).
Доказательство теоремы является достаточно сложным, и
поэтому в приложении 2 приведен лишь вывод основного
соотношения (2.2.17) теоремы для случая свободного правого конца
(jc(1) не задан) и фиксированного t\.
Соотношения (2.2.17) и (2.2.18) можно записать в более
простой форме:
тахЯ(х, ф, %, и) = 0. (2.2.19)
Таким образом, центральным в теореме 2.2.1 является
условие максимума (2.2.19). Оно означает, что если U\(t), ..., um(t) —
оптимальные управления, a X\(t)y ..., xn(t) — оптимальные
траектории, то непременно найдутся такая постоянная г|?о<0 и такие
решения i|>i(0» ..., фп(0 системы (2.2.12), что функция H(x{(t)y
..., xn(i), Щ, ..., tim, ^o,^i (0» •••» 'Фп(О) переменных щ, ..., ит при
всех t^[t0, t{] будет достигать максимума на U именно при
оптимальных управлениях U\(t), ..., um(t). Поэтому теорему 2.2.1,
дающую необходимое условие оптимальности в задачах
оптимального управления, принято называть принципом максимума.
Отметим, что во внутренних точках множества U для
оптимального управления выполняются условия (2.2.13), (2.2.14), которые
являются необходимыми для (2.2.19).
Практическое применение принципа максимума. Как же
практически воспользоваться условием (2.2.19), ведь функции X\(t),
..., xn{t)y \|>i(0. ■•■> ^n(i) и постоянная \|з0, входящие в это условие,
неизвестны? Здесь поступают следующим образом: рассматривая
функцию Я(х, u, t|?, фо) как функцию т переменных ии ...» um^U
40
и считая переменные х, -ф, ip0 параметрами, решают задачу
максимизации функции И и находят функцию
u = u(x, ф, <1>0)е= £/, (2.2.20)
на которой достигается наибольшее значение функции Я.
В ряде случаев функция (2.2.20) может быть записана в
явном виде. Например, если правые части (2.2.1) имеют структуру
Ф,(х, u) = cp|1)(x) + 2№)(x)% (* = 1, л),
а подынтегральное выражение функционала (2.2.5)
k
ср0(Х, U) = cp0(X)+2?0ft(X)%,
множество описывается £/ неравенствами (2.2.2), то
п т / п \
Я(х, ф, %, и)= У Ф/Ю^ + У 2Ф/«)^*2)(х) й» (2.2.21)
'=--0 fc = l \/=0 /
и эта функция достигает [2.8] наибольшего значения на U в
точке с координатами
Ub =
til если2^)(х)>0;
п
-til, если ^ф^(х)<0,
или
a*W = «*sign(2 <fc (/)?}? x(/)J <*=1,/и). (2.2.22)
Формула (2.2.22) дает большой объем информации о
структуре оптимального управления: k-я (&=1, m) координата
оптимального управления является ступенчатой (кусочно-постоянной)
функцией со значениями Uh* и —U/Д при этом моменты
переключения определяются условием
2Ф/(О?8Чх(/)) = 0. (2.2.23)
Итак, допустим, что функция (2.2.20) известна. Рассмотрим
систему 2п дифференциальных уравнений
^ = ^(х, и(х, ф, Фо» (* = 1,л); (2.2.24)
41
t/=_V-I* l T ф, <*=1,л). (2.2.25)
Функции ф и и, входящие в правые части этих уравнений,
известны. Общее решение системы (2.2.24), (2.2.25) зависит от
произвольных постоянных, которые определяются из краевых
условий (2.2.3), (2.2.4). Задача интегрирования уравнений (2.2.24),
(2.2.25) при краевых условиях (2.2.3), (2.2.4) называется краевой
задачей (двухточечной краевой задачей).
Таким образом, принцип максимума позволяет свести
решение задачи об оптимальном программном управлении к решению
краевой задачи.
Трудность ее решения состоит в том, что интегрирование
уравнений (2.2.24), (2.2.25) в «прямом времени» не представляется
возможным, так как неизвестны начальные условия tyi(t0) (i=
= 1, п). Один из возможных подходов к решению краевой задачи
заключается в следующем. Задаваясь произвольным вектором
<ф(/0)='ф<0) и интегрируя (2.2.24), (2.2.25) при известных
начальных условиях х(*о), ^(0), найдем функции x(t), ty(t) и при t=tx
проверим выполнение равенства (2.2.4). Если оно нарушается,
задаемся другим вектором ip(£o) =ф(1) и, интегрируя (2.2.24),
(2.2.25) при начальных условиях х(^0), Ф(1), получим при t=t\
вектор x(*i).
Если он не совпадает с заданным, продолжаем процесс до
тех пор, пока не найдется такой вектор ^>(t0)f что условия (2.2.4)
будут выполняться с приемлемой точностью. При этом подходе
используются градиентные методы, когда ty(to) определяется из
условия минимума «расстояния» x(t\) от заданного вектора х<!>.
В вычислительной математике разработан ряд методов
приближенного численного решения краевых задач: метод стрельбы,
метод прогонки, ряд итерационных методов [2.10], [2.11]. Во
многих случаях не представляется возможным найти из условия
(2.2.19) явный вид (2.2.22) оптимального управления. Тогда
уравнения (2.2.1), (2.2.6), сопряженная система (2.2.12) и условия
максимума (2.2.19) образуют краевую задачу принципа
максимума. Эта задача имеет ряд специфических особенностей,
затрудняющих применение стандартных численных методов решения
краевых задач. К числу таких особенностей относятся разрывы
функций Uh(t) (k=l, m), удовлетворяющих условию максимума
(2.2.14), их неединственность, нелинейный характер зависимости
(2.2.20) даже в линейных системах. Кроме того, особенностью
краевых задач, связанных с принципом максимума даже в
случаях, когда удается найти явный вид управлений (2.2.20),
является их плохая сходимость, вызванная неустойчивостью системы
(2.2.24), (2.2.25). Ряд приемов решения краевых задач принципа
максимума изложен, например, в [2.12, 2.13]. Отметим в заклю-
42
чение, что, несмотря на различные методы численного решения
краевой задачи принципа максимума, процесс решения каждой
оптимизации на основе этого принципа является самостоятельной
творческой задачей, решаемой в рамках той частной отрасли
динамики, к которой относится объект управления, с учетом его
специфических особенностей, используемых для улучшения
сходимости численного решения краевой задачи.
Пример 2.2.1. Построение оптимального по расходу топлива управления
[2.3].
Рассмотрим объект управления, описызаемый уравнениями
хг=х2; X2 = — хх~\-и. (2.2.26)
Пусть на управление наложено ограничение
|а(01< 1. (2.2.27)
Функционал оптимизации, выражающий расход топлива, имеет вид
*х
/=j \u{t)\dt. (2.2.28)
'о
Заданы начальное состояние
■*i('o) = *io; *2('о) =*2о (2.2.29)
и условие в момент времени t\
*i(*i)=-*2(*i)=0. (2.2.30)
Требуется найти u(t), при котором объект (2.2.26) переходит из состояния
(2.2.29) в состояние (2.2.30), при этом выполняются ограничения (2.2.27),
а функционал (2.2.28) принимает наименьшее значение.
Переходя к определению оптимального управления на основе принципа
максимума, сформируем функцию
Я = -\и\ + ф1 (О х2 + ф2 (О (-*i + и) (2.2.31)
уравнения для вспомогательных переменных
фх = -дН/дхг = ф2; Ь = -дН/дх2 = —фь (2.2.32)
Управление u(t), доставляющее максимум функции (2.2.31), определяется как
( 0, если 1ЫОК1;
и(0 = { 1, если ф2(0>1; (2.2.33)
{ — 1, если фг tf) <—1 •
Уравнения (2.2.26), (2.2.32), (2.2.33) составляют краевую задачу.
Переходя к ее исследованию, запишем решение системы (2.2.32):
+1 (0 = —а cos (* + а); +2 (О = a sin (t + а), (2.2.34)
где а>0; 0^а^2я — неизвестные числа, которые необходимо определить
так, чтобы управление (2.2.33) привело объект (2.2.26) в состояние (2.2.30).
Найдем решение системы (2.2.26) при и — О, и—\, и = — 1. В первом случае
решение этой системы имеет вид xi = — R cos(/-fp), x2 = Rsin (t-\-$). Оно
зависит от постоянных R и р, при этом #>0, 0^р^2я. Фазовые траектории
этой системы представляют собой окружности с центром в начале координат
(рис. 2.2.1, а). Фазовые траектории системы (2.2.26) при и = -\-\ и и =—1 так-
43
CO
же являются окружностями, центры которых расположены в точках (1, 0)
(—1, 0) соответственно (рис. 2.2.1,6, в).
Пусть некоторым оптимальным управлениям u(t) объект (2.2 26)
переводится из начального состояния (*10, х2о) в начало координат. Тогда на
последнем участке оптимальной траектории управление u(t) равно +1 либо —1.
Для определенности будем полагать, что оптимальное управление имеет вид,
изображенный на рис. 2.2.2. В этом случае последний участок фазовой
траектории представляет собой дугу величиной г\ с центром в точке (1,0) (рис.
2.2.3). Управление ы(г)=0 при t^[t{—л; tx—tj], и поэтому соответствующий
участок фазовой траектории является дугой с центром в точке (0, 0) и
центральным углом л—т).
В точке А происходит переключение управления м(/)=0 на и(/) = 1, а в
точке В — с u(t)= — 1 на u(t)=0. Задаваясь различными значениями чисел а
и а, получим различные числа г]. Строя для каждого числа ц траекторию
методом «попятного движения (каким была построена траектория на рис. 2 2.3),
определяем, «попал» ли левый конец этой траектории в точку (х10, х2о). Пусть
для некоторого т] траектория ОЛВ прошла через точку (х10, лг20). Для такого
числа ц нетрудно определить числа а и а, а через них начальные условия я|?10,
л|?2о, которые и разрешают краевую задачу.
Условия трансверсальности. Пусть в задаче об оптимальном
лрограммном управлении начальное (2.2.3) и конечное (2.2.4)
состояния не фиксированы (a t0 и t\ заданы) и могут
перемещаться по поверхностям: левый конец траектории лг(/) (i=l, ft) по
поверхности v0i (х<°>, f0)=0, а правый — по поверхности vnfxW,
*i)=0.
Теорема 2.2.2 (принцип максимума) в этом случае в
основном сохраняется (так как управление, оптимальное при
подвижных концах траектории Xi(t) (i=l, ft), является оптимальным и
в частном случае, когда концы закреплены), однако 2ft
граничных условий для системы (2.2.24), (2.2.25), решения которой
содержат 2ft произвольных постоянных, определяются из условий
трансверсальности:
Ы*0) = дч01/дх10; t/('i) = <fyi/u*/i (/=ГГл). (2.2.35)
Если один из концов траектории x(t), например правый,
закреплен, то граничные условия имеют вид
Xi(tx) = xn; tyi(tQ) = dvn/dxn {i = TTn). (2.2.36)
§ 2.3. Метод динамического программирования
В послевоенные годы наряду с задачами оптимального
управления в технике возникли задачи об оптимальном управлении
в экономике, управлении войсками и т. д. (задачи об управлении
запасами, ресурсами, составление расписаний, организация
тыла). Они не допускали эффективного численного решения на
основе существующих методов. Это привлекло внимание
математиков к этим задачам. При этом обнаружилось, что процесс
решения многих из них может быть представлен как некоторый
многоплановый процесс принятия решений. Эта концепция получила
45
название метода динамического программирования, что означает
принятие решений во времени.
Основу метода динамического программирования,
разработанного американским математиком Р. Беллманом [2.20J,
составляет принцип оптимальности, используя который выводят
функциональное уравнение метода. Решение этого уравнения
приводит к синтезу оптимального управления.
Принцип оптимальности. Рассмотрим задачу об оптимальном
стабилизирующем управлении.
Пусть дан объект управления, описываемый уравнениями
х=ф(х, u, t). (2.3.1)
Требуется найти закон управления
и = г(х, /), (2.3.2)
чтобы на движениях системы (2.3.1), (2.3.2), возбужденных
произвольными начальными отклонениями, минимизировался
функционал
tx
/=| сро(х, u, t)dt. (2.3.3)
'о
При этом на управления (2.3.2) наложены ограничения u^U,
Для определенности часто будем полагать, что
— «*<«*(*)<«*, (2.3.4)
где Uk* (&=l,m)— заданные числа.
Отметим, что эта задача является вариационной задачей со
свободным правым концом и фиксированным t\.
Для простоты изложения принципа оптимальности
ограничимся частным случаем этой задачи, когда я=2, а т=1. В этом
случае уравнения (2.3.1) и (2.3.2) примут вид:
*i = b(xu х2, и, /); х2=ъ(хъ х2,и, t)\ (2.3.Г)
и=г(хи хъ /), (2.3.2')
а функционал (2.3.3) запишется, если опустить для простоты
t в фо, как
/=Г у0(хи хъ u)dt. (2.3.3')
to
Переходя к принципу оптимальности, допустим, что
оптимальное управление (2.3.2) найдено. Этому управлению
соответствует оптимальная траектория X\(t), x2{t)y которую можно
вычислить, подставляя в уравнения (2.3.1) функцию (2.3.2) и
интегрируя (2.3.1) при некотором начальном условии X\(to), x2(to). Эта
траектория приведена на рис. 2.3.1.
46
Отметим какую-либо точку х' на оптимальной траектории и
назовем участок между точкой х^= {хх (t0), x2(tQ)} и точкой *'=
= {х\ (^)> *2(*')} первым (траектория У), а участок между точка-
хЛ
ч
Рис. 2.3.1
ми х'={х{(1'), x2(t')} и xW={xl(tl), x2(t\)} назовем вторым
участком траектории (траектория 2).
Принцип оптимальности: независимо от того,
каким путем система (2.3.Г) достигла в момент времени V точки
{x\(t')> x2(t')}, ее оптимальным последующим движением
будет траектория 2.
Другими словами, второй участок оптимальной траектории
является оптимальной траекторией. Это означает, что если
система, начав движение из точки xi0\ оказалась в момент времени ¥
в точке х', то оптимальное движение из этой точки будет
совпадать с траекторией 2.
Обоснование принципа почти очевидно. Действительно, пусть
движение из точки х' продолжается не по траектории 2, а по
траектории 2' и при этом движении функционал
^=1 <Po(*b х* u>)dt
принимает меньшее значение, чем на траектории 2. Тогда
значение функционала (2.3.3') на траектории 1—2' будет меньшим, чем
на траектории /—2. Это противоречит предположению об
оптимальности и.
[ Функциональное уравнение метода динамического
программирования. Несмотря на почти очевидный, эвристический
характер принципа оптимальности, он имеет своим следствием далеко
не очевидное функциональное уравнение. Переходя к его выводу,
введем обозначения для значений функционала на оптимальных
траекториях:
/,
v[XiV0), x2(tQ), t0]= min f <P0[*i(O, x2(t), u(t)\dt;
'0
47
I 1
*>[■*!(''), x2{t\ t'\ = min f <p0[*i(O, -M'), л(0]
dt.
Представим (полагая t' = t0 + x; x— достаточно малое число)
функционал (2.3.3') в форме
to+t
J ToI^i (О, *2('), u(t)]dt+ j <Po[*i('), -М'), а(/)]Л.
to + x
Допустим, что оптимальное управление на втором участке
известно. Значение, которое принимает функционал оптимизации
при движении по этому участку, определяется выражением
v[x[(t/)x2(t/)\. На основе принципа оптимальности можно
записать функциональное уравнение
to + t
v{xx(tQ), x2(t0), tQ] min f <?0[хгУ), x2(t), ti(t)\dt-\-
ИЛ>)1<«* ( j'
+ z;[x1(^0 + t), x2(tQ-\-x), 'o + *l
Учитывая малость т, получим
vlXitfo), x2(tQ),tQ] =
= min {?0[-*itfo)> x2(t0), uit^lx + vlx^tQ+x), x2(t0+x), t0+x]}.
\u(to)] -и*
(2.3.5)
Минимизируя выражение в фигурных скобках по u(t0),
получим оптимальное управление на первом участке. Однако в этом
выражении функция v неизвестна. В связи с этим преобразуем
(235).
Используя разложение в ряд Тейлора, получим
xi(t{iJrx) = xi(t0)-
дх[
dt
х + ои(х)--
= -М'0) + ?Л-*1('о>' -М'о)* «('о). *0]х + ои(х) (/ = 1,2).
Оц (?)
lim
•с-►О
►0;
v\xx(t^x), х>(/0-г-т), t0^x]=^v{xi(tQ)+^l\xl(tQ), x2(t0), u(tQ), tQ]x-i
+ ou(x), x2(tQ)~^2\xl(tQ), x2(tQ), u(t0), tQ]x + ol2(x), *0 + *} =
= V \XX (Iq), X2 (tQ), tQ\ +—~
dx\
I*,— X x{tQ)
x2 -x2(to)
?i[^iW, x2{tQ\ u(tQ), tQ\x +
48
, _dv_
dv
Ы-М'о). x2(t0), u(t0), / ]t+—-
t=t0 ot
Xi = Xr(t0)
Xz=3Xi(to)
t=to
Xi=Xl(t0)
Xj =X 2\*q)
х + ог(х),
где Hm-S^L-.O.
t->0 T
Подставляя эти выражения в (2.3.5), получим
|«(*o)l<«*
+ ъ[хгУ0), x2(t0), ^о1 + \!-^
J&3B& dxi
/-1
T/[jflW, X2(tQ\
'/-/о
Xi=Xx (t0)
]Х%=>х9 (t0)
' + Os(X)\
Сокращая v[x\(t0), x2(to), t0] в обеих частях равенства и
поделив результат на т, получим при т-ИЭ
dv
dt
t=t0 \u(t,
Хг.^Х! (t0)
л?2=л:2 (to)
+
dv
dxt
/=1
min f<p0 [*i (*о)э x2(t0), u(t0)] +
t(to)\<u* I
Ъ[*Л*о)> x2(t0), и(t^, tQ]\.
t-to
x1=xl(t0)
\X2=X2 (^0)
Учитывая, что полученный результат справедлив для любых
X\{to)y X2(to)f t09 опустим индекс «О» и запишем
dv[xx(t), x2(t), t] _
dt
min k[Xl(O, x2(*),«] + V dvl*M'x*WAь[Xltf),х2ф, u,t]\.
t0)\ <u* Jb4 dxt
\ /=1 j
(2.3.6)
В общем случае, когда п>2, т>\, это уравнение имеет вид
_dv[xx, Xn,t}= m.n L[Xu_!Xnt Uu...tum] +
ot м,«2,...,uneu {
+ S\ dv^-">x«A b\Xu-*x»*u-**mA- (2.3.7)
/-1 )
49
Если известно, что оптимальные управления находятся внутри
множества U, либо если ограничения подобного рода вообще
отсутствуют, то уравнение (2.3.7) можно представить как
совокупность уравнений в частных производных:
п
—5-=<Ро [*!,..., ■*„, Ki,.'.., uJ + '^p-J^—<¥ilxu...,xn,ul,...,um,t};
(2.3.8)
П
foo[*!,-.•» хп, иг,..., ит] , W1 dv д<?1[хг,..., хп,иг,.. .,um,t] _
duk a-~\ dxi duk
=0 (Л=1, m). (2.3.9)
Таким образом, для решения задачи об оптимальной
стабилизации необходимо решить, при краевых условиях
т>[*!(*!),..., хяУг), /1] = 0, (2.3.10)
специфическое уравнение в частных производных (2.3.7) либо
систему из т+1 уравнений в частных производных (2.3.8), (2.3.9).
В результате решения этих уравнений получим искомые
оптимальные управления Uh=uk(xu ..., хп, t), где k=\, m, и функцию
v(xu ..., хПу t), которая при Xi=xi0y t=t0 является наименьшим
значением функционала оптимизации
и
'*>(*ю, *2о,..., *ло. t0) = J <p0<*i>—* **» «1.—. ««)<#. (2.3.11)
если выполняются краевые условия (2.3.10). Действительно, пусть
оптимальные управления определены. Тогда, вдоль оптимальных
траекторий и управлений, уравнение (2.3.7) примет вид
du(xi,...,xn, t) _ ,
— — ——то№>•••»•*„, »i,..., ит)-г
ot
п
/QA dxi
или
п
dv(*i,..., хп> t) , SY1 dv(xu..., xnf t)
— Г У. т/ №,..., X„,
«1,-м «т. *)=—<М*1. —» -*Л> «Ы-э ит)- (2.3.12)
Очевидно, что это уравнение можно записать в более
компактной форме
dv{Xl,. xR,t) д_?о(ДС1>->м ^ eif>>#> йт)< (2.3.12')
а?
50
Интегрируя его в пределах от tQ до /,, заключаем, что
^[х^),..., xn{tx\ ^1] —г;[дг10,..., хп0, tQ] =
и
= —J <Po(*i>—, •*„, #i, —, um)dt. (2.3.13)
to
Учитывая краевые условия (2.3.10), получим (2.3.11).
При t-*~oo на оптимальные управления накладывается
дополнительное требование асимптотической устойчивости. Если
функции ф0>0 и v[xu ..., хп]>0 для всех хь ..., хп, то система (2.3.1),
(2.3.2) асимптотически устойчива.
Действительно, уравнение (2.3.12) является уравнением
второго метода А. М. Ляпунова и поэтому для асимптотической
устойчивости оптимальной системы достаточно
положительно-определенной функции v(xu ..., хп), полная производная которой в
силу дифференциальных уравнений (2.3.1)
отрицательно-определенна.
Таким образом, если фо(*ь ..., хп, ии ..., ит)>0 и ^-^оо, то
функция v(xu ..., Хп, ии ..., um, t) в уравнениях метода
динамического программирования оказывается функцией Ляпунова,
поэтому этот метод иногда называют методом Ляпунова — Беллмана,
Заметим также, что для асимптотически устойчивой
оптимальной системы краевое условие (2.3.10) выполняется
автоматически.
Отметим в заключение, что если функционал оптимизации
(2.3.3) имеет более общий вид
t\
J = \ <M*i»—> xm «i,..., um, /)flf/ + v0[^^),..., -M'i), hi (2.3.14)
то краевое условие (2.3.10) записывается как
т;[х1(/1)>...>ля(/1), ^] = v0 [Xi (/!>,..., ^ft), tt]. (2.3Л5)
Численное решение задачи об оптимальном стабилизирующем
управлении. Допустим, что удалось найти в явной форме
управление, при котором выражение в фигурных скобках, входящее
в (2.3.7), достигает минимума:
u=-u(x, /, vx), (2.3.16)
где vx— вектор с компонентами dv/dx]y ..., dv/dxn.
Подставляя это выражение в (2.3.7), получим нелинейное
уравнение в частных производных первого порядка
п
—5- = ?о(х, и<х, *> v^))+^~?/(х, u(x, t, Vjr), /). (2.3Л7)
i = l
Численное решение этого уравнения при краевых условиях
(2.3.15) представляет собой более трудную задачу, чем решение
51
краевой задачи принципа максимума, так как там речь шла о
кревой задаче для обыкновенных дифференциальных уравнений,
а здесь о краевой задаче для уравнений в частных производных.
Это увеличение трудностей численного решения естественно, так
как на основе метода динамического программирования решается
более сложная задача синтеза управлений, тогда как принцип
максимума доставляет управления как функции времени.
Кстати, эти функции получаются и применением метода
динамического программирования к задаче об оптимальном программном
управлении, если в управления ии = гк{х\ (/), ..„ xn(t),t) (k=\, m)
подставить вместо xi(t) (i=l, n) оптимальные траектории.
Для решения уравнения (2.3.17) применяют известные методы
[2.10], [2.11] решения уравнений в частных производных
(разностные методы, метод характеристик, метод прямых и т. п.),
однако имеется специальный метод приближенного численного
решения этого уравнения. Этот метод состоит в замене
дифференциальных уравнений (2.3.1) системой
дифференциально-разностных уравнений, а интеграла (2.3.3) — суммой и в использовании
для нахождения оптимального дискретного управления в такой
системе на основе функционального уравнения для дискретных
систем. Собственно, исторически такое функциональное
уравнение и было впервые получено при синтезе оптимального
управления именно дискретных систем.
Подробное изложение метода динамического
программирования для дискретных систем приведено в приложении 3.
Пример 2.3.1 Рассмотрим объект управления, возмущенное движение
которого описывается в первом приближении уравнениями
Х\~Х2, X<2~—Xl+U. (2.3.18)
Требуется найти управление u = r(xu x2, t), такое, чтобы функционал
/ = f (tfn*i+ u2)dt + a1x2l(tl) + a2x22(t{)J (2.3.19)
to
(где <7п, (Xi, a2 — заданные числа) принимал наименьшее значение при
движениях объекта, возбужденных произвольными начальными отклонениями. На
искомое управление наложено ограничение
\u(t)\ < 1. (2.3.20)
Переходя к исследованию этой задачи, запишем функциональное
уравнение метода динамического программирования
dv(Xi,X2,t) [дУ (Х\,Х2, t)
Х2 -Ь
= min < -
|И|<1 I
dt \и\<\\ дх
дУ{ХЪХ2, t)
(-*i+a) + Щцх\ + B2J (2.3.21)
дХ2
v[*i('i). *2(*i), ^]^а2хЦ^) + агх'^1). (2.3.22)
и краевые условия
.2/, ч ,.„nW2
52
Выражение в фигурных скобках достигает минимума, когда
1 dv(xi, Х2, t)
1 dv{x\, x2> t)
— , если
2 дх2
2 6х2
<i;
1 dvixi, Х2, t)
1 если -— ^—£1-J->1; (2.3.23)
2 0X2
1 ду{хг, х2, t)
— 1, если — — <1.
2 дх2
Это соотношение вместе с уравнением
dv(xi, X2, t) dv(xi, x2, t)
dt дх\
Х2-
dv(Xi, X2, О , 2
+ L"~^ (~х\ + «) + ?n*i + "2
и краевым условием (2.3 22) образует краевую задачу метода динамического
программирования.
Связь метода динамического программирования и принципа
максимума*. Для установления связи [2.21] метода
динамического программирования с принципом максимума запишем
функциональное уравнение (2.3.7) в несколько иной форме.
В связи с этим введем новую переменную xn+\ = t. Очевидно,
что
dxn+l/dt = 4n+l (*!,..., хп+и их,..., ит)=\. (2.3.24)
С учетом этого соотношения, а также очевидного равенства
min {а (/)}== max {—а (t)} запишем (2.3.7) в виде
max - V — Ъ- <Ро =0. (2.3.25)
«ее/ А&> dxt
\ /-1 >
Принцип максимума для задачи о минимуме функционала
(2.3.3) на связях (2.3.1) доставляет (при *фо = — 1) условие
V^.-?0Uo, (2.3.26)
в котором if>n+i(0 является решением уравнения
♦-+1=-У1/Е£-*'- <2-3-27>
у^иИ 0\ХП+\
/=.1
Сравнивая (2.3.25) и (2.3.26), нетрудно заметить их
идентичность, если доказать, что вдоль оптимальных траекторий
выполняется равенство
<H>[*i(0..-..*»i+i(0]
^/)=__,<^i^,-.-,^+i^j (/ = 1э д+1). (2.3.28)
<>*/ (О
53
Переходя к доказательству этого равенства, вычислим
П + 1 /1+1
dt \dxj)~ Jy длг/ U*y/ _ 4&d d-r£ \d*yj<Pi —
/=i /=i
Л+1
d2t;
/=i
cp. (y = l,/i-|-l). (2.3.29)
С другой стороны, дифференцируя (2.3.25) по х/ (/=1,л+1),
получим вдоль оптимальных траекторий
п+1 л-Ы
>^Н dxjdxi £з£ дхь dxj dxj
i = i t = l
Используя (2.3.29), запишем это равенство в виде
_l_fJ2_U_^ J«_/_*L)_.*SL. (2,3.31)
^ \ д-Xj J фхЬ &xj \ dxi I &xj
Сравнивая это выражение с сопряженными уравнениями
(2.2.8), заключаем, что функции времени —dv/dxi и ty(t) (i=
= 1, n-rl) удовлетворяют одинаковым дифференциальным
уравнениям и, следовательно, эти функции совпадают при
одинаковых начальных (краевых) условиях в этих уравнениях.
Заметим, что при выводе (2.3.31) использовалось
соотношение (2.3.30), которое нуждается в обосновании. Дело в том,
что равенство выражения в фигурных скобках (2.3.25) нулю
не означает равенства нулю ее производной, а это молчаливо
предполагалось при выводе (2.3.30).
В связи с этим рассмотрим фиксированный момент времени
t = t*. Для этого момента оптимальное управление u=u(t*)
является вектором чисел. Для точек фазового пространства, не
лежащих на оптимальной траектории, и(/*) уже не будет
оптимальным и, следовательно, для этих точек функция в
фигурных скобках выражения (2.3.25) не будет достигать
максимума. Отсюда следует, что эта функция достигает максимума,
равного нулю, лишь в точках, лежащих на оптимальной
траектории, и, следовательно, частные производные
рассматриваемой функции по Xj (/=1, п+1) в силу необходимых условий
экстремума [по х,- (/=1,л+1)] обращаются в нуль. Таким
образом, связь между методом динамического программирования
и принципом максимума установлена.
Укажем в заключение на различие этих методов. Оно
вызвано тем, что функциональное уравнение (2.3.25) содержит
частные производные dv/dxi (i=lf/z), которые могут не существо-
54
вать. Это обстоятельство можно было бы считать не особенно
существенным, если бы после решения функционального
уравнения оказалось, что функция v(xu ..., хп, t) дифференцируема
по Xi (i=\yn). В действительности же для многих
практически важных задач функция v(xi,... yxn,t) не является
дифференцируемой по Xi (i=l,n), и поэтому возникла необходимость
дальнейших исследований, связанных с этим методом.
Дальнейшее развитие метода динамического
программирования и его приложения в практике*. В 1962 г. В. Ф. Кротов
предложил [2.22] простые достаточные условия оптимальности,
которые охватили как частный случай функциональные
уравнения метода динамического программирования. Эти условия
нашли широкое применение для решения практических задач
[2.23, 2.24]. С использованием этих условий были начаты
исследования функционального уравнения метода динамического
программирования. Были указаны дополнительные условия,
накладываемые на это уравнение, при которых оно приводит к
синтезу оптимального управления [2.25, 2.26].
Сразу же после появления метода динамического
программирования началось его широкое практическое применение для
построения управления запуском ракет и спутников,
химическими процессами, реактором и другими объектами. Эти
применения упомянуты в книгах [2.25... 2.28], освещающих
различные аспекты метода динамического программирования.
Глава 3. ОПТИМАЛЬНЫЕ ПО БЫСТРОДЕЙСТВИЮ
СИСТЕМЫ УПРАВЛЕНИЯ
Повышение быстродействия при заданных ресурсах — это
повышение производительности процессов и машин, и поэтому
оптимальные по быстродействию и близкие к ним системы
стали первоочередным объектом исследования специалистами по
автоматике. В 1935 г. в СССР был получен патент [3.1] на
систему перемещения валков прокатного стана, в которой
применялась квадратичная обратная связь, обеспечивающая
максимальное быстродействие. Аналогичный принцип был применен
несколько позже в автоматическом потенциометре,
выпускаемом одной из фирм США. Затем появились теоретические
работы. В 1953 г. было введено [3.2] общее понятие
оптимального процесса в я-мерном пространстве состояний (я-мерном
фазовом пространстве) и доказана теорема об я-интервалах
переключения оптимального по быстродействию процесса. Первая
публикация по принципу максимума [3.3] также содержала
(высказанный в форме гипотезы) принцип, ведущий к решению
общей задачи об оптимальном по быстродействию
программном управлении. В последующие годы появилось большое
55
число работ, основанных на принципе максимума, в которых
приводятся различные способы построения оптимального па
быстродействию систем программного управления, а также
синтезу таких систем.
В первом разделе этой главы на основе принципа
максимума находится структура оптимального по быстродействию
программного управления. Для линейных объектов приводится
теорема об п-интервалах.
В § 3.2 рассматривается синтез оптимальных по
быстродействию систем для общего случая и синтез оптимального
регулятора для объектов, описываемых уравнением второго
порядка.
§ 3.1. Системы программного управления, оптимальные
по быстродействию
Принцип максимума для оптимальных по быстродействию
систем. Задача определения оптимального по быстродействию
программного управления состоит в нахождении управлений
и^О, при которых объект
х = ф(х, и) (3.1.1)
переводится из состояния
х(/0) = х<°> (3.1.2)
в состояние
х(/1) = х<1> (3.1.3)
(х(0), х(1) и to — заданы, a t\ — неизвестно), при этом
функционал
/=f dt = tx-tb (3.1.4)
принимает наименьшее значение.
Опираясь на теорему 2.2.1, выведем необходимые условия
оптимальности по быстродействию.
Из (3.1.4) следует, что фо(х, и) = 1, и поэтому
п
Я(х, ф, %, u)^^ + 2^/(x, u).
Вводя функцию
п
/Л(х, Ф, u) =V <№>,(*. и), (3.1.5)
/-1
56
запишем (3.1.1) и сопряженную систему в виде
x^dHJdtfi (/ = ГГл); (3.1.6)
^-дН./дх, (i=\7n). (3.1.7)
При фиксированных х и г|э#1 становится функцией и.
Обозначим
-М1(х,ф) = тах//1(х, ф, и).
Очевидно, что
М(х, <!0 = ЛМх, ф)-Фо-
Таким образом, необходимое условие (2.2.19) для
оптимальности по быстродействию принимает вид
тахЯ^х, ф, и)=% (%<0). (3.1.8)
Пример 3.1.1. Оптимальное управление в системе «генератор —
двигатель». Рассмотрим задачу об оптимальном по быстродействию программном
управлении в системе «генератор — двигатель».
Пренебрегая динамическими процессами в обмотках возбуждения
двигателя и генератора, запишем уравнения (1.1.18), (1 1 19) при 7"i = Г2 = 0 в виде
Х\~Х2> Х2 — #i<pi (tti) И2-г #2-*2^2- (3.1.9)
Требуется записать краевую задачу принципа максимума для определения
функций U\(t), u2(t) (удовлетворяющих неравенствам |"i(0l^ui*» lM2(0l^
^и2*)у при которых вал двигателя поворачивается из заданного положения
*io, *2о в другое заданное положение Хц, х2\ за наименьшее время.
Функция Hi имеет в рассматриваемом случае вид
Нг - <h (О х2 + ф2 (О (<*i¥i («i) m + а2^2«2)» (3.1.10)
в ней вспомогательные переменные i|?i(0 и \|?2(^) удовлетворяют уравнениям
фх == —дН1/дх1 = 0; ф2 = —дН1/дх2 -= -<Ь + 02x^1 • (3.1.11)
Уравнения (3 1.9). (3 1.11) образуют краевую задачу принципа максимума
для оптимального по быстродействию управления.
Оптимальное по быстродействию управление линейными
объектами. Рассмотрим важный для практики частный случай
задачи об оптимальном быстродействии, когда уравнения
(3.1.1) объекта линейны и имеют вид
х = Ах + Ви. (3.1.12)
В этом случае функция
57
2 au*/+2 ь*и*
/=1 ft-1
(3.1.13)
Сопряженная система (3.1.7) записывается так:
U-1 k
2 V**
fc-1 J
ал dXi *j=~~2j a,A* il=h n)'
(3.1.14)
Для линейных объектов принцип максимума является не
только необходимым, но и достаточным условием оптимальности по
быстродействию. В соответствии с (3.1.8) для оптимальности
управления необходимо и достаточно, чтобы функция (3.1.13)
принимала наибольшее значение при ограниченном и. Эта
функция достигает максимума, если
т Г п "1 т Г п "I
2 2 *'**'W U*(0 = max 2 2 *»*'(/) Г*" <ЗЛЛ5>
л-1 Ь-1 J iuk(o\4 *-i L/-i J
При m=l и ограничении |м(*)|^н* это условие примет
вид
a1(Oa(0=max ^(fla, (3.1.16)
|«(/)|<и*
где a1(/)=2M/W-
/=1
Необходимым условием экстремума всякой гладкой
функции, заданной в открытой области изменения ее аргумента,
является равенство нулю ее производной. Если функция задана
в замкнутой области, то ее экстремум может достигаться как
внутри, так и на границе этой области. В рассматриваемом
случае функция H\\ = o\U — линейная относительно и, ее
производная не зависит от и, и поэтому если на и не наложено
ограничение, то не существует точки w, в которой функция Ни
достигает экстремума. Если функция Hi рассматривается в
замкнутом интервале [—и*, и*] изменения переменной и, то
в этом интервале она достигает максимума и минимума на
границах интервала (рис. 3.1.1).
Спрашивается, каково же должно быть а, чтобы функция
Hi достигала максимума? Как следует из рис. 3.1.1, и
определяется выражением
и = и* sign = #* sign a1#
да
Это выражение справедливо для каждого момента времени,
и поэтому оптимальное управление имеет вид
п
u(t)=u*$ign 2 M/W- (3.1.17)
58
Возвращаясь к общему случаю (т>1), замечаем, что
каждая составляющая Ui(t),...,um(t) вектора и изменяется
независимо от остальных составляющих, поэтому (3.1.15)
выполняется, если
uk(t)=uk sign
[2 *»♦<
L/=i
(t)\ (A = l,/ii).
(3.1.18)
Таким образом, для линейных объектов принцип максимума
дает явный вид (3.1.18) оптимального управления, а краевая
ah*1!
!©-.«
Рис. 3.1.1
задача состоит в определении вектора ф(£о)> при котором
решения системы
uk = unsignВ[к]^р (ft=l, /л)
[B[K] — /с-й столбец матрицы В);
(3.1.12')
(3.1.18')
(3.1.14')
удовлетворяют краевым условиям (3.1.2), (3.1.3).
Заметим, что корни характеристического уравнения объекта
(3.1.12) и сопряженной системы (3.1.14) равны по модулю,
однако противоположны по знаку. Действительно,
характеристический полином объекта имеет вид det(£s—А), а сопряженной
системы имеет вид det^s-f-^')» и если, например, объект
асимптотически устойчив, то сопряженная система
неустойчива. Это приводит к трудностям при численном решении
краевой задачи. В связи с этим были разработаны специальные
методы (изложенные, например, в [3.4]) решения краевых
задач для системы (3.1.12)...(3.1.15).
Трудности решения краевой задачи для системы (3.1.12)...
(3.1.15), к которой сводится задача об оптимальном
программном управлении при использовании принципа максимума,
привели к разработке нового метода [2.6], предложенного
59
Н. Н. Красовским. Этот метод сводит задачу об оптимальном
программном управлении в линейных системах к так
называемой проблеме моментов, изучаемой в функциональном
анализе. Доступное изложение метода приведено в [3.5].
Пример 3.1.2. Пусть объект управлении описывается уравнением
у 4- d2y 4- diy -Ь d0y = bu. (3.1Л9)
Требуется определить функцию управления u(t), удовлетворяющую
неравенству |m(0I^1i которое переводит этот объект из состояния
У(0) = ую; 'уФ)=-УЪ\ У(0) = #ю (3.1.20)
в нулевое положение
0('i) = y(*i)=y('i)=O (3.1.21)
за минимальное время.
Вводя обозначения х{=у, х2 — у, х3 = у, b — b3U запишем уравнение
объекта в форме
хх—хъ х2 = х3; x3=^—d2X3 — diX2 — doXx + b3iU. (3.1.22)
Функция
Н\ = <to-*2 + +2*з + +з l—d2x3 — dxx2 — d0xx + b31u), (3.1.23)
а сопряженная система (3.1.14) имеет вид
«to = d$3; ф2 ^= —<h 4- ^ite Фз = — <Ь 4- ^2+з- (3-1-24)
Из (3.1.23) заключаем, что искомое оптимальное управление имеет вид
и -= l.sign£3i<h(0- (3.1.25)
Разрешая последнюю систему трех уравнений относительно г|з3, получим
дифференциальное уравнение
-Фз + d'tiz - d [b3 + <ЗДз =0 (3.1.26)
для определения функции г|?3(0-
Теорема об /г-интервалах. Из (3.1.18) следует, что каждая
из компонент оптимального управления представляет собой
кусочно-постоянную функцию, точками разрыва которой
являются точки обращения в нуль функции
п
3ft(/)= V bik'h(t) (k=TTm).
На рис. 3.1.2 приведен график изменения во времени одной
из этих функций.
Каждую точку разрыва оптимального управления будем
называть точкой переключения. Число переключений каждого из
управлений uk(t) (k=\ym) определяется числом нулей
функции ox(t) (&=l,m) и может быть очень большим. Существует,
однако, один важный случаи, когда число переключений этих
50
управлений допускает точную оценку. Этот случай составляет
содержание теоремы об я-интервалах.
I Теорема 3.1.1 (обя-интервалах). Если корни
характеристического уравнения объекта (3.1.12)
действительны, то число переключений каждого из управлений Wi (*),...,
I um(t) не превышает п—1.
При доказательстве теоремы ограничимся для простоты
случаем я=3, /п=1. Кроме того, будем полагать, что объект
управления описывается системой (3.1.22), при этом корни
уравнения s3+d2s2+dis+
+ do = 0 объекта и st
(3.1.22) попарно
различны. Однако приво- и\
димое ниже
доказательство полностью
повторяется для общего -и%
случая, описанного
теоремой.
Обозначим через
—К\, —Яг, —^з —
корни характеристического уравнения объекта. Тогда очевидно, что
корни характеристического полинома уравнения (3.1.26) равны
Х\, Я2, Яз и, следовательно, функция ^>з(0> являющаяся
решением этого уравнения, имеет вид
Фз(/)=^ех^ + ^2е^ + ^зеХз/, (3.1.27)
где ku k2, kz — постоянные интегрирования.
Поскольку число корней (нулей) функции 1рз(0 определяет
число переключений оптимального управления, то теорема
3.1.1 будет доказана, если справедливо следующее
утверждение.
I Утверждение 3.1.1. Если Х\, А,2, Я3 — попарно
различные действительные числа, то функция (3.1.27) не может
I иметь более двух действительных корней.
Доказательство. При /2=1 утверждение справедливо
(уравнение ex,' = 0 не имеет действительных корней).
Предположим, что утверждение доказано для случая, когда в (3.1.27)
имеется лишь два слагаемых, и докажем ее для трех
слагаемых.
Допустим противное, что функция (3,1.27) имеет не менее
трех действительных корней. Умножив ее на е-**', получим
функцию
^ett.-x,)* л- kp<x*-W + *з. (3.1.28)
которая также имеет не менее трех действительных корней. Из
математического анализа (теорема Ролля) следует, что между
двумя действительными корнями функции лежит по крайней
мере один корень ее производной. Следовательно, производная
ti t2
6Kit)=ibh%m
*з / Ь
6i
функции (3.1.28) имеет не менее двух действительных корней.
С другой стороны, эта производная определяется выражением
*i fti — *з) е<х»-х»)' + k&b-w (а2 — Хд), (3.1.29)
в которой числа Х\—Я3 и А,2—Х3 попарно различны, и,
следовательно, она имеет не более одного действительного корня
(выше полагалось, что утверждение доказано для случая, когда
(3.1.27) содержит менее трех слагаемых). Полученное
противоречие доказывает утверждение и теорему 3.1.1.
§ 3.2. Синтез оптимальных по быстродействию систем
Качественная сущность проблемы синтеза. Продолжая
построение оптимального управления для линейных объектов
(3.1.12), будем искать это управление как функцию
переменных состояния (фазовых переменных). Для простоты будем
полагать управление скалярным (т=1), ограничение на
управление— единичным (ц*=1). Кроме того, не теряя общности
рассмотрения, будем считать, что в конечный момент времени
фазовая траектория (изображающая точка) должна попасть в
начало координат (хю = 0\ i=lfn). Движение объекта (ЗЛ.12)
при управлении (3.1.17) описывается уравнениями
я
л:/==,у dijXj-\-bn (/ = 1, п) при и= + 1; (3.2.1)
7 = 1
п
xi=ySaljxj — bn (/ == 1, /г) при и = —-1. (3.2.2)
Траектории, соответствующие решениям этих уравнений,
обозначим L+ и Lr соответственно.
Поскольку оптимальное управление приводит объект в
начало координат, то всегда существует такое состояние системы,
что кривые L+ и Lr проходят через начало координат (рис.
3.2.1). Части L+i и Lr\ этих кривых (полутраектории),
приводящие изображающую точку в
начало координат, объединим
и обозначим L\. Очевидно, что
изображающая точка попадет
в начало координат
обязательно по линии L\. Это
происходит на последнем
интервале оптимального процесса.
В течение оптимального
процесса знаки управляющего
воздействия чередуются, по-
Рис. 3.2.1 этому концы фазовых траекто-
62
рий предпоследнего интервала принадлежат кривой L\.
Фазовые траектории, соответствующие предпоследнему интервалу и
заканчивающиеся на кривых Li+ и Li-, обозначим L2+ и L2"~,
при этом кривые L2+ заканчиваются на кривой L2~, a L2~ — на
Li+. Совокупность этих кривых при различных начальных
условиях образуют две поверхности, каждая из которых имеет
своим краем кривую Lx. Обе поверхности стыкуются по линии
L\ и образуют поверхность L2, двигаясь по которой
изображающая точка попадает на линию L\ и по ней в начало
координат.
Продолжая это построение, получим поверхности L3, L4i...y
Если характеристический полином объекта имеет
действительные корни, то процесс синтеза состоит в отыскании
поверхности Ln-U при этом оптимальный процесс протекает в
течение п интервалов (имеет п—\ переключение). Если
начальная точка располох-сена в области Ь+Пу то в конце первого
интервала фазовая траектория попадает на поверхность L-n-u
где происходит переключение управляющего воздействия.
Далее изображающая точка оказывается на поверхности L+n-2
и т. д. К сожалению, эти поверхности описываются
трансцендентными уравнениями [3.6], и поэтому задача синтеза
(построение поверхности переключения Lrt-i) решается в
замкнутой форме лишь для систем второго и третьего порядка. Для
систем более высокого порядка ограничиваются частными
решениями либо синтезируют управление, близкое к
оптимальному.
Синтез оптимальных регуляторов систем второго порядка.
Пусть имеется объект управления, описываемый уравнением
У,===z It, (o.^eO/
где \и\ ^«\
Требуется синтезировать управление u~uly(t)f y{t)U
обеспечивающее наискорейшее приведение объекта из произвольного
начального состояния в состояние покоя:
y(t1)=y(tx) = 0. (3.2.4)
Вводя обозначения у=хи у = %2> зачтем уравнение (3.2.3).
в виде
х:^х2: (3.2.5)
х2=и. (3.2.6)
Функция #i и сопряженная система имеют в рассматриваемом
случае вид
Я^ф^ + ^й; (3.2.7)
Максимум функции #i достигается при
a=l-sign<|>2(*)- (3.2.9)
Решая систему (3.2.8), получаем
<М*)=<М*о); Ф2 (0=—*i tfo) (^—^о)+*2 (^о).
Функция if>2(0 изменяет знак не более одного раза и это
происходит в момент времени
' = Ф2<'о)АМ*оЖо- (3.2.10)
Для решения задачи синтеза оптимального управления
построим фазовые траектории системы (3.2.5), (3.2.6) и найдем
поверхность переключений. Исключая время t из уравнений
(3.2.5), (3.2.6), поделим первое из них на второе:
dx1/dx2 = x2/u. (3.2.11)
Интегрируя это уравнение при и=const, получим семейство
парабол
хг = 0,5и-1х1 + с (3.2.12)
или
хх = 0,5x2 + с; (3.2.13)
^ = —0,5x2 +с. (3.2.14)
Эти параболы, соответствующие значениям и, равным +1 и —1,
приведены на рис. 3.2.2, 3.2.3.
i
С=-2
\\
VV"
^2
:'°х%
'^
ц
1
Л
V
7/
и=-1
\
ГТ
Рис. 3.2.2 Рис. 3.2 3
Стрелки на параболах означают направление движения при
росте t. Проверим указанные, например, на рис. 3.2.2
направления. Пусть и= + 1, тогда из (3.2.6) получим
x2(t) = t + x2Q. (3.2.15)
<64
Нетрудно видеть, что x2(i) увеличивается с ростом t, а на
основе (3.2.5) заключаем, что х\ увеличивается со временем для
тех значений t, при которых x2(t)>0.
При с=0 параболы L\+ и Lr описываются уравнениями
*!=0,5*2' хг = — 0,5x1
(3.2.16)
МлЦрХпМ)
и проходят через начало координат.
Куски этих парабол, приводящие фазовую траекторию в
начало координат, образуют линию переключения, приведенную
на рис. 3.2.4.
Таким образом, на последнем интервале оптимального
процесса изображащая точка попадает в начало координат по
кривой Li+ или Lr. Линия
L\ делит фазовую
плоскость на две области -
Di и D2, расположен- l(u~ '
ные над линией Lx и
под ней соответственно.
Если в начальный
момент времени
изображающая точка
находится в области Di,
например в точке Afi, то
следует принять и=
= — 1, тогда фазовая
траектория будет
двигаться по дуге M\N\
параболы (3.2.14), проходящей через точку Ми В момент
времени, когда изображающая точка попадает в точку Nu
необходимо изменить управление на и= + 1. Дальнейшее движение
будет происходить по дуге TViO. Кривая AfiA^O является
оптимальной траекторией, соответствующей начальному состоянию
r(M) (M)
Аналогично, если в начальный момент времени
изображающая точка находилась в области D2, например в точке М2,
необходимо принять и=-\-\. Изображающая точка будет
двигаться по дуге параболы (3.2.13) и в точке N2 произойдет
переключение управления на и= — 1.
На основе (3.2.16) получаем уравнение кривой L\
х1 + 0,5х2\х2\ = 0.
$(и=+1)
Рис. 3.2.4
В соответствии с этим уравнением оптимальная
управления может быть представлена выражением
где
■l-signab
ai = *i +0,5л;2 |x2|.
(3.2.17)
функция
(3.2.18)
(3.2.19)
3—1017
65
Чтобы убедиться в его справедливости, покажем, что в
области D\ имеет место соотношение ai>0„ Пусть изображающая
точка расположена справа от линии переключения и выше оси
х\. Ее движение происходит по траектории (3.2.14). Определим
значение с. В связи с этим представим результат
интегрирования уравнения (3.2.11) при и= — 1 в виде
(3.2.20)
ы?
Устройство
дифференцирования
хг (t) — лг10= —0,5 [х\ (/) — xlo]
и, следовательно, с=*ю+0,5л:22о>0.
Подставляя выражение (3.2.14) в (3.2.19), получим
ах = —0,5л:2+0,5л;2 \х2\ + с—с > 0.
Если изображающая точка расположена между осью х\ и
кривой L+i, то jc2<0 и подстановка (3.2.14) в (3.2.19) дает ai =
=с—х22>0. Действительно, для
/L- \ц I 05ъемп \xf °РДинат х2 точки Ni справедливо
—\^Y-*Aрегулирования r-j соотношение X22=*io+0,5*22o, кото-
т^"1 I I I рое получится, если в (3.2.20) под-
1-<4 /г*к х ставить первое из выражений
I—^s-Oy**^ } (3.2.16). При выполнении равенст-
/fffa) ва x2=—Vrxl0-\-0,5x?20 изображаю-
1 " щая точка попадает на линию
переключения, для которой cfi=0. До
попадания на линию переключения
x22<Zxw-{-0,5x22o = c и поэтому о\>
>0.
Схема реализации оптимального закона управления (3.2.18)
приведена на рис. 3.2.5.
В управляющей части системы используется нелинейный
преобразователь (НП), формирующий функцию
F(x2)=0,5x2\x2\.
Опишем теперь решение задачи синтеза оптимального по
быстродействию управления для объекта:
хх=х2; (3.2.21)
i2=—x2 + u. (3.2.22)
Для построения фазовых траекторий поделим первое
уравнение на второе:
dxjdx2=х2/(и — х2). (3.2.23)
Разделяя переменные, найдем решение этого уравнения при
и=const:
Рис. 3.2.5
•*i = *io-H*2o — x2) — a In
и — х2
U — X2Q
(3.2.24)
66
Полагая в этом выражении аг10=х2о=0, определим линии Lj+
и Lr:
.*! = — х2— 1п(1+лг2) при а = + 1; (3.2.25)
л:1 = — лг2 + 1п(1 — л:2) при и= — 1. (3.2.26)
Нетрудно показать, используя эти выражения, что
уравнение линии переключения Li имеет вид х{ + х2—[In (1+|#2|)]X
Xsignx2=0, а оптимальное управление
и= — signa2, (3.2.27)
где
а2 = д:1-|-^2—* [ln(l + l-^2|)] signx2.
Практически вопросы синтеза оптимальных по
быстродействию регуляторов для линейных, а также нелинейных объектов
более высокого порядка рассмотрены в работах [3.6]...[3.8].
Глава 4 АНАЛИТИЧЕСКОЕ КОНСТРУИРОВАНИЕ
РЕГУЛЯТОРОВ
В 1960 г. появилась работа сотрудника института
автоматики и телемеханики АН СССР, профессора А. М. Летова [4.1],
в которой было получено аналитическое решение задачи об
оптимальной стабилизации линейных стационарных объектов при
квадратичном функционале качества. Эта работа благодаря
ясной постановке задачи и конструктивным результатам
явилась источником большого числа публикаций по синтезу
регуляторов для различных классов объектов (линейных
непрерывных, дискретных, с запаздыванием, нелинейных), в
которых при решении задачи об оптимальной стабилизации были
преодолены трудности решения краевой задачи принципа
максимума и метода динамического программирования. Это
направление получило название аналитического конструирования
регуляторов. В зарубежных источниках оно часто называется
линейно-квадратической оптимизацией, а первой зарубежной
публикацией была вышедшая в том же 1960 г. работа
американского математика Р. Калмана [4.18], в которой решалась
задача оптимизации для линейных, нестационарных объектов.
В первом параграфе этой главы приведена процедура
аналитического конструирования (синтеза) регуляторов
непрерывных систем. На основе метода динамического
программирования показано, что синтез регуляторов для систем стабилизации
оптимальных в смысле квадратичного функционала сводится
к решению системы обыкновенных дифференциальных
уравнений (уравнений Риккати) с известными начальными
условиями. Численное решение этих уравнений осуществляется с
помощью стандартных программ на ЭВМ.
3*
67
Затем далее излагается синтез оптимальных регуляторов
линейных дискретных и нестационарных систем. Здесь, как и
в первом разделе для непрерывных систем, используется метод
динамического программирования и показано, что параметры
регуляторов находятся в результате некоторой сходящейся
рекуррентной процедуры (для.дискретных систем) либо решения
дифференциальных уравнений (для нестационарных систем).
Эти процедуры легко осуществляются на ЭВМ.
В § 4.2 излагается метод синтеза регуляторов в случае,
когда не все переменные состояния доступны
непосредственному измерению. Вводится понятие о наблюдателе, который
представляет собой динамическую систему, выходные переменные
которой со временем приближаются к переменным состояния
объекта, которые необходимо восстановить. Получены
расчетные соотношения для наблюдателя полного и пониженного
(наблюдателя Люенбергера) порядков.
§ 4.1. Процедуры аналитического конструирования
регуляторов
Аналитическое конструирование оптимальных регуляторов
на основе метода динамического программирования.
Рассмотрим объект управления, возмущенное движение которого
описывается в первом приближении уравнением
х = Лх + £и; х(/0) = х<°>; *0 = 0, (4.1.1)
где А и В — заданные матрицы чисел размеров пУ^п и riy^m
соответственно.
Требуется найти матрицу чисел С" (размеров тУ^п)
уравнения регуляторов
и = С'х, (4.1.2)
такую, чтобы на асимптотически устойчивых движениях
системы (4.1.1), (4.1.2), возбужденных произвольными начальными
отклонениями х(0), минимизировался функционал
••
y=f (x'Qx + u'u)*tt, (4.1.3)
6
где Q —заданная положительно-определенная матрица
размеров nXn(*'Q*>0 Для всех х, это обозначается далее Q>0).
Матрицу С закона управления (4.1.2) иногда называют
матрицей коэффициентов усиления регулятора.
Переходя к решению этой задачи об оптимальной
стабилизации на основе метода динамического программирования,
ограничимся вначале случаем n = m = l. В этом случае
уравнения системы и функционал примут вид
х^ах^Ьи; (4.1. Г)
68
и = сх; (4.1.2')
•о
J= J {qx2 + u*)dt. (4.1.3')
6
Тогда уравнения (2.3.8), (2.3.9) метода динамического
программирования запишутся как
--£- =?*» + !** + £- (ах + Ьа); (4.1.4)
д^ дх
2и + — 6 = 0 или и =—- — 6. (4.1.5)
дл: 2 дл:
Предпоследнее равенство выражает необходимое условие
экстремума правой части (4.1.4). Нетрудно проверить, что при этом
управлении достигается ее минимум. Действительно,
d2 \ахЪ+111 +—— (ах + Ьи)
—L ** J 2>о.
Этот минимум — единственный и поэтому единственно
управление вида (4.1.5). Правда, как будет показано ниже,
уравнению (4.1.4) удовлетворяет не единственная функция v. Эта
функция доопределяется из условия устойчивости системы
(4.1.1), (4.1.2).'
Исключая и из (4.1.4) с помощью (4.1.5), получим
нелинейное уравнение в частных производных:
-^=*Lax-±(-?Z-b)2 + qj<*. (4.1.6)
dt дх 4 V дх ) ' *
Решение этого уравнения при краевом условии
v[x(tx)] = 0 (*! —оо)
будем искать в виде
v = px2; /?=const. (4.1.7)
Подставляя это выражение в (4.1.6), получим
0=2pax2-(pb)2x2-\-qx2. (4.1.8)
Отсюда следует алгебраическое уравнение для определения
неизвестного коэффициента р в (4.1.7):
2pa-p2b2 + q=0. (4.1.9)
Из двух решений
pW = a/b2 + Va2/b* + q/b2; pW=a/b2-Va2/b*+q/b2
этого уравнения выбираем первое исходя из условия
положительности функции v, обеспечивающего асимптотическую устой-
69
чивость синтезируемой системы, а следовательно, и
выполнение краевого условия у[л;(оо)] =0.
На основе (4.1.5) получаем
и = (—р<<1Щх, (4.1.10)
и, таким образом, искомое число
с=—рЫЬ. (4.1.11)
В общем случае (л>1, m^l) уравнения (4.1.9), (4.1.11)
аналитического конструирования регуляторов имеют вид
PA + A'P-PBB'P + Q = 0; (4.1.12)
С=-РВУ (4.1.13)
где Р — симметричная матрица чисел размеров пУ^п.
Вывод этих уравнений приведен в приложении 4.
Матричное уравнение (4.1.12) имеет два названия: первое — матричное
алгебраическое уравнение Риккати (смысл такого названия
станет ясен несколько позже), второе — уравнение Лурье
(А. И. Лурье получил уравнение вида (4.1.12) при
исследовании абсолютной устойчивости систем регулирования [4.2]).
I Таким образом, процедура 4.1.1 аналитического
конструирования регуляторов (процедура АКОР) состоит из трех
операций: 1) решение системы нелинейных алгебраических
уравнений; 2) выделение из всего множества этих решений
матрицы Р°>0 (численный метод нахождения Р° приведен
ниже); 3) вычисление искомой матрицы коэффициентов
усиления регулятора по формуле
J С=-Р*В. (4.1.14)
Убедимся непосредственно, что матрица С, определяемая
соотношением (4.1.14), обеспечивает асимптотическую
устойчивость системы (4.1.1), (4.1.2). Для исследования
устойчивости системы х= (А-\-ВС')х воспользуемся прямым методом
Ляпунова. Примем в качестве функции Ляпунова v=x'P°x>0 и
вычислим полную производную этой функции:
dv/dt=x'P°x + x'P°x =х'(А + ВС'У Р0х + х'Р0(А + ВС')х=
= х' [pvA + A'PQ-\-P°BC' + CB'P0]x.
Учитывая, что матрица С определяется выражением (4.1.14),
получим, с учетом того, что Р° удовлетворяет (4.1.12),
dv/dt=x' [Р*А + А'Р° — Р*ВВ'Ръ - РЪВВ'РЪ] х=
= — x'Qx - x'P*BBrP*x.= -x'Qx — и'а < 0.
Е<\пи обьечт (4 1.1) полностью управляем и Q>0, то среди
репн it д сстем^ (1.1.12) всегда найдется и при том единст-
70
венная положительно-определенная матрица Р°. Напомним, что
условием полной управляемости объекта (4.1.1) является
равенство
ранг [В, АВ,..., Л<л-1>5] = /г, (4.1.15)
которое будем называть условием управляемости пары (А, В).
Если матрица Q — неотрицательно-определенная матрица (Q^
^0), то ее всегда можно представить в виде
где Н — матрица размеров хХл (к — ранг матрицы Q). Среди
решений (4.1.12) по-прежнему существует [4.6] единственная
матрица Р°, если Q в функционале (4.1.3)
неотрицательно-определенная матрица, удовлетворяющая условию полной
управляемости пары (А\ #'):
ранг [Я', АН',..., А1Л~1УН'\ = п.
Требование полной управляемости пар (Л, В), (A't H') для
существования и единственности Р°>0 можно ослабить,
заменив его условием стабилизируемости этих пар [4.6].
Пример 4.1.1. Уравнение процедуры аналитического конструирования
регулятора гирорамы. Осуществим первый этап (составление уравнений
(4.1.12), (4.1.13)) аналитического конструирования регулятора гирорамы.
Опишем вначале физическое содержание задачи стабилизации гирорамы
[4.3], поскольку на примере решения этой задачи будут иллюстрироваться
результаты, приведенные в этой ич следующих главах.
Рассмотрим трехстепенной гироскоп в кардановом подвесе (рис. 4.1.1).
Его уравнения имеют вид [4.4]:
(Д + /вэ) ? + (/э + /вэ - /в) «2 sin р cos р -Ь nft + На cos Р = Мх; (4.1.16)
[Us + /вэ) cos2 р + /в sin2 р + /н] а + 2 (/в - /э - /вэ) ар sin p cos p +
+ па — ЯР cos Р = — М,
у*
(4.1.17)
а — угол поворота наружной рамы относительно оси OY; р — угол поворота
внутреннего кольца карданова подвеса относительно оси ОХ (угол
прецессии); /„ — момент инерции наружной рамы (кольца) относительно оси OY;
/э — экваториальный момент инерции гироскопа; /в, /в*, /ву — моменты инер-
т)
ж
Рис. 4.1.1
Рис. 4.1.2
ции внутреннего кольца карданова подвеса относительно осей OZ, OX, OY
соответственно, при этом /вж = /ву = /вэ; Н— кинетический момент гироскопа;
Мх и Му — моменты относительно осей ОХ и OY соответственно; п а, п*
—коэффициенты демпфирования.
Гироскоп в кардановом подвесе используется (если установить на оси OY
датчик угла) для измерения углов поворота движущегося объекта
(например, ракеты) относительно оси OY. Однако из-за вредных моментов по этой
оси (трения, дисбаланса и т. п.) гироскоп начинает «прецессировать»
относительно оси ОХ, т. е. ось OZ начинает поворачиваться в направлении оси OY,
и гироскоп теряет свойство быть индикатором поворота летательного
аппарата. Явление прецессии следует непосредственно из уравнения (4.1.17), если
в нем пренебречь всеми слагаемыми в левой части, кроме последнего
слагаемого (так как #»/э, /Вэ, /в, па). Прецессию можно измерить, установив на
оси ОХ датчик угла. Усилим этот сигнал и подадим его на двигатель,
который развивает полезный момент, равный и противоположный по знаку
вредному. Тогда прецессия прекратится и гироскоп будет сохранять свои функции.
Гироскоп в кардановом подвесе с системой стабилизации угла прецессии
называется гирорамой. Ее схема приведена на рис. 4.1.2, где ДУП — датчик угла
прецессии, ДМ — датчик момента (двигатель).
Запишем уравнения (4.1.16), (4.1.17) в форме Коши.
Пренебрегая значениями /э, /вэ, /в по сравнению с /н, полагая Afx = 0 и
вводя обозначения
*1 = Р/РН; *2 = Р/& *3 = <*/<*«; (рн = 1рад; ^ = 1Рад/с; % = 1рад/с);
/э + /вэ —• /в п Н „ . п& „ .
— 7—Г = Я* — т , г = а*1 — г , % = Я22,
•»э"т"«'вэ Г*' э ~г J вэ J э ~\~ J вэ
2 (/в "~ /э — /вэ) D Н
— " = Аз; — = «32»
«'н •'н
па My
7— = Я33; "~*~~7— = ^31" + m3l/»
/н J н
запишем (4.1.16), (4.1.17) в виде
*! = ЛГ2; *2 = 022*2 + #23*3 cos х\ + #2*з sin х1 C0S xti (4.1.18)
*з = «32*2 cos хг + «зз^з + #з*з*2 sin xx -f b3iu + m31/. (4.1.19)
Разлагая правые части этих уравнений в ряд Тейлора в окрестности точки
д:1==д:2=л:з=0, получим уравнения первого приближения
Хг = Х2; *2 = Л22*2 + «23*31*3 = «32*2 + «33*3 + hlu + <fel/ i (4- * • 20)
где и пропорционально моменту, развиваемому датчиком моментов, a f
пропорционально вредному моменту по оси OY.
Полагая пока f = 0, будем искать управление
U = (?!*! + С2*2 + С3Х3, (4. 1.21)
при котором на движениях гирорамы (возбужденных начальными
отклонениями) минимизируется функционал
оо
/ = j* («ll*i + «22*1 + Ягз4 + «2) dt (qn > 0; / = 1, 2, 3). (4.1.22)
о
72
Переходя к решению этой задачи, запишем уравнения (4.1.12), (4.1.13)
процедуры АКОР. Первое из этих уравнений имеет вид
Р\\ Рп Ргз
Р\2 Р22 Р23
Р\г Р2г Рзз
Ргз hi
Р23 hi
Ргз hi
0 1 0 1
0 «22 «23
0 «32 «33
+
13^31» P23hl> /W,3lil +
0 0 0
1 «22 «23
0 «23 ЯЗЗ
«И О О
О «22 О
О 0 «33
Pll Pl2 Pl3
Pl2 P22 Р23
Pl3 P23 РЗЗ
=
10 0 0 II
0 0 0
1 0 0 0 1
(4.1.23)
Это матричное уравнение можно записать в виде системы уравнений
—(Pnhi)2 + «и = 0;
Pll + Pl2«22 + Р13&32 — (Pl3^3l) (P23hl) = °»
/>12«23 + Р1здзз — (Puhi) (Рзз°з{) =■' 0;
2/>i2 + 2/722«22 + 2/?23«23 — (P23#3l)2 + P22 ~ 0|
/>22«23 + />23л33 + Pl3 + ^22/^23 + #23/>33 ~ (P23hl) (^33^31) = °J
2/>23Я2з + 2/?2з^зз ~ (/?зз^з1)2 + «зз = 0. (4.1.23)
(Из-за симметричности матрицы Л число этих уравнений не лг2=9, а л(/г+
+ 1)/2=6.)
На основе уравнений (4.1.13) получим
Cl = ~-pl3b3i, С2 = —Р2з^з1» сз
-Рзг&з1-
(4.1.24)
Таким образом, аналитическое конструирование регулятора гирорамы
(системы стабилизации гирорамы) сводится к решению алгебраических уравнений
(4.1.23) и нахождению искомых параметров регулятора (4.1.21) по формулам
(4.1.24).
Аналитическое конструирование регуляторов
нестационарных систем. Рассмотрим полностью управляемый
нестационарный объект, описываемый уравнением
i=A(t)x + B{t)u, x(/0) = x<°), (4.1.25)
в котором A(t) и B(t) известные на интервале [to, t\] матрицы
функций.
Пусть критерий качества имеет вид
/.
y=f (x'QWx + u'ul^ + x'ftJP^xft), (4.1.26)
to
где Q(t) и P(l) — заданные положительно-определенные
матрицы функций и чисел соответственно.
Требуется найти матрицу С(t) регулятора
и=С'(Ох, (4.1.27)
при которой на движениях системы (4.1.25), (4.1.27), возбуж-
та
денных произвольными начальными отклонениями,
минимизируется функционал (4.1.26).
Переходя к решению этой задачи, рассмотрим вначале
случай п=т=\. Тогда уравнения системы и функционал
оптимизации примут вид:
x=a(t)x + b(t)u; (4.1.25')
u = c(t)x; (4.1.27')
J'= f {g у) х2 + и2) dt + рМх2(*г). (4.1.26')
to
Функцию v, разрешающую задачу АКОР для нестационарного
объекта (4.1.25), будем искать в виде v=p(t)x2. Подставляя
ее в (4.1.6), получим вместо алгебраического уравнения (4.1.8)
дифференциальное уравнение
-p(t)=2p(t)a(t)-p2(t)b2(t) + q(t)=0 (4.1.28')
и краевое условие
/7(^1)=/7а). (4.1.29')
Уравнение (4.1.28') является специальным видом
дифференциального уравнения, решение которого изучалось еще в XVIII в.
итальянским математиком Я. Риккати, именем которого оно и
названо.
В общем случае (я>1, m^l) уравнение (4.1.28/) и краевое
условие (4.1.29) имеют вид:
-P{t) = P(t)AV)+A'(t)P(t)-PV)BV)B'V) + Qtf). (4.1.28)
p{tl) = p(D, (4.1.29)
Уравнение (4.1.28) называется матричным
дифференциальным уравнением Риккати. Его нетрудно получить, повторяя
изложенное в приложении 4.
Переходя к решению уравнения (4.1.28), введем «новое
время» t=/i—t и обозначим P(t)=P(tx— т)=Р(т). Тогда (4.1.28)
и (4.1.29) примут вид
dP(x)ldx=T>(%)A(tl--x)+A'(t--%)7>{%)--
-~P(x)B{tl-x)B'(tl-x)P(x)-{-Q(tl-x); (4.1.28")
Я(0) = Я<1>. (4.1.29")
Таким образом, краевая задача для уравнения (4.1.28) свелась
путем введения нового (обратного) времени к задаче решения
уравнения (4.1.28") с известным начальным условием (4.1.29").
Для его численного решения можно использовать любой из из-
74
вестных методов интегрирования обыкновенных
дифференциальных уравнений (метод Рунге — Кутта, Эйлера и т. п.).
Решив уравнение (4.1.29"), найдем искомую матрицу
С(0=— P(tx — t)B(t).
Иногда функционал (4.1.26) имеет более общий вид
ti
У = ^ (x'Q (t) x+u'Q<1> </) u) dt + x' (tx) P^x (i), (4.1.26"')
где Q(1)(0—положительно-определенная матрица размеров mX
У\пг. Вводя новое управление
запишем уравнение (4.1.25) и функционал (4.1.26"') в виде
(4.1.25), (4.1.26):
у = f (x'Q (/) х+u'u) dt + x' (tx) РЫх (*г);
to
x=A(t)x + B(t)u;
где B(t)=B(t)H^~K
Таким образом, оптимальное в смысле функционала
(4.1.26///) управление объектом (4.1.25) записывается как и =
= С'(/)х, где C=—P(t)B(t) или u=HQ>-lCx=C'(t)x9 в
котором
C(t)=-P(t)B(t)QV-\ (4.1.30)
где P(t) —решение уравнения Риккати:
-P(t) = P(t)A(t) + A'V)P(t)~
— />(/) B(t)QM-4t)B'(t)P(t) + Q(t); (4.1.28'")
P(tQ)=PM. (4.1.29"')
Численное решение матричного алгебраического уравнения
Риккати. Метод Репина — Третьякова. Возвращаясь к
матричному алгебраическому уравнению Риккати, разрешающему
задачу АКОР для стационарных объектов, отметим, что
численное решение нелинейных алгебраических уравнений является
не менее трудной проблемой, чем решение краевой задачи для
обыкновенных дифференциальных уравнений или уравнений в
частных производных. Однако специфический характер
уравнения (4.1.12) и его природа позволили разработать ряд
эффективных численных методов его решения: Репина — Третьякова
[4.5], Ньютона — Рафсона [4.20], [4.6], диагонализации [4.7].
75
Опишем первый из этих методов. В связи с этим положим,
что верхний предел в функционале (4.1.3) конечен, и тогда
функционал оптимизации имеет вид
ti
J= f (x'Qx + u'u) af/ (tx ф oo). (4.1.3)
6
Конечный верхний предел приводит к тому, что при п=лг=1
функцию (4.1.7) следует искать в виде v=p(t)x2. При этом
должно выполняться краевое условие v(x(ti)) = 0 (или p(ti) =
= 0). Тогда, повторяя изложенное в начале § 4.1, получим
дифференциальное уравнение и краевое условие
-P(t) = P(t)A + A'P(t)-P(t)BB'P(t) + Q; Я(^)==0. (4.1.31)
Вводя, как и в нестационарном случае, т=Л—t и обозначая
P(0=P(*i—t)=P(t), запишем (4.1.31) как
dpW =~P(x)A + A'P(x)-P(x)BB'P(i)+Q; 0<t<^;
ах
7>(0)=0. (4.1.31')
Переходя к методу Репина — Третьякова, отметим, что он
опирается на доказанное в работах [4.18], [4.5] соотношение
НтЯ(т) = Я° (4.1.32)
1-х»
[так как т изменяется в пределах от 0 до U, то (4.1.32) имеет
смысл, если t\ может принимать различные фиксированные
значения, в частности *i = oo].
Из предельного соотношения (4.1.32) следует, что для
нахождения положительно-определенной матрицы Р°,
удовлетворяющей алгебраическому уравнению Риккати (4.1.12),
достаточно решать систему дифференциальных уравнений (4.1.30')
до тех пор, пока его решение не установится (Р(т), не
перестанут изменяться во времени т), и это установившееся решение
и есть искомая матрица Р°.
Пример 4.1.2. Численное решение задачи об аналитическом
конструировании оптимального регулятора гирорамы. Пусть заданы значения
параметров гирорамы (4.1.20) и функционала оптимизации (4.1.22):
я22 = -300; а2з = ЮЗ; аз2 = -3; а33 = -1; *з1 = Ю-з;
^11 = 1,6-1012; ^^ 3-108; ^зз =5-109. (4.1.33)
Подставляя в правые части уравнений (4.1.23) вместо нулей соответствующие
производные (так, в первом уравнении нужно подставить ри, во втором — pi2
в третьем — р\Ъ и т. д.) и решая полученную систему из шести
дифференциальных уравнений с помощью метода Рунге — Кутта, получим:
/7^=53,4.109; /^2=147.Ю6; ^ = 12,6-108; /?°2 = 92-10*;
р*ъ -44-105; pQ33=\\6-W. (4.1.34)
76
Искомые параметры регулятора вычисляются на основе чисел (4.1.34):
ci =—0,126.107; С2 = 0,44.104; <?3 = —116-103. (4.1.35)
Аналитическое конструирование по критерию обобщенной
работы. В 1967 г. А. А. Красовский предложил [4.8] упрощение
процедуры АКОР с вычислительной стороны. Для этого в
функционал (4.1.3) вводится дополнительное слагаемое, с
учетом которого функционал оптимизации принимает (в
развернутой форме) вид
оо / п тп г- m п ~\^\
y=I ш *"***>+2 "*+i~ 2 2 ~ёг'р№ г' (4Л*36)
где квадратичная форма v=x'Px содержит
положительно-определенную матрицу Pt являющуюся решением матричного
алгебраического уравнения
PA + A'P + Q = 0. (4.1.37)
Оптимальное управление определяется по-прежнему на
основе формулы (4.1.13). Для того чтобы убедиться в этом,
положим вначале п=т=\. Функционал (4.1.36) примет вид
]{ч*+и>+±[£ь)у. (4.1.38)
/ =
6
Подставляя в уравнение (4.1.6) вместо qx2 выражение
"■+т(£ »)'•
получим вместо нелинейного алгебраического уравнения (4.1.9)
линейное уравнение
2pa + q=0 (4.1.39)
для определения коэффициента р квадратичной формы v = px2.
Таким образом, аналитическое конструирование по
критерию обобщенной работы состоит в решении линейного
алгебраического уравнения (4.1.37) и вычисления искомой матрицы
С по формуле (4.1.13). Уравнение (4.1.37) называется
уравнением Ляпунова. Оно имеет единственное решение Р>0, в
частности, тогда, когда собственные числа матрицы А имеют
отрицательные вещественные части. При этом условии нетрудно
показать, что синтезированная система асимптотически
устойчива. Действительно, в соответствии с прямым методом
Ляпунова примем в качестве функции Ляпунова функцию v=x'Px>
>0, вычисляя ее полную производную по времени, получим,
что
dv/dt=—x'[Q + 2CC'l а:<0.
77
Функционал (4.1.36) называется [4.9] критерием
обобщенной работы. Это название связано с тем, что последнее слагае-
•о
мое в (4.1.36) можно записать как f uomuonidt, который вы-
б
ражает собой «энергию» (обобщенную работу) оптимального
управления («опт).
Аналитическое конструирование регуляторов для
нелинейных объектов. Рассмотрим объект управления, описываемый
уравнениями
т
*/ = <P/(«*i,..., **) + 2 bikUk </=ТП~л>- (4.1.40)
Пусть правые части этих уравнений разложимы в ряд Тейлора
в окрестности точки х\= ... =xn = U\ = ... =ит = 0. Тогда
(4.1.40) имеет вид
п п п
xi—2 а'чх1-ь2 аи*х1х* ~^~ 2 au^xjxkx^+• • •
т
... + 2*/А (/ = ТГ5Г). (4Л.41)
Требуется найти управления
«* = ^(^ь—>^я) (* = ТГт), (4.1.42)
при которых на движениях системы (4.1.41), (4.1.42),
возбужденных произвольными начальными отклонениями,
минимизируется функционал (4.1.3). Решение этой задачи получено в
[4.10].
Приведем это решение, ограничиваясь для простоты
случаем п = т=\. В этом случае уравнения (4.1.41) запишем
(обозначая аш = а<2), ацц = а(3) и т. д.) так:
х=ах\- aWx2-\-aWx3-\-...-\-bu.
Уравнение (2.3.8), (2.3.9) метода динамического
программирования имеют в рассматриваемом случае вид
-^ = qx* + u* + — &x + aWx2 + aWx*+... + bu); (4.1.43)
dt дх
W___LJ*L6. (4.1.44)
2 дх
Исключая и из (4.1.43) с помощью (4.1.44), получим
_dv_ = f*L{ax + a{2)x2 + aO)^ +...)- — (— b)2 + qx*. (4.1.45)
dt дх 4 \ дх J
78
Решение этого уравнения будем искать в виде
<о=рх2 + р{г)х3 + Р{4)х* +... (4.1.46)
Подставляя (4.1.46) в (4.1.45), получим
(2рх^-3р^х2+^р^х3+,..)(ах + а^х2+а^х3+...)-
-~-Lb2(2px + 3pWx2 + 4pWx*-{-...)2 + qx2===0. (4.1.47)
Приравнивая нулю совокупность коэффициентов при
одинаковых степенях х, получим уравнения для определения
неизвестных параметров /?, р(3), р(4),... формы (4.1.46). Так, для
совокупности коэффициентов при х2 имеем
2pa-(pb)2 + q = Q, (4.1.48)
для совокупности коэффициентов при х3 получим
2/?а<2> + 3/?(3>а-— р(2р)@рЮ) = 0 (4.1.49)
и т. д.
Уравнение (4.1.48) совпадает с уравнением (4.1.9) и его
решение имеет вид
Уравнения (4.1.49) запишем в более удобной форме с учетом
(4.1.11)
3p<3Ha + bc)=-2p(lW2K (4.1.49')
Это, уравнение в отличие от (4.1.48) является линейным
уравнением для определения коэффициента р(3) формы (4.1.46).
Решение этого уравнения существует, если а+ЬсфО. Последнее
выполняется в силу асимптотической устойчивости уравнения
х= (а+Ьс)х9 описывающего замкнутую оптимальную в смысле
функционала (4.1.3) систему с линейным объектом (4.1.1).
Приравнивая нулю совокупность коэффициентов при х4,
получим
4/><*> (а+Ьс)= -~2p<lW3) - Зр^аЮ + —Ь2 (3/?<3>)2. (4.1.50)
Это уравнение, как и предыдущее, является линейным
относительно неизвестного параметра р<4) и т. д.
В соответствии с (4.1.44) искомое управление имеет вид
u = cx + cWx2 + cWj& + ..., (4.1.51)
где
с = -рЫЬ; с™ = -—р™Ь\ £<3> = ——р^Ь,... (4.1.52)
79
В общем случае (я>1, m^l) функция
п п
+ 2 Л.М»****у*а*|* + --' (4.1.53)
Ее коэффициенты рц (*, /=1,л) находятся в результате
решения алгебраического уравнения Риккати (4.1.12), а
коэффициенты рцк (i, /, k=\yn) кубичной и последующих форм
являются решениями линейных алгебраических уравнений Ляпунова
вида (4.1.37), в которых вместо матрицы А нужно подставить
матрицу А+ВС (С — матрица оптимального управления
(4.1.2) для линейного объекта), a Q — это известная матрица,
составленная из матриц, полученных для предшествующих
форм.
Аналитическое конструирование при детерминированных
внешних возмущениях [4.12]. Рассмотрим объект управления,
описываемый уравнением
х=Лх + Яи + ЧП; ;с(/0) = .*(0\ (4.1.54)
где i(t) — ц-мерный вектор внешних возмущений; 4я —
заданная матрица чисел размеров яХм-
Относительно вектора f(/) известно, что:
1) его компоненты ограничены по модулю
|//(0|</? (* = Гй, (4.1.55)
где f* (i=l,\i)—заданные числа;
2) функции fi(t) (i=l9n)—исчезающие. Это означает, что
lim/,(/) = (); (4.1.56)
t-*mo
3) вектор/(0 измеряется.
Требуется найти управление
и = С'х + —£'/.(*), (4.1.57)
[МО—некоторая матрица размеров /гХ^], такое, чтобы на
движениях системы (4.1.54), (4.1.57), возбужденных
произвольными начальными условиями и внешними возбуждениями,
минимизировался функционал (4.1.3):
•о
7=1" (x'Qx + u'u)rf/. (4.1.58)
6
80
Отметим, что требование (4.1.56) необходимо для
сходимости интеграла (4.1.58).
Аналитическое конструирование регулятора при внешних
возмущениях состоит из операций: 1) вычисления матрицы С
в соответствии с процедурой 4.1.1 аналитического
конструирования при f=0; 2) решения дифференциального уравнения
L = -(A + BC'yL — (P + P')Wf(t) (4.1.59)
и определения матрицы L(t), входящей в закон оптимального
управления (4.1.57).
Для доказательства рассмотрим случай /г = т = |я=1.
В этом случае уравнение (4.1.54) примет вид
x=ax + bu + tyf, (4.1.54')
а функционал (4.1.58) запишется как
о©
J= j1 (ax2-\-u2)dt. (4.1.55')
6
Уравнение метода динамического программирования примет
вид
-*L=lY-iax + W)-±(-2Z-b)2 + qj<*. (4.1.60)
dt. дх ' ТУ 4 \ дх ) ' *
Решение этого уравнения будем искать в виде
*=/>** + /! (Ох + /0(/), (4.1.61)
где р — неизвестное число, a U{t) и U(t)—неизвестные
функции.
Для определения этих неизвестных подставим (4.1.61) в
(4.1.60):
-tfi* + /о) - &РХ + Л) (0.x -{- ф/) - JL (2рх + 1Х)2 Ь2 + дх2.
4
Приравнивая нулю коэффициенты при х2, я, х°, получим
уравнения:
2pa-p2b2 + q=0; -/1 = (a-pP)ll + 2rff; -l'0=W~\&b%-
Принимая во внимание, что в соответствии с (4.1.5)
2 дх и 2 1
убеждаемся в справедливости (4.1.57) и (4.1.59).
Задача о слежении [4.13]. Пусть требуется, чтобы движение
объекта (4.1.54) по переменным состояния было близко к
некоторому желаемому движению, описываемому с помощью
81
/n-мерной вектор-функции xm(t), задаваемой на интервале [to,
t]. Другими словами, x(t) должно следовать (или «следить»)
за хж(0-
Мера близости вектор-функций x(t) и xm(t). определяется
как значение функционала
оо
/=f [<x-x«)'Q0<x-xJ+u'u]rf/. (4.1.62)
Таким образом, возникает задача о построении управления,
при котором этот функционал принимает наименьшее
значение.
Покажем, что задача сводится к предыдущей.
Действительно, вводя новый вектор е=х—хж, получим, используя (4.1.54),
уравнение
ё=Ле+Яи + *(1), (4.1.63)
где f(1)(/) —это я-мерный вектор,
К1Ч'*)=Ахж-кж + Ч?/а). (4.1.64)
Функционал (4.1.62) принимает вид
оо
y=J (fe'Q0e+u'u)tf/. (4.1.65)
о
Если /(1)(0 обладает свойством (4.1.56), то оптимальное
управление определяется соотношением (4.1.57).
Аналитическое конструирование дискретных (цифровых)
регуляторов. Пусть задан объект управления, описываемый
разностными уравнениями
х(& + 1)==Фх(*)+/?и(£) (£=0,1,2,...) л:(0)=л:<0\ (4.1.66)
где Ф и R — заданные матрицы чисел размеров пХп и nYjn
соответственно.
Качество переходных процессов для этого объекта
оценивается суммой
TV
y=2x'(*)Qx(*) + u'(*-l)u(*-l), (4.1.67)
где Q — заданная положительно-определенная матрица.
Требуется найти матрицы C(k) управления
u(£)=C(k)x(k) (£=0, 1, 2,...), (4.1.68)
при котором функционал (4.1.67) принимает наименьшее
значение при любых jc<0).
82
Аналитическое конструирование регуляторов для дискрет-
ных объектов состоит [4.11] из операций:
1) вычисления матриц P(N—/) (y = l,JV) на основе
рекуррентного соотношения
P^JУ-j)=Ф'lQ-^-P^N--j+l)]Ф-Ф>lQ+P(N-j+l)]Rx
x[R'(Q+P(N~j+l))R+E]-iR'lQ + P(N-j + l№U=hN);
(4.1.69)
P(N)=0; (4.1.70)
2) нахождения
C'(N-j)=-{R'[Q + P(N-j + l)]R-\-E}-ix
xR'{Q + P(N-j+\)]<I> U=l7N); (4.1.71)
3) определения матрицы коэффициентов усиления
регулятора
С {k) = C (N - j) (j =1777). (4.1.72)
Вывод соотношений (4.1.69)...(4.1.72) для общего случая
нестационарного дискретного объекта приведен в приложении 5.
Докажем эти соотношения при п=т=\. В этом случае
объект (4.1.66) и функционал (4.1.67) принимают вид
x(k+l)=fx(k) + ru(k) (Л=0, 1,2,...); (4.1.73)
N
•/ = 2 «x2(k) + u?(k). (4.1.74)
*=i
Для нахождения оптимального управления
u(k) = c(k)x(k) (4.1.75)
применим принцип оптимальности, рассмотренный в § 2.3.
В соответствии с этим принципом независимо от того, как
двигалась система до последнего шага (интервала [(N—1), N])y
управление (u(N—1)) на последнем шаге должно быть
оптимальным (относительно состояния, возникшего в результате
первых N—1 шагов).
Частичная сумма, которую необходимо минимизировать на
последнем шаге, имеет вид
JW-V=qx2(N) + u2(N--l)=q[fx(N--l) + ru(N-l)]2 +
+ u2(N-\). (4.1.76)
Используя необходимое условие экстремума этой суммы
-^ ^=2д [fx(N—l) + ru (ЛГ-1)] г + 2и(ЛГ-1)=0, (4.1.77)
du (N — 1)
83
получим оптимальное управление на последнем участке
u(N-\)= HL—X(N-l). (4.1.78)
1 + qr*
При оптимальном управлении
minJ(N-l)=v(N-l)\gj:2 ^Z^i-ljC2(^/— 1)==
= p(N-l)x2(W-l), (4.1.79)
где
p{N-\) = qf*--£££-. (4.1.80)
1 + гЦ
Переходя к нахождению управления на предпоследнем шаге
(интервале [N — 2, N— 1]), запишем частичную сумму, которую
должно минимизировать это управление:
j (лг-2) = qX*(N—\)-\-ii2(N — 2)-\- v^-1) =
= {q + p(N-\)]xHN-\)-\-iiHN-2)=:
= [q + p(N-l)}lfx(N-2) + ru(N-2)}* + u2(N-2). (4.1.81)
dJ{N~2)
Используя необходимое условие минимума =0,
получим оптимальное управление на предпоследнем участке
в(ЛГ-2)= H + PW-Wfr x{N-2). (4.1.82)
1 + и + /^(ЛГ~1)]г2
При этом управлении частичная сумма (4.1.81) примет
значение
ll ^ U l + [q + p(N-l)]r4
Xx4N-2)=p(N-2)x2(N-~2), (4.1.83)
где
p{N-2) = [q + p(N-\)\P {Я + PiN-XWf^ 41g4
И l4^FK nj l+[q + p(N-l)]r2
Продолжая этот процесс, дойдем до /-го (от конца)
участка (интервала [N — /, N — /+ 1]). Частичная сумма, которую
нужно минимизировать управлением u(N — у), имеет вид
Ji"-J)=qj<*(N-j + l) + ail(N—j)+vW-J+1)=.
*=[q + p(N-J+l)\**(N-J + l) + u4N-j)=
= [q + p(N-j + l)l[fx(N-j)+rii(N-j) + ru(N-M2+
+ u?{N-j). (4.1.85)
84
Оптимальное управление
u(N-J) =
1
= c(N-J)x(N-j),
[Я + PW-J+mfr x{N_j) =
l+[q+p(N-j+l)]r2
где
c(N-j)= b+Pl"-J+Wt
(4.1.86)
(4.1.87)
Значение частичной суммы (4.1.85) при этом управлении
minJ(N-^=v(N-^ = p(N-J)xHN-j), (4.1.88)
где
PiN-j^lg+pW-J+inr- ^+ГРГТ^+1)!(Г2 •
1 + [q + p(N — j + 1)]г2
(4.1.89)
Полагая в (4.1.71), (4.1.69) /i=m=l, убеждаемся, что они
совпадают с (4.1.87), (4.1.89) соответственно. Если в
функционале (4.1.67) верхний предел <N-*-co, то оптимальное
управление (4.1.68) принимает вид
u(k)=C'x(k) (k = 0, l, 2,...), (4.1.90)
где С— матрица чисел, определяемая из условия
C'=lim C'(N-j). (4.1.91)
Пример 4.1.3. Аналитическое конструирование дискретного (цифрового)
регулятора гирорамы. Пусть требуется найти цифровой регулятор
u(kT) = ciXi(kT)-{-C2X2(kT) + c3x3(kT) (fc=0, 1,2,...), (4.1.92)
при котором на движениях гирорамы, описываемой уравнениями (4.1.20) (при
/=0), минимизируется функционал
/-2 tfii*i (kT) + ?22*2 (*П + Язз4 (kT)+u2(kT). (4.1.93)
Переходя к численному решению этой задачи, сформируем вначале
дискретную модель гирорамы. Для этого воспользуемся формулами (1.4.23),
(1.4.24), с помощью которых вычислим матрицу Ф и вектор R. При значениях
параметров гирорамы а22=—400, Д2з=Ю3, азг = —10, 63i = Ю-2 получим при
7 = 0,015
Ф =
1 0,192-10-2 0,279-10-1
0 —0,477.10-1 0,192-10
0 -0,192-10-1 0,72
R -
0,19-10-15
0,279-Ю-з
0,131.10-3
(4.1.94)
Используя эти матрицы, а также значения параметров функционала (4 1.93),
^п = 1010, Я22=^зз = 0, получим на основе (4.1.69;, (4 171), (4 1.91) искомые
числа:
с, =—0,686.105; с2
-0,728-102; с3--—0,414-104. (4.1.95)
85
§ 4.2. Построение регуляторов при неполной
информации о векторе состояния
Постановка задачи восстановления (наблюдения).
Рассмотрим объект управления, возмущенное движение которого
описывается уравнением
x=A(t)x + B(t)u, х(*0) = х<°\ (4.2.1)
и пусть в результате синтеза получено оптимальное
управление
и = С'(/)х. (4.2.2)
Реализация этого управления часто затруднена тем
обстоятельством, что не все переменные состояния объекта доступны
непосредственному измерению, а можно измерить лишь
компоненты некоторого г-мерного вектора у, связанные с переменными
состояния соотношением
y = D(t)x. (4.2.3)
В связи с этим возникает задача восстановления (наблюдения,
оценки) вектора х(/) по результатам измерения y(t) на
интервале [t0i t]. После того как вектор состояния восстановлен,
можно реализовать управление (4.2.2), заменяя в нем
действительное состояние восстановленным вектором состояния.
Наблюдатель полного порядка. Рассмотрим вначале
простейшее устройство восстановления, которое описывается
уравнением
x = A(t)x + B(l)u; х(*0) = х<°>. (4.2.4)
Очевидно, что если х<0) = х(0), то решение уравнения (4.2.4)
точно совпадает с решением уравнения (4.2.1).
Если х(0)=7^х<0), то возникает ошибка восстановления е==
= х—х. Она удовлетворяет уравнению
е=Л(Ое; е(/0) = х<°>--х<0>. (4.2.5)
Если объект управления асимптотически устойчив, то ошибка
восстановления будет с течением времени уменьшаться
[lime(O=0].
Этого ограничения свойств объекта можно избежать, если
обратить внимание, что в устройстве восстановления (4.2.4) не
используются измеряемые переменные y\(t)y... tyr(t).
Сравнивая измеренное значение вектора у с восстановленным
значением D(t)x, построим наблюдатель с коррекцией по ошибке
восстановления. Он описывается уравнением
± = A(t)i + K(t)\y-D(t)x\+B(t)u, £(/0) = i«'>, (4.2.6)
86
где K(t)—некоторая матрица размеров п*Хг, называемая
далее матрицей коэффициентов усиления наблюдателя.
Теперь ошибка восстановления удовлетворяет уравнению
e=[AV) — K(t)D(t)\e\ е(/0) = х<0>-.х<°>. (4.2.7)
Если существует матрица /((/), такая, что наблюдатель (4.2.6)
асимптотически устойчив, то в соответствии с (4.2.7) ошибка
восстановления е(/)-Ю при t->oo.
Для стационарных объектов, описываемых уравнениями
х=Лх+£и; у=Ох, (4.2.8)
наблюдатель (4.2.7) имеет вид
х=Лх+Л'[у-£>х]+ Ви; х(/0)=х<°>, (4.2.9)
где К — матрица чисел размеров пХг.
Поскольку размерность вектора состояния наблюдателя
(4.2.6) или (4.2.9) равна размерности вектора состояния
объекта управления, то такие наблюдатели называются
наблюдателями полного порядка.
Известно два метода определения матрицы К,
обеспечивающей асимптотическую устойчивость наблюдателя (4.2.6).
Изложение обоих методов ограничим стационарным случаем. При
этом здесь и далее будем полагать, что объект (4.2.1), (4.2.3)
полностью наблюдаем. В стационарном случае условие полной
наблюдаемости имеет вид
ранг ЦО', A'D\..., (A'*-lD')\=n. (4.2.10)
Рассмотрим вначале первый из этих методов. Введем новый
/z-мерный вектор v состояния наблюдателя, связанный с х
соотношением
v=Tx (x^r^v), (4.2.11)
где Т — неособая матрица (detr^O) чисел размеров пУ^п.
Дифференцируя (4.2.11) с учетом (4.2.9), получим
v = Т (А - KD) х + ТКу + ТВи.
Учитывая (4.2.11), получим уравнение наблюдателя
v=Tv + Fy-\-TBu, \(4.2.12)
где
T=T(A-KD)T-i; F=TK. (4.2.13)
Исключая К из последних соотношений, заключаем, что
TA-YT=FD. (4.2.14)
Непосредственно из (4.2.12) следует, что для устойчивости
устройства восстановления необходимо и достаточно, чтобы соб-
87
ственные числа произвольной матрицы Г имели отрицательные
вещественные части. Матрица Г, входящая в уравнение
(4.2.12), является решением матричного алгебраического
уравнения (4.2.14), которое единственно, если матрицы Л и Г не
имеют общих собственных чисел. Матрица F (размеров п\г),
входящая в уравнение (4.2.14), произвольна.
Наблюдатель, описываемый уравнениями (4.2.11), (4.2.12),
и матричное уравнение (4.2.14) для определения его
параметров были впервые получены Люенбергером [4.19], поэтому
уравнения (4.2.11), (4.2.12) часто называют наблюдателем Лю-
енбергера.
Очевидно, что размерность вектора состояний этого
наблюдателя может быть уменьшена на число компонент
измеряемого вектора у. Такой наблюдатель называется наблюдателем
пониженного порядка (редуцированным наблюдателем). Он
описывается уравнениями
x=Sy + <£v; (4.2.15)
v = rv + Fy-f TBu, (4.2.16)
где v— (п—г)-мерный вектор состояний наблюдателя; 5, Ф, Г,
F, Т — матрицы чисел соответствующих размеров.
Матрицы S и Ф (размеров яХг и яХ(я—г) соответственно)
определяются из уравнения
SD + <bT = En. (4.2.17)
Необходимость этого равенства следует непосредственно из
(4.2.15), если учесть (4.2.3) и (4.2.11). Действительно, с
учетом (4.2.3), (4.2.11) выражение (4.2.15) примет вид
х = 5£>х + Ф^х. (4.2.18)
Если х(0) = х(0), то это равенство должно являться тождеством,
поэтому необходимо (4.2.17).
Прямоугольная матрица Т находится из уравнения, по
виду совпадающего с уравнением (4.2.14):
TA-TT=FD, (4.2.19)
где F — произвольная матрица размеров (п—r)Xf-
Пример 4.2.1. Рассмотрим объект управления, описываемый
уравнениями
Х1 = Х2 + Ьци; x2 = b2iu. (4.2.20)
Пусть непосредственному измерению доступна переменная
y = xt. (4.2.21)
Требуется построить наблюдатель пониженного порядка для восстановления
переменной состояния х2.
88
В соответствии с (4.2.15), (4.2.16) искомый наблюдатель описывается
уравнениями
х\ = suy + «pnvj; х2 = s2iy -f- тЩ*
v\ = Ynvi -Ь /п</ + (*n*n-Mii*2i)«.
(4.2.22)
(4.2.23)
параметры которых находятся из матричных уравнений (4.2.17), (4.2.19), ко
торые в рассматриваемом случае имеют вид:
1 О
l$2i
11*п hi
Р он +
о l
о о
Til
¥21
— Yiill'n hi\
||*и *Ы[ =
= /п
0 1
1 0
В развернутой форме уравнение (4.2.24) имеет вид:
$ц Н- ¥п*11 = 1; $21 + ¥21*ц = 0; 9и*12 = 0; cp2l*i2 = 1.
Решение этих уравнений имеет вид:
¥и=0; $ц = 1; <Р21=1/*12; $21= — *n/*i2-
Уравнение (4.2.25) записывается как
/и =—Yii'ii; *11-Yn*i2 = 0,
отсюда
*ll = —/и/Yn; *12 = —/n/Yii •
(4.2.24)
(4.2.25)
(4.2.24')
(4.2.26)
(4.2.25')
(4.2.27)
С учетом (4.2.26), (4.2.27) уравнения наблюдателя (4.2.22), (4.2.23) примут
вид:
хх = хг; х2 = —Yny — -Z— fi; fi = Yu^i + fny - — £ц + т *12 "•
/и \Yji Yii '
(4.2.28)
Из условия устойчивости наблюдателя полагаем \'п<0.
Пример 4.2.2. Наблюдатель пониженного порядка для переменных
состояния гирорамы.
Рассмотрим гирораму, описываемую уравнениями (4.1.20). При fi = 0 эти
уравнения имеют вид:
хх = х2\ х2 = а22х2 + a 2sxs; 'х3 = а32*2 + Дзз*з + #31" • (4.2.29)
Непосредственному измерению в гирораме доступна лишь одна переменная хь
измеряемая датчиком угла прецессии (см. рис. 4.1.2), поэтому
у = хг. (4.2.30)
Уравнение наблюдателя пониженного порядка в рассматриваемом случае
имеет вид:
*1 = *ПУ Ч- ¥11^1 + ¥12^2; Х2 = S2Xy + ^21^1 + ¥22^2»
*з = $311/ + ¥з1 vi +¥з2*>2; (4.2.31)
vi = Yiifi + fny + *i3^3i"; v2 = Y22V2 + /2\У + *2з*з1"- (4.2.32)
Для простоты матрица r = diagllYn, Y22II, в которой из условия устойчивости
наблюдателя Yn<0, Y22<0.
89
Параметры наблюдателя (4.2.31), (4.2.32) находятся из матричных
уравнений вида (4.2.17), (4.2.19):
(4.2.33)
511
521
1 s3X 1
1|100|| +
1 ?11?12 II
Т21Т22
1 <Рз1?32 II
|| ^11*12*13 1
II *21*22*23 1
=
10 01
0 1 0
0 0 1|
|| *ll'l2*13
Ц ^21^22^32
1 +
Yn 0 ||
|0 Y22 У
|| *\\Н4\ъ
II *21*22*32
1-1
1fn I
1 /22 |
||1 0 0||. (4.2.34)
О 1 0 |
О #22 #23
О а32 а33
Построение наблюдателя полного порядка на основе
модального управления. Описанный выше метод построения
наблюдателя свелся к преобразованию уравнения (4.2.9) к виду
(4.2.11), (4.2.12), который не содержит в явной форме матрицы
К. Рассмотрим теперь явный метод определения этой матрицы
в уравнении (4.2.9).
Итак, необходимо определить матрицу К так, чтобы корни
полинома Х/н («s)=det||£'s—A-\-KD\\ имели отрицательные
вещественные части. В этом случае наблюдатель
i=(A-KD)'x+Ky + Bu\ x(/0)=x<°>
(4.2.35)
асимптотически устойчив, и ошибка восстановления
уменьшается с течением времени.
Потребуем нечто большее, чем асимптотическая
устойчивость, а именно будем искать матрицу /С, такую, чтобы
корнями характеристического полинома DH(s) наблюдателя являлись
наперед заданные числа XiH, XnH (ReV<0, t=l, n).
Последнее означает, что матрица К должна удовлетворять тождеству
(по s)
DH(s)=det\\Es-A + KD\\=f] (s-X?). (4.2.36)
Для построения такой матрицы К используем свойство
дуальности (двойственности) задач управления и наблюдения и
применим теорию модального управления.
В соответствии с теорией модального управления [4.16] для
всякого полностью управляемого объекта
к = Ах-\-Ви (4.2.37)
всегда можно построить управление
и = С'х, (4.2.38)
такое, что корни (моды) характеристического полинома
замкнутой системы
D (s)=det lEs-A — BC'l (4.2.39)
имеют наперед заданные значения Xi,... Ди.
90
Процедура построения такой матрицы С (процедура
построения модального управления) приводится ниже.
Для описания двойственности задач управления и
наблюдения введем вспомогательную систему «управления»
ц=Л>Н-£'и; (4.2.40)
и=-Л>. (4.2.41)
Нетрудно видеть, что если объект (4.2.8) полностью
наблюдаем, то «объект» (4.2.40) полностью управляем.
Характеристический полином системы (4.2.40), (4.2.41)
D(s) = det\\Es-A'+D'K'\\=det\\Es--A + KD\\===DH(s). (4.2.42)
Очевидно, что если в качестве матриц А и В уравнения
(4.2.37) положить матрицы А' и D' объекта (4.2.8), определить
матрицу С «закона управления» так, чтобы корни полинома
(4.2.39) имели значения Х\н,... Дпн, то матрица
1< = -С (4.2.43)
является искомой матрицей наблюдателя (4.2.9).
Построение модального управления. Рассмотрим случай
скалярного управления. В этом случае в (4.2.37) и (4.2.38)
В = Ъ, С=с, где b и с — я-мерные векторы, и процедура
построения модального управления состоит из операций [4.17].
1. Приведем уравнение (4.2.37) к форме Фробениуса
х = Ах-\-Ъи, (4.2.44)
где
0
0
0
d0
1 ...
0 ...
:. £п-
0 ...
-dx...
0
0
-1 '■
1
-dK-
Еп-\ — единичная матрица размеров (п—1)Х("—1); ^о, du...,
dn-\ — коэффициенты характеристического уравнения объекта
(4.2.37);
D{s) = s* + du-lsn-1 + ... + d1s+d0. (4.2.46)
Переход от уравнения (4.2.37) к уравнению (4.2.44)
осуществляется с помощью преобразования
х=Ч>\г1~х, (4.2.47)
где
Wy = \\b, Ab,...,An Щ<Л>, Ab,..., Аа~Ц-К (4.2.48)
9!
b =
(4.2.45)
Нетрудно видеть, что для полностью управляемого объекта
(4.2.37)
det ^y ф 0. (4.2.48)
2. Из структуры матрицы А следует, что уравнение (4.2.44),
разрешенное относительно переменной хи имеет после
преобразования его по Лапласу вид
D(s)xx = u. (4.2.49)
Сравнивая это уравнение и заданный полином D*(s) =
л
= П (s — */) = s" + d*n-isn +... + d\s + do, получим
и (s)=—(cnsn-1 +... +^+^i) хг,
где
C{i+i) = dt — di (/=0, /г—1).
(4.2.50)
(4.2.51)
Принимая во внимание, что si/=ii+i (*=1,я—1), имеем
л
й=—2 *'*' = ~~^'* (4.2.52)
(с — я-мерный вектор чисел).
3. Возвращаясь к прежним переменным, получим искомый
вектор
с'=-с'ЧГу, (4.2.53)
обеспечивающий заданные корни характеристического
полинома системы (4.2.37), (4.2.38).
Пример 4.2.3. Определение матрицы К наблюдателя полного порядка
для переменных состояния гирорамы. Уравнения наблюдателя полного
порядка для переменных состояния гирорамы, описываемой уравнениями (4.2.29),
(4.2.30), имеют в соответствии с (4.2 9) вид:
xi = хг +кп(у — х{);
Х2 = 022*2 Ч- «23*3 + *21 (У — Хг);
х3 = аз2х2 + а3з*з 4- *з1 (У — *i) + hi"-
(4.2.54)
(4.2.55)
(4.2.56)
Неизвестные параметры ku, k2l, k3l определим так, чтобы корни
характеристического уравнения наблюдателя имели наперед заданные значения XiH,
В связи с этим сформулируем задачу модального управления: для
«объекта»
(4.2.57)
Х\
Х2
*3 '
=
[00 0
1 «22 032
1 0 023 «33 '
*1
*2
1 х3 1
+
1
0
0
92
найти «управление»
и =cixx + с2Х2 + С3Х3, (4.2.58)
при котором характеристический полином системы (4.2.57), (4.2.58) имеет вид
D* (s) - 53 + 0***2 + d\s + d*0, (4.2.59)
где
d2 = —Xj — X2 — X3; 0^ = XjX2 +XjX3 + X2X^;
(4.2.60)
dQ — —XjX2X3.
В соответствии с первой операцией процедуры построения модального
управления формируем матрицу
¥у =
1 0 0
0 1 а32
0 0 02з
0 0 1 II II 1 0 0 11-1
0 1 — d2
1 —d2 —dx+d\
где d0, du d2-—коэффициенты характеристического уравнения объекта
5 0 О
-1 5 —Я22 —#32
О —023 $ — #33
= 53 + 0*2$2 + dxS,
где
(4.2.61)
D (5) = det
= 5 [(5 — 022) (s — 033) — Я32Я23] =
(4.2.62)
0*2 = —022 — 03з; Л*1 = #22^33 — #32^33-
Вторая операция приводит к значениям
—ci—d0; —C2 = d1 — di; —c3 = d2 — d2-
(4.2.63)
Используя затем преобразования (4.2.53) с матрицей (4.2.61), получим
значения а (/=1, 2, 3), тогда искомые
1, 2, 3). (4.2.64)
Ь\1
(i
Структура оптимальной системы с наблюдателем.
Возвращаясь к рассмотрению системы (4.2.1), (4.2.2), реализация
закона управления (4.2.2) которой затруднена тем, что не все
переменные состояния доступны непосредственному измерению,
отметим, что в этом случае естественно использовать
наблюдатель (4.2.6), а затем воспользоваться законом управления
(4.2.2) применительно к восстановленному состоянию.
Полученная таким образом система описывается
уравнениями:
x = A(t)x + B(t)u; y = D(t)x; (4.2.65)
x=\A(t)-KV)D(t)\x + K(t)y + B(t)u; (4.2.66)
u-C'(/)x. (4.2.67)
93
На рис. 4.2.1 приведена структурная схема системы с
наблюдателем, построенная на основе уравнений (4.2.65)...(4.2.67).
Рис. 4.2.1
Исследуем устойчивость системы (4.2.65)...(4.2.67).
Осуществим эквивалентные преобразования этой системы. Вычитая
из первого уравнения системы (4.2.65) уравнение (4.2.66) и
заменяя в (4.2.67) х=х—е, получим после подстановки (4.2.67) в
(4.2.65) уравнения:
е= [A (t) -K(t)D (t)\ е; е (/0) = х (/0)- х (*<,); (4.2.68)
x=[A(t) + B(t)C'(t)]x-B(t)C'(t)e; х(*0) = х<°>. (4.2.69)
Если матрица коэффициентов усиления наблюдателя K(t)
выбрана так, что наблюдатель (4.2.66) асимптотически устойчив
при y(t)=u(t)=0, то решение уравнения (4.2.68) e(t)-+Q при
t\->~oo независимо от начального состояния е(/о).
Пусть матрицы B(t) и C'(t), входящие в уравнение (4.2.69),
ограничены и e(t)-+0 при t-*~oo9 тогда х (/)-*-(), если
асимптотически устойчива система
k = \A(t) + B(t)C'(t)]x. (4.2.70)
В стационарном случае система (4.2.65)...(4.2.67) имеет вид
х = Ах + Вщ y = Dx; (4.2.71)
x=[A-KD]x + Ky + Bu; (4.2.72)
u = C'x. (4.2.73)
94
D(5)=det
Эквивалентная ей система, аналогично (4.2.68), (4.2.69),
записывается как
е=[Л-/С£>]е; х=[Л + ЯС']х-ЯС'е. (4.2.74)
Характеристический полином системы (4.2.74)
E(s)-A + KD О
ВС Es-A-BC .
=det(Es-A+KD)det(Es-A-BC). (4.2.75)
Из этого выражения следует, что корни характеристического
полинома оптимальной системы с наблюдателем состоят из
корней характеристического полинома Du(s) = det(Es—А—ВС')
оптимальной системы (у которой все переменные состояния
доступны непосредственному измерению) и корней
характеристического полинома Da(s)=det(E—A+KD) наблюдателя. Таким
образом, можно производить раздельное построение закона
управления и наблюдателя.
Пример 4.2.4. Гирорама с наблюдателем полного порядка. Рассмотрим
при fi=0 гирораму (4.1.20) с оптимальным в смысле функционала (4.1.22)
управлением (4.1.21). В связи с тем что непосредственному измерению
доступна лишь одна переменная состояния хи воспользуемся для
восстановления остальных неизмеряемых переменных состояния наблюдателем (4.2.1)...
(4.2.3). Тогда гирорама с наблюдателем будет описываться уравнениями
Х\ = *2\ *2 = Л22*2 + Я2з*з; *3 = ^З2*2 + а^Хз + ^31и > (4.2.76)
и = cixx + с2х2 + с3лг3; (4.2.77)
*1 = *1 + k\\ (У — хг)> *2 = л22^2 4- а2гхг + hi (у — *i); (4.2.78)
х3 = a32x2 -Ь а3з*з + Л31 (У — *\) + %ц» (4.2.79)
в которых (4.2.77)...(4.2.79)—уравнения регулятора, параметры которого ciy
с2, с2 определяются решением задачи об оптимальном управлении, описанным
в примере 4.1.2, а параметры £ц, k2u &si находятся в результате построения
наблюдателя, рассмотренного в примере 4.2 3.
Характеристический полином системы (4.2.76), (4.2.77), если положить в
(4.1.21) Xi=Xi (i= l, 2, 3), имеет вид
\\ s —10
Du (s) = det 0 s — 022 ~ #23
II —^31^1 — дз2 — ^31^2 s — a33 — b3\c3
= 5 [(s — Л22) (s — a33 — b3Xc3) — а2з (Лз2 + ^2)] — hiC\ Л2з- (4.2.80)
В соответствии с (4.2,59) характеристический полином наблюдателя
DH (s) = S3 -Ь d*2$* + d\s 4- d*Q,
2l характеристический полином системы (4.2.76)...(4.2.79)
D(s)=Du(s)DH(s).
(4.2.81)
95
§ 4.3. Применение процедур аналитического
конструирования регуляторов
Условие оптимальности в частотной форме. Процедуры
аналитического конструирования регуляторов и построения
наблюдателей образуют эффективный метод синтеза регуляторов
систем, качество которых оценивается с помощью интегрального
показателя. Однако часто оказывается, что технические
требования к системе трудно непосредственно выразить с помощью
такого показателя, поэтому возникает задача выбора
коэффициентов функционала оптимизации по заданным требованиям
к точности и качеству системы. Для ее решения нужно
установить связь между структурой и параметрами функционала
оптимизации, с одной стороны, и показателями качества
(временем регулирования, перерегулированием, запасами
устойчивости по фазе и модулю) и точностью (установившимися
ошибками при внешних возмущениях) —сдругой [4.14, 4.15].
Установление такой связи опирается на условие
оптимальности в частотной форме.
Переходя к этому условию, рассмотрим систему
х = Лх + £и; (4.3.1)
и = С'х, (4.3.2)
оптимальную в смысле функционала
во
У= f (хЧЭх + и'ЮЛ, (4.3.3)
6
в котором Q — положительно-определенная матрица.
Оптимальность системы (4.3.1), (4.3.2) означает, что матрица
С=—РВ, (4.3.4)
где определенно-положительная матрица Р является решением
алгебраического уравнения Риккати:
PA + A'P~-PBB'P + Q=:Q. (4.3.5)
в котором А и В — заданные матрицы, удовлетворяющие
условию управляемости.
Преобразуя (4.3.1), (4.3.2) по Лапласу при нулевых
начальных условиях, запишем передаточную матрицу этой системы в
разомкнутом состоянии
^раз (s) - -С (Es - Л)-* В, (4.3.6)
где s — комплексное число.
96
Прибавим и вычтем из левой части (4.3.5) произведение sP
и умножим полученное равенство слева на В'(—Es— А)~х\ а
справа на (Es—А)~1В, тогда
В' (-Es-A)-i' 1 — PA + Ps—A'P—sP+PBB'P—Q] (Es-A)-lB =
= В'(—Es- А)-1' РВ + В'Р (Es - А)-* В +
+ B'(—Es-A)-vPBB'P(Es — A)-lB —
-B'(—Es-A)~l'Q(Es-A)~iB = 0. (4.3.7)
Вводя обозначение H(s)=H(Es—А)~{В, где tf'#=Q, и
учитывая (4.3.4), запишем (4.3.7) в виде
-В' (Es - А)-1' С-С (Es - ЛГ1 В +
+ В' (—Es - A)~v CC (Es - ЛГ1 В=И1 (-s) H (s).
Прибавляя к обеим частям единичную матрицу и учитывая
выражение (4.3.6) для передаточной матрицы разомкнутой
системы, получим окончательно
\En + Wpa3(-s)\'lEm + Wpa3(s)\ = Em + H'(-s)H(s). (4.3.8)
Полагая s=/co, получим условие оптимальности в частотной
форме
1^ + ^раз(^)]Ч^+^ (4.3.9)
Это условие выполняется для всех вещественных со и связывает
частотную передаточную матрицу Wva3(j(o) оптимальной
системы с параметрами функционала оптимизации.
В дальнейшем изложении большую роль будет играть
случай скалярного управления (т=\). В этом случае уравнения
(4.3.1), (4.3.2) имеют вид
х = Ах + Ъи; (4.3.10)
ti = z'x, (4.3.11)
где и — скаляр; b и с — я-мерные векторы-столбцы.
Передаточная функция этой системы
^Раз («) = -С (Es - ЛГ* b. (4.3.12)
Условие оптимальности (4.3.9) принимает при скалярном
управлении вид
п
[ 1 + дараз(—У«>)1 {1 + Тораз(УW>)J = J + 2 */<-»*«■(»• (4-злз>
где hi(jb)) (i=l, n) — дробно-рациональные функции,
являющиеся компонентами вектора Я(£/со—А)~ХЬ.
4-1017 97
Коэффициент передачи и частота среза оптимальных систем
со скалярным управлением. Найдем связь между
коэффициентами функционала
J-
оо / П
о v=*i
дих]-\-и'2 \dt
(4.3.14)
(где для простоты Q = diag [qlu ..., qnn], qu>09 i'=l, n), в
смысле которого оптимальна система (4.3.10), (4.3.11), с одной
стороны, и коэффициентом передачи kp и частотой среза о)ср зтой
системы — с другой.
Напомним, что для систем без астатизма
£р=^раз(0), (4.3.15)
для астатических
ku=limsrw(s)4
s-+Q
"(4.3.16)
где г — порядок астатизма,
а частота среза определяется равенством
hW/4P)l=J. (4.3.17)
Положим в (4.3.13) (о = 0, и учитывая, что обычно &р3>1,
получим для систем без астатизма
(4.3.18)
Преобразуем это выражение Поскольку в рассматриваемом
случае
учитывая, что компоненты вектора (Es—Л)_1Ь имеют вид
pz(s)/D(s), где fn(s)—составляющие вектора,
p{s)=(Es — A)b, a D(s) = det(Es—A) =
= s* + da_lsn-l + ...+d1s + d0,
(Es—А)—присоединенная матрица, получим
V A/(s)A£(-5) =
/-1
^иР/(5)р/(-5)
/-1
1
D(s)D(-s)
Таким образом, (4.3.18) принимает вид
kv'<
Р/(0)
(4.3.19)
(4.3е20)
/-1
98
Для астатических систем аналогичное, но уже точное
соотношение следует из (4.3.19) после его умножения на s2r при s->0:
*?=V.*„4P-. (4.3.21)
/=1
Часто по соображениям точности работы системы число kv
задано. Тогда для обеспечения заданного коэффициента передачи
разомкнутой системы необходимо определять коэффициенты
функционала (4.3.14) из равенств (4.3.20), (4.3.21), в которых
р*(0) (/=1, п) и do(dr)—известные числа, определяемые
параметрами объекта управления.
Для установления зависимости частоты среза системы
(4.3.10), (4.3.11) от параметров функционала (4.3.14) введем в
рассмотрение некоторую частоту со*ср, определяемую равенством
п
2 ЧиП (-КР) 91 (>*р)
1=1 =1, (4.3.22)
я(-Кр)я(Кр)
которое эквивалентно
2 А, (-Ю Л,- (Ю= 1. (4.3.23)
/ = 1
Кроме того, запишем тождество (4.3.13) как
п.
2Re wpa3 (усо) + wpas (-/со) w,a3 (усо)= V а, (-усо) А, (у со), (4.3.24)
либо
2а (со) cos ср (аз) + а2 (со) =2 А/(—./«ОМую)» (4.3.25)
где
а ((!>)= |wpa3 (yco)|, <р (co) = arg wpa3 (усо).
При о)==а)*ср тождество (4.3.25) принимает с учетом (4.3.23)
вид 2а(о)*ср) coscp((o*cp) +а2(<о*Ср) = 1, откуда следует
а (w*p)=—cos?(co*p)-f у cos2cp(to*p)-{-l. (4.3.26)
Учитывая, что —l^coscp((o) ^ 1, получим границы для значений
амплитудно-частотной характеристики а (со) оптимальной
системы в точке со*ср:
0,4 < а (юГр) < 2,4 или |20 lg (co*P)| < 8 дБ. (4.3.27)
Если полагать наклон логарифмической амплитудно-частотной
характеристики (ЛАЧХ) в окрестности со*Ср не менее 20 дБ/дек,
4* 99
то нетрудно заключить, что истинная частота среза соср
отличается от со*Ср не более чем на 0,4 декады (в 2,5 раза).
Таким образом, если коэффициенты qu (t=l, n) функционала
(4.3.14) выбрать так, чтобы при заданном (о*ср выполнялось
равенство (4.3.22), то частота среза оптимальной в смысле такого
функционала системы (4.3.10), (4.3.11) будет отличаться от
заданной не более чем в 2,5 раза.
Пример 4.3.1. Рассмотрим гирораму, описываемую уравнениями
ХХ = Х2\ Х2 = Я22*2 + Я23*з; *3 = 032*2 + 033*3 + ^31"' (4.3.28)
и пусть требуется найти закон управления
и = сгхг + с2х2 + с3х3, (4.3.29)
при котором система (4 3.28), (4.3.29) имеет коэффициент передачи
разомкнутой гирорамы и частоту среза, близкие к заданным — kp*, (ocp*.
Для решения этой задачи будем определять параметры с» (i=l, 3) из
условия минимума функционала
оо
/ = f (?n*i + Я22х\ + q3s4 + "2) dt> (4.3.30)
о
коэффициенты которого определяются из соитношений (4 3.21), (4.3.22).
Для нахождения функций p<(s) (*=1, 3) вычислим
(Es — A)-*b-=
s -I
0 s — a2<2
0 —a32
a2[\
0
-Я'23
5 — «33 1
1—1 1
0 1
0
1 hi 1
1
D(s)
a2Z$
S(S — 022)
P.31»
(4.3.ai)
где D (s) = s3 — (a22 + 033) s2 4- (022033 — 032023) s.
Таким образом,
p! (S) = 023^3Ь Р2 (5) = «23*31*; P3 00 — S (S — 022) *31 •
Подставляя эти выражения в (4 3.21), (4.3.22), получим
011^23*31
— k •
(022033 — 032023)2
tfllfl23*31 + ?22<*>cpa23*31 Ь "зз^ср (wcp + a22j *31
^(->ср)^ОЧР)
= 1.
(4.3.32)
(4.3.33)
Пусть параметры гирорамы имеют значения (4 133), а /гР* = 4-102, (оСр* =
= 100 с-'. Задаваясь значением ^3з = 5-109, вычислим по формулам (4.3 32),
(4.3 33) <у„ = 1,6-1012, ^22 = 3-108.
Решая задачу АКОР гирорамы при этих значениях коэффициентов
функционала оптимизации (4.3 30), найдем
<?1-=—0,126.107; с2 --—0,44.104; с3 - -116-10'*.
100
Передаточная функция разомкнутой гирорамы
з
2 crti <5> a2sb'
«W*) = •
1=1
•31 Ui + (<Ъ - с3 -^ ) s + -1- s2
__ L V Д23 / д2з J
D (S) S* — (Д22 + Я33) 52 + (Я22023 ~~ а32^2з) S
О,126-107 (0,92-10-452 + 3,1. \0-2s + 1)
~ s(s2+ 301s+3,3.103)
(4.3.34)
На рис. 4.3.1 приведена амплитудно-частотная характеристика разомкнутой
гирорамы, из которой следует, что требования к kp и соСр выполняются.
Границы частотных показателей качества оптимальных
систем. Исследуем частотные свойства системы (4.3.10), (4.3.11)
со скалярным управле-
201да№[дБ]
И(ш)-
IWpQjfjU)))
нием оптимальной в
смысле функционала
(4.3.14). Для общности
будем полагать, что в
этом функционале
часть коэффициентов
qu равна нулю. Однако
требование полной
управляемости пары (А'}
Н') выполняется.
Оказывается, для
частотных показателей
качества (запаса
устойчивости по фазе ф3,
запаса устойчивости по
модулю L и показателя колебательности М) оптимальных систем
можно указать их границы, не зависящие от выбора
коэффициентов функционала (4.3.14).
Утверждение 4.3.1. Запасы устойчивости и
показатель колебательности системы (4.3.10), (4.3.11) удовлетворяют
неравенствам
ср3>60°; £>2; Ж<2.
Доказательство утверждения
(4.3.13). Учитывая, что
Рис. 4 3.1
опирается на
(4.3.35)
тождество
2 */<-»*/(» >°»
(4.3.36)
/-1
запишем на основе (4.3.13)
[1 + Кехг;раз(Уо))]2+1т2^раз(Уо))> 1. (4.3.37)
Равенству [1-f Иен;раз(/ю)]2 + 1т о>2раз(/<о) = 1 соответствует в
плоскости годографа амплитудно-фазовой характеристики
(АФЧХ) окружность единичного радиуса с центрОхМ в точке
101
Re йУраз(/(d)= — 1, Im ^'раз(/со)^=0. Эта окружность показана на
рис. 4.3.2. Неравенство (4.3.37) означает, что годограф АФЧХ
оптимальной системы не пересекает зоны (это запретная зона
на рис. 4.3.2 заштрихована), ограниченной окружностью
единичного радиуса с центром в точке (—1, /0).
Опираясь на такую геометрическую интерпретацию условия
оптимальности в частотной форме (4.3.13) и неравенства (4.3.36),
kImVlpQ3(jU))
Рис 4.3 2
нетрудно доказать соотношения (4.3.35) для границ частотных
показателей качества.
Действительно, пересечение запретной зоны с кругом
единичного радиуса с центром в начале координат образует сегмент,
в который вписываются два равносторонних треугольника 0\ОК\>
ОхОК (сторонами этих треугольников являются радиусы
пересекающихся окружностей), которые опираются на дугу,
отмеченную на рисунке крестиками, а поэтому угол ОКК\ равен 120°. Это
означает, что запас по фазе ф3^60°.
Переходя ко второму из неравенств (4.3.35), отметим, что
отрезок вещественной оси [—2, 0], отмеченный на рисунке
крестиками, находится внутри запретной зоны. Это означает, что запас
устойчивости по модулю для оптимальных систем с АФЧХ
второго рода не менее двух, а с АФЧХ первого рода — бесконечно
велик. Последнее следует из того, что участок [—1, 0]
вещественной оси не может пересекаться АФЧХ оптимальной системы.
Граница показателя колебательности оптимальных систем
находится следующим образом. На рис. 4.3.2 штрихпунктирной
линией нанесена окружность радиуса г=М/(М2—1) =0,66 с
центром в точке (—а, /0), где а = М2/(М2—1) = 1,33. Эта окружность
составляет геометрическое место точек, запретных для АФЧХ с
показателем колебательности М = 2. Так как эта окружность на-
102
ходится внутри запретной зоны, касаясь границы этой зоны
изнутри, то М^.2 и, таким образом, утверждение доказано.
Отметим, что доказательство опиралось на неравенство
(4.3.37), которое не содержит коэффициентов функционала оп-
тимизации. Правда, при этом требуется, чтобы qu^O (i"=l, n)f
так как в этом случае выполняется (4.3.36), поэтому границы
(4.3.35) не зависят от выбора этих коэффициентов.
Пример 4.3.2. Определим запасы устойчивости и показатель
колебательности гирорамы с законом управления, полученным в примере 4.3.1.
Передаточная функция гирорамы в разомкнутом состоянии определяется
выражением (4.3.34). На рис. 4.3.1 приведены логарифмическая
амплитудно-частотная характеристика —201ga(co) и функция ф*(о) = 180+ф(со) (где ф(о))—фа-
зочастотная характеристика), соответствующие передаточной функции (4.3.34).
Нетрудно видеть, что ф3 = 80°, L-+oo. На этом же рисунке приведен график
М (со) = ■ ,
П+^раз(»1
из которого следует, что показатель колебательности
М ~ max тИ (о>) = 1,1.
0<Ш< 00
Отметим, что в более общем случае функционал (4.3.14)
содержит произведения xi и и:
J==] [% t»xf+2 (s '/■*/)«+и2 V.
в матричной форме он принимает вид
оо
J= j* (x'Qx + 2(l,x)u + u2)dt, (4.3.38)
6
где / — n-мерный вектор.
Условие неотрицательности подынтегральной квадратичной
формы я+_1 переменного Q—/Г^О. Вводя новые переменные и =
= и + 1'ху Q=Q—//', А=А—Ы\ нетрудно привести функционал
(4.3.38) к форме (4.3.14) и использовать процедуру АКОР.
Однако для частотных показателей качества систем, оптимальных
в смысле функционала (4.3.38), уже нельзя указать границ
(4.3.35). Более того, можно показать, что для любой (в том числе
и сколь угодно «плохой» по частотным показателям) системы
(4.3.10), (4.3.11) можно построить неотрицательный функционал
вида (4.3.38), в смысле которого эта система является
оптимальной.
Точность и качество оптимальных систем. Возвращаясь к
общему случаю, исследуем зависимость точности и качества
оптимальной системы (4.3.1), (4.3.2) от коэффициентов функционала
(4.3.3).
103
Вначале введем понятие о точности и качестве этой системы.
Для этого необходим m-мерный вектор (6 ) регулируемых
переменных, связанных с вектором х соотношением
6^=7Vx, (4.3.39)
где N— заданная матрица чисел размеров тХп.
Пусть к объекту (4.3.1) приложено внешнее возмущение f(t).
Тогда уравнение объекта примет вид
x = Ax + Bu + Wt, (4.3.40)
где W — заданная матрица чисел размеров пХ\х.
В качестве ^-мерного вектора f(t) обычно принимают типовые
возмущения: ступенчатые, гармонические, импульсные и т. п.
Так, ступенчатые возмущения
/i(0 = ( 7, = C°nSt ПРИ t>to'' (/ = Г7). (4-3.41)
( 0 при t<^tQ
Точность системы (4.3.1), (4.3.2), (4.3.39) определяется
значением вектора установившихся ошибок по регулируемым
переменным [4.15].
При ступенчатых возмущениях он называется вектором
статических ошибок, компоненты которого
е^.^Итб^) (/=1,/я). (4.3.42)
Качество рассматриваемой системы определяется временем
регулирования tven (*=1, пг) и перерегулированием су* (i=1, tn)
по каждой из регулируемых переменных при ступенчатых
внешних воздействиях.
Время регулирования по r'-й регулируемой переменной
находится как обычно (это время, через которое 0/(0 попадает в
пятипроцентную трубку в окрестности 9СТ/), а
gf= emax/-0cr/ 100%> где emax/ = max W).
ест/ 0<^</peri
Требования к точности и качеству системы (4.3.1), (4.3.2),
(4.3.38) выражаются соотношениями:
|вСг/1<вст/ ('=1, "*); (4.3.43)
'рег/==^гг; в/ —о* (i = TTfn), (4.3.44)
где в*т/, ^рег/, з* (* = 1, /п) —заданные числа.
Теперь введем в рассмотрение функционал, содержащий
регулируемые переменные:
J = ] 2 ^0,(в? + г?в?) +2 ul)dt. (4.3.45)
104
Производные компонент вектора 6 в этом функционале можно
исключить, используя соотношение 6 = Nx=N (Ах + Ви). Для
того чтобы избежать произведений х и и в подынтегральном
выражении, далее будем полагать, что
NB=0. (4.3.46)
В этом случае функционал (4.3.43) принимает стандартный вид
оо
У=Г [x'(N'OWN + A'N'Q^NA)x + u'u\dt, (4.3.47)
о
где
Q<°>b=diagM?\.., q(Z); QO^diagtr^,..., xWml]. (4.3.48)
Пусть!(t)—m-мерный вектор внешних возмущений и пусть
он приложен к объекту в местах приложения управления. Это
означает, что матрицы 5и¥в (4.3.40) совпадают:
W=B. (4.3.49)
При этом условии и выполнении (4.3.46) можно установить в
явной форме связь между точностью и качеством системы, с одной
стороны, и коэффициентами функционала, в смысле которого эта
система оптимальна,— с другой. В конструктивной форме эта
связь выражается [4.15] следующим образом.
I Утверждение 4.3.2. Пусть нужно построить закон
управления (4.3.2) для объекта (4.3.39), (4.3.40), такой, чтобы
эта система удовлетворяла требованиям (4.3.43), (4.3.44) к
точности и качеству. Для этого достаточно использовать
процедуру АКОР для объекта (4.3.1) и функционал (4.3.45). Для
обеспечения требований (4.3.43) к точности коэффициенты
этого функционала выбираются из соотношений
q{u] > f'f/C2/ (/ = Г^), (4.3.50)
где f — ц-мерный вектор чисел с компонентами (4.3.41).
Требования (4.3.44) к времени регулирования будут выполнены,
если при достаточно больших q\i) (/=1, т) принять
т, = £г//3 (/ = ТГ/л). (4.3.51)
При0 этом переходные процессы по регулируемым переменным
J будут носить апериодический характер.
Доказательство первой части утверждения
[соотношения (4.3.50)] опирается на связь между вектором регулируемых
переменных и внешним возмущением и на условие
оптимальности (4.3.8). Указанная связь имеет вид
d(s)^N(Es-~A)^B\Em + Wl)a3(s)}~1f(s). (4.3.52)
105
Действительно, преобразуя (4.3.40) по Лапласу при нулевых
начальных условиях, получим, используя (4.3.39), (4.3.49),
G (s)=N(Es-A)-i В (u + f). (4.3.53)
Исключим из этого выражения сумму u + f. Для этого на основе
(4.3.2), (4.3.40) запишем u=C'x=C'(£s—A)-lB(u+t). Отсюда,
прибавляя к обеим частям вектор f, получим соотношение (u + f) =
= [£m+№rpa3(s)]~1f, подставляя которое в (4.3.53) приходим к
(4.3.52). Эту зависимость запишем в виде
\Ет + WVa3 (s)] [N(Es- АГ1 В]~' 0 (s) = f (s).
Отсюда следует, что
6' (_s) [N (-Es - АГ1 В]-*' [Ет + \Граз (-s)I' \Ет + ^раз W] X
X [N(Es — ArlB\-lQ(s) = t'(—s)t(s). (4.3.54)
Теперь воспользуемся условием оптимальности (4.3.8), которое
с учетом структуры матрицы в функционале (4.3.47) представим
как
\ЕМ + Граз (-*)]' [Ят + 1Граз (s)] =
- 5' (-£s - Л)"1 N's2QWN (Es - Л)-* 5. (4.3.55)
При выводе последнего выражения использовалось очевидное
тождество
—A(Es — A)~1=E — s(Es — Л)-Ч
Подставляя (4.3.55) в (4.3.54) и пренебрегая при достаточно
больших q\V (i=l, m) слагаемым
Wl—syiNl—Es-AriBY-i'lNiEs — AriBlQls),
получим
0' (-5) (Q(°) - s2QM) в (s)« Г (-s) f (5). (4.3.56)
Учитывая, что f(s)=fs~1, и умножая (4.3.56) на s2, а также
полагая, что 5-^0, найдем
т
e;TQ<°>ecT^T<F или 2^(?}в^,даИ. (4.3.57)
Если выбрать qff в соответствии с соотношением (4.3.50), то,
как следует из (4.3.57), статические ошибки в системе будут не
более 9i* (t=l, m).
106
Обоснование второй части утверждения (соотношения (4.3.51)
и апериодичности- переходных процессов по регулируемым
переменным) опирается на (4.3.56) и гипотезу, которую приведем
ниже.
Соотношение (4.3.56) в развернутой форме имеет вид
2 ^/M-^i-^mi+st^ms)*^ //(-*)//(*)• <4-3-58>
/-1 /=i
При
//<*)
e'(s)= vw^+v (г'=1,т) (4'3-59)
(с точностью до указанного при построении (4.3.56) слагаемого)
выражение (4.3.58) превращается в тождество. Оригинал
изображения (4.3.59)
ед/)=—2i_(i_e-'/T') а = ТПк).
Отсюда следует, что время регулирования £регг~3т; (£=1, гп)>
а переходный процесс апериодический. Такой вывод опирается
на гипотезу, что решение (4.3.59) уравнения (4.3.58)
единственно.
Глава 5 ОПТИМАЛЬНЫЕ СТОХАСТИЧЕСКИЕ
СИСТЕМЫ СТАБИЛИЗАЦИИ
Рассмотрим теперь построение систем стабилизации для
объектов, подверженных внешним возмущениям, а также помехам,
сопровождающим процесс измерения его выходных переменных.
Внешние возмущения и помехи предполагаются гауссовскими
случайными процессами.
В § 5.1 получено оптимальное управление при внешних
возмущениях типа «белый шум», приложенных к объекту,
переменные состояния которого измеряются точно (без помех).
Оказывается; что это управление совпадает с законом управления,
полученным в предыдущей главе, при отсутствии внешних
возмущений.
В § 5.2 строится оптимальное стохастическое управление при
не полностью измеряемом векторе переменных состояния и
аддитивных помехах в процессе измерения. Получены
соотношения для определения матрицы коэффициентов усиления
наблюдателя полного порядка, при которой осуществляется
оптимальное восстановление и фильтрация переменных состояния
объекта. Доказана теорема разделения, в которой в отличие от
детерминированного случая утверждается статистическая оптималь-
107
ность системы, содержащей оптимальный регулятор, в котором
неизмеряемые переменные состояния заменяются оценками этих
переменных, получаемыми на выходе оптимального
наблюдателя (оптимального фильтра).
В § 5.3 получены алгоритмы оптимального стохастического
дискретного (цифрового) управления. Результаты этого
параграфа являются развитием результатов § 5.1 и 5.2 на случай
дискретных систем.
§ 5.1. Оптимальное управление при случайных
внешних возмущениях и измеряемом векторе состояний
Рассмотрим нестационарный объект управления
i = A(t)x + B(t)u-\-V(t)t; х (/<>) = х<°\ (5.1.1)
где f(t)—(я-мерный вектор внешних возмущений, являющийся
гауссовским случайным процессом типа «белый шум». Здесь и
далее будем полагать, что математическое ожидание
M{t(t)} = 0. (5.1.2)
Ковариационная матрица этого процесса
#,(/', t")=M {i(t')f (П} = #{1) (t)Z(t' -t"), (5.1.3)
где RM(t) — положительно-определенная матрица размеров
(xXji, характеризующая интенсивность «белого шума» в момент
времени f.
Пусть начальное состояние х<°) также является гауссовским
случайным вектором, не зависящим от внешних возмущений и
имеющим при М{х(°)}=0 ковариационную матрицу
ЛГ{х(°>х(0>'} = /?<°>. (5.1.4)
Рассмотрим критерий
У=М U [x'Q (t) x + u'u] dt + x' (h) p(i>x Щ , (5.1.5)
где Q(t)—положительно-определенная матрица.
Требуется найти управление и(/) как функцию текущей и
прошлой информации об х(^), при котором (5.1.5) принимает
наименьшее значение.
Так как текущая информация об х(/) носит случайный
характер, то и формируемое на ее основе оптимальное управление
будет случайным (стохастическим) управлением.
Неожиданным оказывается тот факт, что наличие «белого
шума» в уравнении (5.1.1) не изменяет оптимального управления,
которое было получено ранее (в § 4.1) при отсутствии внешних
возмущений. Изменяется лишь значение минимума критерия.
Сформулируем этот результат [1.4], [4.7].
108
I Утверждение 5.1.1. Оптимальное стохастическое
управление для объекта (5.1.1), при котором функционал (5.1.5)
принимает наименьшее значение, имеет вид
и = С'(Ох, (5.1.6)
где
C(t)=—P(t)B(t); (5.1.7)
P(t)—решение матричного уравнения Риккати
-Я (t)=F(/) А(0 + A' (t) Р (О- Р it) В (О В' (t) P (t) + Q (/)
(5.1.8)
при краевом условии
J р^) —/>(i)# (5.1.9)
Значение функционала (5.1.5) при управлении (5.1.6)
определяется выражением
tr \Pt (tQ) /?<°> + J ¥ (/) /?<D (/) ЧР (О Р (t) dt\ . (5.1.10)
(В эгом выражении запись \т А означает след квадратной
матрицы А. По определению,
где an (i=l, /г) — диагональные элементы матрицы А.)
Рассмотрим теперь стационарный случай, когда матрицы,
входящие в уравнение объекта (5.1.1), и функционал (5.1.5)
постоянны, а интенсивность стационарного «белого шума»
характеризуется матрицей чисел R{1\ Наименьшее значение функционала
оптимизации имеет вид
miny=tr|p</0)/?<°>+f WRWP(i)dt\. (5.1.11)
Во многих практических случаях время функционирования
системы велико. Тогда полагают в функционале оптимизации t\-+oo
и значение функционала
miny=trPo^<°) + (/1-/0)tr4r/?(1>4r//)o, (5.1.12)
где Р° — установившееся решение матричного уравнения Риккати
(4.1.12).
Очевидно, что при ^->оо число min/-^oo.
109
Причиной этой ситуации является неограниченная энергия
случайного процесса типа «белый шум», поэтому при ^-^оо
вместо функционала (5.1.11) принимают функционал
у=Нт - Al\Ux'Q(t)x + u'u)dt + x'(tx)PWxtfjy (5.1.13)
Для стационарных систем этот функционал можно записать как
/ = lim-
1
*-*оо t\ — tQ
>М
Qx + u'u)rftf
(5.1.14)
Пример 5.1.1. Оптимальное стохастическое управление гирорамой.
Рассмотрим гирораму, описываемую уравнениями (4.1.20), в которых f(t) —
стационарный случайный процесс типа «белый шум» с интенсивностью ^^11j= 103.
Причиной такого внешнего возмущения являются высокочастотные вибрации,
которые приводят к случайным изменениям сухого трения относительно
оси OY.
Требуется найти закон управления, при котором функционал
/ = lim : г М I Г (qux\ + q22x\ + ?зз*з + "2)dt (5.1.15)
Л-*» h — *o
принимает наименьшее значение.
Пусть параметры гирорамы и функционал оптимизации определяются
равенствами (4.1.33), а значение
+31 = Ю-з,
(5.1.16)
тогда оптимальное управление имеет вид (4.1.21), а его параметры сь с2, Сз
определяются соотношениями (4.1.35).
Вычислим значение функционала (5.1.15) при оптимальном управлении.
Поделим (5 1.12) на t{—tQ и положим /i-*-oo, тогда
lin/ = tr WR^WPO = tr
0
0
I +31
r$ IP 0 ф31||
n° r>0 n°
Pll Pl2 Pis
P\2 P22 P23
«0 n0 n0
P\3 P23 РЗЗ
= U
0
0
0
0
0
0
0 I
0
г\Нг
n0
Pn
0
P12
Pu
P°n
P22
P23
P°i3 II
«0
P23
P33 \
гп гзгРзз-
(5.1.17)
Так как в соответствии с (4 1.34) р3з°= 116-106, то искомое значение
min/ = 116.10. (5.1.18)
Это значение равно сумме дисперсий
Яп<з2Х1 + Я22°12
■?зз«2, + «« = 116-10.
(5.1.19)
где <зг (i=l, 2, 3)—дисперсия х»; ам —дисперсия и. Используя это равенст-
xi
во, можно получить оценку дисперсии по каждой из переменных состояния.
ПО
§ 5.2. Синтез стохастических систем
при неполной информации о векторе переменных состояния.
Оптимальное наблюдение (оптимальная фильтрация)
Структура оптимального регулятора. Пусть не все
переменные состояния объекта (5.1.1) доступны непосредственному
измерению и пусть, кроме того, измерения осуществляются с
помехами. Тогда объект управления описывается уравнениями
x = A(/)x + £(0u + 4T(/)f; x(/e) = x<°>; (5.2.1)
y=D(*)x + x(/), (5.2.2)
где, как и ранее, i(t)—ji-мерный вектор внешних возмущений,
являющийся гауссовским случайным процессом типа «белый
шум» с нулевым математическим ожиданием и заданной
ковариационной матрицей /?(1)(/); Л(/), B(t), ^(t)—заданные
матрицы; y(t)—г-мерный вектор измеряемых переменных; х(/)— это
г-мерный вектор помех (шумов), также являющийся случайным
процессом типа «белый шум» с нулевым математическим
ожиданием и ковариационной матрицей
/?(2) (/', /") = м {* (/') х' (П) = /?<2> (t) Ь (/' - Г), (5.2.3)
где R№(t) — заданная положительно-определенная матрица
размеров гХг.
Далее предполагается, что внешние возмущения и помехи
измерений независимы (не коррелированы).
Наконец, обозначим
Л1{х(/0)} = *(0); ^{[x(V-x(°)]fx(/0)~x(0)]'} = /?(°) (5.2.4)
и будем полагать, что начальные условия не зависят от
возмущений и помех, а вектор х(Ш и матрица /?<°) размеров пХп
известны.
Требуется найти управление и, зависящее от измеряемого
вектора у, такое, чтобы критерий
./ = -W Jj \xV(t)x + u'u]dt + x' (tjpMxitA, (5.2.5)
где Q(0. ^(l) — заданные положительно-определенные матрицы,
принимал наименьшее значение.
Регулятор, формирующий искомое управление, состоит (как
и з детерминированном случае, рассмотренном в предыдущей
главе') из двух частей: устройства, реализующего оптимальный
закон (5.1.6), в котором вместо неизвестного вектора переменных
состояния х подставляется его оценка х, вырабатываемая во вто-
111
ром устройстве — наблюдателе. Как и в детерминированном
случае, наблюдатель описывается уравнением
x = A(t)x + K(t)[y-D{t)x] + B(t)u, (5.2.6)
в котором матрица K(t) определяется из условия минимума
функционала
/ = М{е'Л(Ое} (5.2.7)
(где Л(0— заданная положительно-определенная матрица)
ошибки е = х—х восстановления (наблюдения, фильтрации).
При таком определении матрицы K(t) уравнение (5.2.6)
описывает оптимальный наблюдатель (оптимальный фильтр).
Таким образом, цель последующего состоит в нахождении
матрицы K(t) из условия минимума (5.2.7) и в доказательстве
принципа разделения, который является основанием для
представления регулятора из двул частей.
Отметим, что уравнение устройства восстановления (5.2.6)
было построено в предыдущей главе исходя из эвристических
соображений. В действительности же оно впервые было получено в
работе [5.6] Р. Калмана и Бьюси, которая явилась дальнейшим
развитием результатов А. Н. Колмогорова и Н. Винера [5.4, 5.5]
по оптимальной фильтрации.
Оптимальный наблюдатель (оптимальный фильтр Калмана —
Бьюси).
I Утверждение 5.2.1. Матрица K(t) уравнения наблюдателя
(5.2.6), при которой (5.2.7) достигает минимального значения,
определяется выражением
К (t) = Ре m D' (t) RW-1 (0, (5.2.8)
где Pe(t)— матрица размеров пХп, являющаяся решением
уравнения Риккати
p^t) = A (t) Ре (t) + Ре (t) A' (t) - Ре (О D' (t) RW~l (t) D (t) x
I xPe(t)+4>{t)RMW(t), i>h (5-2.9)
с начальным условием
Pe{tQ) = R«». (5.2.10)
Начальное условие для наблюдателя (5.2.6) должно быть
выбрано в виде
I i(t0)=Tx^K (5.2.11)
Доказательство этого утверждения приведено в приложении 6.
Наблюдатель (5.2.6), у которого матрица K(t) и начальные
условия определяются соотношениями (5.2.8)...(5.2.И), часто на-
112
зывают фильтром Калмана — Бьюси по имени авторов этих
соотношений [5.6].
Нетрудно заметить сходство в решении задач оптимального
управления (АКОР) и оптимальной фильтрации. Действительно,
сравнивая выражения (4.1.28"'), (4.1.29///), (4.1.30) и (5.2.8),
(5.2.9), заключаем, что если положить K(t)=—С(0> ^'(0 =
= B(t)',Pe(t)= P(t)9№ = Q«\A'(t)=A(t),
W(t)R^(t)Wf(t) = Q(t), (5.2.12)
то эти выражения совпадают с точностью до знака производной
и краевых условий. (В первом случае эти условия заданы в
конечный момент времени (ы а в случае оптимального
наблюдения— в начальный момент времени to.) Это сходство является
выражением двойственности (дуальности) задач оптимального
управления и наблюдения.
Еще раз отметим, что матрица коэффициентов усиления
оптимального наблюдателя строится на основе решения уравнения
Риккати (5.2.9) в «прямом» зремени, тогда как в задаче
оптимального управления это уравнение решается в «обратном»
времени.
В стационарном случае уравнения (5.2.1), (5.2.2) принимают
вид
х — Ax + Bu + Wi; y^Dx + x, (5.2.13)
где случайные процессы f (t), n(t) типа «белый шум»
характеризуются постоянными ковариационными матрицами /?<]) и R<2\
Матрица К оптимального наблюдателя
x=Ax + K\y — Dx]+Bu (5.2.14)
определяется как
K = PeD'RM-\ (5.2.15)
где Ре — матрица чисел (размеров пХп) есть решение
алгебраического уравнения
АРе + РеА' - PeD'RV)"lDPe + ЧГЯ^ЧГ' = 0, (5.2,16)
которое находится как установившееся решение
дифференциального уравнения (5.2.9) (в котором А (t)=A, D(t)=D, R0)(t) =
= /?(*), RW(t)=RW) при t-+-oo. Такой наблюдатель является
оптимальным в смысле функционала
;-НтЛ1{е' (t) Ле (t)}. (5.2.17)
Отметим, что, как и в нестационарном случае, матрица К не
зависит от выбора матрицы Л функционала оптимизации.
113
Пример 5.2.1. Построим оптимальный наблюдатель для объекта (4.2.20),
(4.2.21), возбужденного случайными внешними возмущениями, при неточных
измерениях. Уравнения (4.2.20), (4.2.21) примут в этом случае вид
х\ = х2 + Ьпи -Ь +и/; Х2 = Ь2\и 4-Фя/i; (5-2.18)
y=xi + K, (5.2.19)
где f(t), 7i(t)— случайные процессы типа «белый шум» с интенсивностями
*п >0, r^ > 1 соответственно.
Наблюдатель, оптимальный в смысле функционала
/ = UmM {e\{t) + el(t))
t->oo
(5.2.20)
(el = xl—хи е2 = х2—х2), описывается в соответствии с (5.2.14) уравнениями
хх =^Х2 + kii(y-xi) + Ьпи, х2 = +*2i(у — *\) + ^21"»» (5.2.21)
в которых неизвестные коэффициенты Ли, £2i находятся из соотношений
Л 21
/'ell fel2
/М2 />е22
(5.2.22)
где реп, fen, Pе22 являются решением матричного уравнения вида (5.2 16)-
Pell Ре12
Ре12 Ре22
0
0
1 II
о II
1 l I
1 о 1
|| Pell Pel2 I
\\Pel2 Ре22\
1П оц
\Ре\
\PeV
+
L Pi
г Pi
\Pell Pel2
\ P*V2 Pe22
?12|
»22]
+
hhi
1+21
I0 °l
1 0
l^l+ll+aill^l
10 01
lo о
(5.
2.23)
В развернутой форме это уравнение запишется как
2^12~^11 + Ф11/'111)=0;
Ре22 — РепРеП + Фи^Ц* = 0; — р\п + +llril> = °-
Из последнего уравнения получаем
Подставляя это выражение в первое из уравнений, получим
\Г~
Ли =1/2 Vll^jp + ^rjJ>;
подставляя во второе уравнение, заключаем, что
Искомые параметры
hi = Pelh k2i = Pei2-
(5.2.24)
(5.2.25)
(5.2.26)
(5.2.27)
Теорема разделения. Возвращаясь к задаче оптимального
стохастического управления при неполной информации о векторе
переменных состояния, отметим, что ее решение является комби-
114
нацией решения задачи оптимального стохастического
управления при полной информации о векторе переменных состояния и
решения задачи оптимального наблюдения. Сформулируем этот
результат в виде теоремы.
I Теорема 5.2.1 (теорема разделения). Оптимальное в
смысле функционала (5.2.5) стохастическое управление
объектом (5.2.1), (5.2.2) имеет вид
u=C(t)x(t), (5.2.28)
где С(t)—матрица коэффициентов усиления, определяемая
соотношениями (5.1.7)...(5.1.9), которые получены для
оптимального в смысле функционала (5.2.5) стохастического
управления при полностью измеряемом векторе состояния
объекта (5.2.1); вектор x(t)—это я-мерный вектор переменных
состояния оптимального в смысле функционала (5.2.7)
наблюдателя (5.2.6), матрица К(t) коэффициентов усиления которо-
I го определяется выражениями (5.2.8), (5.2.9).
Доказательство теоремы приведено в приложении 7.
Восстановление переменных состояния нелинейных объектов.
Рассмотрим объект управления, описываемый нелинейными
уравнениями
х = ф(х,и, /) + t; x(/0) = x<°>; (5.2.29)
y = w(x, *) + х, (5.2.30)
где <р(х, u, t) w(x, t)—заданные п- и /"-мерные вектор-функции
своих аргументов; i(t) и и(/)—случайные процессы типа «белый
шум» с известными ковариационными матрицами (5.1.3), (5.2.3);
х<°) — случайный вектор, характеризуемый (5.2.4).
Пусть требуется по результатам измерения вектора у
восстановить неизмеряемый вектор состояния объекта х.
Для решения этой задачи используются линеаризованный
фильтр и расширенный фильтр, которые являются эвристическим
обобщением алгоритма восстановления (оптимальной
фильтрации) линейных объектов.
Рассмотрим вначале линеаризованный фильтр. Предположим,
что известна программная траектория х*(/), u*(f), являющаяся
решением уравнения (5.2.29) при некотором х*(^0) и f(/)=0.
Если отклонения 6у = у—у* от заданного значения измеряемого
вектора y* = w(x*, t) и отклонение 6х=х—х* малы, то искомая
оценка х=х* + 6х, где бх определяется соотношениями вида
(5.2.6), (5.2.9)...(5.2.11), которые принимают вид:
bx=A*(t)bx + KV)[by — D*(t)bx]: (5.2.31)
К (О = Ре (/) D*f {t) /?(2>-i (/); (5.2.32)
Pe-^A^(t) Pe(t)^Pe(t) A^r (t)-~Pe(t)D^f (t)R(2)-1 D^(t)Pe(t) +
+ /?<«>; Pe(tQ) = R<Q\ (5.2.33)
115
в которых элементы a*if(t) и d+kj(t) (i, /=1, n 6=1, r) матриц
A* (t) nD*(t) определяются к.ж
dxj
dUt)^dw*
\х~х*,и=и* ах
(*,у=1, /г; А=1,г).
(5.2.34)
Приведем теперь уравнения расширенного фильтра. Будем
полагать для простоты, что в уравнениях объекта и = 0.
Пусть в некоторый момент времени t получена оценка х
вектора состояний объекта (5.2.29), (5.2.30). Разложим
вектор-функции ф(х, u, t) и w(x, /) в ряд Тейлора в окрестностях этой оценки
и ограничимся первыми двумя членами этого ряда:
Ф (х, /)« ф (х, t) -f A (t) (х - х); (5.2.35)
w(x, 0~w(x, t) + D(t)(x — x), (5.2.36)
где элементы dt/(/), dkj(t) матриц A(t) и D(t) определяются
выражениями
atj(t) = -^LA ^ dkj = ^\ Л (/, у = 17^; А=177). (5.2.37)
OXj \х=Х ОХ ] \х = Х
С учетом этих выражений соотношения (5.2.29), (5.2.30) примут
вид
x=A(t)x+9^ + f; y=£>(/)x + p<2> + x, (5.2.38)
где
р(1) = ср(х,/)~Л^)х, p<2> = w(x, t)-D(t) x. (5.2.39)
Устройство восстановления для «объекта» (5.2.38)
описывается в соответствии с (5.2.6) уравнением
.х=Я(Ох + ^(/)[у-Д(Ох-р(2)]+Р(1>, £(/0)=х<°>, (5.2.40)
где матрица /С(t) определяется соотношениями (5.2.32) и (5.2.33),
в которых следует заменить D*(t) на D(г), а Л*(£)—на A(t).
Отметим, что, учитывая (5.2.39), можно записать (5.2.40) в виде
x = q>(x, /) + /C(/)[y-w(x, t)}. (5.2.41)
§ 5.3. Оптимальные стохастические дискретные системы
Оптимальное управление при полной информации о векторе
состояния. Рассмотрим дискретный объект управления
х(А+1) = Ф(А)х(А) + /?(Л)и(А) + ^(*)'(*) (А^=0, 1,2,...),
х(0) = х<°>, (5.3.1)
гае f(k)—ji-мерный вектор внешних возмущений, являющийся
последовательностью f (0), f (l), f (2), ... некоррелированных сто-
116
хастических величин с нулевым средним и матрицами дисперсии
/?<»>(*) (6 = 0, 1, 2, ...); Ф(6), Я (Л), ¥(*) (6 = 0, 1, 2,
...)—заданные матрицы.
Пусть задан критерий
J — М\У* * WQ(k)x(k) + u' (k~\)u(k~-\)+xf (N) P(»x(N)\ ,
(5.3.2)
где Q(6) (6=0, 1, 2, ...), P(1) — заданные
положительно-определенные матрицы.
Требуется найти управление и (6) как функцию переменных
состояния, при котором функционал (5.3.2) принимает
наименьшее значение.
Искомое управление, как и в непрерывном случае, совпадает
с управлением, полученным в § 4.1 при отсутствии внешних
воздействий. Сформулируем этот результат [4.11].
Утверждение 5.3.1. Оптимальное стохастическое
управление дискретным объектом (5.3.1), при котором критерий
(5.3.2) принимает наименьшее значение, имеет вид
и(6) = С'(6)х(6) (6 = 0, 1,2,...), (5.3.3)
где
C'(k) = -{R'(k)[Q(k+l) + P(k+l)]R(k) +
+ £'m}-i/?'(6)[Q(6+l) + P(6+l)]0(6). (5.3.4)
Последовательность матриц Р(6) (6 = 0, 1, 2, ...) является
решением матричного разностного уравнения
P(k)=<t>'(k)[Q(k+l) + P(k + l)][0(k) + R(k)C'(k)]
(Л = ЛГ-1, ЛГ-2,..., 1) (5.3.5)
с конечным условием
A(N) = pM. (5.3.6)
Нетрудно видеть, что если подставить (5.3.4) в (5.3.5) и
положить P(J)=0, ф(6)=Ф, R(k)=R, k = N—/, то (5.3.3)...(5.3.6)
совпадаете (4.1.69)...(4.1.72).
В стационарном случае, когда матрицы, входящие в
уравнения объекта (5.3.1), и функционал (5.3.2) постоянны, получим при
ЛА-^оо и функционале
/=lim — МГУ' x'(6)Qx(6) + u'(6-l)u(6-l) (5.3.7)
оптимальную систему
х(6 + 1) = Фх(6) + /?и(6) (6—0, 1,2,...); (5.3.8)
117
u(ft) = C'x(ft) (* = 0, 1,2,...), (5.3.9)
в которой матрица С определяется, как в детерминированном
случае, соотношениями (4.1.71) ... (4.1.69).
Оптимальные дискретные наблюдатели (оптимальный
дискретный фильтр Калмана— Бьюси). Рассмотрим объект
управления, описываемый уравнениями
х (*+1) = Ф (А) х (*) + /? (ft) u (А)+ 4? (*)!(*)
(ft = 0, 1, 2,...), х(0) = х<°>; (5.3.10)
y(ft) = D(ft)x(ft) + *(£) (ft=0, 1,2,...), (5.3.11)
где f(ft) и x(ft), (ft = 0, 1, 2, ...)—последовательности
некоррелированных векторных стохастических величин с нулевым средним
и заданными матрицами дисперсий /?(1)(ft) и R(2)(k). Здесь
#<!> (ft) = M {f (A) Г (А)}; /?(2) (А) = Ж (х(А) х' (А)}.
Пусть х<°) — случайный вектор, некоррелированный с
векторами f(ft) и x(ft), при этом
Af{x(°>} = x<0>, Л1{[х(0)-х<0)][х(0)-х<°)Г} = /?<0>,
где х<°) и /?(°) известны.
Требуется найти уравнение устройства восстановления
(наблюдения, фильтрации), выходами которого является оценка
x(ft) неизмеряемого вектора состояний x(k).
При этом критерий
у = М {е' (ft) A (ft) e (ft)} (5.3.12)
[где Л (ft) (ft = 0, l, 2, ...) — заданные положительно-определенные
матрицы, e(ft) =x(ft)—x(ft)] должен принимать наименьшее
значение.
I Утверждение 5.3.2. Оптимальный в смысле критерия
(5.3.12) наблюдатель (устройство восстановления,
фильтрации) для объекта (5.3.10), (5.3.11) описывается уравнением
х(А + 1) = Ф(А)х(А) + /С(Л)[у(*)-£)(А)х(Л)1 +
-f/?(ft)u(ft); х(0) = х<°\ (5.3.13)
в котором матрицы /С(ft) (ft = 0, 1, 2, ...) определяются
рекуррентными соотношениями:
К (/г) = Ф(к) Pe(k) Df (k)[R^ (k) + D(k) Pe(k) Dr (k)\^
(* = 0, 1,2,...); (5.3.14)
Pe(k+\) = [<b(k)-K(k)D(k)]Pe<t>'(k) +
+ 4F(*)/?(1)(*)«r'(*) (Л = 0. 1,2,...) (5.3.15)
] при начальном условии P(>(0) =R{0\ (5.3.16)
118
Начальное условие для наблюдателя (5.3.13)
£(0)=£<°>. (5.3.17)
Матрицы Pe(k) размеров пХп являются матрицами дисперсий
ошибки восстановления e(k)=x(k)—x(k). Для оптимального
наблюдения среднее значение
M{e'(k)A(k)e(k)} = tT[Pe(k)A(k)\ (£=0,1,2,...). (5.3.18)
Доказательство этого утверждения аналогично непрерывному
случаю [4.7].
Часто применяют оптимальные наблюдатели вида (5.3.13), в
которых вместо y(k) используется у(й-И). Такой наблюдатель
описывается уравнениями
х(*+1) = Ф(А)х(А) + /С(*+1)1у(А+1)-^(*+ЪФ(*)х(А)-
— D(k-\-l)R(k)u(k)]+R(k)u(k), (5.3.19)
где
K(k+l) = <b(k+l)Pa(k+l)D'(k+l)[D(k+\)Pa(k + l)x
X Я'(*+1) + /?(2Ч*+1)]-ь (5.3.20)
Pa(k + \)^Q>{k)lE-K(k)D(k)]Pa(k)<!>'(k) +
+ W(k)R(W(k). (5.3.21)
В стационарном случае уравнения объекта (5.3.10), (5.3.11)
принимают вид
x{k + l) = Ox(k) + Ru(k) + V Hk); y{k) = Dx(k) + %{k) (5.3.22)
и оптимальный наблюдатель описывается уравнениями
х(А + 1у=Фх(А) + /Г[у(А) —Dx(ft)] + /?u(*), (5.3.23)
где
K=<bPeD' \RW — DP*eD'\-i% (5.3.24)
а Ре° — матрица чисел (размеров пХт), являющаяся решением
уравнения
Р° = [Ф — КО]Р*еФ' + ЧГЦЮф'. (5.3.25)
Матрица Ре° находится как установившееся решение уравнения
Ре{к+1)=ФРе{к)Ф' — ФРе(к)0* \RW+DPe(k)D'\-*DPe(к)Ф'~
+ WRMW. Pe(0) = R° (5.3.26)
при k-+oo. Иными словами.
Р°е Игл Я, (Л).
119
Пример 5.3.1. Рассмотрим гирораму, описываемую уравнениями
(4 1.20)*
Xi = Х2, Х2 = 022*2 + Я23*3> *3 = л32*2 + 033*3 + hlu + Фз1.Л (5.3.27)
с параметрами из примера 4.1.2 и ^31 = 631 = Ю-3, где f(t)—случайный гаус-
совский процесс типа «белый шум» с нулевым математическим ожиданием и
параметром ковариационной функции г^)= 106.
Пусть процесс измерения Х\ датчиком угла прецессии сопровождается
случайной гауссовскои помехой х типа «белый шум» с нулевым математическим
ожиданием и параметром ковариационной функции г<2)=104.
Таким образом,
(5.3.28)
Пусть начальное состояние гирорамы
Х\ (0) = х2 (0) = хг (0) = 0.
(5.3.29)
Требуется построить наблюдатель (фильтр) переменных Хи *2, *з,
восстанавливающий значения этих переменных в моменты времени Т, 27, 37, ...,
кТ, при 7 = 0,01. При этом сумма дисперсий ошибок восстановления
/ = М {[хг (kT) - хч (kT)]2 + [х2 (кТ) - ~x2(kT)]2 + [х3 (кТ) - х3 (кТ)]*}
(5.3.30)
должна быть наименьшей для каждого момента времени kT
Переходя к решению этой задачи, запишем дискретную модель гирорамы
хг (к + 1) = хг (k) + yl2x2 (к) + ср13л:з (к) + гг (и (к) + / (к)); |
х2 (к + 1) = 922^2 (k) + ¥23*3 (к) + г2 (и (к) + / (к)); I (5.3.31)
*з (* + !) = Ъ2Х2 (к) + ¥зз*з (Л) + 'з (и (Л) + / (к)); J
У (*) =■ *i (*) + *(*), (5.3.32)
значения параметров (cpij, г,- (i, /=1, 3)) которой определены (4.194).
В соответствии с (5 3.23) .уравнения оптимального наблюдения имеют вид:
Х\ {к + 1) = хг (к) + ср12х2 (Л) + ?1з*з (к) + Г!« (Л) + кп [у (к) - хг (к)];
(5.3.33)
*2 (* -Ы) = П2*2 (к) + ¥2з*з (*) + г2а(*) + *2i [у (Л) - хг (к)]; (5.3.34)
*з (* + 0 = ¥з2*2 (Л) + ¥зз*з (к) + г3и (к) + к31 [у (к) - хг (к)]. (5.3.35)
Неизвестные параметры ku, к2\, к3] в этих уравнениях определяются на основе
(5 3 24):
ки
^21
*31
=
1 ¥12 ¥13
0 <р22 ¥23
0 ¥з2 ¥зз
1 P°ell
РеП
|/&3
[^-pSii]-1- (5-3-36)
Для нахождения чисел р°вИ, р°е\2, Р°е\з будем на основе (5 3 26) вычислять
последовательно Ре(\) (при этом Р*(0)=0 в силу (5 3 29)), Я,(2), После
некоторого числа шагов, когда Ре(к-\-\) ~Ре(к), примем
Ре W -Р°е.
(5.3.37)
120
Оптимальные системы с обратной связью по выходу объекта.
Теорема разделения. Рассмотрим объект управления,
описываемый уравнениями (5.3.10), (5.3.11). Пусть требуется найти
управление, зависящее от измеряемого вектора у выходов объекта,
такое, чтобы на движениях объекта минимизировался
функционал
J = M l^x' (k)Q(k)x(k) + u' (к —l)u(k^l) + x' (N)P^x(N)\ ,
(5.3.38)
где Q(k) и Р^ — заданные положительно-определенные матрицы.
Как и в непрерывном случае, решение этой задачи
удовлетворяет принципу разделения.
Утверждение 5.3.3 (принцип разделения).
Оптимальное в смысле функционала (5.3.38) стохастическое управление
объектом (5.3.10), (5.3.11) имеет вид
u(k) = C'(k)x(k) (k^=0 ,1 ,2,...), (5.3.39)
где С (к) (k = 0, 1, 2, ...)—последовательность матриц
коэффициентов, определяемая соотношениями (5.3.4)...(5.3.6),
которые получены для оптимального в смысле функционала
(5.3.38) стохастического управления при полностью
измеряемом векторе состояния объекта (5.3.10); вектор
x(k)—n-мерный вектор переменных состояния оптимального в смысле
функционала (5.3.12) наблюдателя (5.3.13), матрицы К (к)
коэффициентов которого определяются из соотношений
(5.3.14), (5.3.15). Доказательство этого утверждения
аналогично непрерывному случаю.
В стационарном случае управление объектом (5.3.22) имеет
вид
\x(k) = C'x(k), (5.3.40)
где матрица С" определяется, как и в детерминированном случае,
соотношениями (4.2.4)...(4.2.7), а вектор x(k) является выходом
(5.3.23), в котором матрица К находится из соотношений
(5.3.24)...(5.3.26).
Пример 5.3.2. Построим оптимальный цифровой регулятор гирорамы,
описываемой уравнениями (5.3.31), (5 3.32). Оптимальность цифрового
регулятора понимается в том смысле, чтобы на движениях гирорамы, замкнутой
этим регулятором, минимизировался функционал
: Iim аг
N-+00 N
( N ]
^ИХ m°xiW + uHk-ln- (5.3.41)
В соответствии с принципом разделения искомый оптимальный регулятор
описывается уравнениями (4 192), (5.3 33) ..(5.3.35).
121
Параметры этих уравнений были определены ранее: параметры
управления (4.1.92) были получены в примере 4.1.3 в результате решения задачи
оптимизации при отсутствии внешних воздействий и измеряемых Х\у х2, *3, а
параметры наблюдателя (5.3.33)...(5.3.35) были определены в предыдущем под-
параграфе в результате решения задачи восстановления неизмеряемых
переменных х2 и jc3.
Дальнейшее развитие теории оптимального стохастического
управления *. Приведенные в этой главе результаты были
вначале получены при целом ряде ограничений: 1) внешние
воздействия и помехи являются гауссовскими случайными процессами
типа «белый шум»; 2) внешние воздействия и помехи взаимно
независимы (некоррелированы); 3) матрицы /?(1)(/) и R(2)(t) —
невырождены (положительно-определенны) и т. д.
К настоящему времени многие из этих ограничений сняты
[4.7, 5.2]. Так, разработаны алгоритмы оптимального
стохастического управления, когда векторы f их коррелированы, а
матрица R(2)(t) вырождена.
Когда внешние воздействия и помехи являются не «белыми
шумами», а гауссовскими случайными процессами с
корреляционными матрицами, не содержащими дельта-функций (цветные
шумы), то такие процессы моделируют как результат
прохождения случайного процесса типа «белый шум» через линейную
динамическую систему. В частности, для непрерывного случая это
означает, что
f(/) = Z,o>(/)z+T«); x(t) = U24t)z + x(t); (5.3.42)
z = Л </)z+§(*), (5.3.43)
где 7(0, *(0> £(0—гауссовские случайные процессы типа
«белый шум; матрицы Z,(1>(/), L(2)(0> ^(0 определяются по
заданным корреляционным матрицам процессов f(/) их(0-
Уравнения (5.3.42), (5.3.43) называются уравнениями
формирующего фильтра.
Объединяя уравнения (5.2.1), (5.2.2) с уравнениями
формирующего фильтра, получим систему
1 х
1 2
—
1 A(t), V(t)Ul4t) I
0 АЦ)
y=||D(0, £<2>(
01
х 1
z 1
II х
II z
+
1+
10
*(0,
и +
f(0|
\lit)\
возбуждаемую случайными процессами типа «белый шум».
ЧАСТЬ ВТОРАЯ. АДАПТИВНЫЕ
(САМОНАСТРАИВАЮЩИЕСЯ) СИСТЕМЫ
Построение управления при неопределенных параметрах
объекта всегда являлось одной из центральных проблем теории
автоматического управления. Если обратиться к истории, то можно
заметить, что уже критерий Найквиста, установленный в 1932 г.,
явился методом исследования устойчивости систем, параметры
которых неизвестны, а известны лишь частотные характеристики
разомкнутой системы, получаемые экспериментально. В
последующие годы (1939—1965) были разработаны теории систем с
большими коэффициентами усиления [6.1], систем с переменной
структурой [6.2], инвариантных систем [6.3], которые позволяют
уменьшить влияние изменений параметров объектов и
неконтролируемых внешних возмущений. Однако поскольку эти системы
основаны на повышении (в явной или неявной формах)
коэффициента усиления разомкнутой цепи, это требует учета «малых»
постоянных времени, нелинейных факторов, запаздывания. В
противном случае нарушается устойчивость системы. Таким
образом, без увеличения данных об объекте не удается существенно
повысить коэффициент усиления.
Это приводит к необходимости построения регуляторов,
параметры которых изменяются (приспосабливаются,
адаптируются) так, чтобы при изменяющихся параметрах объекта точность
и качество системы оставались неизменными. Системы с такими
/ регуляторами были названы самонастраивающимися [6.4],
адаптивными [6.5], самоорганизующимися [6.6]. Здесь следует
отметить, что в отличие от теории оптимального управления
терминология в этих системах пока не установилась, и поэтому
термины «адаптация», «настройка» далее используются как
синонимы.
За последние три десятилетия разработано много способов и
методов синтеза адаптивных регуляторов. Им посвящено
большое количество публикаций и, в частности, книги [6.4 ...6.9], в
которых подводятся итоги развития теории адаптивного
управления.
Ниже в этой части книги, состоящей, как и первая часть, из
пяти глав, приводятся методы синтеза, предназначенные для
проектирования адаптивных систем.
Вначале (в главе 6) вводятся основные понятия адаптивного
управления и выделяются два класса систем: параметрически-
123
адаптивные и функционально-адаптивные. Формулируется
задача синтеза адаптивных регуляторов и указываются этапы ее
решения.
Седьмая глава посвящена экстремальным системам.
Получены алгоритмы управления безынерционными объектами,
статические характеристики которых имеют экстремум. Даны условия
сходимости процесса поиска экстремума при помехах в
измерении выходов объекта.
В восьмой главе рассматриваются системы с моделью.
Вначале излагаются методы идентификации (методы определения
параметров объекта) с использованием настраиваемых моделей,
а затем приводятся методы адаптивного управления системы,
желаемое движение которых задается эталонной моделью.
Показана сходимость процессов идентификации и адаптации при
измеряемых внешних возмущениях.
В девятой главе излагаются методы определения параметров
объектов, необходимые для синтеза регуляторов.
В десятой главе приводятся процедуры синтеза адаптивных
регуляторов. Получены условия, при которых эти регуляторы
обеспечивают устойчивость и заданную точность регулирования
при случайных либо неопределенных внешних возмущениях.
Глава 6. ВВЕДЕНИЕ В АДАПТИВНОЕ УПРАВЛЕНИЕ
§ 6.1. Понятия об адаптивных (самонастраивающихся)
системах
Понятие о неопределенных параметрах объекта. Гипотеза
квазистационарности. Рассмотрим объект управления,
возмущенное движение которого описывается уравнениями
х = ф(х, u, f, а); х(/0) = х<°>; (6.1.1)
y = w(x, u, х, а), (6.1.2)
rjxex(t) — r-мерный вектор переменных состояния объекта; y(t)—
r-мерный вектор измеряемых переменных объекта; f(/) и x(t) —
;ч- и r-мерные векторы внешних возмущений и помех измерения
соответственно; а(/) — яа-мерный вектор неизвестных параметров
объекта; ср, w — известные вектор-функции своих аргументов.
Вместо уравнений (6.1.1), (6.1.2) часто используют уравнения
первого приближения, имеющие вид
x = A(t)x + B(t)u + W(t)f; (6.1.3)
y = D(Ox + x, (6.1.4)
где A(t), B(t)y XF(/), D(t)—матрицы, все или отдельные элемен-
ты которых au{t)y bik(t), ф/р(0» du(t) (i, /=1, n\ й=1, т\ 1=
= 1, г; р=1, |i) являются неопределенными параметрами, из
которых можно составить вектор а'=||а(1>(0, а(2)(0> а(3)(0> a^(t) ||',
где
а(1)(*)=Фп(0, al2(t),...9aln(t), а21«), a22(0,...||; (6.1.5)
ОС2) (0 = ||&11 (О, ftl2(0,.»,*lmW, МО, *22(0,...Ц, (6.1.6)
a(3)(0=ttn(/), Ma..-,<M<), «МО, Ф22«),.-11; (6.1.7)
aW«)=||rfn(/), dl2{t\..., dlr{t\ dnU), d22{t\...\\. (6.1.8)
Природа неопределенных параметров Может быть различной:
а) неточное знание математической модели объекта; б) неполная
информация о программном движении, например, в случае,
когда моменты перехода с одного режима работы объекта на другой
неизвестны; в) разброс параметров в пределах технологических
допусков; г) «старение» элементов объекта и т. п.
Объем сведений о параметрах объекта может быть
различным. Если упорядочить эти сведения по мере их возрастания, то
можно различить следующие случаи.
1. Неопределенные, ограниченные по модулю параметры.
В этом случае функции ai(t) {i= l, na)— произвольные
неизвестные функции, удовлетворяющие неравенствам
la/(*)!<<£ (6.1.9)
где аг-* (i=ly па)—заданные числа.
2. Параметры объекта являются случайными функциями
времени с известным законом распределения вероятности, но
неизвестными параметрами этого закона распределения. Например,
известно, что закон распределения — гауссовский, но неизвестна
корреляционная матрица процесса.
3. Параметры объекта являются случайными функциями
времени с известным законом распределения и известными
параметрами этого закона.
4. Функции ш(0 (i=l, па) заранее неизвестны, однако могут
быть точно измерены в процессе работы объекта (6.1.1), (6.1.2).
5. Параметры объекта щ(0 0=1, па) — точно известные
функции. Этот случай рассматривался в перрой части книги.
Каждый из рассматриваемых случаев образует некоторое
множество Qa возможных значений вектора а(/)> определяющее
класс допустимых объектов.
Обычно параметры объекта изменяются медленнее, чем
переменные состояния, и поэтому интервал [t0, t{\ функционирования
объекта разобьем на подынтервалы, в течение которых парамет-
125
ры объекта считаются постоянными. Полагая для простоты
подынтервалы одинаковыми, запишем
a,(/) = const=a,(/?f); RT </<(/? + \)Т
(# = 17лГ; i = TTna), (6.1.10)
где F= (^—tQ)/N — интервал квазистационарности параметров
объекта.
Соотношение
</рег<§Т (/ = !7Л), (6.1.11)
(^■рег (*=1, n)—время затухания переходных процессов по
каждой из переменных состояния) выражает вместе с (6.1.10)
гипотезу квазистационарности, в соответствии с которой процессы,
протекающие в объекте управления, разделяются на «быстрые»
(изменение переменных состояния) и «медленные» (изменение
лараметров).
Таким образом, на каждом из подынтервалов объект (6.1.3),
(6.1.4) описывается уравнениями
i = 4<*>x + £<*>u + \FWf; /?f</<(/? + l)f </? = lJV);
(6.1.12)
y=D(/?)x + x; /?r</<(/? + l)f (R = \JV), (6.1.13)
где A(R\ B(R\ 4?(R\ D{R> — неизвестные матрицы чисел,
составляющие в соответствии с (6.1.5)...(6.1.8) вектор а неопределенных
параметров объекта (6.1.12), (6.1.13). В связи с широким
использованием ЭВМ для реализации адаптивных систем
управления часто используют дискретную модель объекта
х [(k +1) Т] = Ф<*>х (kT) + /?<*>u (kT) + 4T<*>f (kT),
4^<*< (/?y1>7 ; </? = Т^Г>» (6ЛЛ4>
уЦ) = В(%№+х№Г)Д<К (Л+1)7- (^^iTjV).
(6.1.15)
Для простоты изложения в этой части книги будут
рассматриваться в основном одномерные объекты (когда у, и, f и х —
скаляры), описываемые уравнениями
х = Ах-\-Ъи + Ф/; г/ = djc + x (6.1.16)
либо
х(*+1) = Фх(А) + ги(й) + ф/(А); #(*)=d;c (*) + *(*)> (6.1.17)
в которых b, d', ф, г — Аг-мерные векторы-столбцы чисел, а индекс
7? в обозначениях матриц и векторов параметров для сокращения
126
обозначений опущен, однако далее подразумевается, что эти
уравнения описывают объект управления только на одном из
интервалов квазистационарности его параметров.
Наряду с этим уравнением часто будет использоваться при
х —О форма «вход — выход» описания объекта управления
я-1 7-1 Ц.-1
^(л)+2 а^(/)=2 */й(У)+2 *р1}/(р) (6.1.18)
/-0 7=0 р=0
либо
y<*)+2T/tf(*~/)=2^1)a(*"y)+2rp-/r(*"p)- (6ЛЛ9>
/ = 1 / = 1 р-1
;0)
Параметры ait cpt (i=l, я), &j (/=0, у—1), k9 (p = 0, \i—1),
гр (i=l, \i—1; р=1, у—1) этих уравнений нетрудно выразить
через матрицы и векторы параметров уравнений (6.1.16), (6.1.17).
Понятие об идентификации. Рассмотрим стационарный
объект, описываемый уравнениями (6.1.16), с неизвестными
параметрами. Для построения регулятора необходимо определить
(идентифицировать) его параметры. Здесь можно различить два
случая: во-первых, когда внешние возмущения и помехи
измеряются либо известны (например, f(t)=7t(t)=0), и, во-вторых,
когда о них известны лишь границы области их возможных
значений либо статистические характеристики (закон распределения
и его параметры).
В первом случае для простоты будем полагать, что внешние
возмущения и помехи отсутствуют. Тогда движения объекта
х = Лх + Ь*г; y = dx; xtf0) = x<°> (6.1.20)
возбуждаются известным (измеряемым) входным сигналом u{t).
Анализируя сигнал y(t), на выходе можно определить параметры
объекта. Уточним, какие параметры при этом определяются.
Дело в том, что решение задачи — определение матрицы А и
векторов b и d по сигналам входа u(t) и выхода y(t) не единственно.
Действительно, рассмотрим наряду с (6.1.20) систему уравнений
x = Af-^*x + Af-4m; y=dMx; x(t0)=Mx(°\ (6.1.21)
где М — произвольная, неособая (detM^O) матрица.
Если входное воздействие a (t)=u(t)f то выходные сигналы
обеих систем совпадают y(t)=y(t), хотя параметры матриц в
них различны. В совпадении выходных сигналов нетрудно
убедиться, преобразуя (6.1.21) по Лапласу и вычисляя
y(s) = AM (Es — М-1 AM)'1 М-Ъи +
+dM(Es—M-1AMrlM~1xM=d(Es — Arlbu +
~{-d(Es — A)-~1x^ = y(s) при u(s) = u(s).
127
В связи с этим возникает вопрос: а существует ли набор
параметров, который единственным образом определяется на
основе сигналов «вход — выход»?
Таким набором параметров для полностью управляемых и
полностью наблюдаемых объектов являются параметры a* (i = 0,
п—1), kj (/ = 0, у—1) объекта в форме (6.1.18). Поэтому далее
под идентификацией параметров объекта будем подразумевать
определение его параметров в форме «вход — выход».
В главе 8 описаны два метода идентификации параметров
объекта (6.1.18): частотный метод и метод настраиваемой
модели. В главе 9 задача идентификации усложнена влиянием
неконтролируемых случайных внешних воздействий и помех.
Приводятся метод наименьших квадратов и метод стохастической
аппроксимации.
Если обобщить алгоритмы, приведенные в этих главах, то
процесс идентификации (оценивания) можно описать
разностным уравнением
а[(к+\)Т]=у(а(кТ), y(kT),...,y((k-^)Th u(kT),...,
u((k-p2)T)) (£ = 0,1,2,...), (6.L22)
где a(kT) — оценка вектора параметров в момент времени kT\
y(a(kT)t ..., y((k—\i\)T), u(kT), ..., u((k—(ы2)Г))—известная
вектор-функция, которая зависит от метода идентификации.
Естественно, что решения уравнения (6.1.22) должны
обладать свойством
Пта(£Г)=а*
(где а*=||а0, ..., ап-и &о, •••, &v-ill). которое выражает сходимость
процесса идентификации к истинным (а") значениям параметров
объекта.
Термин «идентификация» здесь и далее используется в узком
смысле как определение параметров математической модели
(6.1.16) объекта, структура которой (линейный характер
дифференциального уравнения (6.1.16), его стационарность,
размерность вектора переменных состояния п) известна.
В широком смысле идентификация включает в себя
определение по входу и выходу объекта структуры его математической
модели, определение ее параметров и оценивание
(восстановление) вектора его переменных состояния.
Структура модели определяется физическими законами,
которые определяют движение объекта (законы Кирхгофа,
Максвелла, законы сохранения массы, энергии и импульса, законы
распределения количества теплоты и энтропии). Из этих законов
следуют нелинейные дифференциальные уравнения в частных
производных, которые линеаризуются, а затем упрощаются (ре-
128
дуцируются) до обыкновенных дифференциальных уравнений,
определяющих структуру модели. Эти сведения образуют
априорную информацию об объекте. Параметры объекта
определяются в результате измерений входа и выхода объекта. Измере-
Физические
законы
Ошибки
моделирования
' 1
Управляющее
воздействие
и
**
Дифференциал
ные уравнения
в частных
производных
(нелинейные)
Ошидки
линеаризации
1
Ошидки
агрегирования
Дифференциальные уравне-
I пц| ния В частныхi ^i
ГТН производных А
I I (линейных) Г I
1
Обыкновенные
дифференци
а ль ные
уравнения
Структура
Объект
возмущающее
Линеаризация
информация о стриктире
(априорная)
Информация од измерениях
(апостериорная)
Обработка данных
Редукция
I
I
Измерения
Данные
измерений
h
Квантование
Ошибка
измерений
Ошибка
квантования
I Оцениво-
*1 ние
I порядка
I Математи
■—I ческа я
I модель
V
\Поря-
J док
Оценивание
параметров
Параметры
\ Оцеиива- |
Ч пае ^ \Т 1
I состоянии I Состояния
Рис. 6.1.1
ния и последующее вычисление параметров составляют
апостериорную информацию. Схема идентификации (в широком
смысле) приведена на рис. 6.1.1.
Идентификационный алгоритм адаптивного управления.
Параметрически адаптивные системы управления. Переходя к
построению алгоритма управления объектом (6.1.12), (6.1.13),
приведем эвристические соображения, которые порождают важный
класс алгоритмов управления при неопределенных параметрах
объекта.
В связи q этим рассмотрим следующие задачи, которые
решает конструктор системы стабилизации этим объектом:
1) идентификация (определение) параметров объекта
управления;
2) синтез алгоритма работы регулятора (синтез регулятора)
при известных параметрах объекта, обеспечивающего требуемое
качество работы системы;
3) конструирование регулятора, реализующего
синтезированный алгоритм.
5—1017
129
Поскольку параметры объекта (6.1.12), (6.1.13) изменяются,
то эти три задачи должны решаться в процессе работы объекта,
притом решаться автоматически, без участия человека. Другими
словами, если при неизвестных, но постоянных параметрах
объекта указанные задачи решались в процессе проектирования
системы, то при изменяющихся во времени параметрах они
должны решаться в естественных условиях работы объекта («на
борту» объекта) и в темпе работы объекта. Это означает, что
алгоритм регулятора должен изменяться в процессе работы
системы,_приспосабливаясь (самонастраиваясь, адаптируясь) за
время Т к изменяющимся параметрам объекта так, чтобы качество
работы системы оставалось неизменным. Для построения такого
алгоритма запишем уравнение регулятора для объекта (6.1.18)
с неопределенными параметрами
хр = Лр (а) хр + Ьр (а) у; и =dp (а) хр + /р (а) у, (6.1.23)
где Xp(t) — Яр-мерный вектор состояния регулятора, Av(a) —
матрица, bp(a), dp(a) —векторы, /Р(а) —скаляр, зависящие от
неизвестного вектора параметров (а). Зависимости параметров
регулятора (6.1.23) от параметров объекта (6.1.18) могут быть
как аналитическими (заданными с помощью формул), так и
алгоритмическими.
Последнее следует понимать в том смысле, что существует
алгоритм (процедура), с помощью которого для каждого
фиксированного вектора а можно найти матрицу Лр вектора bp, dp
и скаляр /р. В качестве таких алгоритмов могут выступать, в
частности, процедуры синтеза оптимальных регуляторов,
приведенные в главах 4 и 5.
Если в результате идентификации определено истинное
значение а* вектора а, то, полагая в (6.1.23) a=a*, получим
искомый регулятор.
При таком подходе процесс управления не может быть начат,
пока не закончится идентификация параметров и не будут
вычислены (по формулам либо на основе процедур) матрица
Лр(а*), векторы bp(a*), dp(a*) и скаляр /Р(а*) регулятора
(6.1.23).
Естественно, не дожидаясь окончания процесса
идентификации, использовать оценки а, доставляемые алгоритмом (6.1.22),
и тогда уравнение (6.1.23) примет вид
хр = Лр(а)Хр + Ьр(а)г/; a = dp(o)xB + /p(a)#. (6.1.24)
Уравнения (6.1.22), (6.1.24) описывают идентификационный
алгоритм адаптивного управления. Системы с
идентификационным алгоритмом называют параметрически адаптивными
системами.
130
Отметим, что уравнения (6.1.24) также можно записать в
форме «вход — выход»:
яр-1 7р-1
и<яр>+2 яр/(«)я(0=2 kpjwyU)- (6-L25)
/=0 ;=0
В дискретном случае уравнение принимает вид
лр ^Р"1
«(*) + 2 ?p/(«)«(*-0 = 2 г?№)У1к-Л- (6.1.25')
Пример 6.1.1. Пусть объектом управления является некоторый химико-
технологический процесс, протекающий в замкнутом резервуаре-реакторе
[6.10]. В моменты времени 0, Г, 2Г, ..., &Г, ... в реактор поступает сырье,
имеющее температуру f(k) (параметр Г, как и ранее, опускаем), и доза
катализатора u(k). Количество продукта реакции у(k) зависит от концентрации
промежуточного вещества x(k):
y{k) = dx{k), (6.1.26)
а величина x(k+\) определяется значениями x(k), u(k), f(k):
x{k-\-\)^ax(k) + bu{k)-\-tyf{k) (£=0,1,2,...). (6.1.27)
Величины y(k) и f(k) (£ = 0, 1, 2, ...) доступны непосредственному измерению,
а доза катализатора u(fi) (£ = 0, 1,2, ...) является управляющим воздействием,
которое влияет на ход процесса.
Коэффициенты a, b, yp, d соотношений (6.1.26), (6.1.27) зависят от
активности катализатора, скорости протекания реакции, конструкции установки
и т п.
Пусть целью управления является поддержание выходного продукта y(k)
на заданном уровне g = const. Если значения параметров а, 6, tj?» d известны
точно, то легко построить алгоритм работы регулятора, обеспечивающего
достижение цели управления. Этот алгоритм имеет вид
u(k) = -77 . (6.1.28)
do
Действительно, подставляя (6.1.28) в (6.1.27), получим, что
y(b+l) = g. (6.1.29)
В реальных условиях многие факторы, от которых зависят параметры а, Ъ,
\|), d, недоступны непосредственному измерению либо могут изменяться во
времени неизвестным образом (например, активность катализатора меняется при
его отравлении, при переходе на новую партию катализатора и т. д.). Поэтому
управление осуществляется в условиях неопределенности, когда законом
управления (6.1.28) воспользоваться нельзя.
Переходя к построению идентификационного алгоритма адаптивного
управления, обозначим
cti = a, d2 = b, а3 = ф, a4 = d (6.1.30)
и запишем закон управления (6.1.28) как функцию неопределенных параметров
<*г (/=1, 4):
cti a-з' сед 1
ага4 a2<x4 агсц
5* 131
Для определения коэффициентов закона управления (6.1.31) идентифицируем
параметры объекта (6.1.26), (6.1.27), уравнения которого можно с учетом
введенных обозначений записать в виде
y(k + \) = агу (k) + aAa2u (k) + asa4f (k) (k=0, 1,2,...). (6.1.32)
При & = 0, 1, 2 получим систему из трех алгебраических уравнений:
у (1) = щу (0) + а2аАи (0) + а3а4/ (0);
у (2) = агу (1) + а2а4и (1) -f- аз«4/ 0); (6.1.33)
У(3) = а& (2) + а2а4и (2) + а3«4/ (2),
решая которую найдем числа oti*, a2*a4*, а3*а4*. Подставляя эти числа в
(6.1.31), получим управление, обеспечивающее достижение цели (6.1.29).
Уравнение (6.1.31) вместе с процедурой решения алгебраических
уравнений (6.1 33) образуют алгоритм идентификационного адаптивного управления.
Заметим, что столь простой алгоритм адаптивного управления обусловлен
во многом доступностью для измерения f(k) и отсутствием помех в измерении
y(k). Если f(k) недоступно непосредственному измерению либо присутствуют
помехи в измерении, это приводит к процессу идентификации, описываемому
уравнением вида (6.1 22).
Прямой алгоритм адаптивного управления. Функционально-
адаптивные системы. Идентификационный алгоритм (6.1.22),
(6.1.23) адаптивного управления в сущности является моделью
процесса проектирования, осуществляемого в темпе работы
объекта, и идентификационная часть этого алгоритма вызвана
скорее прототипом (в качестве которого выступает процесс
проектирования), чем существом задачи. Дело в том, что алгоритм
идентификации слабо связан с целью управления, хотя и служит
ее достижению. В связи с этим возникает вопрос: нельзя ли
избежать идентификации и искать законы изменения параметров
регулятора (6.1.23) исходя непосредственно (прямо) из целей
управления?.Другими словами, параметры регулятора (6.1.23)
должны изменяться в зависимости от значения критерия
качества работы системы (от функционирования системы).
Такие алгоритмы называют прямыми алгоритмами
адаптивного управления, а системы, использующие эти алгоритмы,
называются функционально-адаптивными системами управления. Так,
для объекта (6.1.18) эти алгоритмы описываются уравнениями:
«<V + 2 р^+|(/)я<о=2 РУ0<»; (6.1.34)
/«о у-о
P/ = Y/(Po>-">ftyHip-b У, V. —. «Л-1» я) (*'=0, р.р + Лр—1),
(6.1.35)
где р, (/=0, |1р + Яр—1)—настраиваемые (подстраиваемые)
параметры регулятора; у* (* = 0Э Цр + Яр—1) — функции, зависящие
от критерия качества системы (цели управления). Уравнения
(6.1.35) описывают алгоритм настройки параметров.
132
Дискретные прямые алгоритмы адаптивного управления
описываются разностными уравнениями
лр ^р
"(*> + ]£ kp+/(А) и (*-*)*= 2 ЫЪУ^-П- (6Л.36)
Р,(Л+1) = у/<Ро(*) р^р+Яр(*)э у (к), */(£-!),...,
*/(£ — |ар+1), и (А), 0(А —1),..., я(А —Яр) (*'^=0, н-р + /гр). (6.1.37)
Пример 6.1.2. Построим прямой алгоритм адаптивного управления
химико-технологическим процессом, описанным в примере 6.1.1.
В соответствии с (6 1.28) уравнение регулятора этого процесса имеет вид
а (*) = Ро (*Ж*) +Pi (*)* + Р2 (*)/(*) (6=0,1,2,...), (6.1.38)
где М#), Pi(^)i M^)—настраиваемые параметры (коэффициенты).
Требуется найти закон изменения этих параметров, при котором
достигается цель управления (6.1.29).
Для нахождения такого закона введем критерий качества
J(k + l) = (y(k + \)-g¥ (6.1.39)
и тогда цель управления может быть интерпретирована как минимизация
функции (6.1.39). Для ее минимизации применим градиентный метод,
состоящий в изменении настраиваемых параметров в направлении, противоположном
градиенту функции {J(k-\-\) по настраиваемым параметрам.
Выражая /(6-J-1) через эти параметры, получим*
/(6 4-1)- [ay (k) + dtyf (*) + db (ft, (k) у (к) +
+ h{b)g + foik)f№-g]2- (6.1.40)
Вычисляя теперь частные производные функции (6.1.40) по |3o(&), Pi(&)> fM&b
приходим к алгоритму (6.1.37) настройки параметров:
Ро (* + 1) = Ро (*) - 2ex (*) (У (* + 1) - Л <% («; \
Pi (* + 1) = Pi it) - 2ах (k) (y(k + l)-g) dbg;
P2 <* + 1) = P2 № - 2в! (*) (у (* + 1) - Л rf */ (*),
где ai(&)>0— коэффициент пропорциональности.
При правильном выборе этого коэффициента
lira /*+i=0. (6.1.42)
Это означает, что прямой алгоритм (6 1.38), (6.1 41) адаптивного
управления химико-технологическим процессом обеспечивает достижение цели
управления (6.1.29). Правда, эта цель достигается не на первых нескольких шагах,
как в идентификационном алгоритме, а при достаточно большом числе шагов
управления.
При наличии помех в измерении y{k) требование (6.1.29) следует ослабить
и цель управления формулировать как требование выполнения неравенства
"Шп J (k + 1)<Д, (6.1.43)
fc->oo
где величина Д>0 должна быть согласована с уровнем помех.
Соотношение (6.1.43) означает, что для любой траектории системы
(6.1.26), (6.1.27), (6.1.38), (6.1.41) существует момент времени k*, начиная с
которого /(£+ 1)<А.
133
(6.1.41)
В случае, когда помехи носят стохастический характер, цель управления
следует задавать «в среднем»-
ШГМ {/(* + 1)}<Л. (6.1.44)
§ 6.2. Структура адаптивных систем
Цели управления. Рассмотрим объект управления,
описываемый уравнениями
х = ф(х, и, /, a); y=w(x, и, х, а), />/0» (6.2.1)
в которых а — неизвестный вектор чисел.
Требуется найти алгоритм адаптивного управления объектом
(6.2.1), при котором достигается цель управления. Эта задача,
которой посвящена вторая часть книги, точно не определена,
пока не задана цель управления.
Для задания цели управления используются оценочные
функции
/(/)=/(*</)), (6.2.2)
где J(e)=q(e(t))—некоторая выпуклая функция, часто J(e) =
= e2t e(t) — ошибка (невязка), малость которой соответствует
достижению цели управления. Выражение ошибки зависит от
назначения системы управления. Приведем некоторые из этих
выражений для непрерывных и дискретных систем.
1. Стабилизация. В этом случае
c(t) = y(t); e(k+l) = y(k+l). (6.2.3)
2. Стабилизация с заданной динамикой. Пусть
требуется, чтобы выходная переменная системы у (t) изменялась
наперед заданным образом, который задается уравнением
У(1) + %аж1у^=0 </<*), (6.2.4)
/=о
в котором числа аЖ1 (i = 0, /—1) заданы так, чтобы решение
уравнения (6.2.4) было асимптотически устойчивым.
Тогда в непрерывном случае
а в дискретном
е(*+1) = 0(*+1) + 2?ж/У <*-')• (6.2.6)
134
3. Идеальное слежение. Если требуется отработать
задающее воздействие g(t)y то невязку принимают в виде
eV) = y(t)-g(t); e(k+l) = y{k + l)-g(k). (6.2.7)
4. Системы с эталонной моделью. Системы с
эталонной моделью составляют обширный класс адаптивных систем,
в которых желаемое движение задается эталонной моделью,
являющейся физическим устройством, описываемым уравнениями
либо в общем случае нелинейным уравнением
хм = Фм(хм, g); #м = ^м(хм), (6.2.8')
в которых хм — /гм-мерный вектор переменных состояния
эталонной модели; Ам — заданная матрица чисел; i|)M, dM— заданные
векторы чисел, которые определяются с использованием обычных
методов синтеза. Это относится и к вектор-функции срм и
функции шм. Выход #м(0 эталонной модели описывает желаемое
движение (цель управления) системы при заданном (измеряемом)
задающем воздействии g(t). Отклонение от желаемого движения
e(t)=y(t)-yM(t); e(k+l)=y(k+l)-yu(k + l). (6.2.9)
Зависимость оценочной функции (критерия качества) (6.2.2) от
ошибки e(t) принимается различной в зависимости от объема
информации о внешних возмущениях и помехах, действующих на
объект (6.2.1).
Если упорядочить сведения о внешних возмущениях и
помехах по мере возрастания информации о них, то можно различить:
а) неопределенные, ограниченные по модулю внешние
возмущения и помехи, когда f(t), n(t) суть произвольные неизвестные
функции, удовлетворяющие неравенствам
|/(')|<7> МОК*, (6.2.10)
где /, х— заданные числа;
б) случайные внешние воздействия и помехи с неизвестным
законом распределения, но ограниченными математическими
ожиданиями и дисперсиями:
1/[<7*; М<**; f=M{f(t)};i=M{*(t)}. (6.2.П)
oJ = Af{[/(/)-/]2}<o7; а^Л4{[х(/)-х7}<0;2, (6.2.12)
где /*, х*, а/*, Ох* — заданные числа;
в) внешние воздействия и помехи — случайные процессы,
законы распределения которых известны, но не известны
параметры этих законов распределения. Эти параметры включают в мно-
135
жество Qa и тогда оно описывает класс допустимых объектов и
возмущений;
г) внешние воздействия и помехи — случайные процессы с
известными законами распределения и заданными параметрами
этих законов.
Если внешние воздействия и помехи — неопределенные,
ограниченные по модулю, то цель управления задается неравенством
?(*(0)<Д; ?(*(*+1))<Д, (6.2.13)
где Л — заданное положительное число, согласованное с
уровнем помех и внешних воздействий.
При случайных воздействиях цели управления принимают вид
Л1 {?(£(/))}< A; M {q(e(k + 1))} < А. (6.2.14)
Естественно, что из-за недостатка информации о параметрах
объекта целевые условия (6.2.13) или (6.2.14) не будут
выполняться на начальном этапе функционирования объекта, поэтому
требуют, чтобы цель достигалась асимптотически — при достаточно
большом t (или k) или при t-^oo (£->-оо).
Таким образом, приходим к заданию цели в виде предельных
неравенств
Шп ?(*(/))< А; НпГ>(г(£+1))<А (6.2.15)
при неопределенных воздействиях и неравенств
Tim At {д (е (t))} < А; ПпГМ {q (e (Л + 1))} < А (6.2.16)
при случайных внешних воздействиях и помехах.
Отметим, что наряду с «локальными» критериями вида
(6.2.13) иногда используют интегральные критерии с переменным
верхним пределом
y = j q(e)dt. (6.2.17)
to
Структура адаптивных систем. Идентификационный и
прямой алгоритмы адаптивного управления объектом (6.2.1)
описываются уравнениями
Хр=Фр(хр, у, g, P); u=wp(x9, у, Р); Хр(/0)=х£0); (6.2.18)
P = Y(P, </, u,mg), p<*0) = p<o>, (6.2.19)
где р(/)—ягмерный вектор настраиваемых параметров
регулятора (в случае идентификационного алгоритма Р(Т)
является оценкой вектора неопределенных параметров а); <рР,
V — Яр- и Яц-мерные вектор-функции своих аргументов,
подлежащие, как и функции wp, определению исходя из заданных
целей управления (6.2.15) или (6.2.16).
136
Уравнения (6.2.18) описывают алгоритм работы
регулятора, а уравнения (6.2.19) —алгоритм адаптации.
Устройство, реализующее алгоритм адаптации, называется
адаптором [6.5].
Таким образом, адаптивный регулятор состоит из
регулятора и адаптора. Структурная схема адаптивной системы
приведена на рис. 6.2.1. Регулятор, приведенный на этом рисунке,
9
[^/С\_
"УУ "
i
\
9 1
-•\с,
f ,
1
АЯпптпп
\
Контур ~"\
адаптации ) 1 1 н
1 Управляющее IfN Объект
[ устройство у\ управления
Основной^\
контур J
1 Управляющее устройство в цепи
обратной связи
Рис. 6.2.1
Эталонная модель \
Г
е=у-Уи
Адаптор \
1 А
!
Управляющее
устройство
«+
Объект 1
управления \
Управляющее устройство 1
в цепи обратной связи \
Pi
1С. 6.
2.2
-<
К
и
1
J
\
т
А
Т
< i
5
9*
состоит из двух частей: управляющего устройства
(последовательного корректирующего контура) и управляющего
устройства в цепи обратной связи (параллельного корректирующего
контура). Первая часть содержит настраиваемые параметры,
вторая — неизменна. Часто говорят, что объект вместе с
регулятором — это основной контур регулирования, а
изменяющаяся часть регулятора и адаптор составляют контур адаптации
(контур самонастройки). Если цель управления задается с
помощью эталонной модели, то структурная схема принимает
вид, приведенный на рис. 6.2.2.
137
Постановка задачи синтеза адаптивного регулятора и этапы
ее решения [6.10]. Задача синтеза адаптивного регулятора
состоит в определении (по уравнениям (6.2.1) объекта,
множеству Qa и цели (6.2.15) либо (6.2.16)) алгоритма
регулирования (6.2.18) и алгоритма адаптации (6.2.19), такого, чтобы для
любого вектора чисел а^£2а и любых начальных условий х<0),
хр(°), р(°) достигалась цель управления (6.2.15) либо (6.2.16).
Возможность (существование) решения этой задачи
зависит прежде всего от цели управления, при задании которой
необходимо учитывать уровень (объем) априорной
информации об объекте и возмущениях. Здесь существенную роль
играет величина «порога» А. К наиболее простым относятся
задачи синтеза, в которых величина Л не фиксирована и требуется,
чтобы целевое неравенство было выполнено при каком-нибудь
Д>0. Такие задачи возникают, когда априорная информация
об интенсивности внешних возмущений и помех отсутствует, а
объект управления неустойчив и требуется лишь обеспечить
ограниченность выхода y(t). Другой крайний случай возникает,
когда значение А взято минимально возможным, равным
нижней грани левой части соответствующего неравенства (6.2.15),
(6.2.16). Такие задачи называются задачами оптимального
адаптивного управления. Критериями оптимальности в таких
задачах являются функционалы
/=Tim sup q(e(t)); (6.2.20)
J = \imM{q(e(t)}. (6.2.21)
t-+oo
Отметим, что в приведенной формулировке задачи синтеза
фигурирует вектор чисел а, тогда как в содержательной
задаче адаптивного управления, описанной в § 6.1, этот вектор
зависит от времени. Это противоречие сглаживается следующими
рассуждениями. Во-первых, изменение вектора а во времени
можно описать часто формулой
a(0 = a(1)S1(0 + a(2)S2(0+-.,+a(;V)SAr(/), (6.2.22)
где 6/(0 (/=1, N) — известные функции; а^ (/=1, N) —
неопределенные векторы чисел, объединение которых к
составляет вектор чисел а.
Во-вторых, выполнение целевых неравенств (6.2.15) либо
(6.2.16) означает, что существует момент времени tx(a, Р(0))»
такой, что
|Д — q(e(t))\^e для всех t>tXJ (6.2.23)
где е>0 — некоторое достаточно малое заданное число,
характеризующее точность достижения цели управления.
138
Если
М«. Р(0))<7\ (6.2.24)
то цель управления достигается (с точностью до е) в течение
интервала квазистационарности параметров объекта.
Заметим, что при формулировке задачи синтеза
подразумевается, что в случае прямого алгоритма адаптивного
управления уравнение (6.2.19) обладает свойством
НтЗ(/) = р*, (6.2.25)
где р* — вектор чисел, такой, что регулятор
Хр=<Рр(хр, У> г. Р*); u=wp(x, */, р*); хр(/0) = х£0)
(6.2.26)
совпадает с регулятором, который получился бы, если решать
задачу синтеза регулятора для объекта (6.2.1), в котором
вектор а равен истинному значению а*.
В случае идентификационного алгоритма управления
решения (6.2.19) обладают свойством
HmP(0=a*. (6.2.27)
/-woo
При решении сформулированной задачи синтеза
адаптивного регулятора можно различить следующие этапы:
1. Построение закона управления (алгоритма
регулирования). На этом этапе строятся функции фр, wv уравнений
(6.2.18). Способы построения этих функций для
линеаризованных моделей объектов управления были указаны выше. Так,
для идентификационных алгоритмов адаптивного управления
искомый закон управления описывается уравнением (6.1.23)
либо в форме «вход — выход» (6.1.25), а в случае прямых
алгоритмов он имеет вид (6.1.34).
2. Выбор класса алгоритмов адаптивного управления. Здесь
принимается решение о выборе идентификационного либо
прямого алгоритма адаптивного управления.
3. Выбор алгоритма адаптации (6.2.19).
4. Определение параметров алгоритма адаптации из
условий сходимости процесса адаптации и достижения цели
адаптации.
§ 6.3. Методы адаптивного управления
Две группы методов адаптивного управления. Переходя к
рассмотрению третьего этапа синтеза адаптивного
регулятора — выбору алгоритма адаптации, отметим, что в зависимости
Ш
от объема априорной информации о параметрах объекта,
внешних возмущениях и помехах, можно выделить две группы
методов, с помощью которых строятся алгоритмы адаптации.
Первую группу составляют градиентные методы, которые
используются при малых объемах информации о параметрах
объекта, когда они являются неопределенными, ограниченными
функциями, удовлетворяющими неравенствам (6.1.9). При этом
сведения о внешних возмущениях и помехах могут быть
различными. Это могут быть неопределенные ограниченные
функции, удовлетворяющие неравенствам (6.2.10), и случайные
процессы с известными или неизвестными законами распределения.
Вторую группу составляют методы, основанные на теории
статистических решений. Они применяются, когда имеются
априорные сведения о законе распределения параметров
объекта. Эта плотность распределения уточняется в процессе
работы системы. При этом предполагаются известными законы
распределения случайных внешних воздействий и помех.
Наиболее полное изложение первой и второй групп
методов можно найти соответственно в книгах [6.5, 6.6].
Здесь и в последующих главах основное внимание будет
уделено градиентным методам построения алгоритма
адаптации, причем здесь приведены эвристические соображения по
применению этих методов, а в последующих главах получены
условия и определены параметры алгоритмов адаптации, при
которых эти алгоритмы приводят к достижению цели
управления. Отметим, что наиболее трудным из всех этапов синтеза
адаптивного регулятора является четвертый этап.
Интерпретация задачи оптимального адаптивного
управления [6.11]. Рассмотрим устойчивую адаптивную систему,
описываемую уравнениями (6.2.1), (6.2.18), (6.2.19) при известных
функциях в правых частях уравнений (6.2.18) и известных
(заданных) функциях f(t) и n(t). При некоторой функции у
в (6.2.19) и фиксированных начальных условиях на движениях
адаптивной системы функционал
J = limq(e(t)) = JW) (6.3.1)
t-*-oo
является функцией некоторого вектора чисел р, к которому
сходятся решения уравнения (6.2.19).
Требуется найти такую функцию у, чтобы функция /(р)
достигала своего наименьшего значения.
Для этого построим процедуру нахождения минимума
функции /(Р). Экстремальное значение р* аргумента этой функции
удовлетворяет уравнениям
<Ш?р, = 0 (i = l,*3). (6.3.2)
140
Алгоритм решения уравнений (6.3.2), основанный на методе
градиента, имеет вид
p. = -al(/)^-; pi(/0)=p}0) (i=T7^p), (6.3.3)
где cii(t) — некоторая функция (параметр алгоритма),
выбираемая из условий сходимости
Итр/(/) = Р7- (6-3-4)
t-*-oo
Алгоритм (6.3.3) позволяет найти настраиваемые параметры
Р/ (7=1, щ) после того, как процесс управления объектом
закончился, поскольку значение критерия /(р) было определено
при i-^oo. Для устранения этого недостатка заметим, что
значение р* не зависит от траектории y(t), входящей в функцию
q(e(t)), и поэтому в алгоритм (6.3.3) подставляют вместо /
не предельное, а текущее значение J(t) = q(e(t)), и тогда
(6.3.3) принимает вид
$1 = -а1«)-У-Р-; (6.3.5)
M'o) = Pi0) (' = l7*p).
В тех случаях, когда выражения dJ/d$i (i=l, n$) имеют явную
(аналитическую) форму, как, например, уравнения (6.1.41) в
примере (6.1.2), уравнения (6.3.5) являются уравнениями
алгоритма адаптации (6.2.19). Таким образом, интерпретация
задачи оптимального адаптивного управления как задачи о
минимуме функции приводит при детерминированных внешних
возмущениях и помехах к искомому алгоритму адаптации. Этот
алгоритм содержит не определенный пока параметр ax(t).
Покажем, что для идентификационного ,адаптивного
управления можно указать явный вид правой части алгоритма
адаптации (6.3.5).
Рассмотрим объект (6.2.1), описанный уравнением в форме
«вход—выход»:
у(«) = р(у<«-1) у, я,..., а<«0, аи...,аЛа, О, (6.3.6)
где р(#(/г-1\..., ул и,..., и^\ с*!,..., anJ) — заданная функция
своих аргументов.
Допустим, что эта функция с достаточной точностью может
быть аппроксимирована конечной суммой
P(y<n-l\...,y, a,..., «w, alf..., аЯв, t) =
-V Pv2^^"^,..., У, «,..., вЧ О, (6.3.7)
где 5(v2)(#(/,~1\..., у, и,..,, и^\ t) (v==T7jV)— линейно
независимые известные функции; pv(2) (v=l, N) — неизвестные числа.
141
Примем в качестве критерия точности идентификации
функцию
Mt) = q2(e2(t)\ (6.3.8)
где невязка
TV
e2(t) = y(n-i)-V pi2)8i2)(^-1),..., у, и,..., й(«, t), (6.3.9)
v = l
и будем определять числа pv(2) (v=l, N) из условия
минимума критерия (6.3.8).
Алгоритм решения уравнений д/2/др;(2) = 0 (7=1, Л') на
основе метода градиента имеет вид
W\t) = -a2(t) *ffi<*>) (/ = TW), (6.3.10)
где аг(7)— параметр, выбираемый из условия сходимости
процесса идентификации,
lim$2)(0 = fr(2) (/^ITiV). (6.3.11)
/-►00
Допустим для простоты, что q2(e2(t))=e22(t), тогда
Г ^
р/2)(/)=-2а2</) у^-У ?i2)(082(^-i),...,^ «,..., и<ю, О
Г ^
X
х ЪГ(у<я~1\..., У, а,..., «(Ч О (/ = 1, ЛО. (6.3.12)
Нетрудно видеть, что правая часть этого уравнения является
известной функцией измеряемых переменных объекта и их
производных.
Отметим, что алгоритм адаптации (идентификации) (6.3.12)
был получен исходя из выражения критерия оптимизации
(6.3.8), а не из выражения для цели управления, которая
достигается, если выбран соответствующий алгоритм
регулирования, например вида (6.1.24), в котором оценками вектора а
являются переменные Р/(2)(7)- Критерий (6.3.8) иногда
называют (6.10] целью адаптации.
Глава 7. СИСТЕМЫ ЭКСТРЕМАЛЬНОГО РЕГУЛИРОВАНИЯ
Исторически первыми адаптивными системами были
системы экстремального регулирования (СЭР). В § 7.1 этой главы
вводятся понятия экстремального управления и изучаются
физические принципы построения таких систем; § 7.2 посвящен
общим алгоритмам адаптивного управления, основанным на
142
методе градиента. Получены условия сходцмости процесса
поиска экстремума.
В § 7.3 процесс поиска экстремума усложнен случайными
внешними воздействиями. Получены дополнительные условия,
накладываемые на параметры алгоритма управления, при
которых обеспечивается отыскание экстремума.
§ 7.1. Принципы экстремального регулирования
Понятие экстремального управления. Характерным для
многих объектов и процессов в ряде отраслей промышленности
является наличие экстремума выходных характеристик. Такие
объекты называются экстремальными. Их примерами могут
служить различные топки, двигатели внутреннего сгорания,
выпарные аппараты в химической промышленности, отсадочные
и флотационные машины в обогатительной промышленности.
Анализ технологических процессов показывает, что
экстремальную статическую характеристику можно ожидать там, где
одновременно протекает несколько процессов, ведущих к
противоположным результатам. Например, температура топки
определяется количеством сжигаемого топлива, а также температурой
и количеством подаваемого воздуха. При малом количестве
воздуха (при малой скорости воздуха, продуваемого через
топку) топливо сгорает не полностью и, следовательно,
выделяется меньше теплоты. При избытке воздуха (при большой
скорости воздуха, продуваемого через топку) топливо сгорает
полностью, но значительное количество теплоты расходуется на
нагрев избытка воздуха и уносится из топки проточным
течением воздуха. При некотором соотношении количества топлива
и скорости воздуха температура свода печи будет
максимальной. Уравнение для температуры х топки имеет вид
x = J(u, а), (7.1.1)
где u(t) — скорость продуваемого через топку воздуха; a(t) —
неопределенный параметр,
зависящий от количества и качества топли- (и'а), /^г\
ва (он зависит от времени, так как | дрейф"экстремум^£7\~>\
в процессе горения изменяется
количество и качество топлива).
Экстремальные характеристики
топки приведены на рис. 7.1.1.
Задача экстремального управления
температурой топки состоит в опре- " р
делении закона u(t) изменения во нс
времени скорости воздуха через топку, при котором температура
топки имеет наибольшее значение.
На рис. 7.1.1 указаны значения u' = u(t'), u" = u(t")f //"'—-
= u(t" ), при которых достигается максимальное значение тем-
V"
rr^rt\
143
пературы в условиях «дрейфа» характеристики топки,
вызванного изменением параметра a(t). В общем случае уравнение
безынерционного экстремального объекта регулирования
нетрудно получить из (1.1.1), если положить /г= 1, *i = 0 и
разрешить полученное равенство (pi(xb щ, ..., ит, аъ ..., anJ=0
(где пока полагаем fi(t)=0, t=l, ja) относительно переменной
Х\. Тогда получим, опуская индекс у х\,
x=J(u1,...,um9 а1?...,аЛа). (7.1.2)
Функция J обладает тем свойством, что для каждого
фиксированного набора чисел аь..., а„в ейа существует набор
Ui*, ..., ит*, при котором / достигает минимума или
максимума. Это означает в случае минимума, что
J(u*v..., u*m, al,...,ana)<CJ(ul,...,umJ <х1э..., a„a).
Далее для простоты полагаем, что для любого набора аь ...,.
аПа набор щ*, ..., и*т единственный (функция / имеет только
одну точку экстремума-минимума). Как и ранее будем
полагать, что весь интервал функционирования объекта можно
разбить на подынтервалы [О, Г], [Г, 2Г] ..., в течение которых
неопределенные параметры щ (7=1, па) являются постоянными.
Безынерционность объекта позволяет упростить структуру
адаптивного регулятора, сведя ее лишь к адаптору.
Математически это означает, что uk(t) = $k (k=\, т). Другими
словами, управляющее воздействие формируется как настраиваемые
параметры (из условия min /), поэтому они называются
иногда управляющими параметрами.
Таким образом, уравнение экстремального объекта
принимает вид
*=У (&,...,&„, а1э..., a„a), (7.1.3)
где $i(t) (*=1, гп) — управляющие настраиваемые параметры.
Объекты экстремального управления (экстремальные
объекты) можно классифицировать по различным признакам. Среди
этих признаков можно выделить следующие: 1) число
управляющих (оптимизирующих) параметров; 2) число экстремумов
характеристики (7) объекта; 3) объем априорной информации
об объекте; 4) инерционность объекта.
Рассмотрим каждый из этих признаков. Если число
управляющих параметров /п=1, то экстремальный объект называется
однопараметрическим, а если /л>1, то многопараметрическим.
Топка, рассмотренная в предыдущем разделе, является одно-
параметрическим экстремальным объектом. Уравнение однопа-
раметрического объекта имеет вид
* = У<р, а). (7.1.4)
144
Пример 7.1.1 (многопараметрический объект). При обработке
результатов аэрофотосъемки широко применяется автоматическая система
совмещения изображений. Суть этой системы сводится к следующему. Известно*
что световой поток через совмещаемые изображения имеет экстремальный
характер, при этом максимум потока достигается при совмещении
(совпадении) изображений. Положение изображения определяется двумя декартовыми
координатами Zi = pb 22=^2 и углом поворота ф = р3 (рис 7.1.2).
Таким образом, световой поток через совмещаемые изображения,
измеряемый фотоэлементами, зависит от трех управляющих параметров (Зь р2, Рз- За-
Рис. 7.1.2
х A ^-т^.
d/ k
d3$ j
Рис. 7.1 3
^\>
-л
дача совмещения заключается в определении таких их значении, при которых
ток фотоэлемента максимален. Объект этой системы является трехпарамет-
рическим.
Второй признак классификации позволяет различить
многоэкстремальные объекты управления. Говоря об объеме
информации об объекте, далее будем полагать, что объект (7.1.3)
одноэкстремальный, а характеристика / — непрерывная и
непрерывно-дифференцируемая функция своих аргументов.
Инерционностью экстремального объекта часто пренебрегают,
поскольку главным в системах экстремального регулирования
(СЭР) является «отслеживание» дрейфа экстремума
статической характеристики объекта.
В связи с этим экстремальные системы часто называют
статическими самонастраивающимися системами.
Методы (принципы) нахождения экстремума однопарамет-
рических объектов. Начиная с 1922 г. разработано большое
число экстремальных систем. Представление о них можно
получить из справочника [7.1] по самонастраивающимся системаму
где приведены аннотации более ста работ, выполненных в
1922—1965 гг. и содержащих описание различных, в основном
однопараметрических, экстремальных систем. Если как-то
классифицировать идеи и принципы, на которых построены эти
системы, то можно выделить следующие методы (принципы)
поиска экстремума в однопараметрических экстремальных
системах: измерение производной, запоминание экстремума,
периодический поисковый сигнал, шаговые алгоритмы.
Рассмотрим сущность первых трех методов, а шаговые
алгоритмы будут изложены подробно далее.
145
Метод измерения производной основан на том,
что производная dxfdfi меняет свой знак при прохождении СЭР
через экстремум (рис. 7.1.3).
Для измерения производной dx/dfi можно измерить
производные dx/dt и d$jdt, разделить первую на вторую, тогда
получим
dxjdt
Если $(t)=kt, то
dxld§--
dx
d$
d$/dt
L **-
k dt
Метод запоминания экстремума, являющийся
своеобразным методом измерения производной, заключается в
использовании разности между текущим и экстремальным
значением функции качества для нахождения момента реверса
системы. Для определения экстремального значения функции
используется запоминающее устройство (ЗУ), включенное так,
что на его вход поступают только положительные (при поиске
максимума) или только отрицательные (при поиске минимума)
приращения показателя качества. На рис. 7.1.4 представлена
Xiuk
Рис. 7.1.4
Рис. 7.1.5
статическая характеристика объекта и соответствующая ей
диаграмма выхода запоминающего устройства хЗУ
о*).
Для формирования управляющего воздействия используется
разность 6 = — хзу (Р)+х(Р). Если система движется к
экстремуму, то хзу (p)=*(p), следовательно, 6 = 0. После
достижения экстремума система продолжает двигаться в том же
направлении. При этом хЗУ =хэ>х($). Разность становится
отличной от нуля и система реверсируется. В момент реверса
производится стирание информации, записанной в ЗУ.
146
Метод периодического поискового сигнала.
Пусть состояние' объекта, имеющего экстремальную
статическую характеристику, характеризуется значениями х(1) и р(1>
(рис. 7.1.5).
Будем изменять р в окрестности р(1) по синусоидальному
закойу. Если амплитуда этих колебаний мала, то выход
объекта будет также изменяться по синусоидальному закону, при
этом фаза входных и выходных колебаний будет совпадать для
всех р(1)<рэ. Если состояние объекта характеризуется
значениями р<2), х(1), то на его выходе устанавливаются
периодические колебания, сдвинутые на 180° относительно входных. Это
будет иметь место для всех р(2)>рэ.
Таким образом, по сдвигу фаз можно определить
направление движения СЭР к экстремуму. В этом последнем методе
используются специальные поисковые сигналы, тогда как в
первых двух методах поисковые и рабочие сигналы
(управляющие воздействия) не разделены.
В соответствии с этими методами определения экстремума
СЭР можно классифицировать следующим образом: 1)
системы, реагирующие на знак или величину производной; 2)
системы с запоминанием экстремума; 3) системы со
вспомогательной модуляцией, определяющие направление движения к
экстремуму по сдвигу фаз между входными и выходными
колебаниями.
СЭР с запоминанием экстремума. На рис. 7.1.6 приведена
структурная схема СЭР с запоминанием экстремума. Выходная
переменная объекта подается
на запоминающее устройство,
которое фиксирует только
увеличение этого сигнала. Сигнал
с запоминающего устройства
непрерывно подается на
элемент сравнения, где этот сиг-
f
. Объект
трегулирода-
Запоминаю-
щее
устройство
(ЗУ)
лгу
Элемент
сравнения
(ЗС)
Исполнитель
ныи
механизм
(ИИ)
Сигнум -
реле
(СР)
~Т~
+ о-
"вх
А
1Г^ 4=с
А*
Рис. 7.1.6
Рис. 7.1.7
нал x3V (t) сравнивается с текущим значением x(t). Разность
х—хзу, достигнув величины 6, приводит к срабатыванию сигнум-
реле.
147
Сигнум-реле (СР) — это логическое устройство (например,
триггер), которое имеет два устойчивых состояния и работает в
счетном режиме. Выход сигнум~-реле и=±и0 (w0=conts).
Изменение знака (реверс исполнительного механизма)
происходит только при уменьшении х.
Исполнительный механизм (ИМ) — это двигатель
постоянного тока, описываемый уравнением
р = я. (7.1.5)
После срабатывания СР значение хзу (it) сбрасывается, и
запоминание сигнала х начинается снова. Один из вариантов
схемы запоминающего устройства с элементом сравнения
приведен на рис. 7.1.7.
Напряжение ивх, пропорциональное значению kx выходной
переменной объекта х, подается через диод Д на
запоминающий конденсатор С. Диод шунтирован нормально открытым
контактом (kCp) сигнум-реле, который замыкается при
срабатывании сигнум-реле (реверсе ИМ). При увеличении ивх диод
пропускает входное напряжение и напряжение на
конденсаторе равно ивх. Потенциалы точек А и Б при этом равны и
При уменьшении ывх потенциал точки Б становится больше
потенциала точки А и диод запирается, a uBblx = uAB- Таким
образом, выходное напряжение пропорционально разности
между текущим значением х и его максимальным значением Хзу.
Когда ивых превысит зону нечувствительности сигнум-реле,
последнее срабатывает и реверсирует ИМ. При этом контакт
kcp кратковременно замкнется и потенциалы точек А и Б
сравняются—произойдет сброс запомненного значения хзу. После
этого конденсатор запоминает текущее значение х и
начинается новый цикл работы системы.
Приведем временные диаграммы работы СЭР с
запоминанием экстремума (рис. 7.1.8).
Пусть в момент времени tx состояние объекта
характеризуется значениями р(1) и х^х\ соответствующими точке М\, и
предположим, что в этот момент был включен экстремальный
регулятор, который после включения начал увеличивать значение
управляющего воздействия |3. При этом величина х начнет
уменьшаться. Запоминающее устройство не реагирует на
уменьшение х, и в результате на входе сигнум-реле появляется сиг-
на ' — xO) + x(t).
В момент времени t2 этот сигнал достигает зоны
нечувствительности сигнум-реле 6 (точка М2), последнее
срабатывает, произведя реверс ИМ. После этого запомненное в момент
времени t\ значение x(t\) сбрасывается и ЗУ запоминает зна-
ц.ч
чение x(t2). Вход объекта (3 теперь уменьшается, а выходная
переменная х возрастает. Движение происходит по траектории
М2Мг. В точке М3 система достигает экстремума, однако
входное воздействие $ продолжает уменьшаться. Вследствие этого
после точки Мг переменная х уже уменьшается. Теперь на вхо-
х<щ
+-
яЧл
^гг
i&h
• I
Рис. 7 1.8
де СР опять появляется сигнал разности x(tA)—x(tz). В
точке Мь когда \x(tt)—x(tz)\=6, сигнум-реле срабатывает,
производя реверс и сброс запомненного значения и т. д. Таким
образом, вокруг экстремума регулируемой величины
устанавливаются колебания.
Коммутатор поверочных реверсов в СЭР с запоминанием
экстремума. До сих пор предполагалось, что статическая
экстремальная характеристика объекта не изменяется с течением
времени. Такое предположение не типично для экстремальных
систем. Действительно, если статическая характеристика
объекта неизменна, то экспериментально или расчетным путем
можно один раз определить значение управляющего воздействия р,
соответствующее экстремуму выхода, задать это воздействие и
тогда отпадает необходимость в описанных устройствах и
методах поиска экстремума.
Поскольку для самонастраивающихся систем, и в
частности экстремальных, характерно изменение характеристик
объекта, исследуем работоспособность СЭР с запоминанием при
воздействии на систему интенсивных монотонных возмущений,
149
результатом действия которых является смещение
экстремальной характеристики вверх.
Пусть в момент времени, когда состояние СЭР
характеризовалось координатами р<]> и хр) (точка Мх на рис. 7.1.9) и
исполнительный механизм был включен на уменьшение
управляющего* воздействия, на объект начали действовать возмуще-
х к
А")
I
77
м
А(5)\\\?(1) \&э
X
МД^\<
02)
Рис. 7.1.9
Л А
Ь]ьгъь
Рис. 7.1.10
ния, вызывающие смещение экстремальной характеристики
вначале в положение /, затем в положение //. Пусть за время
изменения управляющего воздействия от (3(1) до р<2)
статическая характеристика, поднимаясь вверх, заняла положение I,
тогда выходная переменная увеличится до значения #<2).
Сигнум-реле не произведет реверс ИМ (поскольку выходная
переменная возрастает) и величина (3 будет продолжать
уменьшаться. За время перехода от (3(2) к р(3) и интенсивных
монотонных возмущениях характеристика объекта может принять
положение //. Реверса ИМ не произойдет. Таким образом,
система будет двигаться в неправильном направлении,
удаляясь от экстремума. Аналогичный процесс будет протекать,
если к моменту действия возмущения состояние объекта
характеризуется точкой МА и входное воздействие увеличивается.
Для обеспечения работоспособности СЭР, находящихся под
воздействием интенсивных монотонных возмущений, поиск
экстремума не должен быть монотонным. Для создания
немонотонного поискового движения в схему экстремального
регулятора включают специальное устройство — коммутатор
поверочных реверсов, которое через определенные промежутки
времени ТК производит реверс ИМ независимо от действия сигнум-
реле.
Опишем работу СЭР с коммутатором поверочных реверсов
при отсутствии внешних возмущений. Пусть в начальный
момент, характеризуемый точкой Мх (рис. 7.1.10), экстремальный
регулятор оказался включенным так, что происходит
увеличение управляющего воздействия р. Выходная переменная х при
этом также увеличивается (движение от М{ до Af2). В момент
времени \t2 срабатывает коммутатор, происходит реверс р и х
150
начнет убывать. Когда величина, уменьшаясь по абсолютной
величине, превысит (в момент t3) зону- нечувствительности
сигнум-реле, произойдет реверс, величина х начнет возрастать
и СЭР будет двигаться к экстремуму. Через время Тк
выходная переменная достигнет точки М4, в
которой под действием коммутатора
произойдет реверс, и т. д.
Рассмотрим теперь поведение СЭР с
коммутатором поверочных реверсов при
действии монотонных возмущений.
Предположим снова, что состояние СЭР к
моменту действия возмущения
характеризуется точкой М{ (рис. 7.1.11) и движение
при этом происходит в сторону
уменьшения р.
Из-за действия возмущения,
смещающего статическую характеристику вверх,
выходная переменная х будет возрастать рИс 7 1 11
и сигнал с сигнум-реле на реверс
входного воздействия не поступает (движение от Мх до М2). Через
промежуток времени Тк коммутатор поверочных реверсов
осуществит реверс ИМ.
Выход х продолжает возрастать. Через период Тк в точке
М3 произойдет новый реверс и т. д. Таким образом, пока
действуют интенсивные возмущения и сигнум-реле не
срабатывает, коммутатор периодически изменяет знак скорости
управляющего воздействия. В результате управляющее воздействие не
удаляется от рэ, а изменяется вблизи значения р(1), при
котором начали действовать интенсивные возмущения.
§ 7.2. Алгоритмы шаговых систем
экстремального управления
Идентификационные алгоритмы. Рассмотрим
однопараметрический экстремальный объект
д: = Уф, а), (7.2.1)
в котором для простоты полагаем, что известная функция J
зависит лишь от одного неопределенного параметра а, который
полагаем постоянным. Если бы параметр а был известен
(например, определен экспериментально перед началом работы
системы), то для нахождения управляющего параметра р
нужно было бы решить уравнение
dJ/d$ = Q {7:2:2)
относительно переменной р.
Алгоритм экстремального управления в этом случае соею
ит из трёй операций: 1) идентификация параметра а; 2) решс-
\м
ние уравнения (7.2.2) и определение управляющего параметра;
3) реализация (приложение к объекту) управляющего
параметра (воздействия).
Пример 7.2.1. Пусть экстремальный объект описывается уравнением
лг = (5? —а)2. (7.2.3)
Прикладывая к объекту испытательное воздействие Р=РИ (где Ри—
известное число) и измеряя выход x = xil, получим значение неизвестного
параметра
а = 5ри->/>~=аи. (7.2.4)
Найдем значение управляющего параметра, решая уравнение
Отсюда
р» = -1-аи. (7.2.5)
5
Последние две операции алгоритма экстремального
управления можно совместить, если воспользоваться методом
градиента и определить
P=-ai-e-; P('o) = fo. (7.2.6)
где d\ — некоторое положительное число.
Тогда, прикладывая к объекту (7.2.1) в момент времени
i0 р = р0, а в последующие моменты времени — значения р(0>
являющиеся решением уравнения (7.2.6), получим через
некоторое время, называемое временем адаптации taA,
1Р('.д)-Р*1<е, (7.2.7)
где 6 — достаточно малое положительное число; р* — решение
уравнения (7.2.2).
Таким образом, до совмещения последних двух операций
объект находился под воздействием р0 до тех пор, пока не было
решено уравнение (7.2.2). После совмещения этих операций
выход объекта х приближается к экстремальному значению х*
в процессе решения уравнения (7.2.2) на основе метода
градиента, выражением которого является уравнение (7.2.6).
Пример 7.2.2. Уравнение (7.2.6) алгоритма адаптации для объекта
(7 2.3) имеет вид
^ _2аг (5Э - а<и>); Р(*0) = Ро- (7.2.8)
Решение этого уравнения
Э (О = е-10а*('-'о)р0 + | е-10в»('-т) (2агаи) dx =
to
= e-ioet(/-/.)o + e-ioe,/ Г_1_ eiofll. I' 1 (2а1аи).
152
Нетрудно видеть, что если ai>0, то
limp(0= —а"' (7.2.9)
/->оо 5
что совпадает с (7.2.5).
Поисковые алгоритмы экстремального управления однопара-
метрическими объектами. Откажемся теперь от первой
операции (идентификации параметра а) рассматриваемого
алгоритма экстремального управления. Тогда правая часть (7.2.6)
содержит неопределенный параметр а. В связи с этим запишем
приближенно выражение производной
dJ _ /(Р + АР, а)-/(Р-АР, а) (? 2 Ю)
д? 2Др
где Ар — достаточно малое число, называемое величиной
пробного шага.
При Др->0 выражение в правой части (7.2.10) совпадает
с производной J.
Значения /(р+ДР, <*)> ^(Р—Ар> а) доступны
непосредственному измерению, и поэтому приближенное значение
производной / может быть получено путем вычитания результатов
измерений при двух значениях управляющего параметра
(отстоящих друг от друга на величину 2Др) и делении разности на
число 2Ар. Так как испытания объекта пробными шагами
управляющего воздействия требуют определенного времени Т,
то используется дискретный алгоритм адаптации вида (7.2.6),
называемый далее дискретным алгоритмом поиска экстремума:
Р[(*+1)Л=Р(*7')-а*/2ДР[^(Р(*7,) + Др, а)-
-/(Р(ИГ)-Др, а)] (£=0,1,2,...). (7.2.11)
Введем в рассмотрение число Ьк = 0к/(2Др) (7г = 0, 1, 2, ...),
называемое параметром рабочего шага. Отметим, что часто
этот термин будем использовать и для числа ak. Таким
образом, поисковый алгоритм экстремального управления состоит
из операций: 1) в момент времени /о = 0 к экстремальному
объекту прикладываются пробные воздействия р0+Ар, Ро—Ар
и измеряются значения выхода объекта; 2) на основе (7.2.11)
формируется первый рабочий шаг Р(Т) = р0—frii[/(Po+Ap, ее)—
—/ (Ро—ДР, а)]; 3) к объекту прикладывается управляющее
воздействие р(Т).
Затем вновь прикладываются пробные воздействия Р(Т) +
+Ар, $(Т)—Др, измеряется выход объекта и вычисляется
значение управляющего параметра на втором шаге р(2Г) =
= Р(П-ВДР(П+Др, а]-/[Р(Г)-Др, а]} и т. д.
Отметим, что величина второго рабочего шага Дрр(27,) = МЛР(7,) +
+Др, а]-Др(Г)-Др, а]}.
153
Выбор параметра рабочего шага. Алгоритм адаптации
(7.2.11) содержит пока неопределенный параметр рабочего
шага bk = ak/2A$ (k = 0, l, 2, ...). Требования, которые
предъявляются к его величине, противоречивы. С одной стороны,
для увеличения скорости сходимости к экстремальному
значению р* значения bk (& = 0, 1, 2, ...) следует выбирать
большими. Однако при этом можно «проскочить» экстремум на
значительную величину, затем при возврате вновь происходит
«проскок» экстремума и в системе возникают колебания
большой амплитуды. Выходом из этого противоречия является
выбор больших значений bk в начале поиска экстремума и
назначение малых bk при приближении к экстремуму. Но так как
значение р* неизвестно, то выбор оптимальных значений bk
(k = 0, l, 2, ...) можно производить адаптивно. Для этого
достаточно увеличивать bk при совпадении знаков двух
последовательных рабочих шагов поиска и уменьшать в противном
случае. Примером алгоритма адаптации величины рабочего шага
может служить алгоритм
bk+l = bk (1 + v sign Лрр (kT) Дрр [(* - 1) T\)t (7.2.12)
в котором App(kT), ДрР[(&—1)Т] — значения &-го и (k—1)-го
рабочих шагов алгоритма (7.2.11) экстремального управления;
v — некоторое положительное число, выбираемое из условия
устойчивости процесса (7.2.11), (7.2.12).
Исследуем сходимость решения (7.2.11) к числу р*. Будем
полагать, что пробный шаг Лр достаточно мал, так что
величина
*L\ =г(р(*Г), a) = rk (7.2.13)
вычисляется точно. Тогда (7.2.11) примет вид
V[(k + l)T] = HkT)-akrk (Л=0, 1,2,...). (7.2.14)
Наложим на функцию г(р, а) некоторые ограничения.
Потребуем, чтобы эта функция
удовлетворяла неравенству
"rtta') |r(p, a)|<s|p-p*| + /f (7.2.15)
где s, I — неизвестные
положительные постоянные числа.
Для пояснения геометрического
смысла этого неравенства
рассмотрим графики, приведенные на рис.
7.2.1. На этом рисунке приведены
типичные зависимости г(р, .а) при
различных значениях параметра а.
Пунктиром показана граничная
линия, описываемая правой частью
154
(7.2.15), где для простоты далее полагаем /=0. Определим
эффективность &-го шага числом
»(*+ 0 7-1-Р' (* = 0, 1,2,...), (7.2.16)
р(*п-р*
модуль которого характеризует скорость приближения к
экстремуму при к-м рабочем шаге. Действительно, если |v*|>l,
то произошло удаление от р*, а если |v*|<l, то приближение
к экстремуму. Найдем условия, при которых
К|<1. (7.2.17)
Подставляя в (7.2.17) выражение (7.2.14), получим
yk-=(HkT)-^~akrk)mkT)-^)=\-akj^-^. (7.2.18)
Отсюда получаем условие сходимости
VJ =
1-<V r>
<1
или
Л
Э (кТ) - р*
р (кТ) - р*
О О* a,J? о*<2- (7.2Л9)
Непосредственно из рис. 7.2.1 следует, что /У(р(*Г)—р*)>0, и
поэтому ай -—|Г*' Л < 2.
На основе (7.2.15) получим |гд»|/|р—p*|<s, и, таким образом,
условие сходимости процесса поиска экстремума
aks<2 <*=0, 1,2,...)'. (7.2.20)
Если величина s известна, то выбор
aft<l/5 (ft=0, 1,2,...) (7.2.21)
обеспечивает устойчивость процесса поиска экстремума.
Пример 7.2.3. Найдем условия сходимости процесса поиска
экстремума объекта (7.2 3). Дискретный алгоритм поиска (7.2.11) имеет в
рассматриваемом случае вид
Р К* + 1) Т] = р (kT) - ak2 [5p (kT) - а]5 (*=0, 1,2,...), (7.2.22)
где
Л/ I
= rk = 2[5$(kT) — а] 5
определяется для каждого рабочего шага по результатам пробных шагов, так
как а — неизвестное число. Для выбора параметра ак (k = 0, 1, 2, ) рабочего
шага определим s. График функции г((5, а) =2(5(5—а)5 является прямой ли-
155
нией, совпадающей с граничной. Действительно, представим г (р, а) =
= 50(р—а/5), тогда
,г(Э, а)|=50|Р-р»| (7.2.23)
и, таким образом, s = 50.
Используя это значение $, определим в формуле (7.2.21) постоянное
значение рабочего шага
<** = <*! =0,02, (7.2.24)
при котором процесс поиска экстремума устойчив.
Отметим, что значение параметра рабочего шага можно получить
непосредственно, исследуя устойчивость линейного разностного уравнения (7.2 22).
Действительно, его можно записать как
$[(k + 1)Г] = (1 - 50а!) ${kT) + 10^0 (k = 0,1,2,...). (7.2.25)
Решение этого уравнения сходится к значению р* = а/5, если
| 1 - 50аг |< 1.
Отсюда следует
Я!<0,04. (7.2.26)
Если величина s неизвестна, то значения ак (k = 0, 1, 2, ...)
изменяются на каждом рабочем шаге, причем с ростом к
значения должны монотонно уменьшаться до нуля:
limalkt=0. (7.2.27)
Тогда для любого конечного s всегда существует шаг &*,
после которого выполняется условие сходимости (7.2.20).
Однако при монотонно уменьшающихся ak (fe = 0, 1, 2, ...) может
случиться так, что рабочие шаги (которые с ростом k становятся
все меньше и меньше) не смогут покрыть исходное расстояние
| Ро—Р*|, которое неизвестно и может быть очень большим.
Тогда процесс поиска прекратится, не достигнув р*. Это
накладывает ограничения на выбор ak (k = 0, l, 2, ...), которые
выражаются условием
2 аЛ = оо. (7.2.28)
Убедимся в достаточности этого условия. Будем полагать, что
процесс поиска экстремума протекает без перерегулирования.
Путь lN, проходимый за N шагов поиска, определяется по
формуле
/„=2 |дрр(£Г)|,=2 «л<?2а*' (7-2-29)
где
г = шахгф, а)<оо.
156
Так как должно выполняться неравенство
lft>-P*l</*. (7.2.30)
где | ро—Р*| велико, то (7.2.28) является достаточным для его
выполнения.
Примером последовательности чисел ak (k = 09 I, 2, ...),
удовлетворяющих условиям (7.2.27), (7.2.28), может служить
гармонический ряд 1, 7г, 7з>..., сумма которого равна
бесконечности.
Градиентные алгоритмы поиска экстремума
многопараметрических объектов. Рассмотрим многопараметрический объект
(7.1.3). Ограничиваясь для простоты изложения случаем двух
управляющих и двух неопределенных параметров, запишем это
уравнение как
* = ./<&, Ра, а1э а2). (7.2.31)
Поиск экстремума объекта (7.2.31) значительно сложнее, чем
поиск экстремума однопараметрического объекта. Дело в том,
что если в случае однопараметрического объекта требовалось
найти значение рабочего шага поиска, то для двухпараметри-
ческого объекта необходимо найти не только значения
рабочего шага, но и его направление в плоскости управляющих
параметров (для однопараметрических объектов это направление
совпадало с осью абсцисс).
Если пользоваться образными сравнениями, то существо
подхода к поиску экстремума объекта (7.2.31) можно описать
так. Представим себе путника, который в темноте спускается
в долину, на дне которой имеется вода, и путник торопится
к ней. Естественное поведение путника следующее: он
ощупывает поверхность вокруг себя (делает пробные шаги) и
находит направление наиболее крутого спуска, затем двигается в
этом направлении (делает рабочий шаг) некоторое время,
потом останавливается, ощупывает поверхность вокруг себя,
вновь находит направление наиболее крутого спуска,
двигается в этом направлении некоторое время и так до тех пор, пока
он не достигнет дна долины. Очевидно, что описанное
направление спуска путника, который торопится, является (с
точностью до знака) направлением градиента функции / ((Зь (32, си,
осг). Напомним, что градиентом функции называется вектор,
направленный в сторону наибольшего ее увеличения. Проекции
вектора градиента на оси Орь 0$2 равны частным
производным по управляющим параметрам.
Пример 7.2.4. Пусть экстремальный объект имеет характеристику
х = 5р? + 6hh + 10Pi + Pi + 2f*2. (7.2.32)
Найдем направление, в котором эта характеристика уменьшается наибольшим
образом, при начальном положении
Рю=1, Р» = -1- (7.2.33)
157
Переходя к определению такого направления, вычислим
df/dh = 10pi +б?2 4- 1; df/ofa = 6h +20р2 +2.
Нетрудно видеть, что
3J
5;
dJ
= —12.
(7.2.34)
На рис. 7.2.2 стрелкой указано искомое направление.
Движение в направлении градиента можно описать
уравнениями
of 1
где
ft [(*+!) Л = М*П-я*^П (*=0, 1,2,...);
dh \ъ
dh \k
df 1 g)
dh W dh
(7.2.35)
_я.-2£| (k = 0, 1,2,...), (7.2.36)
оценки частных производных характеристи-
dj
dh
dh
_ 1
ft 2Дрг
_ 1
* 2Лр2
ки объекта.
Эти оценки определяются выражениями
[«/(Pi + ДРи Рг. «1э сх2) —У^ —АР1Э Р2, а1э а2)],
(7.2.37)
[/(Pi, Р2 + АР2, а1} <z2)-/(ft, р2 — Ар2, alf a2)],
(7.2.38)
где Арь Ар2 — постоянные (не зависящие от номера рабочего
шага) пробные шаги по первому и второму управляющему
параметру соответственно; /(Pi+APi, |32, ai, a2)=J(^i(kT) +
-ЬДРь |32(&7), аь а2)—изг-(ренное значение выхода экстре-
малс Юго объекта в момент времени кТ
о ^ 8 3/ при 1 Чобном шаге по первому
управляющему параметру.
Уравнения (7.2.35),* (7.2.36)
описывают траекторию поиска по методу гради-
Н>Ь ! \ II ента. Эту траекторию удобно изучать с
помощью непрерывного аналога
уравнений (7.2.35), (7.2.36). В связи с этим
разделим эти уравнения на Г, тогда при
достаточно малых значениях а^= (ахТ) (& =
= 0, 1, 2, ...) и 7->0 получим
дифференциальные уравнения
Pi=-*i-|r; &=-*!-§-• (7-2-39)
dh dh
Можно показать, что при достаточно
малых значениях положительного числа а\
-72
А
"ЛИШ,
158
траектории поиска, описываемые уравнениями (7.2.35), (7.2.36) и
(7.2.39), практически совпадают.
Переходя к анализу сходимости процесса поиска, разложим
характеристику объекта в ряд Тейлора в окрестности точки
экстремума-минимума:
•^(Ри (*2> ai> a2) = J(fu Рг, сх1? а2)-
д!
дЧ
д№
i)2
(?2/
^М?2 I*
»Wft
•21"
дЧ
дН
02\2
^2 +
(8р!)2 + .-.. (7.2.40)
где символ {* означает, что производные вычисляются в точке
экстремума; 60/ (/=1, 2) —отклонение От точки экстремума Л
Так как =0 (/ = 1,2), то на основе (7.2.40) заключаем,
что в окрестности точки экстремума функция
*(ft. &)=*/(&> fe. «i, а2)--/фь & а15 а2)>0.
(7.2,41)
Положим для простоты, что р1*,= р2* = 0. Тогда, принимая
выражение (7.2.41) в качестве функции Ляпунова в задаче об
исследовании устойчивости нулевого решения уравнения
(7.2.39), вычислим
dv
dv
Последнее неравенство свидетельствует об асимптотической
устойчивости нулевого решения уравнения (7.2.39) и,
следовательно, сходимости процесса градиентного поиска при малых
отклонениях от точки экстремума.
Отметим в заключение, что в общем случае
многопараметрического объекта алгоритмы (7.2.35), (7.2.36) поиска
экстремума имеют вид
М(*+1)Г]=М*Г)-аА
dj
dh
(/ = 1, т, k-
= 0, 1,2,...).
(7.2.43)
§ 7.3. Экстремальное управление в условиях помех.
Стохастическая аппроксимация
Постановка задачи экстремального управления однопараме-
трическими объектами в условиях помех. Существо подхода к
ее решению. Если реализовать алгоритм (7.2.11) поиска
экстремума объекта (7.2.1), то часто оказывается, что изменение
159
управляющего параметра реализуется неточно, кроме того, на
вход объекта поступает вместе с сигналом управления
некоторое возмущение, а измерение выхода объекта сопровождается
помехами. Уравнение объекта (7.2.1) в этом случае принимает
вид
*=•/(?+/, «); У = х + *, (7.3.1)
где f(t) — внешнее возмущение, прикладываемое ко входу
объекта вместе с управляющим параметром; K(t) —помеха,
сопровождающая процесс измерения выхода х объекта; y(t) —
измеряемая переменная (результат измерения х).
Функции f(t) и K(t) — случайные процессы с неизвестными
законами распределения. Однако известно, что они имеют
нулевое математическое задание и ограниченную дисперсию.
Требуется найти алгоритм поиска экстремума, при котором
математическое ожидание выхода M{J($-\-f, a)+x) достигает
наименьшего значения.
При решении этой задачи будем для простоты полагать
/ = 0 и тогда уравнения (7.3.1) примут вид
x = J(b а); У=х + *. (7.3.2)
Существо метода стохастической аппроксимации состоит
[7.6], [7.7] в следующем: каждое измеренное состояние объекта,
каково бы оно ни было, должно быть так использовано для
изменения управляющего воздействия, что в пределе
выполнится условие
М {Уф, a) + x} = min. (7.3.3)
Будем изменять управляющее воздействие в соответствии с
алгоритмом
2Др*
_y'(iW)-Ap*, a)] (£ = 0,1,2,...), (7.3.4)
который отличается от (7.2.11) тем, что в нем используются
результаты измерений
/'(Р<йП + ДР*. а) = /(Р(ЛГ) + дрЛ> а) + х£>; (7.3.5)
У'[Р(*П-ДР*, а]=/[Р(ЯГ)-^рЛ, а]+42), (7.3.6)
где XfeX), х* )— случайные величины, являющиеся реализацией
помех измерения на интервале [(k—1)Г, kT], ъ^ фъ£\ так как
измерения осуществляются в различные моменты времени в
течение указанного интервала. Заметим также, что в отличие
160
от (7.2.11) величина Ар* пробных шагов не постоянна, а
изменяется при k=0, 1, 2, ... .
Метод стохастической аппроксимации позволяет найти
также параметры рабочего и пробного шагов 6fe, Лр& (& = 0, 1, 2, ..),
при которых алгоритм (7.3.4) обеспечивает нахождение
экстремума (выполнение условия (7.3.3)) в условиях помех,
относительно которых известно лишь, что они имеют нулевое
математическое ожидание и дисперсия их ограничена.
Определение параметров рабочего и пробного шагов
Утверждение 7.3.1. Для сходимости поискового
алгоритма (7.3.4) нужно, чтобы параметры рабочих и пробных шагов
удовлетворяли условиям
limaft=0 (£=0,1,2,...); У ak = oo; (7.3.7)
* ft-1
Указанные в утверждении условия выполняются, если,
например,
ak = \/k?; АРЛ=1/Л^; (7.3.9)
2(Р-Ю>1, (7.3.10)
где 0<р<1; 11>0.
Поясним происхождение условий (7.3.7), (7.3.8). Учитывая
(7.3.5) и (7.3.6), запишем алгоритм (7.3.4) в виде
Р[(А+1)7-]=Р(АГ)—-^-[/(Р^ + АР*, а)-У(Р(*Г)-др»э а) +
+^WI)-^=^^-vs+5-(4I)-42') (*-o, 1,2,...).
(7.3.11)
Полагая, что пробные шаги достаточно малы так, что fk = rk,
и учитывая, что М{х.ь1)У*=0 (*=1, 2), вычислим
математическое ожидание эффективности &-го шага:
МЫ=м1Щ±1Ш=£.и1-ал—2—. (7.3.12)
I РОЮ —Р* / РОЮ —Р*
Нетрудно видеть, что среднее значение совпадает с (7.2.18) при
отсутствии помех, и поэтому для сходимости процессов «в
среднем» необходимо выполнение соотношений (7.2.27), (7.2.28),
которые совпадают с (7.3.7).
6—10.17 161
Переходя к условию (7.3.8), вычислим математическое
ожидание и дисперсию рабочего шага Avfi(kT). Очевидно, что
M{bfi(kT)}=--£-[J$(bT) + £$k, а)-У(Р(ЛГ)-лрл, а)];
М {Арр (kT) - Л/ {Арр (£Г)}}*= Ж {^- (*?> - Щ* =
= ^-(а* + 0^ (7'ЗЛЗ)
где а2** (7=1, 2) —дисперсии случайных величин *£ \ х* '.
Естественно, что сумма дисперсий сколь угодно большого
числа рабочих шагов, осуществляемых в процессе поиска,
должна быть ограничена
5} ~\ (<& + <&)<«» V -S-<oo, (7.3.14)
где а2=тах — (о?* + а!*) < оо.
Отсюда следует условие (7.3.8). Оно означает, в частности, что
величина пробного шага Др^ должна стремиться к нулю
медленнее, чем ak, так как в противном случае величины
дисперсий рабочих шагов, как следует из (7.3.13),. будут расти до
недопустимо больших величин.
Поиск экстремума многопараметрических объектов в
условиях помех. Пусть измерение выходной координаты объекта
(7.2.31) сопровождается помехами. Уравнения (7.2.31) примут
в этом случае вид
*=•/(&» Рг» ai> а2>; #=* + *, (7.3.15)
а алгоритмы адаптации (7.2.35), (7.2.36) запишутся так:
р1[(^+1)Г]=р1(*Г)---^--[У'(р1(^) + А^ UkT), «1, а2)-
-У(Pi(АП-Aft», ЫкТ), ах, а2)\ (6=0, 1,2,...); (7.3.16)
Ра [(А + 1) Г J=fe (*Г) — -^- Гу (^ (ЛГ), р2(*П + Дрй. at, оа)-
-J'(^{kT), UkT)-$k, alr a2)l (ft=0, 1, 2,...), (7.3.17)
где результаты измерения
У (Pi (АПН-АР», Р2(*7-), «*!, а2)=У(р1(*Г)+
+ Др*, р2(£Г), ai, a2) + 4:);
162
У'СМАП-др*, h(kT), al9 а2) = J (&(№)-
-АР*. ЫЬТ), а19 а2) + 42);
У'(М^), fc^O + Afe, о1э а2)=У(Р1(*Г), М*П+
+ АР*и «1, а2) + **8);
У'(М^), М^П-Др» а1э а2)=У(Р1(АГ), М^)-
— ДРЛ, а19 а2) + х£4);
Ар^ — пробный шаг, взятый единым для обоих управляющих
воздействий; y}k (i=l, 4)—реализация случайного процесса
y.(t) при четырех измерениях выхода объекта на интервале
[(k—l)T, kT]. Для сходимости процесса поиска нужно, чтобы
параметры рабочего и пробного шагов удовлетворяли, как и
для однопараметрического объекта, условиям (7.3.7), (7.3.8).
Условие (7.3.8) принимает в рассматриваемом случае вид
У) (-тН2<°° (7.3.18)
и означает, что с ростом ik пробный шаг должен быть все
больше и превышать, параметр рабочего шага. Отметим, что вместе
с этим метод стохастической аппроксимации предполагает, что
НтАрА=0. (7.3.19)
Кроме того, метод накладывает на функцию / дополнительное
условие, которое состоит в том, что в районе ее экстремума
должно выполняться неравенство
(Pi —РГ) -^-+(Р2 —Й)-^->0, (7.3.20)
а скорость возрастания / при удалении от цели должна быть
не больше чем у квадратичной параболы.
Глава 8. СИСТЕМЫ С МОДЕЛЬЮ
Рассмотрим динамический объект, описываемый линейными
дифференциальными уравнениями с неопределенными
параметрами. Будем полагать, что неизмеряемые внешние возмущения
и помехи измерения отсутствуют, а движения объекта
возбуждаются начальными отклонениями (условиями) либо
измеряемыми внешними возмущениями и помехами. В этой ситуации
часто используют модель, которая является физическим
устройством, на вход которого подаются те же воздействия, что и на
6*
163
объект управления, а выходы объекта и модели вычитаются.
Можно различить два вида моделей — настраиваемые и
эталонные. Для идентификации используются настраиваемые
модели, параметры которых изменяются до тех пор, пока
сигналы с выходов объекта и модели не сравняются. Если желаемое
движение объекта (цель управления) задается моделью, то она
называется эталонной моделью и разность сигналов с выходов
объекта и эталонной модели служит для изменения параметров
адаптивного регулятора.
В § 8.1 приводятся методы идентификации при
детерминированных воздействиях и отсутствии помех: частотный метод,
использующий частотные характеристики объекта, и метод
настраиваемой модели. В § 8.2 строятся адаптивные
наблюдатели с настраиваемыми моделями, с помощью которых
определяются параметры объекта и восстанавливаются его
переменные состояния. В § 8.3 на основе метода градиента получены
алгоритмы адаптации, содержащие «чистые» производные
выхода объекта. Для доказательства сходимости процесса
адаптации используется метод функций Ляпунова.
Эти результаты развиваются в § 8.4, где получены
реализуемые алгоритмы адаптивного управления в системах с
эталонной моделью.
§ 8.1. Методы идентификации объектов управления
при детерминированных воздействиях и отсутствии помех.
Настраиваемые модели
Постановка задачи идентификации. Рассмотрим полностью
наблюдаемый и полностью управляемый объект, описываемый
уравнениями
х = Ах-\-Ъи; х(4>) = х<°>; (8.1.1)
y=dx, (8.1.2)
где Ь — я-мерный вектор-столбец, a d — я-мерный
вектор-строка; А — матрица размеров пХп, элементы этих столбцов и
матрицы А — неизвестные числа.
Уравнения (8.1.1), (8.1.2) можно записать в форме «вход—
выход»
yw+an_ly<n-l> + ...+aly + a0y = k1_luU-l> + — + М + М.
(8.1.3)
в которой ах (7=0, п— 1), kj(j = 0i у-1) —неизвестные числа,
Целью идентификации является определение чисел
а, (/=0, /г-1), kj (y=0, Y-1).
164
Ниже излагается два метода их определения: частотный
метод и метод настраиваемой модели. В первом из них u(t)
имеет смысл испытательного воздействия:
п
гг(0 = 2 Asinco/^ (8.1.4)
1=1
где At и (Ог 0'=1, п)—известные амплитуды и частоты
гармонических составляющих испытательного воздействия,
необходимые для определения значений частотных характеристик
объекта на частотах соь ..., о)п.
Во втором методе u(t) — задающее воздействие, с помощью
которого задается желаемое движение объекта. Относительно
его свойств будем полагать, что оно является непрерывной
функцией, содержащей гармонические составляющие. Это
означает, что
л
u(t) = y Д. sin «>// + £(О (А>и), (8.1.5)
где А'Ь и (x)t (7=1, h) — неизвестные числа; g(t)— неизвестная
непрерывная функция.
Про сигналы вида (8.1.5) принято говорить, что они
«достаточно богаты» гармониками. «Достаточно богатые»
воздействия можно описать также, используя разложение u(t) в ряд
Фурье на интервале (—Г/2, Г/2): не менее п коэффициентов
Фурье при разложении u(t) в ряду должны быть отличны от
нуля. Другими словами, частотный спектр функции u(t)
должен содержать не менее п частот.
Идентификация на основе частотных характеристик.
Преобразуя (8.1.3) по Лапласу при нулевых начальных условиях,
получим передаточную функцию объекта
**(*>= п п-хл ; г (У<л). (8.1.6)
Это позволяет найти искомые параметры по частотной
характеристике объекта, получаемой путем подачи на его вход
сигнала u(t) — l-s'mu>t и измерения выходного сигнала y(t) —
= a(to)sinJW+<p((o)].
Переходя к более подробному изложению, отметим, что
частотная передаточная функция
wU»)= j^lt^l =««) + №)> (8-1.7)
Id И + JVd (<*>)
где
IT—1/2] [7/2]
l*^= 2 <-1)/*2У; ^W-=2(~1)/_1^-ll°2/""1; (8eL8)
/-0 /=1
6* 1017
165
[л/2] [л+1/2]
^((0)=2 (-1>/а2^2/' ч*<«>)= 2 (-D'"1^-^2'"1; (8Л.9)
/(">)=Re ze; (/со); v(u)=lmw(Ju). (8.1.10)
Символ (ф] — означает целую часть числа t|,\
Пусть для частот соь о>2, ..., о)п экспериментально
определены числа 1г = 1(юг); iv=f(ov) (V=l, п). Тогда на основе
(8.1.7) получим систему 2п линейных алгебраических уравне-
ний для определения неизвестных параметров aif k\ (i=0, n—1;
/=0,Y-1):
h^r)=ld^r)lr-^d^r)^r (г=1,л); (8.1.11)
^K) = ^K)/r + ^K)^r (г = ТГп). (8.1.12)
Опишем метод экспериментального определения чисел ln vr,
(r=l, п). Определим вначале числа 1Ь v\. Подавая на вход
объекта воздействие w(7) = lsin o>i/, получим по истечении
достаточно большого интервала времени (времени затухания
переходных процессов) сигнал y(f)=a(o)i)sin[<oi* + q)('o)i)].
Амплитуда a\((s)\) и сдвиг фаз cpi(o)i) этого сигнала связаны с
частотной передаточной функцией соотношениями
/1=/(a)1)=a(co1)coscp(">i); vl=v(m1)=a(^1)sm <?(u>i). (8.1.13)
Подавая сигнал с выхода объекта на фильтр Фурье,
который осуществляет умножение y(t) н>а sincoi/ и coscoi/ и
усреднение по целому числу периодов, получим
т т
1Х=— Г y(t)sm &xtdt\ vx=— f y(t)cos<axtdt. (8.1.14)
о о
В справедливости этих соотношений нетрудно убедиться после
подстановки в (8.1.14) выражения для y(t) и несложных
преобразований. Подавая на вход объекта воздействие u(t) —
= 1 -sin 0)2*, получим аналогично /2 и v2 и т. д.
Пример 8.1.1. Рассмотрим объект управления с передаточной функцией
w(s)=——^— , (8.1.15)
s2 + ats + а0
параметры kQ a0 а\ которой неизвестны и их требуется определить. Пусть для
частот
«о! = 10; о)2 = 30 (8.1.16)
определены экспериментально числа
/2 = 10~3; /2 =-5,4.10-4; vx =-3.10-3; v2 =-7-10-4. (8.1.17)
166
Принимая во внимание, что в рассматриваемом случае
h («) = h\ Vk (w) = 0; ld (to) = a0 — 0)2; vd (со) == щи,
запишем систему (8.1.11), (8 1.12) как
h = (flo — ^i) h — «iwi^i; #o = (яо ~ "i) *2 — a\<*2V£
(8.1.18)
(8.1.19)
Последние два уравнения не зависят от k0 и при числовых значениях (8.1.16),
(8.1.17) принимают вид
10—2Л1 — 3- Ю-з^о = —0,3; —16,2- 10-Зах — 7- 10-4дс = —0,63.
Решая эти уравнения, получим
аг =30; д0 = 200. (8.1.20)
Подставляя полученные значения в любое из уравнений (8.1.18), заключаем,
что
*0 = 1.
Идентификация с помощью настраиваемой модели.
Приведем вначале существо метода, а затем рассмотрим вопросы его
реализации и сходимости. В связи с этим вначале положим,
что возможно точное вычисление производных сигналов y(t) и
u(t) на входе и выходе объекта.
Подадим на вход объекта с передаточной функцией (8.1.6)
произвольное воздействие u(t). Это же воздействие приложим
к звену с передаточной функцией a>1(s) = pn+T_iST-1+...+
+ pn+1s+Pn. Сигнал выхода объекта также подадим на вход
звена с передаточной функцией w2(s)=sn+$n-iSn-l + ...+$is +
+ ро- Устройства с передаточными функциями W\(s), w2(s)
образуют модель объекта, параметры pt- (7=0, я+Y—1) можно
изменять (настраивать). Структурная схема объекта с
настраиваемой моделью приведена на рис. 8.1.1.
u(t)
w(s) =
_ Kf-1Sr'1+... + K1S+K0
sa+an-,*n
+a,s+a0
y(t)
*i®=*n*y-A-*4
VJt(s)--Sn+finiSn
♦AJ*A
Рис. 8.1.1
Разность сигналов с выходов звеньев W\(s), w2(s) образует
сигнал ошибки.
е(0 = ^в> + Р(,-1^-1 + - + Р^ + РоУ-Р«+т-1«(т-1)---
-P«+i« + M, (8-1.21)
6* 167
который зависит как от настраиваемых параметров $i(t)
(7=0, п-\-у—1), так и от неизвестных параметров объекта
ссо = а0; а\=ах, ..., an-\=cin-u an = k0, ..., an+i-\ = ki-\-
Сформируем критерий качества идентификации
J=.e2{t). (8.1.22)
Функция /(/, а, Э), где а, р— (я-Ь^)-мерные вектора,
достигает экстремума-минимума в точке р* = а. Действительно, если
Р« = а« (7=0, п—1), рп+/ = Л/ (j=0, у—1), то, сравнивая (8.1.3)
и (8.1.21), заключаем, что e(t) = 0. Используя для поиска
экстремума функции (8.1.22) метод градиента, получим уравнения
иф -ах -2_ = -2аге -£- = -2^0 (/ =0, л - 1);
dt d$i dpi
d$n+j dJ
= -ax—-— = -~2агеиМ (у=0,у-1), (8.1.23)
dt d$n+j
решениями которых являются искомые изменения
настраиваемых параметров.
На рис. 8.1.2 приведена структурная схема настройки
параметров модели (на схеме подробно показана лишь настройка
параметров р1э pn+i).
Эту схему трудно реализовать, так как она требует
точного вычисления производных входных и выходных сигналов
объекта, поэтому рассмотрим схему на рис. 8.1.3. В этой схеме
Fi(s), <&i(s) (7=1, п—1)—реализуемые операторы.
Рассмотрим один из способов их построения. В связи с этим
преобразуем передаточную функцию (8.1.6). Разделим ее числитель и
знаменатель на полином (п—1)-й степени (s-f-A,2)(s + A,3)...0s+
+ An), все корни которого — известные неравные отрицательные
числа —А,2, ..., —Яп. После этого, разложив числитель и
знаменатель на простые дроби, представим передаточную функцию
(8.1.6) в виде
/ 1 !
I ап + ап+1 —— -Ь ... + a2rt_i
w(s)-
\s — а0 — ах
s +Х2 s + \п) y(s)
1 _ 1 \ ~ «(*)
(8.1.24)
Уравнение объекта с передаточной функцией (8.1.24) можно
записать так:
.и-+... + ^2=1?1. (8.1.25)
«/1+1
168
u(t)
wrs)=. **.,s»+...**,*+*.
sfl*«Ms"''....tv4
yd)
Рис. 8.1.2
Рис. 8.1.3
Примем в схеме на рис. 8.1.3
1
/5,/(5) = Ф/(5) = • (/ = 1, Л—1), (8.1.26)
тогда модель описывается уравнениями
У«=7Тт\®о^У+7ТГу + " +7ГТ У+№+7ТТ " +
+ М + Ря+л4:-+Ь|.-1^^1]- (8-1.27)
Вычитая (8.1.25) из (8.1.27), получим выражение для
ошибки идентификации
(Po-ao^-t-'V, (P/ —«/)«/ + (?« —ая)а +
п-1
+2 <&»+*-а*и)*/
/-1
(8.1.28)
Заменяя в (8.1.23) неизмеряемые переменные yV\ иУ1
(7=1, п—1, /=1, у—1) на доступные непосредственному
измерению переменные модели z,-, v% (t=l, n—1), запишем
алгоритм настройки параметров модели
d$ildt = -yiezi (*=0, л-1), (z0=y); (8.1.29)
d$n+i/dt = -yn+ievi (/ = 0, л-1), (г>0 = й), (8.1.30)
где е(7) определяется выражением (8.1.28). Кроме того, для
общности параметр а,\ в (8.1.23) взят различным в каждом
из уравнений (8.1.29), (8.1.30).
В следующем параграфе будет исследована сходимость
решений (8.1.29), (8.1.30) к параметрам передаточной функции
(8.1.24) и показано, что
limM0 = a, (*=0, 2я—1). (8.1.31)
Пример 8.1.2. Пусть дан объект с передаточной функцией
w(s) = , (8.1.32)
5з _{_ a2S2 -f- a\s + a0
параметры a*, /г» (/ = 0, 2) которой неизвестны.
Для определения этих параметров применим алгоритм (8.1.29), (8.1.30).
Проделаем следующие операции.
170
1. Поделим числитель и знаменатель (8.1.32) на полином ($+Я2) (s+X3),
где Х2, Х3— заданные, положительные числа. Получим выражение
1 J \
w (s) = ■
(«3
(*-а°-а^2-а27ТТ3)
(8.1.33)
в котором а* (i = 0, 5) связаны с искомыми параметрами соотношениями:
а3 = &2; а3 (Х2 -+• Х3) + а4 + а5 = ^i; Х2Х3а3 + Х3а4 + Х2а5 = k0;
Х2 -Ь Х3 — oq = я2; —а0 (Х2 + Х3) + Х2Х3 — cti — а2 = ах;
—аоХ2Х3 — Х3 • c&i — а2Х2 = clq. (8.1.34)
2. Сформируем алгоритм настройки параметров модели:
Ро=-2у0ед Pi = -2Yi«*b р2 = -2у2е*2; (8.1.35)
Рз = -2у8в«; P4 = -2y4^i; p5 = -2Y5^2. (8.1.36)
3. Составим структурную схему объекта с настраиваемой моделью (рис.
8.1.4), где для простоты показана схема настройки лишь параметра (Зь
4. После того как процессы настройки в системе (см. рис. 8.1.4),
возбужденной некоторым воздействием u(t), установятся, получим значения
а/ = limp/ {f) (* =07~5).
t-+oo
5. Подставляя эти значения аг (* = 0, 5) в (8.1.34), вычислим искомые
параметры передаточной функции (8.1.33). Числовые значения этих параметров
будут получены в следующем параграфе.
Рис. 8.1.4
171
Идентификация при полностью измеряемом векторе
переменных состояний*. Рассмотрим объект (8.1.1), (8.1.2), у
которого все переменные состояния доступны непосредственному
измерению, а и — m-мерный вектор. Требуется определить
неизвестные матрицы чисел А и В размеров пхп, пхт
соответственно. Для решения этой задачи введем в рассмотрение
настраиваемую модель
Xu = Kx« + [Au(t)-K]x + B„V)u, (8.1.37)
где хм — /г-мерный вектор переменных состояния модели; К —
известная матрица, собственные числа которой имеют
отрицательные вещественные части (т. е. К — гурвицева матрица);
AM(t), BM(t) — матрицы настраиваемых параметров.
Вычитая из (8.1.37) уравнение (8.1.1), получим уравнение
для ошибки е=хм—х:
е=ЛГе + Ф(Ох +Ф(*)и, (8.1.38)
где матрицы ошибок определяются как
Ф(0 = (Ам(*)-Л); y{t) = Bn(t)-B. (8.1.39)
Требуется найти уравнение адаптации параметров модели,
при которых
lime (0=0; (8.1.40)
MmAM(t) = A; UmBH(t) = B. (8.1.41)
| Утверждение 8.1.1. Уравнения адаптации (законы
настройки) параметров модели имеют вид
Лм = -[Г<1>1-1Яе(0х'(0; £м = -1Г<2>]-1Яе(0иЧ0, (8.1.42)
где Т<1\ Г<2) — произвольные положительно-определенные
матрицы чисел размеров пХп; Р —
положительно-определенная матрица чисел, удовлетворяющая матричному
уравнению Ляпунова:
K'P + PK = -Q, (8.1.42')
где Q — произвольная положительно-определенная матрица.
Законы адаптации (8.1.42) обеспечивают выполнение
(8.1.40), а если сигнал u(t) «достаточно богат», то
UmAu(t) = A; lim£M(*) = £.
Доказательство утверждения опирается на
использование функции Ляпунова
v = [е'Ре + tr {ФТ(1)ф -f ЧГТ<2>W}\ > 0, (8.1.43)
172
полная производная которой в силу уравнений (8.1.38), (8.1.42)
имеет вид
<b = -e'Qe<0. (8.1.44)
Из (8.1.43), (8.1.44) в соответствии со вторым (прямым)
методом Ляпунова следует, что \ime(t) = 0.
t-+oo
Убедимся в справедливости (8.1.44) при п=т=1. В этом
случае
^^[/^2+Yi<p2+Y2*2];
v=2 рее+2vi<p<p + 2V2 W = %Ре №е + ?х + Ф#) +
+2ylyy + 2y2W = 2pke2i-2(yyl + pex)y + 2Wy2 + peu)^--qe2,
если р является решением уравнения 2pk =—q, а ф, ф
удовлетворяют уравнениям
Л ; 1
<Р= реХу ф= реи,
Yi Y2
которые при п = /п=1 совпадают с (8.1.42), если учесть, что а =
= 6 = 0.
Опуская доказательство пределов (8.1.41) ввиду его
сложности, отметим, что оно опирается на предположение о
«достаточном богатстве» u(t). Это условие необходимо.
Действительно, пусть u(t) — «бедный» сигнал: u(t)=0, a
#(0) = o. Тогда в силу асимптотической устойчивости модели
ошибка t(t) обладает свойством (8.1.40), а так как x(t) =
= и(/)=0, то из (8.1.42) получим уравнения Лм = 0, Бм = 0, из
которых не следует (8.1.41).
§ 8.2. Адаптивные наблюдатели
Неминимальная реализация неизвестного объекта.
Рассмотрим полностью наблюдаемый объект управления, описываемый
уравнениями
h |х + а<2)*г; х(0) = х<°>; (8.2.1)
y = dx9 (8.2.2)
где х — /г-мерный вектор неизмеряемых переменных состояния
объекта; у — измеряемая переменная; а(1)= ||ао, си, ..., an-ill';
а<2> = ||ал, ..., ^ti-iII' — неизвестные /г-мерные вектора чисел
d=|l, 0,..., Of; A-diag||X2,..,,Xj; h'=||l, 1 Ifl; (8.2.3)
Яг, ..., Kn — заданные положительные числа.
17а
Уравнения (8.2.1), (8.2.2) являются одной из канонических
форм уравнений (8.1.1), (8.1.2). Это означает, что
произвольную систему (8.1.1), (8.1.2) можно привести к виду (8.2.1),
(8.2.2). Действительно, передаточная функция системы (8.1.1),
(8.1.2) имеет вид (8.1.6). Она эквивалентна передаточной
функции (8.1.24). Передаточная функция системы (8.2.1), (8.2.2)
также имеет вид (8.1.24). Убедимся в этом на примере.
Пример 8.2.1. Запишем (8.2.1), (8.2.2) для случая п = 3:
хг = do*! -Ь Х2 + хъ + а3и; х2 = агхг — \2х2 -Ь а4и;
хг = а2хг — Х3дг3 + а5и; у = хг.
Из последних двух уравнений системы (8.2.4) получим
J (8.2.4)
х2 = -
а1-*1 + аАи
s+X2
*3 =
а2х\ + а$и
Подставляя эти выражения в первое уравнение рассматриваемой системы,
имеем выражение
sy = a0y -Ь
«1
(Х2
- у -Ь а3и -Ь
сц
и+
«5
s + h
и,
s+X2 s + ^з" ° ' 5 -h Х2
передаточная функция которого имеет вид (8.1.33).
Ниже будет рассмотрен также более общий случай, когда в
(8.2.1) Л — недиагональная матрица, a h — произвольный
вектор. Возвращаясь к рассмотрению (8.2.1), (8.2.2), отметим, что,
поскольку переменная состояния х\=у — измеряема, систему
(8.2.1), (8.2.2) можно представить в форме
\\У\
1 х 1
1 «0
oW
h' I
-Л|
У
1 х |
И"
1 а" 1
1 «(2) 1
У(0)=уМ;
Х(0)=хс°),
(8.2.5)
где х — п—1-мерный вектор, составленный из неизмеряемых
компонент х2, ..., хп вектора х.
xM*2f...,*J'; аа)=|К,...,ал_1|Г; аО»^,.,., a^J'. (8.2.6)
Уравнение (8.2.5) можно записать как
У=«оУ+h'x+anu; (8.2.7)
x=-Ax+a(1)f/ + a(2>tt. (8.2.8)
Отсюда заключаем, что
y(s)-.
л-1
I
a0*/($)+<*„« 00 + у) [a,y(s) + an+iu(s)]
/=1
(8.2.9)
174
На рис. 8.2.1 приведена блок-схема объекта, описываемого
выражением (8.2.9). В соответствии с формулой Коши решение
(8.2.8) имеет вид
— _ ' _
х(/) = ехр(—ЛОх(0)+Г ехр(—A(^f--т))a(1)г/(т)дrт-|-
+ Г ехр(-А(/ — x))aV)u(x)dx.
1
(8.2.10)
Рис. 8.2.1
Подставляя это выражение в (8.2.7), получим
y(/)*=ao0 + h'exp(--A/)x(O)+ Г h'exp( —A(t — x))a^)y(x)dx +
+ f h'exp(—A(/ — T))aWu(x)dT-\-antt. (8.2.11)
о
С другой стороны, структурную схему, приведенную на рис.
8.2.1, можно представить в виде эквивалентной блок-схемы
рис. 8.2.2. Вводя в рассмотрение векторы z, v переменных
состояния с компонентами Z\, ..., zn-\, v\, ..., vn-\ соответственно
и полагая начальные условия z(0)=v(0)=0, получим
t
v(<)=f hexp( —А(/ — x))u(x)dx;
z(0= f hexp(—A(t — x))y(x)dx. (8.2.12)
6
175
и, следовательно,
У = %У + § h'exp(—A(t — r))a^y(x)cix-\-ana-\-
о
t
+ J hfexp(-A(t-x))a^u(x)rix. (8.2.13)
о
Сравнивая (8.2.13), (8.2.11]^ замечаем, что они отличаются
лишь членом p=h'ехр (—At)x(O), и поэтому для полной экви-
и
'
' Т>
л
5 +12
о
о
1
5+Я„
^П
v J—\ J
Рис. 8.2.2
««.fa Л
5
У
_1_
о
•
/
I
валентности блок-схем, приведенных на рис. 8.2.1 и рис. 8.2.2,
необходимо б последней добавлять сигнал р(0-
Уравнения, описывающие блок-схему рис. 8.2.2, имеют вид
У
г
v
а0 ФУ а<2>'
h -АО
0 0 -Л
1 у
Z
1 v I
Н
«„
0
ь
и-\-.
1 ' 1
0
1 о||
y=lh о, о(|
Р('); (8.2.14)
(8.2.15)
</(0)=</(0); z(0| = v(0)fe=0.
(8.2.16)
Соотношения (8.2.14)...(8.2.16) — точно описывают
неизвестный объект (8.2.1), (8.2.2), однако число уравнений (8.2.14) на
п—1 уравнений больше, чем число уравнений составляющих
(8.2Л) (z и v — п—1-мерные векторы), и поэтому уравнение
(8.2.14) называют неминимальной реализацией неизвестного
объекта.
176
Сходимость (устойчивость) процесса настройки модели.
Переходя к рассмотрению задачи об определении векторов а(1), а<2)
неизвестных параметров и вектора x(t) переменных состояния
объекта (8.2.1), (8.2.2), используем, как и ранее, настраиваемую
модель. Используя неминимальную реализацию (8.2.14)...
(8.2.16), примем настраиваемую модель
Ум
Z
V
Ро + ^1 Р(1)' Р<2)' II
h —АО
0 0 -Л
У
z
1 v
И
Vя
0
h
-д.,
0
0
а
Ум
(8.2.17)
где Ро(0, P(1)(0 = IIM0. P-i(0ll'; МО; <Р(2)(0 = ИР-м(0,.-.,
Ргте-i (t) II' — настраиваемые параметры. Блок-схема
настраиваемой модели, соответствующая уравнениям (8.2.17), приведена
на рис. 8.1.3, где следует положить
^1(5) = Ф/_1(5)=—^ (* = 27л)-
5 + А/
Алгоритм настройки параметров модели описывается
уравнениями (8.1.29), (8.1.30). Исследуем сходимость процесса
настройки параметров модели к неизвестным параметрам объекта.
Уравнения (8.1.29), (8.1.30) в матричной форме имеют вид
p(D = —Г^Т, p(2) = -r(2W, (8.2.18)
где №'=&, р<*>'1 Р<2>'=|ря. Р<2>1; z'=\\y, z% v'=\\u, v'||; Г<*>=
= diag||Y0,...,Ye-iI; r(2)^diag||v„-i,...f Y2*-ill, Y/>0.
Вычитая (8.2.14) из (8.2.17), получим уравнения для
разности е = ум—у выходов объекта и настраиваемой модели:
4-((^~an)tf-p(0--V~(P(1)-<^
(8.2.19)
Для доказательства сходимости процесса настройки
используем функцию Ляпунова
v = — {^2_(_(p(i)_a(i))'[r(1)I-4P(1)-a(1)) + (P(2)-
- о(2>)' [Г<2>]-1 (Р<2> - а(2))}> О,
где a^'HKv а(1)1; «(2)/ = 1К> «(2)1-
(8.2.20)
177
Полная производная функции Ляпунова в силу уравнений
(8.2.18), (8.2.19)
^=^ + р(1)'[Г(1)]-ЧР(1)~а(1)) + Р'(2)Чг(2)]~ЧР(2)~«(2))==
= -l1e2-e?(t). (8.2.21)
Очевидно, что
*> < е? < \е\ |р| < |Р| V*v. (8.2.22)
Последнее следует из (8.2.20), так как e2^2v. Пусть v = w2;
w>0. Тогда на основе (8.2.22) получим
i<-p=-p(*). (8.2.23)
Так как limp(/)=0, то w и, следовательно, v стремятся к нулю
при t-*~oo. Последнее означает, в соответствии со вторым методом
Ляпунова, что
lime (/) = 0. (8.2.24)
t->co
Из (8.2.19) при условии (8.2.24) получим
[lim({l(1)-a(1))]z + [lim(P<2)-o(2)]v=0. (8.2.25)
/-+• оо f-*-oo
Отсюда следует, что если векторы z и v линейно независимы,
то
limp<1) = a<1); limp(2)=a(2). (8.2.26)
Векторы z, v линейно независимы, в частности, когда вход
«достаточно богат».
Пример 8.2.2. Рассмотрим объект управления [8.6]
*\ = <*о*1 4- Х2 + хъ + а3и;
-^2 = «l-^i — 3*2 -f-сцн; l (8.2.27>
дг3 =■ а2хг — 6*з + «5";
У = Х19
параметры
<х0 = 2; а1 = —2/3; а2 = — 40/3; а3---2, а4 = —2/3; а5 = — 7/3 (8.2.28>
которого неизвестны. Требуется найти эти параметры. Для этого сформируем
настраиваемую модель (8.2.17):
Ум = (Ро + *i) </ + ?!-?! + М2 + Ml + М2 + Э5" - ^м; (8.2.29)
*1 = У—3*ъ Z'2 = у — 6z2; t;j = —3i/x + a;
v2 = — 6i>2 + h; е = ум — у. (8.2.30>
178
Настраиваемые параметры р0, ..., |35 модели (8.2.29) будем изменять в
соответствии с алгоритмами (8.1.35), (8.1 36), в которых
Yo = 500; yi=200; Y5 == 800; Уз = Ю; Y4 = Ю; Ys = 20. (8.2.31)
На рис. 8.2.3 приведены процессы настройки параметров модели. Нетрудно
видеть, что lim рг = (Хг (i = 0, 5). Графики, приведенные на рис. 8.2.3, получены
М
2,0
10
О
О
_1_
10
10
-Ч: *-
10 30 t
10 30 t
-1,5
3
-10
4Jk
к
-1 G\ I
0,5
10
Щ
10
10
50 £
-15
Яг
"Г
Рис. 8.2.3
'2,0
-2,5
о
-
'
10
i
20
i
50 £
1 **-
путем совместного решения уравнений (8.2.27), (8.2.29), (8.1 35), (8.1.36) при
числовых значениях (8.2.28), (8.2.31). При этом Xi= 102, а
и = sin* + sin 5* -f sin 11/. (8.2.32)
Адаптивный наблюдатель. По мере сходимости процесса
настройки параметров модели становятся известными векторы а(1),
<х<2> объекта (8.2.1), (8.2.2) либо эквив • ?ентного объекта (8.2.5).
Для восстановления вектора х(/) этого объекта воспользуемся
179
наблюдателем полного порядка, который в рассматриваемом
случае примет вид
W ||х + к(г/-л1) + Р(2)". (8.2.33)
Р<1>;
-Л
где к — л-мерный вектор чисел.
Это уравнение можно переписать как
х =
6<»> •
-Л
x-(ft<')-p<1))y + p(2)«,
(8.2.34)
где б(1) = Р(1'—к — n-мерный вектор чисел, который выберем так,
чтобы собственные числа матрицы
Л<!>:
8<»
;—а
имели отрицательные вещественные части. Отметим, что если
задан желаемый характеристический полином матрицы Л*1'
det(£,s-A<1>) = s*+ai12iS»-I + ...+aiI)s + 4I)=a(I)(s),
то вектор 6(1) определяется из соотношения
s-h^-
°2
5<?>
a<x>(s)
(5 + А2)
S-r^n (S+A2)(S + A3)...(S + A„)
(8.2.35)
Из которого следует, что
п
?(1) (1) , ^Г1 г . а<1)
Д(1)(0(5+Хг)
(/ = 2, л).
т=? П (5 + х,)
(8.2.36)
Таким образом, с помощью наблюдателя (8.2.34) можно
восстановить вектор х объекта (8.2.5).
Учитывая структуру матрицы Л и вектора h, можно указать,
еще один способ восстановления вектора х.
Из (8.2.8) с учетом (8.2.12) следует, что
S -г А/
?n+i-
+/-1
S + h
п п
/ = 2 /=»2
</ = 2Гл). (8.2.37)
Измеряя переменные состояния гь ..., zn-i, ^ь •••, vn-i
настраиваемой модели (см. рис. 8.2.2), получим, используя (8.2.37),
искомый вектор состояния объекта.
180
§ 8.3. Адаптивные системы с эталонной моделью
Постановка задачи адаптивного управления с эталонной
моделью. Рассмотрим полностью управляемый и полностью
наблюдаемый объект управления, описываемый уравнениями
х = Ах + Ви + Н& х(0) = х<°>;
(8.3.1)
(8.3.2)
где Л, В, Я, D — неизвестные матрицы чисел известных размеров
пХп, пХт, пХт, гхп соответственно; g(t)— измеряемый лг-мер-
ный вектор задающих воздействий.
Требуется найти адаптивный регулятор, обеспечивающий
близость вектора измеряемых переменных объекта к некоторому
желаемому вектору, задаваемому эталонной моделью:
хм = Лмхн + Ямё; (8.3.3)
Ум = £>мХм, (8.3.4)
где Лм, Ям, DM — известные матрицы чисел; хм — я-мерный
вектор состояний модели; ум — r-мерный вектор измеряемых
выходов модели.
Таким образом, цель адаптации описывается как
lime = lim(y — yM)=0. (8.3.5)
В одномерном случае (когда г=т=\) уравнения объекта и
модели принимают вид
x = Ax-\-bu-\-hg\ y = Ax\
(8.3.6)
(8.3.7)
Для этого случая на рис. 8.3.1 приведена структурная схема
адаптивной системы с эталонной моделью. Здесь wM(s) =dM(Es—
—AM)~lhM; w(s)=d(Es—А)~]Ъ; b = h. Нетрудно заметить
сходство приведенной структурной схемы со схемами идентификации
с настраиваемой моделью. Только теперь эталонная модель иг-
еЧ'У*
Рис 8.3.1
181
рает роль объекта управления, а объект управления, замкнутый
адаптивным регулятором, является как бы настраиваемой
моделью. Очевидно, что lim e=0, если в результате настройки пере-
даточная функция объекта замкнутого регулятором будет
совпадать с передаточной функцией эталонной модели.
Переходя к построению алгоритма работы адаптивного
регулятора, будем рассматривать последовательно усложняющиеся
задачи. Вначале получим алгоритм настройки параметров
регулятора для случая, когда все переменные состояния объекта
(8.3.1), (8.3.2) доступны непосредственному измерению (D = £n),
а размерность вектора управления т=п. Затем приведем
алгоритм адаптации для одномерного объекта (8.3.6) в
предположении, что возможно точное вычисление производных измеряемой
переменной у9 которые входят в алгоритм настройки, и, наконец,
снимем это ограничение и получим реализуемый алгоритм
адаптации.
Алгоритм настройки коэффициентов уравнения состояния *.
Пусть все переменные состояния объекта (8.3.1), (8.3.2)
доступны непосредственному измерению, а вектор и имеет размерность
т=п. Полагая без ограничения общности В = Еп, запишем
уравнения (8.3.1), (8.3.2) в виде
x = 4x + tfg+u. (8.3.8)
Уравнение модели
хы=Аихи+Ни& С8-3.9)
в котором Ам— гурвицева матрица.
Уравнение регулятора будем искать в виде
u=C<!>tf)x + C<2>(/)g, (8.3.10)
где ОТ(£), ОТ(£)—матрицы (размеров пХпу пХш
соответственно) настраиваемых параметров регулятора.
Требуется найти алгоритм их настройки, при котором вектор
состояния объекта стремится к вектору состояния модели. Это
означает, что ошибка е=х—хм обладает свойством
lime(0=0. (8.3.11)
Поскольку размерности матриц Л, ОТ, а также матриц Я, ОТ
совпадают, то регулятор изменяет каждый из коэффициентов
уравнения состояния и поэтому искомый алгоритм носит
название алгоритма настройки коэффициентов уравнения состояния.
Переходя к построению алгоритма настройки, подставим
(8.3.10) в (8.3.8) и, вычитая из (8.3.8) уравнение (8.3.9), получим
ё=Лме + Ф(Ох + ЧГ</^, (8.3.12)
где
Ф(0 = Л + ОТ-Лм; ЧГ(/) = // + С(2)(/)-Я1|. (8.3.13)
182
Утверждение 8.3.1. Алгоритм настройки параметров
регулятора (8.3.10), обеспечивающей выполнение условия
(8.3.11), имеет вид
C<D(0 = -[r<1>]-1/>ex'; C(2)(0 = -[r<2)]-iPeg\ (8.3.14)
где Г(1), Г(2) — произвольные положительно-определенные
матрицы размеров пу^п\ Р — положительно-определенная
матрица чисел, удовлетворяющая уравнению Ляпунова
A'UP + PAU = -Q, (8.3.15)
где Г*1*, Г<2) — произвольные положительно-определенные
матрицы.
Соотношения (8.3.14), (8.3.15) с точностью до обозначений
совпадают с соотношениями утверждения 8.1.1 об уравнениях
адаптации параметров модели при идентификации, и поэтому
его доказательство, основанное на использовании функции
Ляпунова (8.1.43), повторяет доказательство утверждения 8.1.1.
Таким образом, уравнения (8.3.10), (8.3.14) являются
уравнениями адаптивного регулятора.
Пример 8.3.1. Найдем алгоритм настройки параметров регулятора для
объекта, описываемого уравнением первого порядка
x=.ax + hg+u, (8.3.16)
в котором a, h — неизвестные числа.
Желаемый выход объекта задается моделью
х* = Дм*м + h*Lg, (8.3.17)
где (2м, hM — заданные числа; ам<0. В соответствии с (8.3.10), (8.3.14)
адаптивный регулятор для объекта (8.3.16) описывается уравнениями
и = с(1) (О х + с(2) it) g; (8.3.18)
id) = -[Y<i>I-i pex; *<2) = -W^]-1 peg, (8.3.19)
в которых число р = —ql(2aH), a q, -у(1)» 7(2) — произвольные положительные
числа. Структурная схема системы (8.3.16)... (8.3.19) приведена на рис. 8.3.2.
Алгоритм адаптации с использованием чистых производных
выхода объекта. Рассмотрим объект (8.3.6) с моделью (8.3.7).
Будем полагать, что передаточная функция объекта и модели
имеют вид
/ ч 'У (S) 1
wis) = = •
и (s) sn + ая_1вя"1 + ... 4- axs + а0
«-(«=JtTT- = — 7Г . (8-3.20)
а передаточная функция объекта по задающему воздействию
совпадает с w(s) с точностью до замены 1 на hn. Это означает,
183
что уравнения объекта и модели в форме «вход — выход»
записываются как
(sn + an_lsn-l + ...+als + aQ)y = ul + hng; (8.3.21)
(s* + aun_lsn~1 + ... + altls + auQ)yu = hug. (8.3.22)
Отметим попутно, что структура передаточных функций (8.3.20)
свидетельствует о том, что уравнения (8.3.6), (8.3.7) можно с
Рис. 8.3.2
помощью неособого преобразования привести к канонической
форме:
x = Ax + bu + hg; y=dx; хм-=Амхм + Ьм§"; Ун=&*Хн' (8.3.23)
в которой
II °;fH
1 -«(1) 1
1; Ь'=
1 °1
11
1; h=|
-II-0
л \\к
0
к\
1 ?
\ Ам —
|0]^-i|
1 -a„ I
(8.3.24)
d=||l, 0,...,0||; dM=|l, 0 0В; о<1>=|оо....,а(|_1||;
ам==1ам0»---> аип-\\\-
Переходя к построению адаптивного регулятора, будем полагать,
что возможно точное (чистое) вычисление производных измеряе-
184
мых переменных у и ум до п—1-го порядка включительно. Тогда
уравнение собственно регулятора будем искать в виде
/8-1
я = 2 М'>У(/) + ?я(Ой\ (8.3.25)
где yW — i-я производная y(t)\ $t(i) (* = 0, n)—настраиваемые
параметры регулятора.
Подставляя (8.3.25) в (8.3.21) и вычитая из (8.3.21)
уравнение (8.3.22), получим уравнение для ошибки е = у—уи\
я-1 \ я-1
(8.3.26)
Утверждение 8.3.2. Алгоритм настройки параметров
регулятора (8.3.25), при котором достигается цель адаптации
(lim e=0), имеет вид
Р< = -уГ1(2/уИ^/) ('=0, л-1); (8.3.27)
где \i>0 (i=0, п), а вектор 1 ===== h/о» • ••, 1п-\\У определяется из
выражения
1 = РЪ, (8.3.29)
в котором положительно-определенная матрица Р является
решением уравнения Ляпунова
A'JR+PAM~-Q (8.3.30)
(Q — произвольная положительно-определенная матрица).
Алгоритм (8.3.27), (8.3.28) исторически первый обоснованный
алгоритм адаптивного управления с эталонной моделью. Он был
получен в работах [8.4, 8.7].
Переходя к доказательству утверждения 8.3.2, введем в
рассмотрение векторы
е—Ifo, <?2>..., еп1 где ег=е; e2 = e,...,en=ein~l); 1(8.3.31)
^•^Ко —cto + Po» —» амя-1 —ая-1 + Рл-1. -лм +A« + PJ; I
о>' — \\У, «/,..., j/«-1, ff|,
183
используя которые запишем (8.3.26) в виде
е = Лме + Бф'со. (8.3.26')
Для исследования устойчивости системы (8.3.21), (8.3.22),
(8.3.25), (8.3.27), (8.3.28) по переменной е построим функцию
Ляпунова
т;=ё/Ре + фТф>0, (8.3.3Г)
в которой положительно-определенная матрица Р является
решением уравнения (8.3.30), a r = diag ||уо, ••-, уп\\-
Полная производная функции (8.3.3Г) в силу уравнения
(8.3.26')
v=(А ме + Ьф'со)' Яе + е'Я (А ме + Ьф'ш) + ф'Гф + фТф =
= — e'Qe+ (е'ЯЬо' +фТ) ф + Ф' (юЬ'Яе+Гф).
Очевидно, что
i! = -e'Qe<0, (8.3.32)
если
Ф=—r-Ml'e)©- (8.3.33)
Принимая во внимание, что параметры ами а/ (/ = 0, п—1)
модели и объекта постоянны, заключаем, что (8.3.33) совпадает с
(8.3.27), (8.3 28).
Пример 8.3.2. Пусть имеется объект управления, описываемый
уравнением
У + агУ + аоУ = " + h2g, (8.3.34)
параметры которого а0 аь h2 неизвестны Требуется найти алгоритм настройки
параметров регулятора
и = ?о (О у + Pi (О У + h V)g, (8.3.35)
при котором выход у объекта приближается к значениям выходной
переменной эталонной модели, описываемой уравнением
Уы + 0м10*ч И- амоУч = h^g (8.3.36)
с заданными параметрами На основе (8 3 27), (8.3.28) получаем искомый
алгоритм настройки
Эо = —Y^T {h* + h*)y\
h = -УГ1 <*<& + l\e) У\
P2 = —Y^1^ + '!<?)£>
(8.3.37)
186
в котором Yo, Yi» Y2 ~ произвольные положительные числа, /0=р12, 11 = р22> где
. (8.3.38)
Pi2, р22 — элементы матрицы Р =
ного уравнения
II 0 ~Ямо
IU ~*mi|
1 Pll Pl2
Pl2 P22 1
+
|Pll Pl2
\P\2 P22
Pll Pl2
Pl2 P22l
1 0
, являющейся решени
1
—Ям1
1 = -'
1 1
Чи 0 1
0 ^22 1
Здесь <7ц, ^22 — произвольные положительные числа.
I ^2 rvQ^n s^+UjS+Uq
Г. 3
ч£Г§ЬЙ*
•ff
T
Рис. 8.3.3
Структурная схема адаптивной системы приведена на рис. 8.3.3.
§ 8.4. Алгоритмы адаптивного управления
с эталонной моделью
Предварительные замечания. Приведенные выше алгоритмы
адаптации применимы для объектов, описываемых уравнениями
частного вида (8.3.8) либо (8.3.21), и предполагают измерение
всех переменных состояния либо точное вычисление производных
измеряемой переменной.
Перейдем теперь к построению алгоритма адаптации для
общего случая одномерного объекта (8.3.6) и эталонной модели
(8.3.7). Этот алгоритм не содержит «чистых» производных
измеряемой переменной.
187
Пусть имеется полностью управляемый и полностью
наблюдаемый объект управления, описываемый уравнениями
х = Лх+Ь#; y=dx9 (8.4.1)
в которых матрица А (размеров пХп), я-мерный вектор-столбец
b и я-мерный вектор-строка d неизвестны.
Передаточная функция объекта (8.4.1)
wls)*=d(Es-A)-ib = п П^-' + .-.+М+^о) ==Jfe*(£l>
(8.4.2)
Полином k(s) = sv_1 + ...-f&iS + &o в числителе этой
передаточной функции полагается далее гурвицевым полиномом (корни
этого полинома имеют отрицательные вещественные части).
Кроме того, пусть у, пу k — известны. Передаточная функция
эталонной модели имеет вид
„а% /сч £M(sr + ... -\- k4ls + &мо) k^kyjjs) /Q л qv
sn + asl„__xs" -f- ... -4- aMls + я мо ам (*)
где &M(s), aM(s)—заданные гурвицевы полиномы
Будем полагать, что степень полинома числителя этой
передаточной функции равна степени полинома числителя
передаточной функции объекта (г = у—1), и пусть, кроме того,
существует полином r\(s) степени п—у—2, такой, что передаточная
функция rj(s)ajM(s) является строго пассивной. (Напомним, что
передаточная функция ш(/со) называется строго пассивной, если
Reze;(ya))>>0 и limco2Re^(yco)>0).
со-* во
Требуется найти адаптивный регулятор, такой, что
выполняется целевое условие
Ит(0-Ы = О. (8.4.4)
Опишем вначале процедуру построения такого регулятора для
случая, когда y—1=я—1, а затем — случая у—\=п—2 [8.5].
Адаптивный регулятор для объекта, степень числителя
передаточной функции которого на единицу меньше степени
знаменателя. Отметим вначале, что в рассматриваемом случае можно-
положить r\(s) = 1, поскольку параметры полинома kM(s) степени
п—\ всегда можно выбрать так, чтобы wM(s) была строго
пассивной. Структурная схема адаптивной системы приведена на
рис. 8.4.1. В этой схеме вспомогательные генераторы
описываются уравнениями
vV)=Ev(i)-\-Hy; vW^Fv^ + bu, (8.4.5)
188
а сигналы [i\y \i2 имеют вид
\>ч=%у+Р1уу{1); ti2=p<2>'v<2>,
(8.4.6)
где v<!> и v<2)— я—1-мерные векторы переменных состояния
вспомогательных генераторов; ро(ОР(1)(ОР(2)(0 —настраиваемые па-
finMl
2-й
Вспомогательный
генератор
L^T
Рис. 8 4.1
раметры, где р(1> = ||р, р„-,||', р<2>11р«+,, .... p2n-.ll'; F —
заданная матрица чисел, имеющая следующую структуру:
F =
О £„_2|
—Р I
где р есть п—1-мерный вектор-строка; р = ||р0, ..., р„_2||;
б'=||0, 0,..., 1||.
Очевидно, что
= m1(s)y{s), (8.4.7)
где
P(5)==s»-i-fp„_2Sn-'2-f...-fp1s + p0;
p<I)(s>=p1s«-2+-+P«-2s+P«-i;
н,2(5) = р(2)'(£'5_/=,Г1Ьи:
Р(2)(*)
P(s)
u(s) = m2(s)u(s). (8.4.8)
Здесь
P(2)(s)=Pn+iSn-2+.- + ?2n-2S + fen-i; m2(s) = p<2>(s)/P(s). (8.4.9)
189
Непосредственно из рис. 8.4.1 следует, что
и = ?оУ + Р1учЫ + № + р2УчМ. (8.4.10)
Вводя 2/2-мерные векторы
P«) = ft. Pi Pn-l. Pip P*-!.-, P2«_1|| = IIP0, P(1)', Ря, P<2>'|; (8.4.11)
b(t) = \\y, v(1>, g, v<% (8.4.12)
запишем (8.4.10) в компактной форме
и = Р'6. (8.4.13)
На основе структурной схемы заключаем, что передаточная
функция объекта с адаптивным регулятором при постоянном
значении вектора настраиваемых параметров имеет вид
y(s) _ $nw(s) _
wa(s)--
g(s) 1 ± m2 (s) + mx (s) w (s)
= M* (s) p (s) 8 4 14
[?(2) (s) T P (s)] a (s) ± kk (s) [P(D (s) + P0P (s)]'
Действительно, из рис. 8.4.1 следует, что
и = рл^± /тг2(5)й + Щ(з)У- (8.4.15)
Учитывая, что y=w(s)uy и подставляя сюда (8.4.15), получим
(8.4.14).
В [8.5] показано, что всегда существует вектор Р, такой, что
полином в знаменателе
[$&($) + 9(s)]a(s) ± kk(s)[P»(s)+%P(sj[ = rHs),
где n(s)—произвольный полином степени 2п—1 с
коэффициентом при s2n~l равным 1. Полагая
n{s) = k(s)au(s); ?(s) = kM(s), (8.4.16)
заключаем, что передаточная функция объекта с регулятором
wa(s) = ^wu(s). (8.4.17)
Таким образом, второе из равенств (8.4.16) служит для
определения вектора q в матрице F уравнений вспомогательных
генераторов. Для завершения описания адаптивной системы
необходимо определить алгоритм настройки вектора р.
Отметим, что в следующем параграфе будет рассматриваться
случай, когда fc(s) и kM(s)—полиномы степени п—2. В этом
случае соотношения (8.4.16) принимают вид
n(s)=(s + \Q)k(s)aM(s); p(s}=(s + lQ)k„(s). (8.4.18)
190
Утверждение 8.4.1. Алгоритм настройки параметров
0 управления (8.4.13), при котором достигается цель
управления (8.4.4) для объекта с неизвестной передаточной функцией
(8.4.2) при у = п, имеет вид
p=-r-ia*,
(8.4.19)
где Г — произвольная положительно-определенная матрица
чисел размеров 2пХ2п.
Доказательство утверждения приведено в приложении 8.
Пример 8.4.
циеи
Пусть имеется объект управления с передаточной функ-
52 + kis + k0
w (s)
ss _f_ a2s2 + axs + a0
(8.4.20)
параметры которой неизвестны.
Требуется построить адаптивный регулятор, при котором выход объекта у
приближался бы к выходной переменной эталонной модели с передаточной
функцией
wM (s) =
($2 +45 +3,79)
S3 +6S2+ Us +6
(8.4.21)
Переходя к построению регулятора, отметим, что, как нетрудно проверить,
передаточная функция модели (8 4.21) является строго пассивной.
wm(s) =
2(S2 + 4S*S,79)
ss+6s2+Ms + 6
!/м
52 + *rS + Кр
s3 + a2s2+a1s+a0
v^vf
у/'Ц/^-^'Ц
Рис. 8.4 2
Определим из равенства (8.4 16) параметры уравнений состояния
вспомогательных генераторов
Р0 = 3,79; Pi =4. (8.4.22)
Структурная схема рассматриваемой адаптивной системы приведена на
рис 8 4.2.
191
Алгоритм настройки параметров регулятора
и = Роаг + foP + M1} +Ps*+M° + М2) (8.4.23)
имеет вид
Po—Vo"1^ ?1 = -УТ1*>{1)ш.
h-
Y2 W, > ?3=--Y3 eg;
Pi =-vrX2); fe--v^42),
(8.4.24)
(8.4.25)
(8.4.26)
где v,- (t = 0, 5)—положительные числа.
Адаптивный регулятор для объекта, степень числителя
передаточной функции которого у— 1=/г—2. Так как теперь разность
степеней полиномов знаменателя и числителя передаточной
функции эталонной модели больше единицы, то нельзя обеспечить
Н WM(5)
Рис 8.4.3
строгую пассивность передаточной функции wM(s) выбором ее
параметров, и поэтому вначале определяется число т]о, такое, что
передаточная функция
7] (S) W^ (S) = (S + TJo) WM (5)
(8.4.27)
является строго пассивной. Такое число т]о всегда существует.
Структурная схема адаптивной системы приведена на рис.
8.4.3. Из схемы нетрудно заметить, что управление
«=Р/в+Р/С
(8.4.28)
где £—2я-мерный вектор,
192
C' = |lCo, g(1)'> Ся, ?(2)1l=flCo, Ci Ся-1, С. Ся+1,..., C2„-i!. (8A29)
связанный с вектором 8(t) уравнением
S = -?)oS +б. (8.4.30)
Утверждение 8.4.2. Алгоритм настройки параметров р
управления (8.4.28) для объекта с неизвестной передаточной
функцией (8.4.2), в которой у—\=п—2, имеет вид
Р = -Г-1^, (8.4.31)
где Г — произвольная положительно-определенная матрица
чисел размеров 2/гх2я.
Доказательство утверждения приведено в приложении 9.
Пример 8.4.2. Построим адаптивную систему управления летательным
аппаратом по углу тангажа.
Передаточная функция самолета по углу тангажа
w (s) = k (S + *0) . (8.4.32-33)
w 5 (s2 + a2s + аг)
Эталонная модель имеет передаточную функцию
eWu (в) а LEL±ii? . (8.4.34)
м w (s + 5) (s2 + 35 + 2) '
Переходя к построению адаптивного регулятора, найдем число г\0, при
котором передаточная функция
/ ч / , ч l,6(5+3)(S + %) /ft . _
^м (5) (s + -пп) == : :г~ (о• 4.35)
м w v -г ю/ (5 + 5) (s2 + 3s + 2)
является строго пассивной. Это число
i)o = l. (8.4.36)
Определим теперь, используя (8 4.18), параметры характеристического
полинома уравнений вспомогательных генераторов
?(s) = (s + l0)(s+3), (8.4.37)
где Ко — произвольное положительное число.
Положим Я0=4 и тогда
Ро = 12; Р1=7. (8.4.38)
Алгоритм настройки параметров регулятора
и = ?0У + hv[l) + М!) + hg + Mi2) + М2) +
+ PoCi + "PiC2 + P2C3 + РзС4 + ks + PsCe (8.4.39)
имеет вид
P/ = -YrV С=0Г5), (8.4.40)
193
где g» (t = 0, 5) являются решениями уравнений:
Ci + i)oCi = 0; 12 + т\А2 = *[г); Сз + *ПоСз = 41}; (8.4.41)
С4 + ЧоС4 = #; С5 + Ш = v(i2); Се + "ЧоСе = vi2); (8.4.42)
*4 ', v:2, v['t v2 J —" выходы вспомогательных генераторов, описываемых
уравнениями:
v{1) = »(21); ^1)=-12v(11>-7^1>+y; (8.4.43)
v<2> =u£2); 42) =—12vp —7v^2) +a. (8.4.44)
Глава 9. ИДЕНТИФИКАЦИЯ
Идентификация, понимаемая, как и ранее, в узком смысле
(как определение параметров объекта управления), является
важным этапом при проектировании систем управления. К
настоящему времени разработано много приемов, способов и
методов определения параметров объектов. Ниже приводятся лишь
те из них, которые используются для построения
идентификационных алгоритмов адаптивного управления. Излагаются
корреляционный способ (§ 9.1), метод наименьших квадратов (§ 9.2),
стохастическая аппроксимация (§ 9.3), которые не требуют
информации о законах распределения случайных значений
параметров объекта. При этом относительно внешних воздействий и
шумов в методе наименьших квадратов известно лишь, что они
определяют собой белошумный случайный процесс, а в
корреляционном способе и методе стохастической аппроксимации это
условие ослаблено до требования ограниченной дисперсии.
§ 9.1. Идентификация при внешних возмущениях
и помехах. Корреляционный способ
Постановка задачи идентификации. Рассмотрим объект
управления, описываемый уравнениями
х=Лх+1щ + ф/; (9.1.1)
r/=dx+x, (9.1.2)
в которых матрица А и я-мерные векторы b, tf, сГ — неизвестны;
f(t) и n(t)—внешнее возмущение и помеха, являющиеся неиз-
меряемыми случайными функциями с нулевым математическим
ожиданием.
В зависимости от метода идентификации на внешние
возмущения и помехи будут накладываться дополнительные
ограничения (их белошумность, ограниченная дисперсия и т. п.).
Так как объект (9.1.1), (9.1.2) возбужден случайным внешним
воздействием, то оценка а вектора неизвестных его параметров
194
будет являться случайной величиной. Эта величина должна
обладать свойствами несмещенности, состоятельности,
эффективности, достаточности^Дадим определение этих свойств.
1. Если оценка а вектора параметров а, полученная по
последовательности наблюдений, такова, что
М{а)=М[а}=а, (9.1.3)
то она называется несмещенной. В противном случае оценка
может иметь_ положительное или отрицательное смещение б=
= М{а}— а.
2. Если оценка а сходится к а по вероятности
ИтЯДа —а||>е]=0 (е>0) (9.1.4)
t-+oo
(запись Р[||а—а||>е] означает вероятность того, что норма,
например евклидова^ ||а — a||=l/ 5(^/"~а/)2 Разности векторов
больше положительного числа е), то оценка называется
состоятельной.
3. Эффективная оценка а для a — это несмещенная оценка с
минимальной среднеквадратическои ошибкой по сравнению с
любой другой оценкой а вектора а. Другими словами,
М {a — a} {a —a}'l<M[{o — a) {a —a}']. (9.1.5)
4. Оценка a называется достаточной, если она содержит всю
информацию о множестве наблюдений, связанных с
оцениваемым параметром а.
Целью идентификации объекта (9.1.1), (9.1.2) является
определение оценок его параметров, обладающих перечисленными
свойствами.
Переходя к первому из способов (корреляционному способу)
идентификации этого объекта, отметим что он относится к
числу непараметрических методов идентификации, так как
доставляет значения импульсной переходной функции объекта, а не его
параметры.
Существо корреляционного способа. Рассмотрим объект,
описываемый уравнениями
х = Лх + ф/; 0=dx + x. (9.1.6)
Решение этих уравнений при нулевых начальных условиях имеет
вид
t
y(t) = § A(/-t)/(r)rft + x(/), (9.1.7)
to
195
где h(t—т)—импульсная переходная функция, для определения
которой и служит корреляционный метод. Уравнение (9.1.7)
можно записать при t0 =—оо как интеграл свертки
оо
y(t)=[ А(в)/(/ —е)А?е+х(о. (9.1.8)
о
Умножим (9.1.8) на f(t—t), тогда получим
оо
6
Полагая, далее M{f(t)}=M{K(t)}=0 и применяя операцию
математического ожидания, запишем
00
M{y(t)f(t-T))=§ А(в)ЛГ{/а-в)/«-т)}£/в-[-
о
+ ЛГ{х(/)/(*-т)}. (9.1.9)
Если внешнее воздействие /(/) и помеха n(t) независимы, то
M{x(t)f(t—т)}=0. Кроме того, обозначая корреляционную
функцию М{}(1—6)/(*—т)}=г//(т—Э), а взаимно корреляционную
функцию М{у (t)f(i—т) } = ffy (т), запишем (9.1.9) в форме
уравнения Винера — Хопфа
оо
г/у(г)=\ h{b)rff{%-b)d*. (9.1.10)
6
Пусть входной сигнал f(t) является «белым шумом». Это
означает, что
rff = r{f}b(t-%), (9.1.11)
где гО)// — известное число, характеризующее интенсивность
«белого шума».
Подставляя (9.1.11) в (9.1.10), получим
r/y(x) = rflhW. (9.1.12)
Таким образом, если внешнее воздействие является случайным
процессом типа «белый шум», некоррелированным с помехой
измерения, то взаимная корреляционная функция входного и
выходного сигналов прямо пропорциональна импульсной
переходной функции. Структурная схема системы идентификации
приведена на рис. 9.1.1.
Интегратор (рис. 9.1.1) служит для вычисления взаимно
корреляционной функции, которая в случае стационарного случай-
196
ного процесса, обладающего эргодическим свойством,
определяется как
и
rfy(x) = \im-±- [ f{t~x)y{t)dt. (9.1.13)
о
Возвращаясь к общему случаю, отметим, что уравнение
(9.1.10)— интегральное уравнение относительно неизвестной
№
■ т
Одъект
Линия задержки
Рис.
-^л—*
^ч2>
X
^"^
\t(*-v)
Z
Инте - 1
гратор
9.1.1
fflfi
функции /i(6). Численное решение этого уравнения составляет
основу алгоритма корреляционного способа идентификации.
Алгоритм корреляционного способа идентификации [9.1].
Переходя к решению уравнения (9.1.10), заменим верхний предел
в интеграле конечным числом t\. Это означает, что импульсная
переходная функция будет определена на интервале [0, t\]9 а при
t>tih(t)=0. Такое допущение вполне приемлемо для
асимптотически устойчивых объектов. Кроме того, будем определять
значение функции f(i) для дискретных моментов времени,
отличающихся один от другого на величину 7, поэтому разобьем
интервал [0, t{) на N=tJT интервалов.
Таким образом, будем полагать, что
rffV) = rff(iT), | lT<t<{i+l)T (/=6jV). (9.1.14)
h(t) = h{iT)j
Тогда уравнение (9.1.10) примет вид
г/у(1Т)=Т ^rff[(i-l)T]h(lT) (i=0, N). (9.1.15)
При i=0 уравнение (9.1.15) записывается как
г/у(0)=[г//(0)А(0) + г//(-Г)А(Г) + ... + г//(—ЛТ)А(Л^Г)]Г;
при i=l
rfy(T) = [rff(r)h(0) + rff(0)h(T)+...+rff{^(N^\)T)h(NT)}T;
197
при t'=2
г/и(2Т)=\г„&Т)11ф) + г„(Г)/1(Т)+...+
+ rff[-(N~2)T]h(NT)\T
и т. д.
Введем в рассмотрение векторы
r'fy=¥fy(0)rfy{T)...rfy{NT% Ь'=||/г(0), h(T)...h{NT%
и матрицу
R =
rff(0) r/f(-T),...,rff(-NT)
rff(T) rff(0),...,rff[-(N-l)T}
rff{NT) rff\{N-\)T\,...,rff(0)
Отметим, что матрица R — симметричная, так как
корреляционная^ функция является четной, поэтому г//(iT) =./-//(—iT)
(i=0,N).
С учетом принятых обозначений уравнение (9.1.15) примет
вид
(9.1.16)
(9.1.17)
rfy = TRh.
Откуда искомый вектор
h =
-R-'TfyT.
Определим теперь по экспериментальным данным вектор г/у и
матрицу R. В связи с этим запишем на основе (9.1.13)
приближенное выражение
yv-i
_L ^
N а
rfyVT>=-
y(sT)f{(s~\-i)T] (i = 0,N), (9.1.18)
Аналогично,
5 = 0
ЛГ-1
7/
(1Т) =
N
f(sT)f[(s + i)T\ (i=0,N). (9.1.19)
5=0
Таким образом, алгоритм идентификации импульсной
переходной функции сводится к вычислению корреляционной и
взаимно корреляционной функций по формулам (9.1.19), (9.1.18) и
затем решения уравнения (9.1.17).
§ 9.2. Метод наименьших квадратов
Некоторые понятия теории временных рядов. Запишем
уравнения объекта (9.1.1), (9.1.2), полагая для простоты х—0, в
форме «вход — выход»:
yn+an-iyn-1 + ~-+aiy + a0y==kv.f»+... + k1f + k0f. (9.2.1)
198
Уравнение (9.2.1) может быть аппроксимировано с помощью
конечных разностей, когда
dy ^ y(t)-y(t-T) u df = /(0-/(*-П (922
dt Т dt Т
Используя оператор сдвига (задержки) г-1, можно записать
dy = (1-дг-1)у(0 . rf/ = (l-z-i)f(t) (9 2 3)
rf* Т ' dt T
В результате аппроксимации уравнение (9.2.1) принимает вид
разностного уравнения:
(9.2.4)
Легко получить соотношение между параметрами ср/, г/ (i =
= 1, п, / = 0, jx) и а,-, А/ (i=0, az—1, /=0, (i). Опуская далее
параметр Т (полагая для простоты Г=1), получим на основе
(9.2.4)
= Г(г~1} ./(*)• (9.2.5)
Существует еще одна форма аппроксимации асимптотически
устойчивых процессов, описываемых уравнением (9.2.1). Она
следует из интеграла свертки (9.1.8), если положить h(t)=h(iT),
f(t)=f(iT) при it^t^.(i+l)T. В этом случае (9.1.8) примет вид
где hi — h(l) — значение импульсной переходной функции в
момент времени /.
Очевидно, что связь между формулами (9.2.5), (9.2.6)
определяется соотношением
0+ + '"-** „ ;/» , =А0 + М-1 + *>г-а+-
1 + ^-i + ... + fe-x*-*"-1) + ?„г-" ^ J Т " ^
(9.2.7)
Процедура определения правой части этого равенства по
левой части называется операцией длинного деления.
199
Для асимптотически устойчивых процессов h(t)-+0 при £->оо,
поэтому можно ограничиться конечным числом (q) слагаемых
в (9.2.6).
Тогда
^)==2 hiz~lf^ <9-2-8>
Это выражение является временным рядом, позволяющим
найти у в момент времени k по значениям / в q моментов
времени, предшествующих моменту k.
Модель (9.2.8) называется моделью со скользящим средним
(СС-модель). Термин «скользящее среднее» появился в связи с
тем, что выражение (9.2.8) по существу является оператором
усреднения (^7+1) значения / (правда, при этом не выполняется:
я
ни условие \ ht=\, ни условие Ы>0 для всех /).
/=о
Пусть в (9.2.4) ri = 0 (i"=l, (i),r0=l, тогда
п
0(*)=-2 ?/*-<'> у (£)+/<*). (9.2.9)
Это также временной ряд, определяющий значение у в момент
времени k на основе значений у в моменты, предшествовавшие
&, и значению /(&).
Выражение (9.2.9) называется авторегрессионной моделью
(АР-модель). Этот термин вызван тем, что (9.2.9) регрессирует
y(k) на прошлые значения у. И наконец, модель (9.2.4), которую
можно записать как
^> = -2 Т/г"^(*) + 2 г/*~У/<*>' (9.2.10)
называется авторегрессионной моделью со скользящим средним
{АР СС-модель).
Пусть параметры моделей (9.2.9), (9.2.10) неизвестны, тогда
используя для обозначения неизвестных параметров вектор аг
запишем эти модели в виде
п
у(£)=2а<г-''^>+/(*); (9.2.11>
0<*) = 2 а/г"'^<*) + 2 an+j+iz~ff^- (9.2.12)
Требуется по известным (в результате измерений) значениям
y(k) (k = 0y l, 2, ...) найти вектор параметров а. После опреде-
200
ления этого вектора нетрудно вычислить искомые параметры
aiy kj (/=0, п—1; / = 0, (i) исходного уравнения (9.2.1).
Метод наименьших квадратов [9.1]. Пусть в модели (9.2.11)
я = 2, a */(6), /(6) (6 = 0, 1, 2, ...) точно измеряются и требуется
определить параметры а2 щ уравнения (9.2.11), которое
принимает вид
y(k)=aly(k^\)+a2y(k^2)-\-f(k) (£=0,1,2,...). (9.2.13)
Записывая это уравнение для 6 = 2 и 6 = 3, получим систему
алгебраических уравнений
<*i</(l) + a2#(0)=r/(2)-/(2); j (Q 2 H)
aiy(2)+a2r/(l) = r/(3)-/(3), J
решая которую найдем искомые числа аг, си.
Допустим теперь, что /(6) (6 = 0, 1, 2, ...) измеряется с
погрешностями. Тогда для каждой пары уравнений вида (9.2.14),
записанной для различных 6 (следующая пара порождается
6=4, -6 = 5, затем 6 = 6, 6=7 и т. д.), получим различные
значения искомых параметров аг, ои. Возникает мысль определить
a2, ai так, чтобы разность (невязка) между правой и левой
частями уравнения (9.2.13) при 6=2, ..., N была наименьшей. Для
этого сформируем сумму квадратов невязок
N
^ = 2 [У^)-а1^(*-1)--«2^/(^~2)-/(6)]2. (9.2.15)
Необходимое и достаточное условие минимума LN составляет
систему из двух алгебраических уравнений
N
-&=2 У [y(A)-a1y(*-l)-a2y(ft-2)-/(*)]y(ft-2);
£-2
(9.2.16)
N
-fe=2 У [y(k)-aiy(k-l)-a2y(k-2)-f(k)]y (k-l)=0,
Л=2
(9.2.17)
решая которую найдем искомые числа аг, а\.
Рассмотрим теперь определение параметров модели (9.2.11),
когда f(k) (6 = 0, 1, ...)—неизмеряемая неизвестная функция.
Запишем авторегрессионную модель (9.2.11) в векторной
форме
y(k) = a'by(k) + f(k) (6 = /г, л + 1,...), (9.2.18)
где
о=Ца1э a2,...,aj'; 6y(k)=\\y(k- 1),..., y(k-n)\\f. (9.2.19)
7-1017 201
В (9.2.18) в отличие от (9.2.11) принято начальное значение
k = n. Это связано с тем, что при k^n вектор 8(k) содержит
только результаты измерений, тогда как в противном случае он
содержал бы неизвестные начальные условия у(—1), у(—2)
и т. д.
Поскольку функция f(k) (|& = 0, 1, 2, ...) неизвестна, то будем
искать такую оценку а вектора а, чтобы сумма квадратов
«невязок»
N
^ = У[1У(к)-а'(>уаг)]* (N-n>n)
(9.2.20)
k=n
была минимальной. Дифференцируя (9.2.20) по компонентам
вектора а и приравнивая нулю производные, получим
Г N -1 N
Вводя обозначение
Pn^ 2м*>**<*>
(9.2.21)
(9.2.22)
найдем из (9.2.21) искомый вектор
N
a = PN ^ by{k)y(k).- (9.2.23)
Выведем еще одну эквивалентную (9.2.23) формулу для
оценки вектора а на основе метода наименьших квадратов. В связи
с этим введем в рассмотрение N—я-мерные векторы г\ и v, а
также матрицу U:
Г) =
При этих обозначениях уравнения (9.2.18) для k = ny N—п и
минимизируемая функция LN примут вид
(9.2.25)
(9.2.26)
У(п)
У{п+\)
y(N) \
у и==\
1 К (га)
К<я+1)
*»(ЛО
' v =
/(«)
/(я+1)
|/(Л0
. (9.2.:
Дифференцируя (9.2.26) по компонентам вектора а и
приравнивая производную нулю, получим U'[r\—£/а]=0, отсюда
a=,[U'U\-lU'r[.
(9.2.27)
202
Пример 9.2.1. Пусть имеется асимптотически устойчивый объект
управления, описываемый уравнением
у+а0у = /, (9.2.28)
в котором параметр а0 и воздействие f(t) неизвестны. Пусть в результате
измерений выхода объекта в известные моменты времени О, Г, 27\ ... (Г = 0,08)
получены
У(0) = 1,5; 0(1) =0,6; у (2) =0,56; у (3) =0,236. (9.2.29)
Требуется определить параметр а0.
Переходя к решению этой задачи, аппроксимируем (9.2.28) разностным
уравнением вида
У&Т)+ъу№-\)Т]=г0/(кТ) (*=0, 1,...) (9.2.30)
и представим это уравнение как авторегрессионную модель (9.2.11):
у (k) = axz-iy (Л) + /(*); (9.2.31)
а1 = -Т1 = 1/(а0ГЧ-1); /&)=—£—rf (k). (9.2.32)
Вычислим по формуле (9.2.22) значение Pjv""1. В рассматриваемом случае
в соответствии с (9.2.19) &y(k)=y(k—1) и, таким образом,
з
Р^1 =2 </2(* - 0 = 1,52 +0,62 + о,562 = 2,92.
На основе (9.2.23) заключаем, что
1 1 *\f\
«1 = — (У (0)* (1) + у(\)у (2) + у (2) у (3)) = ^ = 0,47, (9.2.33)
и, следовательно, оценка искомого значения
До = (-«1 + 1)/(Тад = 14. (9.2.34)
Если использовать для определения параметра ai формулу (9.2.27), то следует
ввести вектор г\ и матрицу U:
1у{1)
\у (2)
\ У (3)1
=
1 °'6 1
0,56
1 0,236
; и = \
1 1,5 II
0,6
1 0,56 1
тогда получим вновь
ai=0,47. (9.2.35)
Рекуррентный алгоритм метода наименьших квадратов
(последовательный регрессионный метод). Представим себе
реальный физический процесс, описываемый авторегрессионной
моделью (9.2.11) с неизвестными параметрами a* (i=l, n). Пусть
требуется идентифицировать эти параметры в темпе реального
процесса. Это означает, что оценка неизвестных параметров
должна осуществляться сразу после очередного измерения выхода
объекта. Используя метод наименьших квадратов, можно
поступать так: после А/+1-го измерения вычислить в соответствии с
7* 203
(9.2.22) значение P,v+1 и затем найти оценку a<N+l) по формуле
(9.2.23), после jV + 2-го измерения, используя (9.2.22), (9.2.23),
снова найти оценку а(ЛГ+2) и т. д.
Таким образом, после каждого измерения необходимо заново
осуществлять обращение матрицы по формуле (9.2.22) и
вычисление оценки по (9.2.23). В связи с этим возникает вопрос:
нельзя ли найти в явной форме связь между оценкой после /-го
измерения, с одной стороны, и оценкой после i—1-го измерения и
результатами 1-го измерения — с другой. Такое рекуррентное
соотношение существует и его использование называется оценива-
ваныем параметров в замкнутом контуре или последовательным
регрессионным методом.
I Утверждение 9.2.1. Рекуррентный (последовательный)
алгоритм метода наименьших квадратов для
последовательной оценки параметров авторегрессионной модели (9.2.11)
имеет вид:
5(0 = 5('-i)+k</>[tf(/)-e'(/)a('-1)I (* = л, л+1,...); (9.2.36)
к(О = яд(/)либок(0 = Я._1б^(/)[1 + б;(0Р/_16^(/)]-ь (9.2.37)
Л=Л^-я/-Л(г)[1+в;(1)Р/.1*у(г)1-1в;(/)Я/_1> <9.2.38>
где а(г) — оценка вектора параметров а после /-го измерения
выходной переменной у.
В качестве начальных условий для алгоритма можно
принять
i(0)=0; P0 = aEn, (9.2.39)
I где а — достаточно большое положительное число.
Доказательство утверждения несложно.
Действительно, на основе (9.2.21), (9.2.22) запишем
N N-1
/>^S<">=2 6y(k)y(k)=^6y(k)y(k) + 6y(N)y(N). (9.2.40)
Заменяя y(k) его оценкой 6'y(k)alN~l\ получим выражение
Pn1 a<"> = 2 6y(k)6'y(k)aN-* + 6y(N)y№=
- by (N) by (N) at"-1* = PI?*"-1) + *, (N) [y (N) - by (N) a^~%
которое после умножения его слева на PN совпадает с (9.2.36).
204
Переходя к выводу соотношения (9.2.38), запишем (9.2.22) в
виде
N N-1
= Pu-i + by{N)b'y(N). (9.2,41)
Умножая это равенство слева на PN и справа на Pn-i, получим
PN-i=PN + PN*y(M)b'y(N)PN_l. (9.2.42)
Отсюда следует, что
Pjv-Л W)=PN6y (N)[l + b'y (N) PN_x6y (N)}
или
PNby(N) = PN__lby(N)[l + b,y(N)PN_l6y(N)\-K
Умножая это выражение справа на b'(N)PN-{ и учитывая
(9.2.42), получим (9.2.38), а подставляя его в первое из
соотношений (9.2.37), получим второе.
Таким образом, утверждение доказано. Отметим, что одним
из достоинств рекуррентного алгоритма является то
обстоятельство, что он не содержит операции обращения матриц, так как
входящее в (9.2.38) выражение [\+b'(i)Pi-\by(i)] является
скаляром. Рекуррентный, или последовательный, алгоритм
приводит к оценкам, обладающим следующими свойствами.
1. Если f(\k) (& = 0, 1, ...) представляет собой
последовательность независимых одинаково распределенных случайных
величин, то оценка а является несмещенной и состоятельной.
2. Если последовательность f(k) (6 = 0, 1, ...) гауссовская, то
оценка эффективна.
Пример 9.2.2. Применим алгоритм (9236). (9.2.38) для оценки
параметра си модели (9.2.31) из примера 9 2.1. Итак, пусть в результате
измерений получено г/(0) = 1,5; г/(1) =0,6. Найдем вначале значение pi по формуле
(9.2.38). Принимая во внимание, что в рассматриваемом случае &y(i)=y(i—1)
и р{ —скаляры, запишем (9.2.38) в виде
Pi ■= ^ . (9.2.43)
Кроме того, в соответствии с (9 2 39) примем
а<°> = 0; р0 = 1, (9.2.44)
тогда из (9.2.43) при i=l получим
Р\ = : =0,31.
Fl 1+(1,5)2 1
На основе (9 2.36) заключаем
а*1* = а<°> +ргу (0) [у (1) - у (0) а[°>] =0,276. (9.2.45)
205
Пусть после третьего измерения получено i/i(2)=0,56. Тогда оценку
(9.2.45) можно уточнить. Для этого вычислим
в Pl °'3' -0 20
Р2 I +Ь2у (2)Л 1+(0,6)20,31
и
а<2> = а<!> + р2у (1) [у (2) - у (1)а*1'] = 0,336. (9.2.46)
Затем после четвертого измерения получим (/(3) =0,236. Вновь уточняя оценку
(9.2.46), найдем
Р2 0,28
РЗ l+bfa)p2 1+(0,56)20,28 ' '
a<3> = af> + p-iy(2) [у (3) - у (2) а<2>] =0,394. (9.2.47)
Эта оценка приближается к оценке (9.2.33), полученной при использовании
нерекуррентного алгоритма наименьших квадратов.
Оценка параметров СС-модели. Пусть в (9.2.8) f(k)=u(k) —
измеряемая (либо известная) функция управления и пусть
измерение y(k) осуществляется при наличии помехи х(&), тогда
модель со скользящим средним примет вид
0(А) = 2 **«(* — ') + *(*). (9.2.48)
/-о
Это соотношение, выражающее выходной сигнал линейной
стационарной системы как взвешенную сумму прошлых
значений входного сигнала, можно записать в векторной форме
y(k)=h'6u(k)-\-*(k), (9.2.49)
где h'HIMi.-. AJI; М*)=И*>. я(*-1),.... я(*-?)1Г.
Для оценки вектора h будем минимизировать функцию
£" = 2 1УМ-Ъ'Ьи(Ь)}2. (9.2.50)
Аналогично (9.2.20) заключаем, что h является решением
уравнения
Г N -Л N
Здесь следует отметить, что такая оценка h не является
несмещенной, за исключением случая, когда х(&) и и (к) некорре-
лированы. Убедимся в этом на простом примере. Пусть
y(k) = hQu(k) + *(k) (£ = 0,1,2,...) (9.2.52)
206
Тогда в соответствии с (9.2.51) получим
N
h, = -^ . (9.2.53)
Подставляя в (9.2.53) выражение (9.2.52) для y(k), получим
n
а~=й0+-^ • (9-2-54>
Л = 1
Отсюда видно, что А0 не стремится к h0 при N-*»oo, за
исключением случая, когда М{х(Л)^(й)}=0. Отметим, что последнее
имеет место, в частности, тогда, когда n(k) (&=0, 1, ...) является
«белым шумом». Из этого вытекает необходимость
«отбеливания» процесса х(Л) (&=0, 1, ...).
В связи с этим опишем помеху x(fe) (fe=0, 1, ...)
авторегрессионной моделью
х(£) = 2 ai }х(£--/)+/<2>(£), (9.2.55)
где /(2)(А) (&=0, 1, ...)—гауссовский «белый шум» с нулевым
средним.
Требуется оценить параметры ш(2) (i=l, N2). Модель,
описываемую уравнениями (9.2.48), (9.2.55), можно записать как
y = h(z-1)u-\-x; x=aM{z^)K+fM, (9.2.56)
где h(z-i)=h0 + hlz-i + ... + hQz-«; a(2>(z-i)=a|V-i + -" +
Исключая переменную х, получим
у=а(2) (z-1) г/ + [ 1 - а<2> (г"1)] /г (z~l) и + /<2>. (9.2.57)
Обозначая
q+N*
^l^a(2){z^h(z-i)==biz-i)= ^ &^7S (9.2.58)
/=о
представим (9.2.57) в форме
у<*)=5«/(2)у<*--') + ^ M(*-~/)+/(2)(*)>
207
/-1 ;=0
которую можно переписать в векторном виде
y(k) = a'b^(k) + f(k)y (9.2.59)
где а'=||ар>,..., <*$, Ь0,...9 bq+NJt 6<3> (k)=\y (ft- l),..., y{k-N2),
#(£),..., U(k — q — N2)\\.
Теперь, если порядки q и N2 известны, то для получения
несмещенных эффективных оценок а можно применить
рекуррентный алгоритм (9.2.36)...(9.2.38), затем найти, используя (9.2.58),
K = h\ Л1=61 + аГ2)Л0,... (9.2.60)
Оценка параметров АРСС-модели. Переходя к оценке
параметров авторегрессионной модели со скользящим средним,
запишем (9.2.12) в векторной форме: /
y(k) = a'№(k) + an+lf(k) (k=0, 1,2,.,.), (9.2.61)
где
а =llai>"-> ая> ая+2»--., ая+1Д|+1|;
ЪЧк)=\\у{к- 1),..., y(k-n), /(*- l),..., /(ft-txf.
Формально уравнение (9.2.61) эквивалентно уравнению
(9.2.18), поэтому для определения вектора параметров а можно
использовать рекуррентный алгоритм (9.2.36) ...(9.2.38). Однако
вектор 6(4)(&) содержит неизмеряемые величины f(k—1), ...,
f(k—(х). В связи с этим оценим, используя (9.2.61), переменную
/(ft), полагая без потери общности an+i = l:
f(k)=y(k)-a'№(k) (^=0, 1,2,...). (9.2.63)
Задаваясь начальными условиями у(—i)=z/(°)(—i), /(—/) =
= /(°)(—у) (t=l, n, /=1, \х)у заменим неизмеряемые компоненты
вектора 6(4)(&) их оценками и сформируем Z(k) = \\y(k—1), ...,
1/ (Л—л) э f (Л— 1) / (Лг—|jl) ||.
Таким образом, общий алгоритм последовательного
оценивания принимает вид
5(0=o<'-1)4-k(0[y(/)-S'(/)5('-i)]; (9.2.64)
k«) = p.6(j); (9.2.65)
Л = />,-! - Pi-i* (t) [1 + 8' (/) Р^Ъ' (0]-iЪ'(1) Ям. (9.2.66)
Этот алгоритм может приводить к смещенным оценкам а. Для
получения несмещенных оценок следует полагать в (9.2.62)
вместо п число п'>п. Фиксируя некоторое п' и используя алгоритм
(9.2.64)...(9.2.66), находим а и определяем по формуле (9.2.63)
последовательность f(k) (k = 0y l, 2, ...), если она некоррелиро-
вана, то это свидетельствует о несмещенности и состоятельности
208
(9.2.62)
оценки а. Если же последовательность f(k) (&=0, 1, 2, ...) кор-
релирована, то следует увеличивать число п' до тех пор, пока
элементы этой последовательности окажутся независимыми.
Связь рекуррентного алгоритма метода наименьших
квадратов и алгоритма фильтрации. Рассмотрим объект управления,
описываемый авторегрессионной моделью:
0<А) = 2 <*#<*-') + /(*). (9.2.67)
Пусть параметры а* (*=1, п) этого уравнения неизвестны, а
f(k) — последовательность гауссовских случайных величин с
нулевым средним и известной дисперсией ги^\
Интерпретируем задачу определения неизвестных параметров
щ (*=1, n) как задачу фильтрации. В связи с этим введем в
рассмотрение «объект», описываемый уравнениями:
o(ft+l) = o(ft); а(в) = а<°>; (9.2.68)
y(k) = 6'y(k)a-\-K(k). (9.2.69)
Первое из них отражает факт nocfc^HtTBa (независимости от
k) параметров уравнения (9.2.67), "а второе — совпадает с
(9.2.67), если учесть (9.2.19) и переобозначить f(k)=n(k). При
этом by(k)—известный (получаемый в процессе работы системы)
вектор.
Для «объекта» (9.2.68), (9.2.69) можно построить устройство
восстановления (фильтрации) вектора a (k) по результатам
измерения сигнала y(k), который состоит из полезного сигнала
6'(&)а и помехи х(&). Для построения этого фильтра
воспользуемся уравнениями (5.3.19)...(5.3.21) оптимальной фильтрации.
Очевидно, что в рассматриваемом ф(&)=£п, #(й)=0, £)(&) =
= 6'(ft), и поэтому уравнения фильтра примут вид:
a(k+\)=a(k)+k(&+\)[y(k + l)-6y(k+\)a(k)]; (9.2.70)
к (А+1) = Яв(А+ l)ty(k+l) [6;(k+l)Pa{k + l)6y{k+l)+r[\)]-*;
(9.2.71)
Pa(b+l) = [E-k(k)6'y(k)]Pa(k). (9.2.72)
Подставляя (9.2.71) в (9.2.72), получим
Яв(Л+1) = Яв(А)-
-Pai^^i^l^^Pj^b^^ + r^l-^byi^Paikh (9.2.73)
Сравнивая (9.2.70), (9.2.73) с (9.2.36)...(9.2.38), заключаем, что
соотношения (9.2.36)...(9.2.38) определяют алгоритм
фильтрации, в котором [9.1]
Pa(k) = P,rW.
209
§ 9.3. Стохастическая аппроксимация.
Идентификация параметров и переменных состояния
Алгоритм стохастической аппроксимации. Рассмотрим
асимптотически устойчивый объект управления, описываемый
уравнениями
х(£ + 1)=Фх(£)+ги(£) + Ф/(*0; (9.3.1)
y(k)=dx(k) + n(k)y (9.3.2)
где x(k) — я-мерный вектор состояния; u(k)—управляющий
сигнал; /(&), к(к)—внешнее возмущение и помеха, являющиеся
последовательностями случайных чисел с нулевым средним и
ограниченными дисперсиями;
Ф =
I 0|£„_J
1
; г=
1 г'
г?
1 гп\
; Ф°=
14
Ы
UJ
; *' =
1 Х 1
0
!о 1
(9.3.3)
l=ll'i Ц-
Требуется по результатам измерений переменной y(k)
определить компоненты векторов Г, г, являющихся неизвестными
параметрами объекта (9.3.1) (9.3.2).
Представим уравнения (9.3.1) (9.3.2) в форме (9.2.8), которая
является моделью со скользящим средним (СС-модель). Для
этого найдем изображение измеряемой переменной при нулевых
начальных условиях
y(z)=d(Ez — 6r1ru(z) + d(Ez — ФГхф/(г) + х(2:), (9.3.4)
где z — комплексное число дискретного преобразования Лапласа
еэ
(в частности, y(z)'=^\ y(k)z~k). Используя разложение
(Ez — &)-i^Ez-l + i&z-2-{-<i>2z-z + ..., (9.3.5)
в справедливости которого нетрудно убедиться, умножая (9.3.5)
на (Ez—ф), получим на основе (9.3.4), после перехода к
оригиналу, что
d<blru(k — /-!) +^ <1Ф'ф/(Л—/—1) + *(*)- (9.3.6)
/=о /=о
В силу асимптотической устойчивости объекта ограничимся
первыми 2п членами ряда (9.3.6), тогда
2я-1 2я-1
(/(А)=5! dO»'re(* —/—1)+2 йФ'ф/Сй —/ —1)+х(Л). (9.3.7)
/-о
/=о
210
Таким образом, числа Ы (i = 0; q=2n—1) в модели (9.2.8)
определяются выражениями
А/=<Гф'г либо А,=<1Ф'<|> (/ = 0, 2/г—1). (9.3.8)
Вводя обозначения
ee<*)=[a<A-l)f...,«<ft-2*)|'; »,(*) = (/(*-1),... /(*-2/t)||';
(9.3.9)
a<1>=||dr, 4Фг,..м dtf2»-1!-)'; «<2>=ИФ. (1Ф>,..., d^2*-1^', (9.3.10)
запишем (9.3.7) в виде
y(ft)=e;(ft)o(1) + ft/a(2) + *(*)- (9.3.11)
Будем искать оценку а(1> вектора а(1> из условия минимизации
критерия
J = M {[y(k)-6u(k)aW]2}. (9.3.12)
В соответствии с алгоритмом стохастической аппроксимации
определяем искомую оценку из условия минимума (в каждый
момент времени) невязки [y(k)—6'u(k)aM]2 по методу
градиента:
a,(k+l)=a(1)(k)^a1(k)[y(k)^6Ak)a^(k)]6u(k);
o<1)(0)=[a<1>]<°),
где параметр а\ (k) удовлетворяет условиям § 7.3,
(2п-1
(9.3.13)
2^(^=00; 2a?(*)<oo; ж 2 °/(1)i(0) <co- (9-ЗЛ4>
-1 *=1 l/=0 J
В [9.9] доказано, что оценки a(1)(&) сходятся с вероятностью
1 к истинному значению а(1> в среднеквадратическом смысле:
lim
к
(9.3.15)
Если вектор а(1) найден, то искомые векторы I, г находятся из
отношений
аР>
aj?>
*?\
ni1} п(1)
(1) (1) (1)
аг , аз ,..., ал+1
„(1) „(1) „(1)
ал , ал+1,..., а2Л-1
«Л + 1
«Л+2
СЬ2л
• (9.3.16)
Переходя к доказательству этих соотношений, отметим, что в
силу (9.3.10)
(9.3.17)
л(1>
=dФ</-1> г(/ = 1, 2я).
211
Теперь убедимся в справедливости (9.3.16) при /г=3. В этом
случае
II 0 1 О II || гг || || 1 ||
Ф= 0 0 1 ; г= г2 ; d'= О . (9.3.18)
II /х /2 /3 •' " гз '' " О И
Нетрудно видеть, что
cti
(1).
dr = ri; ъЪ1)=йФт = г2; а\)=АФ2т = г1
d).
(9.3.19)
и, таким образом, из (9.3.19) следует первое из отношений
(9.3.16). Второе из равенств (9.3.16) имеет в рассматриваемом
случае вид
ГУ(1) nil) Г7(1)
Ctl (X2 СХз
„(1) „(1) „(1)
(Х2 (Хз СС4
(1) (1) (1)
аз СС4 СС5
1—1
1ail) I
а|1)
oSx> 1
г
dФ
йФ2
Нетрудно проверить, что
dr (1Фг с1Ф2г
сГФг d$2r d$3r
d$2r d$3r с!Ф4г
d
г, Фг, Ф2г|
dФ
ЙФ2
Ф3г.
dФ3r
d$4r
d$5r
(9.3.20)
d
ЙФ
С1Ф2
-Еа,
и поэтому (9.3.20) можно записать в виде
||г, Фг, Ф2г|| I =Ф3г.
(9.3.21)
Используя теорему Гамильтона — Кэли, в соответствии с
которой ф3=£У1 + ^Ф + /зФ2, убеждаемся в справедливости (9.3.21)
и, следовательно, (9.3.16) выполняется.
Таким образом, имеет место утверждение.
Утверждение 9.3.1. Алгоритм идентификации
параметров (векторов 1 и г) объекта (9.3.1), (9.3.2) состоит из
операций: а) в соответствии с рекуррентным соотношением (9.3.13),
в котором параметр ax{k) удовлетворяет условиям (9.3.14),
определить при достаточно больших k вектор а(1); б) по
формулам (9.3.16) найти искомые векторы 1 и г.
Идентификация параметров и переменных состояния.
Допустим, что наряду с определением параметров объекта (9.3.1),
(9.3.2) требуется восстановить вектор переменных состояния
212
x(k). Пусть f(k) и u(k)—гауссовские независимые
последовательности чисел с известными дисперсиями Гц*1), Гц(2)
соответственно, а вектор г|? известен. Приведем два способа
одновременного оценивания параметров и состояния объекта (9.3.1), (9.3.2).
Первый способ заключается в использовании оптимального
фильтра (5.3.19)...(5.3.21), в котором вместо неизвестных Фиг
подставляются их оценки, доставляемые алгоритмом
идентификации (9.3.13), (9.3.14) и соотношениями (9.3.16), где следует
заменить вектор а^ его текущими оценками а(1)(/г). Тогда
устройство идентификации переменных состояния и параметров бу-
лет описываться уравнениями
а^(к^\)^ф)(к)^ах(к)[у(к)^ЬЛк)а^{к)]Ьа{к),
(1)1(0).
a(i)(0)=[a(1)]
5Р>(А)
(9.3.22)
г(А) =
a^ik)
К*) =
5i1}(*)
Ц1](к)
а^{к).,.а^(к)
ах{ку~
а<Х>
= оо;
(ft)
;<i)
id)
|2л-1
a(nli (ft)
а$ (ft)
*-о
*-о
at(ft)<oo; Ж |2 а/ (0)
oo:
(9.3.23)
(9.3.24)
x (ft+ !)'*=
0\E»
x(ft) +
'Л-1
H.ft) |,
T(ft)
+ г (ft) и (ft);
k(ft+l)=Pa(ft+l)d'[dPa(ft+l)d' + r(n)]-1;
+ k(ft+l)U(ft + D-d
x(ft) —dr(ft)«(ft)
(9.3.25)
(9.3.26)
Pa(ft+1) =
0\E
Л—1
l(ft)
[£„-k(ft)d]Pa(ft)
T(ft)
+ фг!1Ч'.
(9.3.27)
Напомним, что первые два из условий (9 3 24) выполняются,
если
a!(ft)=l/ftp (0<р<1)
213
Второй способ основан на использовании расширенного
фильтра, рассмотренного в § 5.2, и состоит в построении устройства
восстановления для «объекта», описываемого уравнениями:
х(А+1) = Фх(А) + ги(А)4-Ф/(А); х<°) = х(0); (9.3.28)
1(А + 1) = 1(Л); 1<0) = 1<°>; (9.3.29)
r<ft+l)«=r(4); г(0)=г<°>; (9.3.30)
y(k)=dxik) + -*.(k)y (9.3.31)
где (9.3.28), (9.3.31) совпадает с (9.3.1) (9.3.2), а уравнения
(9.3.29), (9.3.30) выражают постоянство неизвестных
параметров. Вводя вектор состояния системы (9.3.28) ...(9.3.31)
х(А) =
1 х<!>(Д:)
•*(2) (k)
\ х<3><£) \
1 х<1>(*)=х(Л);
; х<2>(£) = 1(£);
х<3>(£) = г(£),
запишем эти уравнения как
х(* + 1) = х(х(А), и(£))+ф/(А);
y\k
)=dx(ft),
(9.3.32)
(9.3.33)
(9.3.34)
где
х (л: (ft) «(*)) =
0 Еп_г
xilHk) + xW(k)uik)
(9.3.35)
х<2> (к)
х<3> (к)
d = |d, 0, 0||; «=№'. 0, 01'. (9.3.36)
Уравнения расширенного фильтра [5.3, 6.6, 9.10, 9.11] для
нелинейного «объекта» (9.3.33), (9.3.34) аналогичны уравнениям
(5.2.39), (5.2.40).
Глава 10 ИДЕНТИФИКАЦИОННЫЙ И ПРЯМОЙ
АЛГОРИТМЫ АДАПТИВНОГО УПРАВЛЕНИЯ
В этой главе приводятся методы синтеза адаптивных
регуляторов. Глава состоит из двух частей.
В первой части (§ 10.1) строится два вида параметрически
адаптивных систем. Алгоритм регулирования первого вида
систем основывается на модальном управлении, а в качестве
идентификационного алгоритма адаптации используются процедуры
метода наименьших квадратов. Второй вид параметрически адап-
214
тивных систем основан на хметоде стохастической
аппроксимации. Определяются параметры алгоритмов адаптации, при
которых достигается цель управления при белошумных внешних
возмущениях.
Параграф 10.2 посвящен синтезу функционально-адаптивных
систем. В качестве закона регулирования используется
компенсационный алгоритм. Для определения параметров градиентного
алгоритма адаптации применяется метод рекуррентных целевых
неравенств, обеспечивающий достижение цели адаптации в
условиях неизвестных, но ограниченных внешних возмущений.
§ 10.1. Параметрически-адаптивные системы
Проблема синтеза параметрических адаптивных систем.
Рассмотрим полностью управляемый дискретный объект
управления, описываемый уравнением
У(к) + <?1У(к— 1) + — +<?пУХЬ — л) = г1а(*—1)+.-+^и(* —К-)+
+/<*), (10.1.1)
где y(k)—измеряемая (выходная) переменная объекта; f(k) —
внешнее воздействие, являющееся случайным процессом с
независимыми значениями (случайным процессом типа «белый
шум»), причем
Л1 {/<*)} = 0; M\P(k))=o) (10.1.2)
(of2 — некоторое число), параметры <pr-, r;- (i=l, п\ /=1, \i) —
неизвестные числа.
Требуется найти алгоритм управления, при котором
достигается цель управления, задаваемая критерием
Urn M [уЧЩ<Ь, (10.1.3)
в котором |Д — заданное число.
В соответствии с этапами процедуры синтеза адаптивного
регулятора вначале необходимо построить алгоритм
регулирования. Методы его построения будут приведены ниже. Второй этап
синтеза состоит в выборе класса алгоритмов адаптивного
управления. Напомним, что для параметрически адаптивных систем
этот класс составляют идентификационные алгоритмы. Перейдем
к третьему этапу синтеза — выбору алгоритма адаптации. Таким
алгоритмом в принятом классе выступают алгоритмы идентифи-
ции. Рассмотрим возможности различных методов
идентификации: а) идентификации с настраиваемой моделью; б)
корреляционного способа; в) метода наименьших квадратов; г)
алгоритма стохастической аппроксимации; д) расширенного фильтра,
е) метода максимального правдоподобия [9.2], ж) бейсовскнх
оценок [9.3].
215
Первые два метода отпадают, поскольку в них
предполагается возможность измерения возмущающего воздействия, а в
рассматриваемом случае f(k) предполагается не доступной
измерению. Последние два метода мало пригодны, так как отсутствуют
какие-либо сведения о законах распределения неизвестных
параметров.
Выбираем для дальнейшего рассмотрения в качестве
алгоритмов идентификации (адаптации) алгоритмы метода
наименьших квадратов и стохастической аппроксимации.
Отметим некоторые обстоятельства, которые существенно
затрудняют выполнение четвертого этапа синтеза — определения
параметров алгоритма адаптации из условия сходимости
процесса адаптации. Рассмотрим вначале случай, когда
используется метод наименьших квадратов. В этом случае процесс
идентификации сходится к истинным значениям параметров при
условии, что u(k) и f(k) белошумные случайные процессы. Для
переменной u(k) это условие не выполняется, так как управление
u(k) является решением дифференциального уравнения,
описывающего адаптивный регулятор, на вход которого поступает
выходная переменная y(k) объекта (10.1.1), что означает
определенную зависимость чисел и (к) для различных значений к.
3to приводит к смещению оценок параметров от их истинных
значений.
Использование алгоритма стохастической аппроксимации,
описанного в утверждении 9.3.1, для идентификации параметров
объекта (10.1.1) не приводит к смещению оценок, однако этот
алгоритм применим лишь для устойчивых объектов. Это условие
в процессе работы адаптивной системы может нарушаться.
Действительно, поскольку алгоритм регулирования строится с
использованием текущих оценок параметров объекта, может
случиться так, что на каком-то шаге идентификации эти оценки
будут таковы, что закон управления, построенный с их
использованием, приводит к неустойчивости всей системы. Последнее
явится причиной нарушения процесса идентификации, поскольку
при построении алгоритма идентификации предполагалась
малость чисел йФ{г при достаточно больших i, что возможно лишь
при условии асимптотической устойчивости.
Отметим попутно, что в методе наименьших квадратов
отсутствует ограничение на устойчивость системы, и поэтому
нарушение устойчивости не приводит к ошибкам оценивания параметров
(если u(k) и f(k) белошумные процессы), а тогда при
приближении оценок к истинным значениям параметров синтезируется
алгоритм регулирования, обеспечивающий асимптотическую
устойчивость системы.
Таким образом, основной проблемой синтеза
идентификационных алгоритмов адаптивного управления является
доказательство сходимости процесса адаптации.
216
Построение алгоритма регулирования на основе модального
управления. Возвращаясь к первому этапу синтеза, допустим, что
параметры <р,-, /7 (i'=l, n\ /=1, jx) объекта (10.1.1) известны.
Пусть в (10.1.3) число А=оо. Цель управления
HmAf {*/2(£)}<оо (10.1.4)
£->оо
достигается при любом регуляторе, обеспечивающем
асимптотическую устойчивость системы. Потребуем дополнительно к
асимптотической устойчивости, чтобы корни характеристического
полинома замкнутой системы имели наперед заданные значения.
Таким образом, речь идет о построении модального управления
длч объекта (10.1.1). Уравнение регулятора имеет вид
4toB(*) + ?pi«(*— 1) + —+ ?ря»(* — Лр)=/роУ<*)+ —
+ ^№0»(*-1*р). (10.1.5)
где фр«, гр/ (i=0, %, / = 0, |хр)—искомые числа.
Преобразуя (10.1.1), (10.1.5) по Лапласу при нулевых
начальных условиях, запишем уравнения объекта и регулятора в
виде
ср (z-1) y=r(z-*)u+/(*); (10.1.6)
'<?9(z-1)u=r?(z-1)y-{-r?Qy, (10.1.7)
где z— комплексное число;
?(*-!) = 1+2 ?,*-'; г(г-1) = 2^-/; (Ю.1.8)
/-1
р
?р(^1)=?ро+2 Tpi«-'; гР(«-1)=2 г"*~'" (10Л'9>
Для удобства далее будем использовать обозначения z~l=Xl
и положим в (10.1.8) [x=nt предполагая коэффициенты при
отсутствующих степенях z равными нулю. Аналогично, положим в
(10.1.9) fip=/zp и будем искать параметры регулятора (10.1.5)
при условии, что щ=п. При этих предположениях
характеристический полином системы (10.1.6), (10.1.7) имеет вид
Да)*=т(Х)Тр(Х)-г(Х)гр(Х) = (1+2т/
(10.1.10)
217
Желаемый полином замкнутой системы
/ 2я \ -1 2п
£>*(л) = П *? П(х/-^)=.Й.Хав + ... + |/|Х+1, (10.1.11)
где A,,-* (i=l,2/?) — заданные числа, |Хг|^1 (i=\y2ri).
Для реализуемости алгоритма регулирования (10.1.5)
потребуем, чтобы
гр0=0. (10.1.12)
Кроме того, пусть
?ро^1. (10.1.13)
Для определения остальных параметров регулятора (10.1.5)
приравняем полиномы (10.1.10), (10.1.11). Тогда
1+l/'x')(I+l;'x')-(lr'x')(lr'A')-
-]£ А*Х'-1=0. (10.1.14)
Приравнивая нулю коэффициенты при одинаковых степенях
Я, получим систему линейных алгебраических уравнений
относительно неизвестных <рРг, >rpi (i=l, n). Эта система имеет вид
iV(P)v=d*9 (10.1.15)
где
v— IfoW—» Три. Гр1*-—гря||'; d*=||rf2n, rfL-ь..., rfit;
Af(p)—матрица чисел размеров 2пХ2п, элементами которой
являются известные параметры объекта (10.1.1), представленные
как компоненты вектора р=Ц—<рь ..., —фп, гь ..., гп||. В [6.5]
показано, что если объект (10.1.1) полностью управляем [это
означает, что полиномы ф(Х) и г (Я) не имеют общих корней] и
d}'2n¥=0, то система (10.1.15) имеет единственное решение
относительно искомых параметров срр,, rvi (£=1, n).
Утверждение 10.1.1. Процедура определения
параметров регулятора (10.1.5), при котором характеристический
полином замкнутой системы (10.1.1), (10.1.5) имеет заданные
значения Хг (i=l, 2л), заключается в следующем: 1)
сформировать коэффициенты df (i=l9 2n) желаемого полинома
(10.1.11) замкнутой системы;
2) на основе уравнения (10.1.14) построить матрицу чисел
jV({J) уравнения (10.1.15); 3) решить уравнение (10.1.15) и
найти параметры регулятора (10.1.5).
Пример 10.1.1. Модальное управление гирорамой.
Рассмотрим гирораму, дискретная модель которой описывается
уравнениями (5.3.31), (5.3.32).
218
хг (к + 1) = хг (к) + <р12лг2 (Л) + Т1з-^з (k) + rx {и (к) + / (*)); (10.1.16)
*2 (X + I) = 422*2 (k)+423*3 (b)+r2(tl(k)+f(k)). (10.1.17)
*з (* + !) = <te*2 (*) -г <Рзз*з (*) + r3 (и (к) + / (Л)); (Ю. 1.18)
у(к) = хг(к)+х(к). (10.1.19)
Требуется найти параметры регулятора
и (*) + bia (b - 1) + <РР2" (* — 2) + <ррзи (£ — 3) =
= ГргУ (Л - 1) + гр2у (Л - 2) + грзг/ (* - 3), (10.1.20)
такие, чтобы корни характеристического полинома замкнутой системы
(10.1.16)...(10.1.20) имели заданные значения Ai*, А2*, А3*, А4*, А5*, А6*.
Переходя к решению этой задачи, приведем уравнения гирорамы
(10.1.16)...(10.1.19) к виду (10.1.1). Для этого запишем соотношения
у (к) = xi (к) + х (*) = dx (k) 4- х (k); d = ||1, 0, 0||;
г/ (fc — 1) =. dx + x (* — 1) = dO-ix (к) - d<£-ir (а (£ — 1) 4-
+ /(*-1)) + и(*-1);
г/ (Лг — 2) =»d<£-2x (Л) — d<£-2r (a (k — 1) -f- / (k — 1)) —
— аФ-ir (u(k — 2)+f(k— 2)) + x (* — 2).
Разрешая эту систему из трех уравнений относительно трехмерного
вектора x(k) и подставляя полученное выражение для x(k) в уравнение у (к—3) =
= d(D-3x (£) _ёфзг (и (k— 1) +f (к— 1)) —dO)-2r (и (Л—2) +f (Л—2)) — d(D- »г (и (/г—
—3)+f(^—3))+и(&—3), получим уравнение гирорамы в форме «вход —
выход» (10.1.1):
У (*) + <Р1# (Л - 1) + <р2*/ (к - 2) 4- <Рз# (* - 3) = Г!И (* - 1) +
+ Г2и(^__2)+Гз^(^-3)+г1/(^-1) + Г2/(^-2) + Гз/(^~3) +
+ /#>х (Л) + грх (£-1)4 4^х (Л — 2) + r<!)x (Л — 3). (10.1.21)
Опускаем пока внешние возмущения и помехи и запишем это уравнение
в виде
у{Ь)+ЪУ(к - 1) + ъу{Ь -2) +ЪУ(Ь -3) =
= гги (к - 1) + г2н (Л - 2) + г3и (к - 3). (10.1.22)
В соответствии с процедурой модального управления объектом сформируем
желаемый полином замкнутой системы
п* (X) = [х^хЖ]-1 (х - х?) (х - х;) (х - х3*)(х - х4*)(х - х;> (х - х;)«
= rf*X6 + d*5\5 + tf *X* + rf*X3 + rf*X2 4- rf*X + d*Q (10.1.23)
Характеристический полином системы (10.1.20), (10.1.22) имеет вид
D (X) = (1 + <PiX 4- Ы2 4- ТзХ3) (1 + <PPiX 4- <рР2Х2 4- <РРЗХ3) —
„ (Г1Х 4- г2Х2 + г3ХЗ) (гр1Х 4- гр2Х2 4- гр3Х3). (10.1.24)
219
Сравнивая коэффициенты при одинаковых степенях А, полиномов (10.1.23),
(10.1.24), получим систему алгебраических уравнений (10.1 15):
ЪЪз— ^*згрз = ав> <Р2?рз + ТзТр2 — г2грг — гзг?2 = d5;
?3?pl ■+■ <Р2<Рр2 + ?1ТрЗ— Г3Г?1 — Г2/*р2 — ГхГрз = rfj
?3 + T2?pl + <Pl<Pp2 + <РР3—^pl — ГхГрг = ^*;
<f2 + <?1?р1 4- <рр2 — rjTpi = rf*» <Pl + Tpl = ^1 •
(10.1.25)
Решая эту систему из шести линейных уравнений, получим искомые
значения параметров фрь фр2, фРЗ, />ь г?2, грз регулятора (10.1.20).
Построение алгоритма адаптации (идентификации) на основе
метода наименьших квадратов. Переходя к алгоритму
идентификации параметров объекта (10.1.1), представим его в форме
y(k+l) + <tly(k) + ...+<pny(k-n+\) =
=r1u(k) + ...+rVku(k-v.+ l) + f(k + l) (£=0,1,2,...), (10.1.26)
(10.1.27)
Вводя обозначения
*(*) = 1ИА),..., y(k-n+l), tf (&),..., «(Л-ji-f If;
PHI —?1.»м —Тя» Г1э..., Гц.^
запишем (10.1.26) как
»(*+1)-в'(А)Р=/(Л + 1).
Вектор неизвестных параметров р будем искать из условия
минимума суммы квадратов невязок
N
-ЛГ
1
[0(Л+1)-Л'(*)Й2.
Л-0
В соответствии с методом наименьших квадратов этот
минимум достигается, если сходится последовательность оценок этого
вектора, задаваемая соотношениями (9.2.36), (9.2.38). Однако
их формальное использование может не дать результата,
поскольку вектор 6 (/г) в этих соотношениях содержит значения
переменной у в различные моменты времени, а вектор 6(&),
определяемый (10.1.27), включает в себя входную переменную и.
Если u(k) является выходом регулятора (10.1.5), параметры
которого определяются в результате процедуры, описанной в
утверждении 10.1.1 при условии, что в (10.1.15) р заменяется его
оценкой, то можно построить последовательность, сходящуюся к
искомому вектору р.
220
Такая последовательность определяется рекуррентными
соотношениями:
P(k + l)=p(ft) + />(ft)e(A)ly(ft+l)-ft'(ft)P(*)]A(*)^(*);
Р(0) = р<о>; (10.1.28)
P(k+l) = P(k) — P(k)6 (k)b'{k)P(k)h(k)c(k), (10.1.29)
где
/ я + р. \ —1/2
h(k)= 1+2 *?(*) ; c{ky=(\ + h(k)b'{k)P{k)b{k)r\
(10.1.30)
которые являются некоторой модификацией соотношений
(9.2.36)...(9.2.38) и при h(k) = \ с точностью до обозначений
совпадают с ними.
I Утверждение 10.1.2. Пусть имеется объект управления,
описываемый уравнением (10.1.1), с неопределенными
параметрами. Адаптивный регулятор, обеспечивающий достижение
цели управления (10.1.3) при Д=оо, описывается уравнением
и(А) + <РР1 (*)«(*— 1) + ... + <РРЛ(*)и(* — п) =
= гр1(Л)у(А-1) + ... + Гря(А)у(А-/г), (10.1.31)
параметры которого являются решением линейного
алгебраического уравнения
iV(P(*))v(A)*=d*, (10.1.32)
где р(&)—вектор оценок параметров объекта (10.1.1),
получаемых на основе рекуррентных соотношений (10.1.28)...
(10.1.30).
В этих соотношениях вектор 6(&), определяемый (10.1.27),
доступен непосредственному измерению. При достаточно
больших значениях к векторы |Р(&)—р|^£е (е — достаточно
малое положительное число) и корни характеристического
уравнения системы (10.1.1), (10.1.31) будут близки к заданным
J числам Xi* (i= 1, 2п).
Строгая формулировка этого утверждения и его
доказательство приведены в работе [10 3J. В книге [6.5] эти результаты
развиваются на случай, когда Д=^оо. Там же получены
алгоритмы оптимального (в смысле критериев J = \\m M{y2(k)} и / =
= Y\mM{y2(k) +u2(k}) адаптивного управления; кроме того, в
*-+
[6.5] указаны пути обобщения на многомерные системы
Пример 10.1.2. Параметрически адаптивная система управления гиро-
рамой. Рассмотрим гирораму, дискретная модель которой отбывается \
равнениями (10 1 16) (10 1 19) Пусть ее параметры изменяются непредвиденным
221
образом. Причина этих изменений может быть различна. Так, например, при
сбоях в питании гиромотора кинетический момент гироскопа будет изменяться.
При этом скорость изменения кинематического момента будет мала по
сравнению со скоростями переходного процесса в гирораме, поэтому гипотеза
квазистационарности будет выполняться. Это означает, что можно полагать в
(10.1.16)...(10.1.19) параметры фг;, гг (£, /=1, 3) постоянными, но
неизвестными величинами.
Приведем уравнения (10.1.16)...(10.1.19) к виду (10.1.21) и будем
полагать, что совокупность внешних возмущений и помех в правой части (10.1.21)
является процессом типа «белый шум».
Регулятор описывается уравнением
и (*) + ?Р1 W и (k - 1) + ФР2 (Ь) и (k - 2) + <Ррз (*) « (* - 3) =
= rpl(k) у (k - \) + r?2(k) у (k -2) + rp3(k) у (k -3), (10.1.33)
изменяющиеся параметры которого находятся как решения уравнений,
построенных на основе (10.1.25):
-Рз <*) ?рз №) + Рб (« гРз (*) = <; -h <*) <Fp3 (Л) -
- Рз (*) ТР2 (Л) - h <*) rP3 (*) - Эб (Л) гре (к) - <;
~Рз №) ?Р1 (Л) - Р2 (Л) ?Р2 (Л) - Pi (Л) <РРз (*) - Рб (Л) /"pi (*) -
~ Рз (*) гР2 (Л) - Р4 (Л) /рз W = <:
~Рз (к) - Р2 (Л) <PPi (Л) - Pi W ¥Р2 (Л) + ?Рз (Л) - Рз <*) /"pi W -
-М*)^ <*) = <&
-р2 (« - Pi Wb2(k)-hw r?i(k)=d*j -Pi (*)-fppi (*)=</;. i
Оценки Pi(&) (i=l, 6) параметров объекта (10.1.1), входящие в (10.1.34),
определяются рекуррентными соотношениями:
}(10.1.34)
Р/ (к + 1) = Р,- (Л) +
2 Pij(k)b)(k)
p-i J
Xh(k)c(k); (10.1.35)
P(k + \) = P(k)-P (k) г (k) v (k) p (k) h (k) с (k); (i = ГГб); do. l .36)
*(*) = (i + S »?w)
-1/2
-['
•h
с (*) = | 1 + A (*) 2 W (*> 6' (*> 8/ <*> l_I5 <10-' -37>
/,/"=» 1
где P(&)—симметричная матрица размеров 6x6; 6(£)—вектор с
компонентами
h(k) = y(kyt b2(k)=y(k-\); b3(k) = y(k-2);
М*) = «<*); bs(k)=u(k-\); 86(«=в(Л-2). (10.1.38)
222
§ 10.2. Функционально-адаптивные системы
Постановка задачи синтеза адаптивного регулятора. Рассмот
рим дискретный объект управления, описываемый уравнением
y(k+l) + vly(k) + ... + <fl#(k-n+l)=r0u(k)+...
... + /VH(A-n) + /(*) (* = 0, 1,...; 1*<л), (10.2.1)
переменная */(&) которого доступна непосредственному
измерению, внешнее воздействие f(k) является ограниченной
последовательностью неизвестных чисел
I/<*)!</*, (10.2.2)
где /* — заданное число.
Параметры фЬ ..., фп, г0, ..., /V объекта неизвестны. Известно
лишь, что объект (10.2.1) является минимально-фазовым. Это
означает, что корни полинома rQ-\-rxX-\- ... + гмЛц=0 обладают
свойством |А,/|^1 (i=l, |а).
Пусть, кроме того, известен знак коэффициента г0 и верхняя
оценка |г0| —число сг в неравенстве \г0\ ^сг.
Пусть цель управления состоит в выполнении неравенства
|*/(£+1)|<Д, (10.2.3)
где Л — заданное число, согласованное с уровнем внешних
воздействий.
Далее будем полагать, что
Д>/*. (10.2.4)
Требуется построить адаптивный регулятор, выходная
переменная которого u(k) обеспечивает достижение объектом (10.2.1)
цели управления (10.2.3).
Отметим, что в зависимости от физической природы объекта
и назначения системы цели управления могут описываться более
сложным выражением, чем (10.2.3), например
е2(£+1)<Д2, (10.2.5)
где невязка e(k-\-\) определяется как
i
e(k+l) = y(k +1) + 2 ¥ж/У(*-0 (Ю.2.6)
z-0
— при стабилизации с заданной динамикой
i
У(/г+\)+У<?Ж1У(к-1) = 0 либо
jtsasa
e(k + l) = y(k+l) — g(k) (10.2.7)
223
— при слежении за задающим воздействием g(k)f либо
e(k+l) = y(k+l)-yu{k+l) (10.2.8)
— при слежении за эталонной моделью, заданной уравнением
Ун(Ь+1)+Чн1Ун(Ь) + ... + 9и„у(к-п+1)=
= r^g(k)-\-...-\-rnlg{k — /).
Отметим, что при безынерционной стабилизации невязка
e(k + \)=y{k-\-\) (10.2.9)
и тогда (10.2.3) совпадает с (10.2.5).
Синтез регулятора (построение компенсационного алгоритма
регулирования). Приступая к первому из четырех этапов синтеза
адаптивного регулятора, отметим, что при известных параметрах
ф|, г/ (t=l, n\ / = 0, \i) объекта (10.2.1) построение алгоритма
регулирования, при котором достигается цель (10.2.3), очень
просто. Действительно, если принять этот алгоритм в виде
u(k) = r^x l^ly(k)-\-... + ^ny(k — n+l) — rlu(k— 1)—...
...— r».u(k — [О], (10.2.10)
то, подставляя (10.2.10) в (10.2.1), получим
y(k+l)=f{k). (10.2.11)
Если функция f(k) удовлетворяет неравенству (10.2.2), то
И*+1)|</*<Д (10.2.12)
и, следовательно, цель управления достигается.
Более того, компенсирующее управление (10.2.10) является
оптимальным в смысле функционала
Jl = lim sup |t/(*+l)|, (10.2.13)
так как при этом управлении он принимает наименьшее
значение, равное {*. Если цель управления описывается неравенством
(10.2.5), в котором невязка e(t) определяется выражениями
(10.2.6)...(10.2.8), то законы регулирования, при которых эти
цели достигаются, имеют вид:
а) при стабилизации с заданной динамикой
2(Ъ+1-Чж1)У№-')-%Пи(к-Л\; (10.2.14)
/-0 7=1 J
б) при идеальном слежении за задающим воздействием
u(k) = ro1\g(k)+n^d ?/+1y(ft-0 +2 Оа <*-'')} (Ю.2.15)
224
Представим закон управления (10.2.10) в более компактной
форме. Для этого введем л+ц-мерные векторы:
6=||г/(£),..., у (к — л + 1), u(k — \)%...,u(k — |i)|'; (10.2.16)
Р
*_
?1 <Ря г1 гп
(10.2.17)
'"О г0 г0 г0
Тогда (10.2.10) примет вид
я(й) = Р*'в(А). (10.2.18)
Это соотношение называют идеальным законом
регулирования, поскольку он обеспечивает безусловное достижение цели
управления. Законы регулирования (10.2.14), (10.2.15) также
принимают вид (10.2.18), если положить для (10.2.14)
0* =
<Р1 — <Рж1 <РЛ — ?ж п г\
(10.2.19)
го г0 гб г0
а для (10.2.15)
*(*)=|У(*).-.У(*-л+1), 1К*-1),...,я(*-Ю, g(ft)l; (10.2.20)
P*=fPi//-o тЛо-^/ro,..., -г^го, 1||. (10.2.21)
Учитывая (10.2.18), запишем уравнение объекта (10.2.1) в
следующей эквивалентной форме:
y(k + \)=r0lu(k)-fi*'f>(k)] + f{k). (10.2.22)
Закон регулирования будем искать в форме, аналогичной
(10.2.18), заменяя неизвестный вектор р* вектором
настраиваемых параметров P(ft), и, таким образом,
а(А)=Э'(Л)в(Л) (10.2.23)
является алгоритмом регулирования.
Построение алгоритма адаптации при отсутствии внешних
возмущений. В соответствии со вторым и третьим этапами
синтеза адаптивного регулятора выберем прямой алгоритм
адаптивного управления, для построения которого используем
градиентный метод. Рассмотрим вначале случай отсутствия внешних
возмущений
/(Л)=0. (10.2.24)
В этом случае цель управления принимает вид
Нтг2(£) = 0. (10.2.25)
В соответствии с методом градиента направление движения в
пространстве настраиваемых параметров Р(&) пропорционально
производным функции
r-2^(ft+l) = [a(ft)-p*'ft(*)]2 = {[p(ft)-p*]'e(ft)p (10.2.26)
225
по настраиваемым параметрам. Это означает, что
М*+ l)=ft(*)-al(*) 4PW-W »(*))» г2. (10.2.27)
дР/ (£)
Учитывая (10.2.22), нетрудно видеть, что
rl wm-wbw =2{BK*)-p.r»wlM*)r^
dp/ (£)
= y(ft+l)r08,(A)f
и, таким образом, искомый алгоритм имеет вид
р/(А+1) = р/(*)-а1(*)г0у(й + 1)8/(А) (/ = 1, л + ц). (10.2.28)
Переходя к последнему (четвертому) этапу синтеза
адаптивного регулятора, состоящему в определении параметра u\(k)
алгоритма (10.2.28), введем обозначение
а1(А) = а1(А)г0. (10.2.29)
Тогда (10.2 28) примет вид
Pi(ft + l) = Pz(ft)-a1(*)(signr0)y(ft+l)8z(ft);
f (10.2.30)
p/(0) = p{0) (/ = 1, л + ji).
Утверждение 10.2.1. Параметр ai(&) алгоритма адап-
тации (10.2.30), при котором адаптивный регулятор (10.2.23),
(10.2.30) обеспечивает достижение объектом (10.2.1) при
f(k)=0 цели управления (10.2.25), определяется выражением
al(k) = Jcrnyti(k)\ , (0<v<2). (10.2.31)
^28/2(А) •
Для доказательства этого утверждения возьмем функцию
Ляпунова
П + \*.
v (А) = 2 (Р/ (А) - ?*)2 > 0, (Ю.2.32)
/-1
которая выражает «расстояние» настраиваемых параметров
регулятора (10.2.23) от параметров идеального закона
регулирования (10.2.18).
Найдем условия убывания величины v($(k)) вдоль
траектории движения адаптивной системы (10.2.22), (10.2.23), (10.2.30).
Для этого рассмотрим разность
дхКЛ)=-о(А + 1) —-»(*) = №(*■+-!) —P*V[P(*+1) — P*1 —
-[Р(*)-Р*Г[Р(*)-Р*]- (10.2.33)
226
Учитывая (10.2.30) и (10.2.26), запишем при /(ft)=0, что
BKA+l)-P*nP(*+l)-P*] = IP(*)-ei(A)(signr0)y(*+l)e(ft)-
-P*]'[P(*)-ei(A)(signr0)y(A+l)*(A)-p*] = [P(*)-p*r(p(*)-
- р*] - a, (ft) (sign г0) у (ft +1) 126' (ft) [p (ft) - р*] -
-a,(ft)(signr0)f/(ft+l)5'(ft)6(ft))=[P(ft)-p*]' [p(ft)-p*]-
-a,(A!)(signro)f/(£ + l)[— #(ft + l)-
-^ (A) (sign г0)у (Л+ 1)4'(*)*(*)] • (10.2.34)
Подставляя это выражение в (10.2.33), получим
Av (к) = —ах (ft) \2 rsign r° - ax (ft) 6' (ft) 6 (ft) j y2 (k +1). (10.2.35)
Нетрудно видеть, что Ди(Л) ^0, если
0<ax(ft)< < . (10.2.36)
^ ^ |г0| 8'(ft) 8 (ft) ^ cr8'(*)8(ft)
Для того чтобы обеспечить строгое убывание Av(k) (при y(ft +
Ч-1)=т^0), достаточно взять
a (Д.) = 1 (Ю.2.37)
cr8' (ft) 8 (ft)
где
0<y<2. (10.2.38)
При таком значении aj(ft) получим
Ax;(ft) = -pt/2(ft+l)/[6'(ft)6(ft)]<0, (10.2.39)
где р — некоторое положительное число.
Так как
оо оо
-—V to){k)= ^ У2(к + ЩЬ' (А)й(*)] = г>(Р<°>)/р<оо,
(10.2.40)
то это означает, что у2 (&+ 1)/6'(&)8(й)->0, и, следовательно,
достигается цель адаптации lim y(k+ l) =0, если только величины
*'(£)» 8(^) будут оставаться ограниченными. Ограниченность
измеряемого вектора 6(&), состоящего из значений выхода и входа
объекта в различные моменты времени, не является очевидной.
Например, если рассматриваемая система неустойчива при
начальных значениях параметров регулятора, то на первых шагах
процесса адаптации переменные объекта будут расти. Это повле-
227
^v(k) = —аг (k)
чет за собой затормаживание настройки и, возможно, нарушение
сходимости г/(/г-f-1). Однако известно [6.5], что если объект
является минимально-фазовым, то 6'(/г)6(£) ограничена и, таким
образом, утверждение 10.2.1 доказано.
Построение алгоритма адаптации с учетом внешних
возмущений. Рассмотрим теперь объект (10.2.1) или эквивалентный ему
объект (10.2.22) с учетом внешних возмущений,
удовлетворяющих неравенству (10.22). Найдем условие убывания
«расстояния» (10 2.32) на движениях адаптивной системы. Нетрудно
видеть, что теперь в отличие от (10.2.35)
L l^ol \ у(ь +1) I J
(10.2.41)
Это выражение получается, если в (10.2.34) заменить 6'(&)Х
Х[Р(&)—|3*] на y(k+l)—f(k), а не на y(k+l)y как было ранее.
Если величина y(k+\) мала, а внешнее воздействие f(k)
имеет неблагоприятный знак, то величина Av(k) может стать
положительной и алгоритм не будет приводить к достижению
цели адаптации.
Эффективным способом достижения цели управления при
действии возмущений является введение в алгоритм зоны
нечувствительности. Из (10.2.41) следует, что если изменять |3(<&) только
при \y(k + 1) | >Л так, что
где
h(k) при ];/(£+1)1< Л (/ = 1, л + Р);
М*+1) = { (sign г0) у (^ 0 b{k) при |у(Л+1)|>А,
(10.2.42)
0 < v < 2 (1 - /*2/Л2), (10.2.43)
то вновь, как и при отсутствии /(&), будет выполнено (10.2.40)
и, следовательно, в силу ограниченности b'(k)b(k) цель (10.2.3)
будет достигнута.
Полученные алгоритмы адаптации в системах
безынерционной стабилизации легко обобщаются на системы стабилизации
с заданной динамикой и на следящие системы. Действительно,
если невязка e(t) описывается выражениями (10.2.6) либо
(10 2.8), то уравнение объекта (10.2.1) можно записать в сле-
д\ющей эквивалентной форме:
е(Л+1) = г0 [и (*)-?*'8(Ф1+/(*). (10.2.44)
где векторы р* и Ь(к) определяются соотношениями (10.2.17)...
(10 2 21), и тогда для вывода алгоритма адаптации вида (10.2.42)
нужно просто заменить во всех соотношениях, начиная с
(10 2 28), y(k+l) на e(k-i 1). Таким образом, доказано
следующее ниже утверждение.
228
Утверждение 10.2.2 Пусть имеется
неминимально-фазовый объект управления, описываемый уравнением (10.2.1),
параметры которого неизвестны (известен лишь знак
параметра г0 и число сг в неравенстве |г0|<сг), внешнее
воздействие на объект неизвестно, но ограничено известным числом /*).
Адаптивный регулятор, обеспечивающий достижение цели
управления (10.2.5) [где e(k+\) определяется одним из
выражений (10.2.6), (10.2.7), (10.2.9)], описывается уравнениями
u(ky-
(-1
(10.2.45)
&<*+!) =
р,(А) при И*+1)|<Л (i = \, |* + л);
(sign /-q) e {k + l)Sf(fe)
я+и-
P/(*)-v
где
0<v<2(l-/2/A2),
при [е(Л+1)|>Д,
(10.2.46)
(10.2.47)
а компоненты 6i(k) вектора 8(k) определяются одним из
соотношений (10.2.16), (10.2.20).
Алгоритм адаптации (10.2.42) впервые был получен на основе
метода рекуррентных целевых неравенств, разработанного
В. А. Якубовичем [10.1].
Для сокращения изложение собственно метода рекуррентных
целевых неравенств было опущено, однако процесс вывода
алгоритма адаптации (10.2.42) полностью следует идеям метода. На
основе этого метода приведенные результаты были
распространены [6.5] на случай многомерных объектов, а также на случай
запаздывания в измерении и управлении, ограничений на
управления.
Пример 10.2.1. Построим адаптивный регулятор химико-технологических
процессов, рассмотренный в примерах 6 1 1, 6.1.2, Этот процесс описывается
уравнениями
x(k + \) = ax(k) + ba{k) +ф/(£); (10.2.48)
y(k)=dx(k), (10.2.49)
в которых параметры а, Ь, tf, d неизвестны. В отличие от примеров 6 1.1, 6.1 2
будем полагать, что f(k)—неизвестная последовательность При этом
I f(k)\ </*. (10.2.50)
Требуется построить адаптивный регулятор, при котором достигается цель
управления
[#(*+1)-£]2< А2-
В (10.2.50) и (10 2 51) f+, g, Л —заданные числа
Запишем вначале уравнения (10 2.48), (10 2 49) в форме (10.2.1)*
У (* + 1) + ъу (к) = r0u (k) + / (Л),
(10.2.51)
(10.2.52)
229
где
«Р^-а; r0 = db; f(k) = d^f(k). (10.2.53)
Далее будем полагать, что известна оценка
\г0\ <сг (10.2.54)
и знак числа г0.
Переходя к построению алгоритма адаптивного управления, введем в
соответствии с (10.2.20) и (10.2.21) векторы р*(&) и 6(&) с компонентами
р; = —; Й-*; M*) = y(*); b2(k) = g. (ю.2.55)
''о
Тогда закон регулирования (10.2.45) примет вид
и (k) = h (k) у (k) + h (k)g. (10.2.56)
Алгоритм адаптации параметров этого регулятора запишем в
соответствии с (10.2.46) как
( h(k) при |0(* + 1)-*|< А;
1 в'<*2<*)+«'> (,0.2.57,
р2(Л) при \y{k + 1) —£|< А;
р2(Л+1) = ] (3lgnr0)[y(*+l)-g]g , /Ь1П ,.А
?2 (^) — v ~ ;; при и/(£+1)—#>д.
V *г(*/2(*)+£2) '
(10*2.58)
ПРИЛОЖЕНИЯ
Приложение I. Доказательство теоремы Лагранжа
Повторяя рассуждения, приведенные вначале (§ 2.1), получим
аналогичное (2.1.7) равенство
J \ZA \ dXi
d
dt
t0 L /ei
d<Po
d
dt
Ойь
Л =0.
(П. 1.1)
Однако к этому равенству нельзя применить основную лемму
вариационного исчисления, так как вариации б** и 8uh (t=l, n\ &=1, m)
непроизвольны и вдоль варьируемых кривых xi(t)=Xi(t)-\-bXi(t)y Uk(t)=Uk(t)Jr
-j-duh(t) (i=l, n; k=lf m) должны удовлетворяться" уравнения (2.1.23).
Последнее означает, что
х{ + bxi = <р/ (*! -f-5*i,..., *л + 5*я, «iH-^i,..., «да Ч-БИда) (< = 17л)в
(П. 1.2)
Вычитая из этих уравнений уравнения (2.1.23), получим, повторяя
изложенное в § 1.2, уравнения первого приближения для вариаций [уравнения
возмущенного движения, если считать 6iik(t) (k=l, m) произвольными
возмущениями, а экстремали — программным движением]:
п т '
bxi — у , -^f- bxj + у; -^т- Ъик (i = ГГя). (П. 1.3)
/=1
&*/
*=-1
a«ft
Частные производные в этих уравнениях вычисляются вдоль экстремалей
*<(0. МО (' = 1. «» *=1. т)-
Умножая каждое из этих уравнений (П.1.3) на ф*(0. 0=1» п) и
интегрируя, получим
I
Ф/ (О
Ьхг
dxj
bxj-
Q9i
duk
buk
dt = 0.
(П.1.4)
/-1 ' ft=
Интегрируя первое слагаемое по частям и учитывая, что
Ъх1 (0|/./0 = b*i (0|/-^ =0f получим
1
"W
т 1
йИ=0 (1 = 1, л).
(П.1.5>
231
Сложим почленно все уравнения системы (П. 1.5), тогда
tt г- П П / П ТП -|
t0 L / = i /=i \ /=,1 *=1 J
И /I Л / П \
_ hs4 duk
Суммируя это уравнение с (П.1.1), получим
(П. 1.6)
8л: rf/ -f
<t m
+JV.
^=d
daft
/=i
*НШ]
hukdt = 0. (П.1.7)
Выберем множители tMO (t=l, я) так, чтобы они удовлетворяли
дифференциальным уравнениям
ST1 dyt
дх„
1=1
bi^b^jLL +JBL)e0. (П.1.8)
d*: Y dt Ya дха )
Другими словами, пусть tyi(t) (i=l, /г) являются решениями системы
(П.1.8). Эти решения зависят от п произвольных постоянных.
При таком выборе множителей Лагранжа равенство (П.1.7) примет вид
С ^1 Г/_^_ _^ JTL Л_ d / аур \1
J ,£=d [ V ^в* Jd ди* ) dt \ duk )j
Здесь вариации 6uk(t) (k=\, m) произвольны, и поэтому, применяя к
(П.1.9) основную лемму вариационного исчисления, получим уравнения
duk
/-1
ь
d дур
dt диь
= 0 (A> = 1, m), (П.1.10)
Таким образом, теорема доказана.
Приложение 2. Вывод основного соотношения
принципа максимума
При доказательстве принципа максимума ограничимся для простоты
случаем скалярного (т=1) управления u(t) и будем полагать также правый
конец траектории свободным, т. е. будем полагать, что числа хц (i=lf n)
не заданы.
232
Пусть найдены оптимальное управление u°(t) и соответствующие этому
управлению траектории х® (t), х\ (t),..., х°п (t), начинающиеся в точке (2.2.3).
На рис. П.2.1 приведена кривая, которая содержит конечное число точек
с разрывами первого рода.
Рассмотрим оптимальное управление на бесконечно малом промежутке
времени
т_е<г<т, (П.2.1)
где е — бесконечно малая положительная величина, а 0<т<^. Изменим на
этом промежутке времени оптимальное управление до некоторой величины
йфи°, при этом й^и. На остальных интервалах (0, т—е) и (т, t{) оставим
kuft)
tn=0
Рис. П.2.1
Рис. П.2.2
управление неизменным и равным u°(t). Такая вариация экстремали u°(t)
носит название «игольчатой» вариации. Игольчатая вариация принципиально
отличается от применяемой в классическом вариационном исчислении, где
вариации экстремалей предполагаются непрерывными и необходимое число
раз непрерывно дифференцируемыми.
Отметим, что величина приращения й — и0 на рассматриваемом интервале
[т—е, т] может быть любой, лишь бы величина й не выходила из допустимых
пределов. Например, если —и*^.и^.и*, то модуль разности й—и0 может
лежать в пределах от 0 до 2и*.
Для игольчатой вариации характерно, что, несмотря на конечную величину
разности й—и0, влияние этой вариации на последующее движение объекта
бесконечно мало, так как площадь импульса (й—и°)г бесконечно мала. Убедимся
в этом.
В результате изменения управления на бесконечно малом интервале
т—е</<т дальнейшее движение x0(t) xx(t), ..., xn(t) при ?>т отличается от
оптимального (рис.__П.2.2). Очевидно, что х°(т)—х°(т—е) = еф[х°(т), «°(т)];
х(т)—х(т—е)=еф[х(т)й(т)]. Принимая во внимание, что х(т—е)=х°(т—е),
получим
х(т)-хО(т) = е{ф[х(т), й(т)]-ср[хО(т), аО(т)]}. (П.2.2)
Эта разность бесконечно мала, но отлична от нулями поэтому при />т
будет существовать расхождение между траекториями х(/) и х°(/). Однако
это расхождение также будет бесконечно мало.
Введем вектор вариации 6х(/) с координатами 6xt(t) (*' = 0, /г),
определяемый как
5х(0 =х(0 —хО(0-
(П.2.3)
При этом на основе (П.2 2) можно записать начальное значение этой
вариации
Вх(т) = е{ф[х(т), в(т)]-ф[хО(т), «0(т)1>.
8-1017
(П.2.4)
233
Полагая кривую х°(/) «программной» траекторией, составим уравнение
возмущенного движения для системы (2.2.1).
Это уравнение имеет в первом приближении вид
п
d{bx{) W1 дъ(х, и);
dt j&zi dXf
У-о
о
bxj (/=0, л). (П.2.5)
Решения этих уравнений при начальных условиях (П 2.4) описывают
расхождение траекторий Xi°(t) и x%(t) (t = 0, n) при t>x.
Величина 6-^o(^i) представляет собой изменение б/ наименьшего
(оптимального) значения функционала (2.2.5), вызванное игольчатой вариацией.
Так как оптимальное управление u(t) обеспечивает наименьшее значение
/, то при любом другом управлении x0(t{) может лишь увеличиваться,
поэтому
8/ = 5jco(*i) >0. (П.2.6)
Перепишем это соотношение в виде
_5/ = -Ьх0 (tx) = [Ьх (tx)\ ф (tx) < 0, (П.2.7)
где t|)(/i)—вектор, подобранный так, чтобы произведение [6x(/j)]'t|)(ri) было
равно 6*о(*i).
Очевидно, что
*('i) = {-l, 0, 0,...,0}. (П.2.8)
При й(х)=и°(х) приращение (—6/) достигает своего наибольшего
значения, равного нулю, а соотношение (П.2.6) означает, что любое неоптимальное
управление «хуже», чем оптимальное: оно дает меньший эффект, чем
оптимальное.
Значение й(х) должно выбираться так, чтобы сделать величину (—б/)
возможно большей, и для неоптимальных управлений эта величина равна
-V = [&x (*i)]'i|>(*i). (П.2.9)
Заметим одно важное обстоятельство значение й(х) можно выбирать
независимо от процесса управления, предшествовавшего времени т, и это
значение должно выбираться так, чтобы максимизировать величину (—б/),
определяемую выражением (П.2 9).
Использование (П.2.9) для выбора й(т) представляется затруднительным,
ибо для вычисления [бх^,)]'!))^!) необходимо проинтегрировать уравнение
(П.2.5) при начальных условиях (П.2.4) и найти 6*(/i) в зависимости от этих
начальных условий и управления и°(х).
В связи с этим покажем, что вектор ф (/), являющийся решением
уравнения (2.2.12), удовлетворяет соотношению
[5х (*)]' ф (О = [Ьх (*!)]' ф (tx) x<t<tt. (П.2.10)
Тогда при t — x получим равенство
[Ьх (%)]' ф (т) = [Ьх (tx)}' ф (h) x<t<tv (П.2.10')
Теперь можно судить о величине б/ по левой части этого равенства, которая
явно зависит от и°(х).
Из (П.2 10) следует, что
[Ьх (/)]' ф {t) = const (x^t<tx), (П.2.10")
и тогда
-^-{[»х(ОУ ♦(*)}-0 (т <*<*0 (П.2. И)
at
234
или
d dty if)
[&х(0']*(0+[*х(ОТ
dt l w J w l dt
Запишем это равенство в развернутом виде
п п
^ -%- № (01 +/ (О + "VI ^ -^Г <W W = °-
_ dt jCA dt
о /-о
Используя (2.2.12) и (П.2.5), получим
п г я 1 Л г л -1
2 S*?r,jfTi(0"S S-йгЧ"*"0-
/=о L;=o J /=о L у.,о J
Таким образом, соотношение (П.2.10) доказано.
Теперь можно рассматривать величину —б/= [6дс(т)]'ф(т) ^0.
Представим это соотношение с учетом (П.2.4) в виде
• (Ф [х (т), « (т)] - ср [хо (т), ио (т)]}' ♦ (т) < 0. (П.2.12)
Из (П.2.2) следует, что разность х(т)—х°(т)— это вектор, компоненты
которого являются величинами того же порядка малости, что и 8, и поэтому
вектор х(т) в (П.2.12) можно заменить на х°(т).
Сокращая (П.2.12) на е>0 и учитывая выражение (2.2.10), заключаем,
что
Я(ф, хо, н)<//(ф, хо, и0). (П.2.13)
Это означает, что функция Н достигает максимума при й — и° и, таким
образом, основное утверждение (2.2.17) доказано.
Приложение 3. Метод динамического программирования
для дискретных систем.
Численное решение функционального уравнения
Для удобства изложения существа метода ограничимся вначале частным
случаем этой задачи, когда объект описывается уравнением первого порядка
х=ц,(х, и). Кроме того, заменим приближенно этот непрерывный объект
дискретным. В связи с этим разобьем интервал (/0, ^i) на N* равных участков
достаточно малой длины Т и будем рассматривать лишь дискретные
значения x(t)=x(kT) и u(t)=u(kT), (fc = 0, N*, #*=(*!—t0)IT) в моменты
времени t = t0> t=t0+T, t = t0+2T, ..., t = t0+(N*— 1), / = /0-fiV*r соответственно
(далее будем полагать /0 = 0).
Дифференциальное уравнение можно приближенно заменить уравнением
в конечных разностях
x[(k + \)T] — x[kT]
—^—-~—L-J- = *i*[*n. w\\
или
*(* + 1) = ?ж1*(*). «(*)]. (*=0f N*), (П.3.1)
где фд = *(£) + 7,ф [*(&), м(£)], и кроме того, здесь и далее нижний индекс в
обозначении фд, а также число Т опущены.
Начальные условия для этого разностного уравнения остаются прежними:
х(0) = х0. (П.3.2)
8* 235
Для удобства изложения примем фо(*, и, t)=q(x(t))+\i(u(t))> где q(x),
[i(u)—заданные функции. Заменим приближенно интеграл (2.3.3) суммой
дг*
jn*=т 2{q [x {k)] +*{u (k)]} =
*-0
N*
IN* \
q [х (0)] + 2 ^ ^ <*И +»*[»(*- ОН + !*[« WJ •
Принимая во внимание, что u(N)=0y а х(0) и 7 суть константы, запишем
функционал качества в виде
дг*
/*•=2{q [x wl+fi ["(* ~1)]}- (П-3-3)
Задача П.3.1. Определить функцию управления
u(k) = rk[x(k)] (*=0, W*-l), (П.3.4)
такую, чтобы на решениях системы (П.3.1), (П.3.4) при любых начальных
условиях (П.3.2) минимизировалась сумма (П.3.3). При этом искомая функция
должна удовлетворять ограничению u^U.
Для определенности будем полагать, что эти ограничения на управления
имеют вид
|и(Л)|<1 (£=0, N* — 1). (П.3.5)
Сформулированная задача является, в сущности, задачей условного
экстремума функции (П.3.3). Независимыми переменными являются числа и(0),
и(1), ..., u(N+— 1).
Синтез на основе классических методов математического анализа.
Используя связи (П3.1), исключим х(\)у х(2), . , x(N) из (П.3.3), тогда
JN* = f* [« (0)] + q[*[x (0), и (0)]] + И« ОМ + * [¥ [? МО) "(0)], а(1)]] +
+ 1*[«(2)] + ...+^1?[т[...|«(АГ*-2)], а (ЛГ* — 1)]] + «* [а (ЛГ* — 1)].
(П.3.6)
Если абсолютный минимум этой функции N* переменных ы(0), ..., u(N*—1)
достигается при |и(&)|<<1, т. е. внутри множества U, то необходимые
условия относительного экстремума функции (П.3.6) записываются системой N*
нелинейных алгебраических уравнений
d/дг* dJN* ^/лг*
— -0; — -0,..., = 0. (П.3.7)
ди(0) ди(1) да (ЛГ* — 1)
К сожалению, подобные системы нелинейных уравнений трудно решить
даже при сравнительно небольших iV* = 10 ... 20.
Откажемся от аналитических методов и обратимся к прямым численным
методам. Пусть 7V* = 10. Будем определять минимум функции (П.3.6) путем
подсчета ее значения при различных значениях w(0), и(1), ..., w(9).
Разобьем интервал [—1, 1] возможных значений u(k) на 10 частей и
подсчитаем значения для каждого из полученных таким образом 10 наборов
значений ы(0), . ,ы(9). Если вычислительной машине требуется 1 с на
вычисление функции (П.3.6) в одной точке, то для вычисления ее значений в 1010
потребуется 2,77 млн ч (более 10 лет). Таким образом, и этот подход
оказывается мало пригодным для решения задачи (П.3.1). Более того, если бы даже
236
(П.3.8)
(П.3.9)
Ц[«(0)]}.
(П.3.10)
эти пути и привели к числам и(0), ы(1), ..., u(N*—1), при которых функция
(П.3.6) принимает наименьшее значение, то эти числа не разрешили бы
полностью задачу (П.ЗЛ), поскольку в последней требуется найти функцию
(П.3.4), зависящую от текущих значений x(k). Полученные же числа м(0), ...,
u(N*—1) зависят только от *(0).
Синтез на основе принципа оптимальности. Будем полагать, что N* не
фиксировано, и рассмотрим различные случаи задачи П.ЗЛ, соответствующие
различным значениям параметра N, характеризующего время, в течение
которого исследуется качество процессов в системе.
Эти частные случаи будем называть N-шаговыми процессами.
Обозначим vN значение функционала качества (П.3.3) при TV-шаговом
оптимальном процессе.
Пусть N=1. Для этого одношагового процесса уравнения (П.ЗЛ) и
функционал (П.3.3) имеют вид
*(!) = *1*(0), «(О)];
/i =?[*(!)]+И [и (0)].
Нетрудно видеть, что
vi [х (0)] - min {q [х (1)] + р [и (0)]} = min {q [<р [х (0), и (0)]]
и(о)еи и(0)еи
Опишем вычислительную процедуру определения оптимального
управления «<1>(0)=г(1)[х(0)] в одношаговом процессе.
Процедура 1. Положим *(0) =**•(()), где **(0) есть некоторое
фиксированное число. Тогда
/i = *M**<0). »(0)]]+fi[ii(0)]. (П.3.11)
Разобьем интервал [—1, 1] допустимых изменений ы(0) на i отрезков
длиной 2/i и вычислим значение функции (П.3.11) в точках разбиения. При
некотором значении / = / эта функция принимает наименьшее значение Ji[x*(0),
(2//0 — 1]. Запомним и*(0) = (2//t) —1.
Положим теперь *(0)=***(0). Тогда Ji = q[y[x**(0), u(0)]]+ \i[u(0)].
При некотором u**(Q) = 2k/i—1 эта функция принимает наименьшее значение.
Таким образом, задаваясь различными значениями *(0), получим
значения и(0). Эта зависимость оптимальных значений и(0) от начальных условий
х(0) и является искомой функцией
и{1)(0) = г^1х(0)], (П.3.12)
задаваемой таблично.
Используя эту функцию, получим наименьшее значение функционала
(П.3.9):
vi [х (0)] = *[*[* №), г(1) [х (0)]]] + {х [г<*> [х (0)]]. (П.3.13)
Рассмотрим теперь двухшаговый процесс N = 2. В этом случае
*(1) = ¥[*<0). «(0)]: * (2) = ?[*(!), «(!)]; (П.3.14)
h = q [х 0)) + Р[и (0)} + q [х (2)] +t>.[u(\)]. (П.3.15)
Представим /2 = j'2 4- Г2у где Г2 = q [х (1) + Н< [и (0)]; f2 = q[x (2)] +
+ «*[«(!)]-
Значение /2 зависит от выбора м<2>(0) и м<2)(1). При этом /2' зависит от
и(0), а /г7' — от и(0) и м(1), так как х(2) зависит от х(1), которое в свою
очередь определяется выбором м(0).
Положим м(0)=м<2)* (0), где и<2>* (0) —некоторое произвольное, но
фиксированное число. Это управление отклоняет х(\) на величину х*(\) = фГ*(0),
««2>* (0) 1.
237
Почти очевидно, что если требуется получить наименьшее значение /г при
«<2> (0)=и<2>* (0), то необходимо выбирать ы<2) (1) так, чтобы /2" принимало
наименьшее значение.
Управление ы(2>(1), доставляющее минимум /г", является управлением в
одношаговом процессе (так как и<2>(0) зафиксировано) и определяется
формулой (П.3.12), т. е.
а<2>(1) = г(1)[**(1)]. (П.3.16)
При этом
min/J = tf1[jc*(l)]=v1[9(0), и(2)*(0)]. (П.3.17)
«(2)(1)
Значение функционала (П3.15) при и<2>(0) = ы<2)*(0), и<2>(1) =ы(2>*(1) =
= г(1>[^(1)] определяется выражением
J2 = q [х* (1)] + (i [и(2)* (0)] + I/! [** (1)]. (П.3.18)
Минимизируя эту сумму по м(2>(0), получим
t/2[*(0)]=min {tf [?[*(0), и(2)(0)] + Н.[«(2)(0)]+^[ср[^(0), и(2)(0)]}.
tt(2)(0)6t/
(П.3.19)
Выражение в фигурных скобках является функцией одной переменной
и{2) (0). Используя процедуру 1, получим функцию ы(2> (0)=г(2) [*(0)], при
которой это выражение принимает наименьшее значение.
Таким образом, оптимальное управление в двухшаговом процессе имеет
вид
и<2> (0) = г(2) [х (0)]; и(2) (1) = г(1) [х (1)]. (П.3.20)
При этом экстремальное значение функционала (П.3.15)
V2 [х (0)] =q[?[x (0), r^ [x (0)]]] + (* [г<2> [х (0)]] +
+ *i [*[*«>), г<2> [* (0)]]]. (П.3.21)
Пусть W = 3. Для этого случая
*(1)=?[*(0), а(0)]; х(2) = ч[х(1), и(\)]; х (3) = 7 [* (2), а (2)];
(П.3.22)
/з = f [* (01 + Р [а (0)1 + <7 [* (2)] + И" (О] 4- q [x (3)] + fi [и (2)]. (П.3.23)
Представим /3 = /зЧ-/з", где /з'=?[*(1)]+|1[и(0)].
Пусть м(3>(0)=м(3>*(0), где м(3>*(0)—произвольное, но фиксированное
число.
Для оптимальности управления в этом трехшаговом процессе при
условии, что управление на первом шаге фиксировано, необходимо определить
и<3>(1) и и<з>(2) так, чтобы Jz" = g[x(2)]+\L[u(l)]+q[x(3)]+i»,[um]
принимало наименьшее значение. Для определения м<3>(1) и н<3>(2) воспользуемся
результатами, полученными для двухшагового процесса с начальным условием
л:*(1)=ф[*(0), м<3>*(0)].
На основе (П.3.20) получим
и(3) (1) = г(2) [х* (1)]; и(3) (2) = г(1) [х (2)]. (П.3.24)
;ционала (П.3.23) при управлении (П.3.24)
[ределяется выражением
/з = <7 [** (1)] + 1* ["(3)*(0)1 + »2 (** (!)]•
Значение функционала (П.3.23) при управлении (П.3.24)
ы(3)(0)=и(3)*(0) определяется выражением
238
Минимизируя его по и(3>(Ф), получим
v3 [х (0)] = rain {q [<р [х (0), и<3> (0)]] + ji [и(3) (0)] +
#(3)(0)6£/
+ »2 [<Р [^ (О), ^(3)(0)]]}. (П.3.25)
Выражение в фигурных скобках является функцией одной переменной
w<3>(0). Используя процедуру 1, находим
и<3)(0) = г(3)[л:(0)]. (П. 3.26)
Таким образом, оптимальное управление в трехшаговом процессе
описывается выражениями (П.3.24), (П.3.26).
Повторяя эти рассуждения для #==4, 5, ..., получим соотношение
vN I* (0)] = min {q [7 [x (0), и^ (0)]] + р [u<N> (0)] +
и(ДГ)(0)€^/
TVih[*(°). и(Л°(0)]]}, (П.3.27)
которое является функциональным уравнением для дискретных систем.
Вывод этого уравнения опирался на принцип оптимальности,
который можно переформулировать так:
оптимальное уравнение* обладает тем свойством, каковы бы ни были
начальное состояние (условие) и управление на первом шаге (или
нескольких первых шагах), управление на последующих шагах должно быть
оптимальным относительно состояния, возникшего в результате управления
на первом шаге.
Какие же трудности в решении задачи П.3.1 мы преодолели, используя
подход, основанный на принципе оптимальности? Главной трудностью
являлась минимизация функции N* переменных (П.3.6). Функциональное
уравнение (П.3.27) позволило свести задачу минимума функции N переменных к
значительно более простой задаче минимизации функций одной переменной.
Действительно, используя (П.3.27) при N=\, 2, ..., получим функции:
иО) (0) = г(1) [х (0)], vi [х (0)] (N = 1); н(2) (0) = г<2> [х (0)];
t>2[*(0)] (N = 2); ...
и"-1 (0) = г*"""1) [х (0)]; vN_x [х (0)] (N = N*- l);
«<">(0)«r<*>[*(0)]; 1^[*<0)] (N = N*). )
(П.3.28)
Отметим еще раз, что функции и<»>(0) =■/*<*>[*(())] (/=1, N*) получены в
результате минимизации функции Мф[*(0), и(О(0)]]+^И(0)] + ^-1[ф[^(0)»
ы<*>(0)]] одной переменной и<*>(0).
В задаче П.3.1 требуется найти управление вида (П.3.4)
"(0)=^ г0 [л: (0)1; и (1) = гг [х (1)]; и (2) = г2 [х (2)],...
Очевидно, что искомые и полученные управления связаны соотношениями
и (0) = /•<"*> [* (0)]; «(!)= г"*"1 [*0)]; и(2) = г<"*-2>[л:(2)],...
...,и(ЛР~2) = г<2> [*(//*-2)]; и (N* - 1) = г(1> [х (ЛГ*- 1)]. (П.3.29)
Таким образом, искомые функции управления
rk[x(k)] = r<N*-fc)[x(k)) (*=0, ЛГ»-1). (П.3.29')
239
Второй вариант применения принципа
оптимальности. Приведем еще одну систему рассуждений, основанных на принципе
оптимальности, позволяющих определить управления (П.3.29). Определение этих
управлений начнем с последнего интервала времени [(N*—1), N*],
предполагая, что состояние *(Л^—1) известно. Согласно принципу оптимальности,
управление u(N*—1) на этом интервале должно минимизировать частичную
сумму, соответствующую этому интервалу:
j{N*-i) ==zg[x (Ar*jj + ^ [и (ЛГ* _ ^ (П.3.30)
Учитывая, что x(N*) =ф[*(Л/*—1), u(N*—1)], получим
/(ЛГ*-1)=?[?[;с(ЛГ*~1), u(N*— 1)]] + [л|>ЛГ*-1)]. (П.3.31)
Это выражение с точностью до обозначений совпадает с (П.3.11) и
поэтому, применяя процедуру 1, получаем оптимальное управление на
последнем участке:
и (N* — 1) = /-(1) [х (ЛГ* - 1)]. (П.3.32)
Минимальное значение (П3 31) определяется выражением
vW*-i) [Х (^* _ ^ = q Гср [Х (Аг* __ 1)? г(1) [Х (//* _ j)]]] +
+ pl [г*1* [х (N* - 1)]]. (П.3.33)
Рассмотрим интервал времени [(N*—2), N*], состоящий из последнего и
предпоследнего интервалов Этому интервалу соответствует частичная сумма
/(ЛГ*-2) = q\x (jv*—1)] + (i [и (N* - 2)]+q [x (ЛГ*)] + ц [u (N* - 1)] =
= q [x (N* - 1)] + (x [и (ЛГ* - 2)] + /C^*"1). (П.3.34)
Состояние x(N*—2) будем предполагать известным. Из принципа
оптимальности следует, что лишь состояние x(N*—2) и цель управления
(минимизация /(^*~2)) определяют оптимальное управление на интервале [(#*—2),
Найдем минимум /(^*-2> no u(N*—\), u(N*—2). Учтем при этом
min f("*-V = VW*-D [х (ЛГ* - 1)] = t/^*-1) Г? [х (ЛГ*-2), a(iV*~2)]] .
Первые два слагаемых в (П.3.34) не зависят от u(N*—1) и поэтому
v(ЛГ»-2) = min j(N*-2) = min {q - [х (ЛГ* _ 2) f u(N*_„ 2)]] -f
u{N*—2)£U u(N*—2)eU
+ Ft[tt(^*-2)]+ min {q[<?[x(N*-l), и (N*- 1)]] -f- f* [u(N*- 1 )]}}=
= min {?[?[*(#*-2), a(iV* — 2)1] +р,[и(ЛГ*-2)] +
w(iV*-2)6f/
+ г,(^*-1)[<ргд:(ЛГ*_2), а(ЛГ*-2)]]}. (П.3.34')
Применяя к последнему выражению в фигурных скобках, совпадающему
с точностью до обозначений с (П3.19), процедуру 1, получим оптимальное
управление на предпоследнем интервале [(N*—2), (N*—1)].
При этом
и (N* — 2) = г(2> [х (N* - 2)], v (N* - 2) = v{N*-2) [x (N* - 2)];. (П.3.35)
240
Перейдем теперь к интервалу времени [(N*—3), N*], состоящему из трех
последних интервалов. Этому интервалу соответствует частичная сумма
/(лг*-з) =д[х (Лг* _ 2)] + ji [и (ЛГ* - 3)] + J(N*~2K (П.3.36)
Предполагая состояние x(N*—3) известным, определим управления
u(N*—3), u(N*—2), u(N*—1), минимизирующие сумму (П.3.36). В
соответствии с принципом оптимальности, эти управления являются оптимальными для
трех последних интервалов времени движения.
Учитывая, что первые два слагаемых в (П.3.36) не зависят от u(N*—2),
u(N*—1), запишем
1/(ЛГ*-з)== min /(j?v*—3) = min {q[^[x(N*-S)f а(ЛГ*--3)]] +
u{N*-l )e(J u(N*-S)£U
u(N*-2)eU
+ p. [u (N* - 3)] + min /(^*"2)}= min {q [y [x (AT*—3), и (W*-3)]]-b
u(N*-2)£U u(N*-3)eU
u(N*-i)eu
+ {x[tt(JV*-3)] W^*~"2)[<p[*(W*-3), u[(N*-3)]]} . (П.3.37)
Применяя процедуру 1, получим оптимальное управление на интервале
[(W*-3), (JV*_2)]
и (N* — 3) = г(3) [х (N* — 3)], v(N*—3)=v(N*-3)[x (N* - 3)]. (П.3.38)
Продолжая этот процесс, получим общую рекуррентную формулу
v<^*-*> = min j№-*) = min {q [<p [х (ЛГ* - k), и (N* - k)}) +
u(N*—k)£U u(N*-k)£U
+ р[и(К*-к)] +v(JV*-k-1)[<?[x(N*-k), u(N*-k))]} (k = \TNh
(П.3.39)
Используя процедуру 1, получаем оптимальное уравнение на интервале
[(N*—k), (N*—k—l)]:
u(N* — k)=r{Il)x(N* — k) (k = \,N). (П.3.40)
Это выражение совпадает с (П.3.29), а функциональное уравнение (П.3.39)
при k = N совпадает с (П.3.27).
Приложение 4. Вывод алгебраического уравнения Риккати
Запишем уравнения (4.1.1), (4.1.2) и функционал (4.1.3) в развернутой
форме:
п т
*/ = 2 aUxJ + S */*«*» (' ^ *» л> (П.4.1)
п
"к = 2 ***** <* = П"™); (П.4.2)
оо / п т \
/-| 2 <Г/у*/*у + 2! в*Р'» (П.4.3)
о y,y«i -1 /
где
л
2 ?//-**'*; > °
п~я всех значений ** (*=1, л).
241
Уравнения в частных производных (2.3.8), (2.3 9) имеют
мом случае вид
dv
dt
п г- Jn m -|
я т
+ 2 ^^^+2 **•
в
рассматриваема* I +
(П.4.4)
/./-1
/i
1 Ч\^ dv
bik+2uk = 0 или uk = — — V. -т—*« (£ = 1,/я)-
2 >W '&*/
(П.4.5)
Исключая иь (&=1, m) из (П.4.4) с помощью (П.4.5), получим
нелинейное уравнение в частных производных
я /Я \ т / я \2
_J^L = ^ J*L ^ а .* \ ^ JL[ ^ -*L $ | +
Решение этого уравнения будем искать в виде квадратичной формы
я
*= 2 />//*/*/• (П.4.7)
Подставляя выражение (П.4.7) в (П.4.6), получим
п / п \ ( я \
т г- я / я \ -|2 я
~5d 5 ( ]la PijXj r/ftT + b'
Л=,1 L /-1 \;=,1 / J /,/-1
qijXiXj^O. (П.4.8)
Это равенство можно записать в виде
я . я
4
+
/,/-1
242
Приравнивая нулю совокупность коэффициентов при произведениях
XiXj (/, /=1, п) и учитывая, что XiXj = XjXi, получим систему из я(/г+1)/2
алгебраических уравнений для определения коэффициентов рц (/, /=1, п):
п т / п \ / п \
2 (р.лУ + **а,) - 2 2 /\Л* 2 />«,- *.* +
o-l Л=1 \а=1 / \о=1 /
+ ^у = 0, при этом pij = pji. (П.4.9)
Подставляя квадратичную форму (П.4.7) в (П.4.5), получим
«* = -S (2 ЛЛл)*' (*=Т7т). (П.4.10)
i-l \а=1 /
Если система алгебраических уравнений (П.4.9) имеет своим решением
хотя бы один набор чисел рц (/, j=l, /г), при котором форма (П.4.7)
является положительно-определенной,
п
2 PUxi*J>°
для всех jc» (i=l, п), то искомое оптимальное уравнение (П.4.2),
разрешающее задачу, имеет вид (П.4.10) и, следовательно, искомые коэффициенты
cih (i=l, /г; 6=1, т) равны
л
«» = -2лЛ* (* = 1, л; Л = 1, т). (П.4.11)
Записывая (П.4.9) и (П.4.10) в матричной форме, получим (4.1.12)»
(4.1.13).
Приложение 5. Аналитическое конструирование
регуляторов дискретных систем
Пусть объект регулирования описывается уравнением
x[(k + \)T]^<b(kT)x(kT) + R(kT)u(kT) (*=ТТл). (П.5.1)
Требуется определить матрицу C'(kT) коэффициентов регулятора
u(kT) = C (kT)x(kT) (k=07~N), (П.5.2)
такую, чтобы на движениях системы (П.5.1), (П.5.2), возбужденных
произвольными начальными условиями, минимизировался функционал
JV
I = 2 х'(*г> Q W>х (*г> + "' К* - О П и К* - О П• (П.5.3)
Здесь Ф(£Г), R(kT) (k = 0, 1, ...) — заданные матрицы размеров пхп, пхт
соответственно; Q(kT)—неотрицательная определенная известная матрица
размеров лХл.
Для решения этой задачи применим принцип оптимальности. Управление
будем определять, начиная с последнего интервала времени [(N—1)Г, NT]. На
этом интервале с учетом (П.5.1) имеем частичную сумму
/СЛГ-1) = Х' (ivr) Q (NT) x (NT) + u' [(N - 1) T] u [(N -1)T] =
= {Ф [(// - 1) П x [(ЛГ - 1) T] + /? [(ЛГ - 1) Г] u [(N - 1) Г]}' Q (XT)X
X &[(N -\)T]x[W -\)T] +R[(N -l)T]u[W -1)T]} +
+ и'[(ЛГ— 1)Г]и[(^-1)Г]. (П.5.4)
24S
Опуская аргументы, запишем ее наименьшее значение
^(ЛГ-1) = min [Х'ф'рфх -f 2x,0'Q/?u +u' (R'QR + £)u]. (П.5.5)
u(N—1)
Положим равным нулю градиент по и от выражения в квадратных
скобках:
2x'<f>'QR 4-2u' (R'QR+E) = 0. (П.5.6)
Разрешая это уравнение, получим оптимальное управление на последнем
участке
u [(N - 1) Т] = -{#' [(ЛГ - 1) П <? (ЛГГ) Л [(ЛГ - 1) П + Я}-1 X
X Л' [(N - 1)7-] Q (ЛГГ) Ф [(ЛГ - 1) П х [(ЛГ - 1) П. (П.5.7)
Таким образом,
и [(ЛГ - 1) Г] = С [(ЛГ - 1) Г] х [(ЛГ - 1) Т], (П.5.8)
где
С [(ЛГ - 1) Г] = -{#' [(ЛГ - 1) Т] Q [NT] R [(N - 1) Г] + £}-1 X
Х/г'К^-ОПО^ПФК^-ОП- (П.5.9)
Подставляя (П.5.7) в (П.5.5), получим минимальное значение суммы
(П.5.4):
^(ЛГ-i) = Х'Ф'(?Фх — 2х'Ф'(?# [R'QR + £]-i #'<?Фх +
+ х'Ф'<?# (R'QR + £)-i/?'<?Фх = х' [(ЛГ—1) Г] Л [(ЛГ - 1) Г] х [(ЛГ - 1) Т] ,
где
Л [(ЛГ - 1) Г] = Ф' [(ЛГ - 1) Г] {Q (Л/У) - Q (ЛГГ) R [(N -\)Т)Х
X [#' [(ЛГ - 1) Г] Q (NT) R [(N - 1) Т] + £]-1 Я' [(ЛГ - 1) Г] Q (ЛГГ)} X
ХФ[(ЛГ—1)Г]. (П.5.10)
Таким образом, минимальное значение v^N~^ является квадратичной формой
от х[(ЛГ—1)7].
Оптимальное управление на предпоследнем шаге определяется на основе
соотношения (П.3.34'), которое принимает в рассматриваемом случае вид
vN~2=* min {х'[(ЛГ-1)Пд[(ЛГ-1)Г]х[(ЛГ-1)Г] +
и[(ЛГ-2)Г]
+ и' [(ЛГ - 2) Т] и [(ЛГ - 2) Т] -Ь viN-l)} =
= min {х' [(ЛГ - 1) Т] [Q UN - 1) Т] + Л [(ЛГ - 1) Т) х [(ЛГ - 1) Т) +
и[(ЛГ-2)П
+ и'[(ЛГ-2)Г]"[(^Р-2)Г]}= min {{Ф [(ЛГ - 2) Г] х [(ЛГ - 2) Г] +
и[(ЛГ-2)Г]
+ Л[(ЛГ~-2)Г]и[(ЛГ-2)Г]}'[(?[(^-1)Г] + Л[(ЛГ-.1)Г]Х
X {Ф [(ЛГ - 2) Г] х [(ЛГ - 2) Т] + Я [(ЛГ - 2) Г] и [(ЛГ - 2) Г]} +
+ и' [(ЛГ — 2) Т] и [(ЛГ - 2) Т]}} = min {х'Ф' [Q + Л] Фх +
и[(ЛГ-2)П
+ 2х'Ф' [Q + Л] Яи + и' [Я' [Q -f. A] R + £] и}. (П.5.11)
244
Приравнивая нулю градиент последнего выражения в фигурных скобках,
получаем
u [(N - 2) Т] = С [(N -2)T]x [(N - 2) Т], (П.5.12)
где С [(N - 2) Т] = -{/?' [(N - 2) Т] [Q [(N - 1) Т] +
+ A [(N - 1) Т]] R [(iV - 2) Т] + £}-1 #' [(ЛГ - 2) Г] X
X (Q [(W - 1) Г] + A (N - 1) Т]} Ф [(ЛГ - 2) Т]. (П.5.13)
Отметим, что последнее равенство в (П.5.11) совпадает с точностью до
замены Q на (Q+A) с выражением в правой части (П.5.5), поэтому (П.5.13)
совпадает с (П.5.9), если в последнем заменить Q на Q+A, а N—1 на N—2.
Подставляя (П.5.12), (П.5.13) в (П.5.11), получаем минимальное
значение частичной суммы на последних двух интервалах управления
v(K-i) = Х' [(дг _ 2) Т] А [(ЛГ - 2) Т) х [(ЛГ - 2) Г], (П.5.14)
где A[(N-2)T}= Ф'Л(ЛГ-2)Г] {<?[(ЛГ - 1) Т] + Л [(ЛГ - 1) 71] -
-№Р-1)П+^Р-1)П]х/?Р-2)П{/?'Р-2)Пх
X [Q [(ЛГ - 1) Т) + Л [(ЛГ - 1) Г]] Я [(ЛГ - 2) Г] + Я}"1 X
ХЛ'[(^-2)П[0[(^-ОП+^[(^—0П]}Ф[(^-2)П. (П.5.15)
Продолжая этот процесс, определим управление на интервале [(N—у)Г,
(N—]'+\)Т] из условия минимума правой части соотношения принципа
оптимальности
v{N-j) = min {х, [(ЛГ _j + l)T]Q [{M — j + 1) П х[(ЛГ - у + 1) Т] +
и[(ЛГ-у)Г]
+ и'[(ЛГ - у) Г] u [(ЛГ - ]) Т) + *<"->+1>}, (П.5.16)
которое можно представить как
»<*-/>= min {x'[(^-/ + l)r][Q[(iV-y + l)r]-f
и[(ЛГ-;)П
+ Л[(ЛГ-/ + 1)П]х[(АГ-У+1)П+и'[(^-ЛПи(^-ЛП} =
= min {{*[(N-j)T]x[(N-j)T) + R[(N-j)T]u[(X-j)T]}'X
u[(N-j)T]
X [Q[(N - j + l)T] + A[(N - j + \)Т}] {Ф[(К - j)T]x[(N - j)T] +
+ R[(M - j)T]u[(N - j)T}} + * [(N - j)T)u[N - j)T]}. (П.5.17)
Приравнивая нулю градиент по и последнего равенства в фигурных скобках,
получим
u UN - Л П = С' [(ЛГ - у) Г] х [(ЛГ _ у) Г], (П.5.18)
где С [(ЛГ - У) Т) = -{Я' [(ЛГ - j) T] [Q [(ЛГ - у + 1) Г] +
+ Л [(ЛГ - у + 1) Т}] R [(ЛГ - /) Т] + Е}~1 R' [(ЛГ - f) T] X
Х{0[(ЛГ-У+1)П+Л[(ЛГ-/ + 1)П>*[(Лг-_ЛП. (П.5.19)
Подставляя (П.5.18), (П.5.19) в (П.5.17), получим
viN-j) = х, 1(Лг _ л тj л 1(Лг _ у) Г] х [(ЛГ - У) Г], (П.5.20)
245
где A [(N - ]) Т] = Ф' [(N - j) T] {Q [(N - j + 1) Т] +
+ A[(N -- j + \)Т]}Ф[(Ы - ])Т]-Ф' [(N - j)T]{Q[(N - j + \)Т] +
+ A[(N-j+\)T]}R[W-j)T]{R'[(N-J)T][Q[(N-J + \)T] +
+ A[(N - j + \)Т]] R[(N - j)T] + E}~i К' [(N - j)T) X
X [Q [<JV - у + 1) 71] + Л [(AT - у + 1) Г]] Ф [(^ - Л Т]. (П.5.21)
Выражения (П 5.18)...(П 5.21) справедливы для всех /=1, N, (A(N)=0) и>
таким образом, выражения (П.5.20), (П.5.19) являются рекуррентными
соотношениями для последовательного вычисления искомой матрицы
C'[kT\^C[{.N-j)T} U=C~N). (П.5.22)
Приложение 6. Вывод уравнений оптимального
наблюдения (уравнений фильтра Калмана — Бьюси)
1. Найдем вначале уравнения для ошибки (е = х—х) наблюдения. Для
этого вычтем из уравнения объекта (5.2.1) уравнение наблюдателя (5.2.6),
тогда получим
е = [А (О - К (О D (О] е - К (О * + V (О f; е (*0) = е<°>. (П.6.1)
2 Теперь вычислим значение критерия (5.2.7) на решениях (П.6 1). В
связи с этим введем обозначения
ё(0-М{е(0}; (П.6.2)
Ре (О = М {[е (О -~е (О] [е (t) -~е (О]'}, (П.6.3)
где e(f)—математическое ожидание; Pe(t) — матрица дисперсий ошибок
наблюдения.
Нетрудно видеть, что
Ре (О = М {[е (О - i (О] [е (О -е (*)]'} = А* {е (t) e' (*)} -
-М (е (0} е' (О -e(t)M {е' (t)} ■+• {ТО)е7(0} =
= М {е(Ое' (0} — ё"(0ё~' (*). (П.6.4)
Отсюда следует, что
М {е (О е' (0} = ^ (О +i (О 5' (О • (П.6.5)
Матрица М{е(/)е'(/)} называется матрицей моментов второго порядка.
Элементы матрицы Ge(t) = М{е(/)е'(/)} определяются выражениями
gffW^MietMejV)}. < (П.6.6)
Таким образом, (П.6.5) можно записать в виде
Ge (t)=Pe (О -he (0 ё' (О- (П.6.7)
j Утверждение П.6.1. Среднее значение квадрата ошибка
восстановления (5.2.7) выражается через математическое ожидание и матрицу
дисперсий ошибок наблюдения следующим образом:
I AI{e'(0A(0e(0} = tr[7>e(0A(0]+e'(0A(0?(0- (П.6.8)
246
Доказательство этого соотношения получаем, если с учетом (П.6.6), (П.6.7)
запишем
М{е' (О Л (О e(0}=Af ( 2 hj (О */ (О «у (0} - 2 hj (О Л* {в/ (О ву (О) =
п
= 2 х/у ю *# (о = tr tA w G* ей =tr (Л w [^ (0 +«w ? (0]} =
= tr[P,(/)A(0]+?(OA(0?(0.
Далее для простоты полагаем Л== diag||Xb .., A,n||, Л*^0, / = 1, п.
3. Переходя к минимизации критерия (5.2.7), заметим, что в соответствии
с (П.6.8) второе слагаемое достигает минимума, когда е(/)=0. Найдем
условия, при которых выполняется это равенство. В соответствии с формулой
Коши (1.3.18) решение уравнения (П.6.1) имеет вид
t
e(t) = H(t, *o)e('o)! + f #(', x)[V(T)f(T)-/C(T)K(x)]rfTf (П.6.9)
где Я(/, t0)—нормированная фундаментальная матрица решений однородного
уравнения
е = [А (О - К (О D (О] е (О. (П.6.10)
Принимая во внимание, что Af{x (/)} = Af{f(/)} = 0, получим на основе (П.6.9)
M{e(t)}=H(t, t0)M{e(t0)} или ё (О = Я (t, t0)'e(t0).
Это означает, что е(/) является решением уравнения
7= [А (О -K{t)D (О] ё. (П.б. 11)
Если задать начальное условие наблюдателя
х(*о) =х(0),
то е(/0)=0 и, следовательно, решение уравнения (П.б 11)
ё(О=0. (П.б. 12)
Таким образом, доказано соотношение (5.2.11).
4. Найдем условия, при которых достигает минимума первое слагаемое в
выражении (П.6.8). Для этого построим вначале уравнение, которому
удовлетворяет матрица дисперсий ошибок восстановления Pe(t). Такое уравнение
нетрудно записать, если воспользоваться следующим утверждением [4.7].
I У т в ер ж д е н и е П 6.2 Если х(/)— решение уравнения
x = A(t)x+W(t)f(t), х(/0)=х(0\ (П.б. 13)
(где f(/) — «белый шум» интенсивности R{1)(t); х<°>—стохастический
вектор, не зависящий от \(t) со средним х<°> и матрицей дисперсий /?*°> =
= М{[х<°>—x<°>] [х<°>—х<°>]'}, то матрица дисперсий
Рх (О = м {х (О - х (О] [х (О -х (О]'}, х (О = Af {х (0}
удовлетворяет матричному дифференциальному уравнению
I Px{t)=A(t)Px{t)+PxA'{t)+4Ht-)R^{t)W'(t), Px(to) Rm- (П.б.14)
247
Для доказательства этого утверждения запишем вначале в соответствии с
(П.6 5)
Рх(О = М{х (О х' (*)} - х (Ох' (О- (П.6.15)
Для вычисления значения матрицы М{х(/)х'(/)} воспользуемся выражением
для решения уравнения (П6.13):
х (О = Ж*, *о)х(*о)+1 Hit, T)l"(x)f(T)rft. (П.6.16)
'о
Тогда
М {х (О х' (0} =M{H(t, tQ) х<°>х(0)'Я' (^ /0)} +
+ M{fi(t, t0)x
(0)
]' Н it, x)W(T)f (T)rfx I
+
■M
j //(/, x)4T(x)f (x)rfx
^(0)'//'^W +
+ M
| Я(*, т)¥(т)Нт)</т
J Я(Л x)T(T)f(x)rfT
(П.6.17)
Второе и третье слагаемые в этом выражении равны нулю, так как векторы
х<°> и f(/) независимы и M{f(t)} = 0.
Преобразуем последнее слагаемое с учетом (5.1.3)
t
М
t
1
L'o
I H(t, x)W(z)i(x)dx
| H (t, т)) ЧГ (7)) f (Y]) dr[
= J | H(t,x)W(X)M{f(x) V(-4)}4rtti)H'(t,-n)\dxdii
to t0
= [#(*, x)V(x)R(i)(x)W (т)Я' it, x)dx. (П.6.18)
Подставляя (П6.17) в (П6.15), получим с учетом (П.6.18)
t
Рх (О = H(t,t0)G (0) Я' (t,t0) + J //'(', О ЧГ (т) #(1) (т) ЧГ'(т) Я'('. т)</т-
-Я(МоХ(0)Л(Мо), где G^(0)==Af[x<0>x(0>'l-
Аналогично (П.6.7) получим
Px(t) = H(t,t0)R(0)H'(t,t0)+ J H(t,x)4!'(x)R^(*)xP'(T:)H'(t,z)dx.
(П.6.19)
(Нетрудно видеть, что Px(to)=R{0) ) Дифференцируя это равенство с учетом
соотношения
dti it, x)
dt
(П.6.20)
и равенства
НЦ, t) = En, (П.6.21
получим (П 6 14), и таким образом, утверждение П.6.2 доказано.
248
)
Используя это утверждение, запишем уравнение для матрицы дисперсий
ошибок восстановления
К (0 = [Л (О -K(t)D (О] Ре (О + Ре (О И (О -K{f)D (01' +
+ /с (О#(2) (О /С' (О + w (О#(1) (О ^ (О; (П.6.22)
Pe(t0)=R(0). (П.6.23)
5. Сформулируем одно утверждение, касающееся свойств решений
матричного дифференциального уравнения Риккати (4.1.28).
Отметим вначале, что в соответствии с (2.3.11) функция
v (О = х' (О Р it) х (О, (П.6.24)
являющаяся решением уравнения метода динамического программирования,
возникшего в связи с задачей о минимуме функционала (4.1.26) на связях
(4.1.25), позволяет вычислить значение функционала (4.1.26) на оптимальных
траекториях. Это значение
min / = v ft,) = х' (*о) Р Со) х (^о). (П.6.25)
Вычислим значение функционала (4.1.26) при неоптимальном управлении
и = С'(Ох, (П.6.26)
где C(t)—произвольная, но фиксированная матрица функций времени,
заданных на интервале [t0t t\]-
Объект, замкнутый управлением (П6.26), описывается уравнением
х = Л(0х; х(ад=х(0), (П.6.27)
где
А (О = А (О + В (О С' (О. (П.6.28)
а функционал (4.1.26) принимает вид
/ = J xQx^ + х' (^) Р(1)х (ад, (П.6.29)
to
где
Q = О (О + С (О С' (0 • (П.6.30)
Итак, необходимо вычислить значение функционала (П.6.29) на решениях
уравнения (П.6.27).
Не фиксируя пока t0, будем искать значение функционала (П 6.29) как
tx
х' (t)P(t) х (О = j* х' (О Q (О х (О ^ + х' (ад Р(1) х fo). (П.6.31)
Из этого выражения следует, в частности, что
Я(ад = р(1). (П.6.32)
Дифференцируя обе части (П.6.31) с учетом (П6.27), получим
х' (О [А' (О Я0) + Я + Р (О Л (О] х (О = -х' (t)Q (0 х (0.
Отсюда следует уравнение
-Р (О = Я(0 2 (О + А' (О /* (О + О (О •
249
Это уравнение с учетом (П. 1.28), (П. 1.30) примет вид
-? (О = Р (t) [А (О + В (О С' (О] + [А (О + ^ (О С' (ОГ ? (О +
+ Q(0+C(OC'(0. (П.б.33)
Из (П.6.31) получим значение функционала (П.6.29)
v (*0> = х' (*0) > (ад х (^о). (П.6.34)
Очевидно, что
v(t^>v(t0), (П.6.35)
так как у (/о)— значение этого функционала при оптимальном управлении.
Из (П.6.34) следует, что Р (to) "^ P (to), поскольку вектор х(/о)
произвольный. Кроме того, используя произвольность t0, заключаем, что
{P(t)-P(t)\ >0. (П.6.36)
Таким образом, доказано следующее утверждение.
I Утверждение П.6.3. Матричное уравнение (П.6.33) с краевым
I условием (П.6.32) имеет решение, удовлетворяющее неравенству (П.6.36).
I Это неравенство обращается в равенство, если
I С (О = ~P(t)B(t). (П.6.37)
Если функционал (4.1.26) имеет вид (4.1.26"'), то уравнение (П.6.33)
принимает вид
-> (О - [Л {t) + В (О С' (*)]' Р«)+Р (О [Л (0 + В (t) С' (О] +
+ Q+C(t)QW (О е#), (П.6.38)
а матрица
С = — Р (О 5 (О Q(1)-x. (П.6.39)
6. Введем (полагая дальше для простоты /0=0) в рассмотрение
дифференциальное уравнение для некоторой матрицы S(t) (размеров яхя), которое
получается из уравнения (П.6.22) обращением времени путем введения т=
= tt—t и последующей замены т на t:
-£(0 = [A' (tt - О -D' ft - О /С' <*х - 0]' 5(0 + 5(0 [Л' ft - 0 -
-£)'(^1-оа:,(^~о]+/с(^-о«(2)(^-о/с/(^-о +
+ i4*i--0*(1)('i--0*,'(*i--0; (П.6.40)
§ (*!)«*«>>. (П.6.41)
Очевидно, что решения уравнений (П.6.22), (П.6.40) связаны равенством
Pe(t) = S(tt-t). (П.6.42)
Применим теперь утверждение П.6.3 к уравнению (П.6.40). Матрица S(t)
достигает минимума, если матрица
Kiti-O^SWD'lh-tyRW-^tx-t). (П.6.43)
Действительно, уравнение (П.6.40) совпадает с уравнением (П.6.38), если в
последнем положить £(0=£'(Л—t), C(t)=—K{ti—0»
Q*> «) = #*> «i-1),
250
и тогда на основе (П.6.37) получаем (П.6.43). Подставляя (П.6.43) в (П.6.40),
получим уравнение для наименьшего значения матрицы S(t)=S(t):
-S(t) = Л (tx - t) S (0 + 5 (О А' (*! - О -
- 5 (О D' (tx - О /?^2>~1 ft - О D (^ - О 5 (О Ч- ЧГ уг - О X
Х#(1) (*i - О ¥'(*i - О; 5 (/) = #(0). (П.6.44)
Решения уравнений (П.6.40) и (П.6.44) удовлетворяют условию
[5(0-5(0] >о.
Обращая время в уравнении (П.6.44), заключаем, что
[/£(0-/>«('>]> О, (П.6.45)
где Я«(0—решение уравнения (5.2.9), которое совпадает с (П.6.44) после
обращения времени.
Из (П.6.45) следует
tr [Pe(t) A (t)) >tr [Pe(t) A (t)},
и поэтому матрица (П.6.43), совпадающая при S(t)=S(t)=Pe(t) с матрицей
(5.2.8), минимизирует наблюдатель, и таким образом, утверждение 5.2.2
доказано.
Отметим, что полученный результат не зависит от конкретного момента
времени ty который выбран для минимизации критерия (5.2.7) и выбора
матрицы Л (0, поэтому матрица (5.2.8) минимизирует (5.2.7) одновременно для
всех t>t0 и любых знакоопределенных матриц Л (О-
Приложение 7. Доказательство теоремы разделения
Запишем функционал (5.2.5) с учетом коммутативности операции
интегрирования и математического ожидания в виде
J = j M {x'Q (О х + u'u} dt + M {x' (tt) pM x (tx)} (П.7.1)
и рассмотрим
Af{x'Q(Ox} =Af{[x(0-x(0+x(0]'Q(0[x(0-x(0 + x^O]} =
= M {[x(0 - x(01' Q(0 [x(0 -x (01) + 2M {[x(0 - x(0]' Q(Ox (0} +
+ Л1 {x'(0 0(Ox(0>, (П.7.2)
где x(0—вектор переменных состояния оптимального наблюдателя (5.2.6), в
котором матрица К(t) определяется соотношениями (5.2.8)...(5.2.9).
В соответствии с (П.6.8) матрица дисперсий ошибки оптимального
наблюдения
М {[х (О - х (ОГ Q(О [х (0 - х (0]} = tr [Ре (О Q (О], (П.7.3)
так как при оптимальном восстановлении е(/)=0, а Ре — Ре, где Ре —
решение уравнения (5.2.9).
Второе слагаемое в (П.7.2)
М{[х(О -£(0Г Q(Ох(0} = О (П.7.4)
в силу следующего утверждения.
251
I Утверждение П.7.1. Векторы e(t)=x(t)— x(t) и х(/) не коррели-
[рованы. Доказательство этого утверждения будет приведено ниже.
Таким образом,
М {х' (О Q (t) х (t)} = tr [Pe (0 Q (t)] + M <х' (0 Q(t)£(t)}. (П.7.5)
Полагав в этом выражении t — t\ и заменяя Q(t{) на Р*1), получим
AI {х' (*х) Р<*> х ft)} = tr [Р, ft) Р<*>] + М {х7ft) P(1)x~ft)}. (П.7.6)
Используя эти выражения, запишем функционал (5.2.5) в виде
[tx
J = М f [J'Q ft x + u'u] Л + x' ft) P(1)x ft)} +
+ tr {( Pe ft Qft dt + Pe ft) /><*>}. (П.7.7)
U
Заметим, что два последних слагаемых в этом выражении не зависят от
управления.
Запишем теперь уравнение оптимального наблюдателя (5.2.6)
х = A(t)i + Вftu + К (О [у -£>ftx]. (П.7.8)
I Утверждение П.7.2. Разность
a(t) = y -D(t)x (П.7.9)
I является случайным процессом типа «белый шум» с интенсивностью R(2)(t).
Правдоподобность этого утверждения следует из (5.2.2), которое можно
записать какх =у—D(t)x.
Утверждения П.7.1 и П.7.2 позволяют свести задачу оптимального в
смысле функционала (5.2.5) управления при неполной информации о состояниях
объекта (5.2.1); (5.2.2) к задаче оптимального в смысле функционала
/=ЛШ [x'0(Ox+u'u]^-hx'tfi)P(1)x(^i)} (П.7.10)
стохастического управления для «объекта»
х = А (0 х + В ft и + К ft « ft, (П. 7.11)
возбужденного случайным процессом» ft, являющимся «белым шумом».
Решение этой задачи
и= С (Ох, (П.7.12)
где матрица C'(t) определяется выражениями (5.1.7), (5.1.8), и таким
образом, теорема разделения доказана.
Для доказательства утверждения П.7.1 запишем уравнения системы с
оптимальным наблюдателем:
x = .4ftx + £ftu+¥ftf; У = 0(Ох + *(О; (П.7.13)
x = A(t)x + B(t)u + K(t)[y-D(t)x]. (П.7.14)
Вычитая из первого уравнения системы (П.7.13) уравнение (П.7.14), получим
ё = [А (О - К (О D (О] е + Ч? (О f - К ft х. (П.7.15
252
Подставляя в (П.7.14) выражение (П.7.12), заключаем
х = [А (О + В (О С (О] х + К (О Я (О е + /С (О * •
(П.7.16)
Рассмотрим расширенный вектор со1||е(/), х(/)||, который удовлетворяет
дифференциальному уравнению
А (О -АС (0 0(0.
K(t)D(t),
W(0
О
0
i4(0 + B(0C'(0
/С(0 I
*(0 1
1f
1 *
1 е 1
1 х 1
с начальным условием
е(*о)
х('о)
х(*о)
v(0)
ЛО)
(П.7.17)
(П.7.18)
Обозначим матрицу дисперсий расширенного вектора через
I е (0 - М (е (0} I
U\[e(t)-M{e(t)}]>, [x(t)-M{k(t)}}'\\\ =
М
х(0-^{х(0}
Яц(0. ^12 (О
я;2(0; ^22(0
(П.7.19)
Дифференциальные уравнения для определения матриц Pu(t), Pi2(^), ^2г(0
можно получить, используя утверждение П 6 2. Так, подставляя матрицу
уравнения (П.7.17) в (П.6.14), получим, в частности, для матриц Рц(0 и
^12(0 уравнения:
Рп(О = [А(О -K(t)D (<)] /»ц (<) + Рц (О [Л (0 ~K(t)D (<)]' +
+ ¥ (О Я(1) (О W (О + К (0 #(2) (О К' (О; (П.7.20)
Pi2 (О = [А (О - /С (О О (01 ^12 (0 + яи (О D' (о /С (О +
+ Я« (О И (О + Я (О С' (01' - К (?) Я(2> (О К' (О (П.7.21)
с начальными условиями
^11 Со) Л2(<о)
^2 (/0) ^22 «О)
= Af
= Af
e(<b)-
х('о)~
1 х (t0)
1 °
в Со)
-х(%)
-х<°> I!
[е(*0)-е(*о)Пх('о)-х(*о)]'||} =
||х(^о) —х<°>]'0'||} =
Я<°> О
О О
(П.7.22)
Таким образом, Рц(/0)=^(0), Pi2(*o)=0.
Нетрудно видеть, что уравнение (П.7 20) совпадает с уравнением (5.2.9),
если K(t) определяется на основе (5 2 8) Следовательно,
^11(0 = ^(0. (П. 7.23)
253
Подставляя это выражение в (П.7.21) и принимая во внимание (5.2.8),
заключаем, что слагаемые Pu(t)D'(t)K'(t) и —K(t)RW(t)K'(t) в уравнении
(П.7.21) взаимно уничтожаются. Оставшаяся часть этого уравнения является
однородным дифференциальным уравнением с начальным условием Pi2(to)—0,
которое имеет решение
Pi2(0=0. (П.7.24)
По определению (П.7.19) с учетом (П.6.12) получим
Pl2(t)=M{[Z(t)-M{x(t)}][e(t)-Z(t)]>} =
- М {[£<*) -M{x(t)}] e' (*)} = М {х(Ое' (0} - М {х(0}? =
= М{х(Ое'(0>=0,
и таким образом, утверждение П.7.1 доказано.
Доказательство утверждения П.7.2 аналогично, если ввести в
рассмотрение уравнение
s = у — D (0 х = D (О е + х; s (/0) = О
(П.7.25)
и рассмотреть его совместно с уравнением (П.7.15). Сформировав расширенный
вектор coll|s(/), e(r)||, запишем уравнение для матрицы дисперсий
расширенного вектора. Анализ этого уравнения приводит к утверждению П.7.2.
Приложение 8. Вывод алгоритма настройки
параметров регулятора
Опишем вначале объект управления с адаптивным регулятором. Не теряя
общности изложения, запишем уравнение объекта, имеющего передаточную
функцию (8.4.2), в виде
х = Ах + Ъи; у = dx,
где
А =
-я-1
Ь =
d = Ц1, 0,...,0||;
а =||а0, aif •» an-ib
(П.8.1)
(П.8.2)
Всегда существует матрица Ч? преобразования х = Чгх уравнения (8.4.1) к
виду (П.8.1), поскольку объект (8.4.1) полностью управляем и наблюдаем.
Теперь объединим уравнения (П.8.1), (84.5), (8.4.13):
'М)
yi*)
А
bV
О
F
о • о
X
v(l)
v<2>
+
b 1
0
1 b ||
ГЧ-
(П.8.3)
Полагая
где Р
254
F
У = dx •
Р(0=Р*+Ф(0.
некоторый постоянный вектор, запишем (П 8.3) и (П.8.4) как
хс = ЛХс + Ьс[р>+ф'(0 8]; */ = dcxc, (П.8.5)
(П.8.4)
где
Лс =
A +Pobd
bd
3ob~d
Хс=||х' v(1)\ v(2)'||;
• FpW . ьр<2>*'
У 0
:Тр^"7 + &р(2)*,1
; ьс =
b
0
1 ь
(П. 8.6)
Если ф (0=0, P = P *, то (П.8.3) может быть использовано для описания
эталонной модели. Действительно, 'пусть хМс — вектор состояния
неминимального представления модели,
хмс = Лсхмс + bcfng; ум = йсх*с> (П.8.7)
„(1)'
»<2>'11
dc=||l, 0 i
мс || м» м ' м
Естественно, что, поскольку матрица А и вектор b неизвестны, эталонная
модель не может быть реализована в виде (П.8.7), однако для последующего
изложения достаточно установленного ранее факта существования вектора Р*,
при котором передаточная функция, связывающая переменные y(s), g(s)
уравнений (П.8.7), совпадает с
»м (s).
где
Вычитая из (П.8.5) уравнение (П.8.7), получим уравнения
е~= Асе + Ьс [ф' (О 8]; е = dc?,
e~(0=MO-Xiic(0.
(П.8.8)
Переходя непосредственно к доказательству утверждения 8.4.1, найдем
вектор 9 (/), при котором выполняется целевое условие lime=0. Для этого
/-►во
используем функцию Ляпунова
v =е'Ре +<р'Гф>0,
(П.8.9)
где Р — положительно-определенная матрица размеров (Зя—2) (Зя—2),
являющаяся решением матричного уравнения Ляпунова
А'СР + РАС = -<?,
(П.8.10)
в котором Q — некоторая положительно-определенная матрица. Полная
производная функции (П.8.9) в силу уравнения (П.8.8) имеет вид
v = (Асе + Ьс<р'8/ Ре -f е'Р (Лсе + Ьс?'8) + Ф'Г? +
+ Ф'Гср = — e'Qe+ (8'b'cPe -f ?'Г) ? + ф' (е'РЬс8 + Г9). (П.8.11)
Если существует матрица Q, такая, что решение уравнения (П.8.10)
удовлетворяет условию
(П.8.12)
(П.8.13)
(П.8.14)
255
то, полагая
получим, что
Pbc = dc,
~r-Vd'c8 = — Т-Ъе
v = —1'Qe < 0.
Для доказательства существования такой матрицы Q используем лемму
[6.5], в соответствии с которой искомая матрица существует, если
передаточная функция
k
w (s) = dc (Es — ЛС)-1ЬС = — w* (s>
является строго пассивной.
Поскольку wM(s)—строго пассивна по построению, то из неравенств
(П.8 9), (П.8.14) следует, что lime(^)=0. Неравенство (П.8.14) выполняется,
если Ф (t) определено уравнением (П.8.13), которое при учете? (0 = Р(0+Р*
совпадает с алгоритмом настройки (8.4.19).
Приложение 9. Вывод алгоритма настройки
регулятора
Представим управление (8.4.28) с учетом обозначения (8.4.30)
уравнением в виде
и = Р*'5 + ф' (О 5 + Ф;С = Р*'Ь + ф' (С+ К) + «Р'С =
= P*'8+(s + 4o)<P'C. (П.9.1)
Полностью повторяя доказательство утверждения 8.4.1 при условии, что
и определяется выражением (П9.1), получим
е = Асе + bc [(s + г\0) Ф'С], е == dce. (П.9.2)
Эти уравнения можно представить как
е = Лсе +Ьсф'С; e = dce, (П.9.3)
где
k
[dc [Es - Лс)-1 bc] (s + ri0)=-— wM (s + щ)
— строго пассивная передаточная функция.
Используя функцию Ляпунова (П8.9), заключаем, как и ранее, что
алгоритм (8 4 31) обеспечивает выполнение целевого условия lime = 0.
СПИСОК ЛИТЕРАТУРЫ
К предисловию, введению и главе 1
1.1. Олейников В. А., Зотов Н. С, Пришвин А. М. Основы оптимального
и экстремального управления. М., 1969. 296 с.
1.2. Куропаткин П. В. Оптимальные и адаптивные системы. М., 1980.
288 с.
1.3. Петров Ю. П. Оптимальное управление электроприводами. М., 1961.
187 с.
1.4. Фельдбаум А. А. Основы теории оптимальных автоматических систем.
М., 1963, 1966.
1.5. Чураков Е. П. Оптимальные и адаптивные системы. М., 1987. 256 с.
1.6. Справочник по теории автоматического управления/Под ред.
А. А. Красовского. М., 1987. 712 с.
К главе 2
2.1. Гноенский Л. С, Каменский Г. А., Эльсгольц Л. Э. Математические
основы теории управляемых систем. М., 1969. 512 с.
2.2. Алексеев В. М., Тихомиров В. М., Фомин С. В. Оптимальное
управление. М., 1979. 430 с.
2.3. Иванов В. А., Фалдин Н. В. Теория оптимальных систем
автоматического управления. М., 1981. 336 с.
2.4. Крутько П. Д. Вариационные методы синтеза систем с цифровыми
регуляторами. М., 1967. 440 с.
2.5. Сиразетдинов Т. К. Оптимизация систем с распределенными
параметрами. М., 1977. 480 с.
2.6. Красовский Н. Н. Теория управления движением. М., 1968. 476 с.
2.7. Математическая теория оптимальных процессов/Понтрягин Л. С. и др.
М, 1961. 392 с.
2.8. Васильев Ф. П. Численные методы решения экстремальных задач. М.,
1980. 518 с.
2.9. Федоренко Р. П. Приближенное решение задач оптимального
управления. М., 1978. 487 с.
2.10. Бахвалов Н. С. Численные методы. Ч. I. M., 1973. 663 с.
2.11. Калиткин Н. Н. Численные методы. М., 1978. 512 с.
2.12. Моисеев И. Н. Элементы теории оптимальных систем. М., 1975. 528 с.
2.13. Черноусько Ф. Л., Баничук Н. В. Вариационные задачи механики и
управления. М, 1973. 238 с.
2.14. Болтянский В. Г. Оптимальное управление дискретными системами.
М., 1973. 446 с.
2.15. Бутковский А. Г. Теория оптимального управления системами с
распределенными параметрами. М., 1965. 376 с.
2.16. Лейтман Д. Методы оптимизации с приложением к космическим
летательным аппаратам: Пер. с англ. М., 1965. 538 с.
2.17. Чистов В. П., Бондаренко В. И., Святославский В. А. Оптимальное
управление электрическими приводами постоянного тока. М., 1968. 232 с
2.18. Бутковский А. Г., Черкашин А. Ю. Оптимальное управление
электромеханическими устройствами постоянного тока М, 1972. 109 с.
257
2.19. Охоцимский Д. Е. Некоторые вариационные задачи, связанные с
запуском ракет//Прикладная математика и механика. 1946. Т. 10. Вып. 2.
2.20. Беллман Р. Динамическое программирование. М., 1960. 400 с.
2.21. Розоноэр Л. И. Принцип максимума Л. С. Понтрягина в теории
оптимальных систем//Автоматика и телемеханика. 1959. Т. 20. № Ю, с. 1320—
1334; №11, с. 1441—1458; № 12, с. 1561—1578.
2.22. Кротов В. Ф. Методы решения вариационных задач на основе
достаточных условий абсолютного минимума I и И//Автоматика и телемеханика.
1962. Т. 13. № 12; 1963. Т. 14. № 5.
2.23. Кротов В. Ф., Букреев В. 3., Гурман В. И. Новые методы
вариационного исчисления в динамике полета. М., 1969. 288 с.
2.24. Кротов В. Ф., Гурман В. И. Методы и задачи оптимального
управления. М., 1973. 446 с
2.25. Хрусталев М. М. Необходимые и достаточные условия
оптимальности в форме уравнения Беллмана//Докл. АН СССР. Т. 242. № 5.
2.26. Субботин А. И., Субботина Н. И. К вопросу обоснования метода
динамического программирования в задаче оптимального управления.//Изв.
АН СССР. Техническая кибернетика. 1983. № 2. С. 24—32.
2.27. Беллман Р., Дрейфус С. Прикладные задачи динамического
программирования. М., 1965. 458 с.
2.28. Беллман Р. Процессы регулирования с адаптацией. М., 1964. 360 с.
К главе 3
3.1. Марьяновский Д. И., Свечарник Д. В. Патент № 77023, заявка
№ 181007 от 25 февраля 1935 г.
3.2. Фельдбаум А. А. Оптимальные процессы в системах автоматического
регулирования/УАвтоматика и телемеханика. 1953. № 6. С. 712—728.
3.3. Болтянский В. Г., Гамкрелидзе Р. В., Понтрягин Л. С. К теории
оптимальных процессов//Докл. АН СССР. 1956. Т. НО. № 1. С. 7—10.
3.4. Болтянский В. Г. Математические методы оптимального управления.
М., 1966. 308 с.
3.5. Воронов А. А. Основы теории автоматического управления. М.—Л.,
1970. Ч. III. 328 с.
3.6. Павлов А. А. Синтез релейных систем, оптимальных по
быстродействию. М., 1966. 390 с.
3.7. Олейников В. А. Оптимальное управление технологическими
процессами в нефтяной и газовой промышленности. Л., 1982. 216 с.
3.8. Клюев А. С, Колесников А. А. Оптимизация автоматических систем
управления по быстродействию. М., 1982. 238 с.
К главе 4
4.1. Летов А. М. Аналитическое конструирование регуляторов
I—IV//Автоматика и телемеханика. 1960. № 4. С. 436—441; № 5. С. 561—568; № 6.
С. 661—665; 1961. № 4. С. 425—435.
4.2. Лурье А. И. Некоторые нелинейные задачи теории автоматического
регулирования. М., 1951. 216 с.
4.3. Ишлинский А. Ю. Механика специальных гироскопических систем.
М., 1963. 482 с.
4.4. Ривкин С. С. Теория гироскопических устройств. Л., 1962. Ч. I; 1964.
Ч. П. 548 с.
4.5. Репин Ю. М., Третьяков В. Е. Решение задачи об аналитическом
конструировании регуляторов на электронных моделирующих установках//Авто-
матика и телемеханика. 1963. Т. 24. № 6.
4.6. Уонем У. М. Линейные многомерные системы управления. М., 1980,
376 с.
4.7. Квакернаак X., Сиван Р. Линейные оптимальные системы управления.
М., 1977. 650 с.
258
4.8. Красовский А. А. Интегральные оценки моментов и синтез линейных
систем//Автоматика и телемеханика. 1967. № 10.
4.9. Красовский А. А. Системы автоматического управления полетом и их
аналитическое конструирование. М., 1973. 558 с.
4.10. Альбрехт Э. Г. Об оптимальной стабилизации нелинейных систем//
Прикладная математика и механика. 1961. Вып. 5.
4.11. Гункель Т. Л., Франклин Ж. Ф. Общее решение для линейных
дискретных систем управления//Тр. амер. общ-ва инж.-механиков. Техническая
механика. 1963. Т. 85. № 12.
4.12. Салуквадзе М. Е. Об аналитическом конструировании
оптимального регулятора при постоянно действующих возмущениях/УАвтоматика и
телемеханика. 1962. № 6.
4.13. Летов А. М. Динамика полета и управления. М., 1969. 360 с.
4.14. Александров А. Г. Частотные свойства оптимальных линейных
систем управления//Автоматика и телемеханика. 1969. № 9.
4.15. Александров А. Г. Синтез регуляторов многомерных систем. М., 1986.
272 с.
4.16. Кузовков Н. Т. Модальное управление и наблюдающие устройства.
М., 1976. 184 с.
4.17. Андреев Ю. И. Управление конечномерными линейными объектами.
М., 1976. 424 с.
4.18. Kalman R. Е. Contributions to the Teory of Optimal Control//Bullet.
Soc. Mat. Mech. 1960. Vol 5, No 1, p. 102—119.
4.19. Luenberger D. G. Conserning the State of Linear Sistem.— IEEE
Trans, of Military Electronic. 1964, No 8.
4.20. Kleinm'an D. I. On Aniterative Technique for Riccati Equation
Computations—IEEE Trans. Aut. Control. 1968. Vol. AC-13, No 4, p. 114.
К главе 5
5.1. Ройтенберг Я. Н. Автоматическое управление. М., 1971. 396 с.
5.2. Медич Дж. Статически оптимальные оценки и управление. М., 1973.
440 с.
5.3. Сейдж Э., Меле Дж. Теория оценивания и ее применение в связи и
управлении. М., 1976. 496 с.
5.4. Колмогоров А. Н. Интерполяция и экстраполяция стационарных
случайных последовательностей//Изв. АН СССР. Серия математическая. 1941.
Т. 5. № 1.
5.5. Winer N. The Extrapolation, Interpolation and Smoothing of Stationary
Time Series. N. Y. Wiley, 1949.
5.6. Kalman R. E., Busy R. New Results in Linear Filtering Andprediction
Theory. J. Basic Eng. Trans. ASME, Vol. 83, D 1961, p. 95—108.
К главе 6
6.1. Мееров В. М. Синтез структур систем автоматического
регулирования высокой точности. М., 1959. 284 с.
6.2. Емельянов С. В. Системы автоматического управления с переменной
структурой. М., 1967. 336 с.
6.3. Кухтенко А. И. Проблема инвариантности в автоматике. Киев, 1963.
376 с.
6.4. Принципы построения и проектирования самонастраивающихся систем
управления/Яегров Б. Н., Рутковский В. Ю., Крутова И. Н. и др. М., 1972.
260 с.
6.5 Фомин В. И., Фрадков А. Л., Якубович В. А. Адаптивное управление
динамическими объектами. М., 1981. 448 с.
6.6. Саридис Дж. Самоорганизующиеся стохастические системы
управления. М., 1980. 400 с.
6.7. Красовский А. А., Буков В. Н., Шендрик В. С. Универсальные
алгоритмы оптимального управления непрерывными процессами. М, 1977. 272 с.
259
6.8. Растригин Л. А. Системы экстремального управления. М., 1974. 630 с.
6.9. Изерман Р. Цифровые системы управления. М., 1984. 541 с.
6 10. Деревицкий Д. П., Фрадков А. Л. Прикладная теория дискретных
адаптивных систем управления. М., 1981. 246 с.
6.11. Цыпкин Я. 3. Адаптация и обучение в автоматических системах. М.,
1968. 460 с.
6.12 Фельдбаум А А Теория дуального управления I—ivy/Автоматика и
телемеханика. 1960. № 9, 11; 1961. № 1, 2.
К главе 7
7.1. Самонастраивающиеся системы: Справочник/Под ред. П. И. Чинаева.
Киев, 1959. 528 с.
7.2. Либерзон Л. М., Родов А. Б. Системы экстремального регулирования.
М. 1965. 158 с.
7.3. Красовский А. А. Динамика непрерывных самонастраивающихся
систем. М., 1963. 468 с.
7.4. Земляков С. Д. Принципы построения и методы исследования
адаптивных САУ. М., 1978. 113 с.
7 5. Казакевич В. В., Родов А. Б. Системы автоматической оптимизации.
М., 1977. 288 с.
7.6. Robbins #., Monro S. A. Stochastic Approximation Metod Annaals of
Mathematical Statistics, 1951, Vol. 22, No 1.
7.7. Kilfer £., Wolfowitz /. Stochastic Estimation of the Maximum of a
Regression function//Annals of Machematical statistics. 1952. V. 23. No 2.
К главе 8
8.1. Эйкхофф П. Основы идентификации систем управления. М., 1975.
684 с
8.2. Современные методы идентификации систем/Под ред. П. М.
Эйкхоффа 1983. 400 с.
8.3 Нарендра К. С, Валавани Л С. Устойчивые адаптивные наблюдения
и управления: Пер. с англ.//ТИИЭР. 1976 Т. 64. № 8.
8 4. Земляков С. Д., Рутковский В Ю. Обобщенные алгоритмы адаптации
одного класса беспоисковых самонастраивающихся систем с моделью//Авто-
матика и телемеханика. 1967. № 6 С. 88—94.
8.5. Narendra К. S., Valavani L. S. Stable Adaptive Controller Desing-Di-
rect Control —IEEE Trans, on Automat. Control, 1979. Vol. AC-23, No 4.
8.6. Ichikawa K. Principle of Luders Narendra's Adaptive Observer.— Int.
Jorn. Control, 1980, Vol. 31, No 2, p. 351—365.
8.7. Parks P. C. Lyapunov Redesign of Model Reference Adaptive Control
System.—IEEE Autom. Control, 1966, v. AC-11, No 3, p. 362—367.
К главе 9
9.1. Саварачи Е., Соэда Т., Накамизо Т. «Классические» методы и
оценивание временных рядов»//Современные методы идентификации систем/Под
ред. П. Эйкхоффа. М., 1983. 400 с.
9.2 Акамке X. Развитие стохастических методов//Современные методы
идентификации систем/Под ред П. Эйкхоффа. М., 1983. 400 с.
9.3. Петерка В Б. Байесовский подход к идентификации систем//Совре-
менные методы идентификации систем/Под ред. П. Эйкхоффа. М., 1983. 400 с.
9.4 Гроп Д Методы идентификации систем. М., 1979. 302 с.
9.5. Спида К., Браун Р., Гудвин Дж. Теория управления (идентификация
и оптимальное управление). М., 1973. 248 с.
9.6. Кашьян Р. Л, Рао А. Р. Построение динамических стохастических
моделей по экспериментальным данным. М., 1983. 384 с.
9 7. Фомин В. Н. Рекуррентное оценивание и адаптивная фильтрация. М.,
1984 286 с.
260
9.8. Цыпкин Я. 3. Основы информационной теории идентификации. М.>
1984. 320 с.
9.9. Saridis G. N., Stein G. A. New Algorithm for Linear System Identilica-
tion.—IEE Trans. Automat. Control, 1968, p. 592—594.
9AQ.Panuska V. A new Form of the Extended Kalman Filter for Parameter
Estimation of Linear System with Correlated Noise.— IEEE Trans. Automat.
Control, 1980, V. OC-25, No 2, p. 229—234.
9.11. Ljung L. Asymptotic Behaviour of the Extended Kalman Filter as a
Prameter Estimator for Linear System. —IEEE Trans. Automat. Control, 1979,
Vol. AC-24, No 1, p. 36—50.
К главе 10
10.1. Якубович В. А. Рекуррентные конечно-сходящиеся алгоритмы
решения систем неравенств//Докл. АН СССР. 1966. Т. 6. С. 1308—1311.
10.2. Якубович В. А. К теории адаптивных систем//Докл. АН СССР. 1968.
Т. 182. № 3. С. 518—521.
10.3. Фомин В. Н. Синтез адаптивного регулятора в случае независимых
аддитивных помех//Синтез регуляторов в некоторых задачах адаптивного
управления. Деп. в ВИНИТИ, 1977. № 1411—77. С. 51—57.
ОГЛАВЛЕНИЕ
Предисловие 3
Введение 5
ЧАСТЬ ПЕРВАЯ- ОПТИМАЛЬНЫЕ СИСТЕМЫ 7
Глава 1. Понятия оптимального управления 8
§ J.I. Оптимальное программное управление 8
§ 1.2. Оптимальное стабилизирующее управление 13
§ 1.3. Развитие понятий оптимального управления 19
Глава 2. Методы теории оптимального управления 24
§ 2.1. Элементы классического вариационного исчисления 24 i
§ 2.2. Принцип максимума 36
§ 2.3. Метод динамического программирования 45
Глава 3. Оптимальные по быстродействию системы управления ... 55
§ 3.1. Системы программного управления, оптимальные по
быстродействию 56
§ 3.2. Синтез оптимальных по быстродействию систем 62
Глава 4. Аналитическое конструирование регуляторов 67 ;
§ 4.1. Процедуры аналитического конструирования регуляторов . . 68
§ 4.2. Построение регуляторов при неполной информации о векторе
состояния 86
§ 4.3. Применение процедур аналитического конструирования регу- ,
ляторов 96
Глава 5. Оптимальные стохастические системы стабилизации .... 107
§ 5.1 Оптимальное управление при случайных внешних
возмущениях и измеряемом векторе состояний 108
§ 5.2. Синтез стохастических систем при неполной информации о
векторе переменных состояния. Оптимальное наблюдение
(оптимальная фильтрация) 111
§ 5.3. Оптимальные стохастические дискретные системы 116 ;
ЧАСТЬ ВТОРАЯ. АДАПТИВНЫЕ
(САМОНАСТРАИВАЮЩИЕСЯ) СИСТЕМЫ 123
Глава 6. Введение в адаптивное управление 124
§ 6.1. Понятия об адаптивных (самонастраивающихся) системах . 124 ;
§ 6.2. Структура адаптивных систем 134
§ 6.3. Методы адаптивного управления 139
Глава 7 Системы экстремального регулирования 142
§ 7.1 Принципы экстремального регулирования 143
§ 7.2. Алгоритмы шаговых систем экстремального управления . . . 151
§ 7 3. Эстремальное управление в условиях помех. Стохастическая
аппроксимация 159
262
Глава 8. Системы с моделью 163
§ 8.1. Методы идентификации объектов управления при
детерминированных воздействиях и отсутствии помех. Настраиваемые
модели 164
§ 8.2. Адаптивные наблюдатели 173
§ 8.3. Адаптивные системы с эталонной моделью 181
§ 8.4. Алгоритмы адаптивного управления с эталонной моделью . . 187
Глава 9. Идентификация 194
§ 9.1. Идентификация при внешних возмущениях и помехах.
Корреляционный способ 194
§ 9.2. Метод наименьших квадратов 19&
§ 9.3. Стохастическая аппроксимация. Идентификация параметров и
переменных состояния 210
Глава 10. Идентификационный и прямой алгоритмы адаптивного
управления 214
§ 10.1. Параметрически-адаптивные системы 215
§ 10 2. Функционально-адаптивные системы 223
Приложения 231
Приложение 1. Доказательство теоремы Лагранжа 231
Приложение 2. Вывод основного соотношения принципа максимума . . 232
Приложение 3. Метод динамического программирования для дискретных
систем. Численное решение функционального уравнения 235
Приложение 4. Вывод алгебраического уравнения Риккати 241
Приложение 5. Аналитическое конструирование регуляторов дискретных
систем 243
Приложение 6. Вывод уравнений оптимального наблюдения
(уравнений фильтра Калмана — Бьюси) 246
Приложение 7. Доказательство теоремы разделения 251
Приложение 8. Вывод алгоритма настройки параметров регулятора . . 254
Приложение 9. Вывод алгоритма настройки регулятора 256
Список литературы 257
К предисловию, введению и к главе 1 257
К главе 2 257
К главе 3 258
К главе 4 258
К главе 5 259
К главе 6 259
К главе 7 260
К главе 8 260
К главе 9 260
К главе 10 . 261
Учебное издание
Александров Альберт Георгиевич
ОПТИМАЛЬНЫЕ И АДАПТИВНЫЕ СИСТЕМЫ
Зав. редакцией Н. И Хрусталева
Редактор В. И. Милешин
Младший редактор Е. В. Судьенкова
Художник Н. Ю. Бабикова
Художественный редактор В. И. Мешалкин
Технические редакторы Ю. А. Хорева, Е. И. Герасимова
Корректор Р. К. Косинова
ИБ № 7707
Изд. № СТД—485. Сдано в набор 09.12.88. Подп. в печать 30.06.89. Т-23739.
Формат бОХвв'/и. Бум. офс. № 2. Гарнитура литературная. Печать офсетная.
Объем 16,17 усл. печ. л. 16,23 уел кр.-отт. 15,39 уч.-изд. л.
Тираж 12 000 экз. Зак. № 1017. Цена 70 коп.
Издательство «Высшая школа», 101430, Москва, ГСП-4, Неглинная ул., д. 29/14.
Московская типография № 8 Союзполиграфпрома
при Государственном комитете СССР по делам издательств,
полиграфии и книжной торговли,
101898, Москва, Центр, Хохловский пер , 7